《多元线性回归分析正式讲稿.ppt》由会员分享,可在线阅读,更多相关《多元线性回归分析正式讲稿.ppt(62页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、关于多元线性回归分析正式第一页,讲稿共六十二页哦2 2讲课内容讲课内容第一节第一节 多元线性回归多元线性回归(重点重点)第二节第二节 自变量选择方法自变量选择方法(重点重点)第三节第三节 多元线性回归的应用及注多元线性回归的应用及注 意事项意事项第二页,讲稿共六十二页哦3 3第一节第一节 多元线性回归多元线性回归一、多元线性回归模型一、多元线性回归模型第三页,讲稿共六十二页哦4 4第四页,讲稿共六十二页哦5 5多元回归:多元回归:多个多个Y,多个,多个X多重回归:多重回归:一个一个Y,多个,多个X第五页,讲稿共六十二页哦6 6 0 常数项常数项j 偏回归系数偏回归系数(partial regr
2、ession coefficient):在其它自变量保持不变时,在其它自变量保持不变时,Xj增加或减少增加或减少 一个单位时一个单位时Y的平均变化量。的平均变化量。e 去除去除m个自变量对个自变量对Y影响后的随机误差。影响后的随机误差。第六页,讲稿共六十二页哦7 7 多元线性回归模型应用条件:多元线性回归模型应用条件:1.Y与与X1,X2,Xm之间具有线性关系;之间具有线性关系;2.各个各个Yi间相互独立;间相互独立;3.e服从均数为服从均数为0、方差为、方差为 2的正态分布。的正态分布。第七页,讲稿共六十二页哦8 8多元线性回归分析步骤:多元线性回归分析步骤:1.根据样本数据求得模型参数估计
3、值:根据样本数据求得模型参数估计值:2.对回归方程及各对回归方程及各Xj作假设检验。作假设检验。第八页,讲稿共六十二页哦9 9二、多元线性回归方程的建立二、多元线性回归方程的建立第九页,讲稿共六十二页哦1010YX第十页,讲稿共六十二页哦1111第十一页,讲稿共六十二页哦1212X1X2Y第十二页,讲稿共六十二页哦1313用最小二乘法解正规方程组,使残差平方和用最小二乘法解正规方程组,使残差平方和Q最小。最小。第十三页,讲稿共六十二页哦1414第十四页,讲稿共六十二页哦1515用最小二乘法解正规方程组,用最小二乘法解正规方程组,使残差平方和使残差平方和Q最小。最小。第十五页,讲稿共六十二页哦1
4、616 第十六页,讲稿共六十二页哦1717 第十七页,讲稿共六十二页哦1818 第十八页,讲稿共六十二页哦1919 三、多元线性回归方程的三、多元线性回归方程的 假设检验及评价假设检验及评价第十九页,讲稿共六十二页哦2020 (一)回归方程的假设检验及评价(一)回归方程的假设检验及评价1.1.方差分析法方差分析法不全为不全为0。第二十页,讲稿共六十二页哦2121 第二十一页,讲稿共六十二页哦2222 第二十二页,讲稿共六十二页哦2323 2.决定系数决定系数R2血糖含量变异的血糖含量变异的60%可由总胆固醇、甘油可由总胆固醇、甘油三酯、胰岛素和糖化血红蛋白的变异解释。三酯、胰岛素和糖化血红蛋白
5、的变异解释。第二十三页,讲稿共六十二页哦24243.复相关系数复相关系数RY与多个自变量间的与多个自变量间的线性相关程度线性相关程度;Y与估计值与估计值 间的间的Pearson相关系数相关系数r。第二十四页,讲稿共六十二页哦2525 (二)各自变量的假设检验及评价(二)各自变量的假设检验及评价1.偏回归平方和偏回归平方和表示模型中含有其它表示模型中含有其它m-1个自变量的条个自变量的条件下该自变量对件下该自变量对Y的回归贡献。其值愈的回归贡献。其值愈大说明相应的自变量愈重要。大说明相应的自变量愈重要。第二十五页,讲稿共六十二页哦2626 第二十六页,讲稿共六十二页哦2727 0.6129+11
6、.9627+20.0635+27.7939133.7107第二十七页,讲稿共六十二页哦2828 胰岛素胰岛素(X3)与糖化血红蛋白与糖化血红蛋白(X4)与血糖与血糖(Y)有线性有线性回归关系。回归关系。第二十八页,讲稿共六十二页哦2929 2.t检验法检验法第二十九页,讲稿共六十二页哦3030 胰岛素胰岛素(X3)与糖化血红蛋白与糖化血红蛋白(X4)与血糖与血糖(Y)有线有线性回归关系。性回归关系。第三十页,讲稿共六十二页哦3131 标准化回归系数标准化回归系数bj 的绝对值用来比较各个自的绝对值用来比较各个自变量变量Xj 对对Y的影响程度大小;绝对值越大影响的影响程度大小;绝对值越大影响越大
7、。标准化回归方程的截距为越大。标准化回归方程的截距为0。3.标准化回归系数标准化回归系数标准化回归系数与一般回归方程的回归系标准化回归系数与一般回归方程的回归系 数的关系:数的关系:标准化回归方程标准化回归方程 第三十一页,讲稿共六十二页哦3232对血糖影响大小的顺序依次为糖化血红蛋白对血糖影响大小的顺序依次为糖化血红蛋白(X4)、胰岛素胰岛素(X3)、甘油三酯、甘油三酯(X2)与总胆固醇与总胆固醇 (X1)。胰胰岛素为负向影响。岛素为负向影响。第三十二页,讲稿共六十二页哦3333 第二节第二节 自变量选择方法自变量选择方法第三十三页,讲稿共六十二页哦3434 一、全局选择法一、全局选择法对自
8、变量各种不同的组合所建立的回归方程进对自变量各种不同的组合所建立的回归方程进行比较,从全部组合中挑出一个行比较,从全部组合中挑出一个“最优最优”的回的回归方程。归方程。第三十四页,讲稿共六十二页哦3535 R2可用来评价回归方程优劣。可用来评价回归方程优劣。随着自变量增加,随着自变量增加,R2不断增大,对两个不不断增大,对两个不 同个数自变量回归方程比较,须考虑方程同个数自变量回归方程比较,须考虑方程 包含自变量个数影响,应对包含自变量个数影响,应对R2进行校正。进行校正。所谓所谓“最优最优”回归方程指回归方程指 最大者。最大者。1.校正决定系数校正决定系数 选择法选择法第三十五页,讲稿共六十
9、二页哦3636 P为方程中自变量个数。为方程中自变量个数。最优方程的最优方程的Cp期望值是期望值是p+1。应选择应选择Cp最接近最接近P+1的回归方程为最优。的回归方程为最优。2.选择法选择法第三十六页,讲稿共六十二页哦3737 第三十七页,讲稿共六十二页哦3838 二、逐步选择法二、逐步选择法全局选择计算量很大:全局选择计算量很大:6个变量,计算个变量,计算26-1=63个方程;个方程;10个变量,计算个变量,计算210-1=1023个方程。个方程。按选入变量顺序不同分按选入变量顺序不同分前进法、后退法前进法、后退法 与与逐步回归法逐步回归法,共同特点是每一步只引,共同特点是每一步只引 入或
10、剔除一个自变量入或剔除一个自变量Xj。第三十八页,讲稿共六十二页哦3939对对Xj的取舍要进行的取舍要进行F检验:检验:计算进行到第计算进行到第l步时:步时:p:方程中自变量个数方程中自变量个数SS回:回:Xj的偏回归平方和的偏回归平方和SS残:残:残差平方和残差平方和第三十九页,讲稿共六十二页哦4040 1.前进法前进法(只选不剔)(只选不剔)开始方程中无自变量开始方程中无自变量,然后从方程外选取偏,然后从方程外选取偏回归平方和最大的自变量作回归平方和最大的自变量作F F检验以决定是否检验以决定是否选入方程,直至无自变量可以引入方程为止。选入方程,直至无自变量可以引入方程为止。缺点:缺点:后
11、续变量的引入可能使先前引入的变后续变量的引入可能使先前引入的变量变的不重要。量变的不重要。Xj入选入选第四十页,讲稿共六十二页哦4141 2.后退法后退法(只剔不选)(只剔不选)开始方程中包含全部自变量开始方程中包含全部自变量,然后从方程中选,然后从方程中选取偏回归平方和最小的自变量作取偏回归平方和最小的自变量作F F检验以决定检验以决定是否从方程中剔除,直至无自变量可以从方是否从方程中剔除,直至无自变量可以从方程中剔除为止。程中剔除为止。缺点:缺点:当某些自变量高度相关时,可能得不当某些自变量高度相关时,可能得不 出正确结果。出正确结果。Xj剔除剔除第四十一页,讲稿共六十二页哦4242 3.
12、逐步回归法(先选后剔,双向筛选)逐步回归法(先选后剔,双向筛选)开始方程中无自变量,从方程外选取偏回归平开始方程中无自变量,从方程外选取偏回归平方和最大的自变量作方和最大的自变量作F检验以决定是否选入方程;检验以决定是否选入方程;每引一个自变量进入方程后,从方程中选取偏回归每引一个自变量进入方程后,从方程中选取偏回归平方和最小的自变量作平方和最小的自变量作F检验以决定是否从方程检验以决定是否从方程中剔除;中剔除;直至方程外无自变量可引入,方程内无自变量直至方程外无自变量可引入,方程内无自变量可剔除为止。可剔除为止。第四十二页,讲稿共六十二页哦4343 Xj剔除剔除内剔内剔Xj入选入选外引外引入
13、入值定的越小选取自变量标准越严,被选值定的越小选取自变量标准越严,被选 入方程内自变量数越少。入方程内自变量数越少。入入值越大则反之。值越大则反之。小样本:小样本:入入=0.05,出出=0.10。大样本:大样本:入入=0.10,出出=0.15。入入出出,以免以免Xj上一步剔除后下一步又被选入上一步剔除后下一步又被选入第四十三页,讲稿共六十二页哦4444 选选X4前先建立前先建立4个直线回归方程;个直线回归方程;选选X1前先建立前先建立1个含个含3个自变量、个自变量、3个含个含2个个 自变量的多元线性回归方程。自变量的多元线性回归方程。第四十四页,讲稿共六十二页哦4545 第四十五页,讲稿共六十
14、二页哦4646 第四十六页,讲稿共六十二页哦4747 第四十七页,讲稿共六十二页哦4848 第四十八页,讲稿共六十二页哦4949 第四十九页,讲稿共六十二页哦5050 第三节第三节 多元线性回归的应用及注意事项多元线性回归的应用及注意事项第五十页,讲稿共六十二页哦5151 一、多元线性回归的应用一、多元线性回归的应用 1.影响因素分析影响因素分析 年龄年龄(X1)饮食习惯饮食习惯(X2)吸烟状况吸烟状况(X3)工作紧张度工作紧张度(X4)家族史家族史(X5)高高血血压压(Y)bj的意义为在其的意义为在其它自变量保持不它自变量保持不变时,变时,Xj增加或增加或减少一个单位时减少一个单位时Y的平均
15、变化的平均变化量。量。故可排除故可排除混杂因素。混杂因素。第五十一页,讲稿共六十二页哦5252 2.估计与预测估计与预测心脏表面积心脏表面积(Y)=b0+b1心脏横径心脏横径(X1)+b2心脏纵径心脏纵径(X2)+b3心脏宽径心脏宽径(X3)新生儿体重新生儿体重(Y)=b0+b1胎儿孕龄胎儿孕龄(X1)+b2 胎儿胎儿 头径头径(X2)+b3胎儿胸径胎儿胸径(X3)+b4胎儿腹径胎儿腹径(X4)第五十二页,讲稿共六十二页哦5353 3.统计控制统计控制利用回归方程进行逆估计,确定利用回归方程进行逆估计,确定Y后控制后控制X。采用射频治疗仪治疗脑肿瘤:采用射频治疗仪治疗脑肿瘤:脑皮质毁损半径脑皮
16、质毁损半径(Y)=b0+b1射频温度射频温度(X1)+b2照射时间照射时间(X2)第五十三页,讲稿共六十二页哦5454 二、多元线性回归应用的注意事项二、多元线性回归应用的注意事项 1.1.指标的数量化指标的数量化 应变量应变量Y为连续变量为连续变量自变量自变量X可为连续、有序分类或无序分类变量可为连续、有序分类或无序分类变量 (1)连续变量:连续变量:X (2)有序分类变量:有序分类变量:1 轻轻 X=2 中中 3 重重第五十四页,讲稿共六十二页哦5555 (3)无序分类变量无序分类变量哑变量哑变量(dummy variables)第五十五页,讲稿共六十二页哦5656 2.样本含量样本含量
17、n至少是至少是X个数个数m的的510倍倍3.多重共线性多重共线性 实际应用中非常普遍,可使最小二乘法建实际应用中非常普遍,可使最小二乘法建 立的回归方程失效;立的回归方程失效;消除方法:主成分回归;剔除某个造成共消除方法:主成分回归;剔除某个造成共 线性的自变量。线性的自变量。第五十六页,讲稿共六十二页哦5757 4.变量间的交互作用变量间的交互作用某一自变量对某一自变量对Y的作用大小与另一自变量的取的作用大小与另一自变量的取值有关。值有关。血糖血糖(Y)与总胆固醇与总胆固醇(X1)、甘油三酯、甘油三酯(X2)、胰岛素、胰岛素(X3)、糖化血红蛋白、糖化血红蛋白(X4)间逐步回归方程:间逐步回归方程:X3与与X4间有交互作用:间有交互作用:第五十七页,讲稿共六十二页哦5858 5.残差分析残差分析标准化残差标准化残差第五十八页,讲稿共六十二页哦5959e0第五十九页,讲稿共六十二页哦60600000eeee第六十页,讲稿共六十二页哦6161 讲课内容讲课内容第一节第一节 多元线性回归多元线性回归(重点重点)第二节第二节 自变量选择方法自变量选择方法(重点重点)第三节第三节 多元线性回归的应用及注多元线性回归的应用及注 意事项意事项第六十一页,讲稿共六十二页哦感谢大家观看第六十二页,讲稿共六十二页哦