《最新多元线性回归分析(第15章ppt课件.ppt》由会员分享,可在线阅读,更多相关《最新多元线性回归分析(第15章ppt课件.ppt(63页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、进入夏天,少不了一个热字当头,电扇空调陆续登场,每逢此时,总会进入夏天,少不了一个热字当头,电扇空调陆续登场,每逢此时,总会想起那一把蒲扇。蒲扇,是记忆中的农村,夏季经常用的一件物品。记想起那一把蒲扇。蒲扇,是记忆中的农村,夏季经常用的一件物品。记忆中的故乡,每逢进入夏天,集市上最常见的便是蒲扇、凉席,不论男女老忆中的故乡,每逢进入夏天,集市上最常见的便是蒲扇、凉席,不论男女老少,个个手持一把,忽闪忽闪个不停,嘴里叨叨着少,个个手持一把,忽闪忽闪个不停,嘴里叨叨着“怎么这么热怎么这么热”,于是三,于是三五成群,聚在大树下,或站着,或随即坐在石头上,手持那把扇子,边唠嗑五成群,聚在大树下,或站着
2、,或随即坐在石头上,手持那把扇子,边唠嗑边乘凉。孩子们却在周围跑跑跳跳,热得满头大汗,不时听到边乘凉。孩子们却在周围跑跑跳跳,热得满头大汗,不时听到“强子,别跑强子,别跑了,快来我给你扇扇了,快来我给你扇扇”。孩子们才不听这一套,跑个没完,直到累气喘吁吁,。孩子们才不听这一套,跑个没完,直到累气喘吁吁,这才一跑一踮地围过了,这时母亲总是,好似生气的样子,边扇边训,这才一跑一踮地围过了,这时母亲总是,好似生气的样子,边扇边训,“你你看热的,跑什么?看热的,跑什么?”此时这把蒲扇,是那么凉快,那么的温馨幸福,有母亲此时这把蒲扇,是那么凉快,那么的温馨幸福,有母亲的味道!蒲扇是中国传统工艺品,在我国
3、已有三千年多年的历史。取材的味道!蒲扇是中国传统工艺品,在我国已有三千年多年的历史。取材于棕榈树,制作简单,方便携带,且蒲扇的表面光滑,因而,古人常会在上于棕榈树,制作简单,方便携带,且蒲扇的表面光滑,因而,古人常会在上面作画。古有棕扇、葵扇、蒲扇、蕉扇诸名,实即今日的蒲扇,江浙称之为面作画。古有棕扇、葵扇、蒲扇、蕉扇诸名,实即今日的蒲扇,江浙称之为芭蕉扇。六七十年代,人们最常用的就是这种,似圆非圆,轻巧又便宜的蒲芭蕉扇。六七十年代,人们最常用的就是这种,似圆非圆,轻巧又便宜的蒲扇。蒲扇流传至今,我的记忆中,它跨越了半个世纪,也走过了我们的扇。蒲扇流传至今,我的记忆中,它跨越了半个世纪,也走过
4、了我们的半个人生的轨迹,携带着特有的念想,一年年,一天天,流向长长的时间隧半个人生的轨迹,携带着特有的念想,一年年,一天天,流向长长的时间隧道,袅道,袅2 第一节第一节 多元线性回归多元线性回归(重点重点)第二节第二节 自变量选择方法自变量选择方法(重点重点)第三节第三节 多元线性回归的应用及注多元线性回归的应用及注 意事项意事项9 二、多元线性回归方程的建立二、多元线性回归方程的建立10YX bXaY 110XbbY 11l1 1b1 + + l1 2b2 + + + + l1 mbm = l1 y l2 1b1 + + l2 2b2 + + + + l2 mbm = l2 y lm 1b1
5、+ + lm 2b2 + + + + lm mbm = lm y 110XbbY 110XbYb 11Y11llb Y1111lbl XXXY2ll)XX()YY)(XX(b XbYa 12X1X2Y22110XbXbbY 1102XbbX 1322110XbXbbY )(22110XbXbYb Y1212111lblbl Y2222121lblbl 用最小二乘法解正规方程组,使残差平方和用最小二乘法解正规方程组,使残差平方和Q最小。最小。 2221102XbXbbYYYQ 14mm22110XbXbXbbY )(mm22110XbXbXbYb Y1mm1212111lblblbl Y2mm2
6、222121lblblbl mYmmm22m11mlblblbl 15 2mm221102XbXbXbbYYYQ 用最小二乘法解正规方程组,用最小二乘法解正规方程组,使残差平方和使残差平方和Q最小。最小。16 17 222.5519 84.5570 142.4347- 89.8025 67.6962 84.5570 86.4407 57.3863- 26.7286 31.3687 142.4347- 57.3863- 350.3106 9.4929- 53.9523-89.8025 26.7286 9.4929- 172.3648 67.3608 67.6962 31.3687 53.9523
7、- 67.3608 0103.66 l ij84.5570 b86.4407b 57.3863-b26.7286b31.3687 142.4347- b57.3863-b350.3106b9.4929-b53.9523-89.8025b26.7286b9.4929-b172.3648 b67.360867.6962 b31.3687 b53.9523- b67.3608 b0103.664321432143214321 6382. 0b 2706. 0b 3515. 0b 1424. 0b4321 18 9259.11Y1185. 9X 1467. 6X 8407. 2X 8126. 5X63
8、82. 0b 2706. 0b 3515. 0b 1424. 0b43214321 9433. 5XbXbXbYbmm22110 )(4321X6382. 0X2706. 0X3515. 0X1424. 09433. 5Y 19 三、多元线性回归方程的三、多元线性回归方程的 假设检验及评价假设检验及评价20 (一)回归方程的假设检验及评价(一)回归方程的假设检验及评价1.1.方差分析法方差分析法残残回回残残回回回回总总残残回回)(MSMS1mn /SSm/SSF SSSSSS lblblbSS )m,2, 1j(:H 0:H mYmY22Y11j1m210 不全为不全为0。21 22 23 6
9、008. 05519.2227107.133SSSSR2 总总回回2.决定系数决定系数R2血糖含量变异的血糖含量变异的60%可由总胆固醇、甘可由总胆固醇、甘油三酯、胰岛素和糖化血红蛋白的变异油三酯、胰岛素和糖化血红蛋白的变异解释。解释。247751. 06008. 0RR2 3.复相关系数复相关系数RY与多个自变量间的与多个自变量间的线性相关程度线性相关程度;Y与估计值与估计值 间的间的Pearson相关系数相关系数r。Y25 (二)各自变量的假设检验及评价(二)各自变量的假设检验及评价)()(残残回回1mn/SS1/XSSF 0.05 0:H ,0:H jjj1j0 1.偏回归平方和偏回归平
10、方和表示模型中含有其它表示模型中含有其它m-1个自变量的条个自变量的条件下该自变量对件下该自变量对Y的回归贡献。其值愈的回归贡献。其值愈大说明相应的自变量愈重要。大说明相应的自变量愈重要。26 27 7939.279168.1057107.133XSS0635.206472.1137107.133XSS9627.117480.1217107.133XSS6129.00978.1337107.133XSS4321 回回回回回回回回0.6129+11.9627+20.0635+27.7939133.710728 30. 4F0.05P 883. 61427/8412.881/7939.27F0.0
11、5P 968. 41427/8412.881/0635.20F0.05P 962. 21427/8412.881/9627.11F0.05P 152. 01427/8412.881/6129. 0F)22,1(05. 04321 )()()()(胰岛素胰岛素(X3)与糖化血红蛋白与糖化血红蛋白(X4)与血糖与血糖(Y)有有线性回归关系。线性回归关系。29 jbjjSbt 2433. 0S 1214. 0S 2042. 0S 3656. 0S6382. 0b 2706. 0b 3515. 0b 1424. 0b4321bbbb4321 2.t检验法检验法30 074. 2t0.05P 623.
12、22433. 06382. 0t0.05P 229. 21214. 02706. 0t0.05P 721. 12042. 03515. 0t0.05P 390. 03656. 01424. 0t22,2/05. 04321 胰岛素胰岛素(X3)与糖化血红蛋白与糖化血红蛋白(X4)与血糖与血糖(Y)有线性回归关系。有线性回归关系。31 标准化回归系数标准化回归系数bj 的绝对值用来比较各个的绝对值用来比较各个自变量自变量Xj 对对Y的影响程度大小;绝对值越的影响程度大小;绝对值越大影响越大。标准化回归方程的截距为大影响越大。标准化回归方程的截距为0。3.标准化回归系数标准化回归系数 YjjYYj
13、jjjSSbllbb p标准化回归系数与一般回归方程的回归系标准化回归系数与一般回归方程的回归系 数的关系:数的关系: SXXX jjjj 标准化回归方程标准化回归方程p 323977. 09257. 28234. 16382. 0b3395. 09257. 26706. 32706. 0b3093. 09257. 25748. 23515. 0b0776. 09257. 25934. 11424. 0b4321 对血糖影响大小的顺序依次为糖化血红蛋对血糖影响大小的顺序依次为糖化血红蛋白白(X4)、胰岛素、胰岛素(X3)、甘油三酯、甘油三酯(X2)与总胆与总胆固醇固醇 (X1)。胰岛素为负向影
14、响。胰岛素为负向影响。33 34 一、全局选择法一、全局选择法对自变量各种不同的组合所建立的回归方程对自变量各种不同的组合所建立的回归方程进行比较,从全部组合中挑出一个进行比较,从全部组合中挑出一个“最优最优”的回归方程。的回归方程。35 uR2可用来评价回归方程优劣。可用来评价回归方程优劣。u随着自变量增加,随着自变量增加,R2不断增大,对两个不不断增大,对两个不 同个数自变量回归方程比较,须考虑方程同个数自变量回归方程比较,须考虑方程 包含自变量个数影响,应对包含自变量个数影响,应对R2进行校正。进行校正。u所谓所谓“最优最优”回归方程指回归方程指 最大者。最大者。2cR总总残残)(MSM
15、S11pn1nR11R 22c 2cR1.校正决定系数校正决定系数 选择法选择法36 pCuP为方程中自变量个数。为方程中自变量个数。u最优方程的最优方程的Cp期望值是期望值是p+1。 应选择应选择Cp最接近最接近P+1的回归方程为最优。的回归方程为最优。 mp 1p2nMSSSC mpp )()(残残残残2. 选择法选择法37 38 二、逐步选择法二、逐步选择法n全局选择计算量很大:全局选择计算量很大: 6个变量,计算个变量,计算26-1=63个方程;个方程; 10个变量,计算个变量,计算210-1=1023个方程。个方程。n按选入变量顺序不同分按选入变量顺序不同分前进法、后退法前进法、后退
16、法 与与逐步回归法逐步回归法,共同特点是每一步只引,共同特点是每一步只引 入或剔除一个自变量入或剔除一个自变量Xj。39n对对Xj的取舍要进行的取舍要进行F检验:检验: )()(残残回回1pn/SS1/XSSF ljlj 计算进行到第计算进行到第l步时:步时:p :方程中自变量个数方程中自变量个数SS回:回:Xj的偏回归平方和的偏回归平方和SS残:残:残差平方和残差平方和40 1.前进法前进法(只选不剔)(只选不剔)开始方程中无自变量开始方程中无自变量,然后从方程外选取偏,然后从方程外选取偏回归平方和最大的自变量作回归平方和最大的自变量作F F检验以决定是检验以决定是否选入方程,直至无自变量可
17、以引入方程为否选入方程,直至无自变量可以引入方程为止。止。缺点:缺点:后续变量的引入可能使先前引入的变后续变量的引入可能使先前引入的变量变的不重要。量变的不重要。入入入入 P FF )1pn, 1(jXj入选入选41 2.后退法后退法(只剔不选)(只剔不选)开始方程中包含全部自变量开始方程中包含全部自变量,然后从方程中,然后从方程中选取偏回归平方和最小的自变量作选取偏回归平方和最小的自变量作F F检验以检验以决定是否从方程中剔除,直至无自变量可以决定是否从方程中剔除,直至无自变量可以从方程中剔除为止。从方程中剔除为止。缺点:缺点:当某些自变量高度相关时,可能得不当某些自变量高度相关时,可能得不
18、 出正确结果。出正确结果。出出出出 P FF )1pn, 1(jXj剔除剔除42 3.逐步回归法(先选后剔,双向筛选)逐步回归法(先选后剔,双向筛选)p开始方程中无自变量,从方程外选取偏回归开始方程中无自变量,从方程外选取偏回归 平方和最大的自变量作平方和最大的自变量作F检验以决定是否选入检验以决定是否选入 方程;方程;p每引一个自变量进入方程后,从方程中选取每引一个自变量进入方程后,从方程中选取 偏回归平方和最小的自变量作偏回归平方和最小的自变量作F检验以决定是检验以决定是 否从方程中剔除;否从方程中剔除;p直至方程外无自变量可引入,方程内无自变直至方程外无自变量可引入,方程内无自变 量可剔
19、除为止。量可剔除为止。43 出出出出 P FF )1pn, 1(jXj剔除剔除内剔内剔入入入入 P FF )1pn, 1(jXj入选入选外引外引入入值定的越小选取自变量标准越严,被选值定的越小选取自变量标准越严,被选 入方程内自变量数越少。入方程内自变量数越少。 入入值越大则反之。值越大则反之。小样本:小样本:入入=0.05,出出=0.10。 大样本:大样本:入入=0.10,出出=0.15。 入入出出,以免以免Xj上一步剔除后下一步又被选入上一步剔除后下一步又被选入44 选选X4前先建立前先建立4个直线回归方程;个直线回归方程;选选X1前先建立前先建立1个含个含3个自变量、个自变量、 3个含个
20、含2个个 自变量的多元线性回归方程。自变量的多元线性回归方程。45 0.10P 92. 2FF788.14)1127/(837.139714.821pn/SS1/XSSF0.10(1,25)141 )()(残残回回)第第一一步步(选选:4X 0.10P 93. 2FF244. 5) 1227/(762.114076.251pn/SS1/XSSF0.10(1,24)212 )()(残残回回)第第二二步步(剔剔:无无,选选:1X46 0.10P 94. 2FF185. 3)1327/(804.100958.131pn/SS1/XSSF0.10(1,23)333 )()(残残回回)第第三三步步(剔剔
21、:无无,选选:3X 0.10P 95. 2FF962. 2) 1427/(841.88963.111pn/SS1/XSSF0.10(1,22)424 )()(残残回回)第第四四步步(剔剔:无无,选选:2X47 0.15P 92. 2FF0.15(1,22) 152. 0) 1427/(841.88613. 01pn/SS1/XSSF515 )()(残残回回)第第五五步步(剔剔:1X48 逐逐步步回回归归方方程程的的方方差差分分析析表表 变变异异来来源源 自自由由度度 SS MS F P 总总变变异异 26 222.5519 回回 归归 3 133.0980 44.366 11.41 0.000
22、1 残残 差差 23 89.4540 3.889 49 432X6632. 0X2871. 0X4023. 04996. 6Y 5051 一、多元线性回归的应用一、多元线性回归的应用 1.影响因素分析影响因素分析 年龄年龄(X1)饮食习惯饮食习惯(X2)吸烟状况吸烟状况(X3)工作紧张度工作紧张度(X4)家族史家族史(X5) 高高血血压压(Y)bj的意义为在的意义为在其它自变量保其它自变量保持不变时,持不变时,Xj增加或减少一增加或减少一个单位时个单位时Y的的平均变化量。平均变化量。故可排除混杂故可排除混杂因素。因素。52 2.估计与预测估计与预测心脏表面积心脏表面积(Y)=b0+b1心脏横径
23、心脏横径(X1) + b2心脏纵径心脏纵径(X2)+ b3心脏宽径心脏宽径(X3)新生儿体重新生儿体重(Y)=b0+b1胎儿孕龄胎儿孕龄(X1)+ b2 胎儿胎儿 头径头径(X2)+ b3胎儿胸径胎儿胸径(X3)+ b4胎儿腹径胎儿腹径(X4)53 3.统计控制统计控制利用回归方程进行逆估计,确定利用回归方程进行逆估计,确定Y后控制后控制X 。采用射频治疗仪治疗脑肿瘤:采用射频治疗仪治疗脑肿瘤:脑皮质毁损半径脑皮质毁损半径(Y) =b0+b1射频温度射频温度(X1)+ b2照射时间照射时间(X2)54 二、多元线性回归应用的注意事项二、多元线性回归应用的注意事项 1.1.指标的数量化指标的数量
24、化 应变量应变量Y为连续变量为连续变量自变量自变量X可为连续、有序分类或无序分类变量可为连续、有序分类或无序分类变量 (1)连续变量:连续变量:X (2)有序分类变量:有序分类变量: 1 轻轻 X= 2 中中 3 重重55 (3)无序分类变量无序分类变量哑变量哑变量(dummy variables)56 2.样本含量样本含量 n至少是至少是X个数个数m的的510倍倍3.多重共线性多重共线性 实际应用中非常普遍,可使最小二乘法建实际应用中非常普遍,可使最小二乘法建 立的回归方程失效;立的回归方程失效; 消除方法:主成分回归;剔除某个造成共消除方法:主成分回归;剔除某个造成共 线性的自变量。线性的
25、自变量。57 4.变量间的交互作用变量间的交互作用某一自变量对某一自变量对Y的作用大小与另一自变量的的作用大小与另一自变量的取值有关。取值有关。 432X6632. 0X2871. 0X4023. 04996. 6Y 血糖血糖(Y)与总胆固醇与总胆固醇 (X1)、甘油三酯、甘油三酯(X2)、胰岛、胰岛素素(X3)、糖化血红蛋白、糖化血红蛋白(X4)间逐步回归方程:间逐步回归方程:pX3与与X4间有交互作用:间有交互作用:43432XX1785. 0 X5097. 1X2267. 1X3690. 07898. 0Y 58 5.残差分析残差分析 MSeeYYeiiiii残残 标准化残差标准化残差59e0Y60jx0000eeeejxjxjx61 第一节第一节 多元线性回归多元线性回归(重点重点)第二节第二节 自变量选择方法自变量选择方法(重点重点)第三节第三节 多元线性回归的应用及注多元线性回归的应用及注 意事项意事项62Thank you!63 结束语结束语