多元线性回归 (3).ppt

上传人:石*** 文档编号:46609512 上传时间:2022-09-27 格式:PPT 页数:50 大小:2.96MB
返回 下载 相关 举报
多元线性回归 (3).ppt_第1页
第1页 / 共50页
多元线性回归 (3).ppt_第2页
第2页 / 共50页
点击查看更多>>
资源描述

《多元线性回归 (3).ppt》由会员分享,可在线阅读,更多相关《多元线性回归 (3).ppt(50页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、多元线性回归现在学习的是第1页,共50页主要内容1 多元线性回归模型简介2 回归系数的估计3 方程的假设检验4 决定系数与剩余标准差5 偏回归系数的假设检验6 指标的量化7 回归与t检验、方差分析的关系8 标准偏回归系数与自变量的贡献 文献导读现在学习的是第2页,共50页某地13岁男童身高,体重,肺活量的实测数据(部分)编号身高(cm)x1体重(kg)x2肺活量(L)y1135.132.01.753163.646.22.755156.237.12.757167.841.52.759145.033.02.5011165.549.53.0013153.341.02.7515160.547.22.2

2、517147.640.52.0019155.144.72.7521143.031.51.7523160.840.42.7525158.237.52.0027144.534.72.2529156.532.01.75现在学习的是第3页,共50页问题:o身高、体重与肺活量有无线性关系?o用身高和体重预测肺活量有多高的精度?o单独用身高、或体重是否也能达到同样效果?o身高的贡献大,还是体重的贡献大?现在学习的是第4页,共50页1 多元线性回归模型简介o多元回归nmultiple regressionnmultiple linear regressiono因变量n dependent variablen

3、 response variable(响应变量)o自变量n independent variablen explanatory variable(解释变量)现在学习的是第5页,共50页回归模型o因变量y,自变量为x1,x2,xmoa为截距(intercept),又称常数项(constant),表示各自变量均为0时y的估计值obi 称为偏回归系数(partial regression coefficient),简称为回归系数o 称为 y 的估计值或预测值(predicted value)现在学习的是第6页,共50页例:o根据某地29名13岁男童的身高x1(cm),体重x2(kg)和肺活量y(L)

4、建立的回归方程为:o当x1=150,x2=32时,=1.9168,表示对所有身高为150cm,体重为32kg的13岁男童,估计平均肺活量为1.9168(L)。现在学习的是第7页,共50页2 回归系数的估计o最小二乘法(least square,LS)o基本思想n残差平方和(sum of squares for residuals)最小 现在学习的是第8页,共50页估计值与残差 编号编号ye编号编号ye11.751.8420-0.092022.001.77960.220432.752.7527-0.002742.501.98030.519752.752.22360.526462.002.1381

5、-0.138172.752.51960.230481.501.8612-0.361292.501.94580.5542102.252.19040.0596113.002.94060.0594121.251.6037-0.3537132.752.41990.3301141.751.9268-0.1768152.252.7912-0.5412161.751.9318-0.1818172.002.3643-0.3643182.252.5653-0.3153192.752.62890.1211202.002.2668-0.2668211.751.8546-0.1046222.252.01650.233

6、5232.752.42510.3249242.502.31330.1867252.002.2552-0.2552261.752.1330-0.3830272.252.03510.2149282.502.34530.1547291.751.9494-0.1994现在学习的是第9页,共50页估计值与残差有下列性质:现在学习的是第10页,共50页3 Y的总变异分解o未引进回归时的总变异:(sum of squares about the mean of Y)o引进回归以后的变异(剩余):(sum of squares about regression)o回归的贡献,回归平方和:(sum of squ

7、ares due to regression)现在学习的是第11页,共50页回归方程的方差分析表 变异来源变异来源SS自由度自由度MSF总总lyyn-1回归回归UmU/m剩余剩余Qn-m-1Q/(n-m-1)现在学习的是第12页,共50页例3.1资料回归方程的方差分析 变异来源SS自由度自由度MSFP总5.6336206928回归3.0757339421.5378669715.63190.0000剩余2.55788685260.09838026现在学习的是第13页,共50页4 决定系数与剩余标准差o决定系数(determination coefficient)现在学习的是第14页,共50页R2

8、可用于检验多元回归方程的显著性:oH0:2=0;oH1:20。o检验统计量为:现在学习的是第15页,共50页复相关系数的性质 o0R1。o当只有一个因变量y与一个自变量x时,R就等于y与x的简单相关系数之绝对值:R=|ryx|o当有多个自变量x1,x2,xm时,R的值比任何一个自变量与因变量的简单相关系数之绝对值大,即:现在学习的是第16页,共50页 剩余标准差 o 剩余标准差 现在学习的是第17页,共50页剩余标准差的用途o剩余标准差可用于偏回归系数的假设检验o y的容许区间估计o y的可信区间估计o自变量的选择等 因此,剩余标准差在回归分析中是一个非常重要的统计量现在学习的是第18页,共5

9、0页5 偏回归系数的假设检验oH0:i=0;oH1:i 0。现在学习的是第19页,共50页STATA的输出结果.reg y x1 x2reg y x1 x2 Source|SS df MS Number of obs=29-+-F(2,26)=15.63 Model|3.07573394 2 1.53786697 Prob F =0.0000 Residual|2.55788675 26 .098380259 R-squared =0.5460-+-Adj R-squared=0.5110 Total|5.63362069 28 .201200739 Root MSE =.31366-y|Co

10、ef.Std.Err.t P|t|95%Conf.Interval-+-x1|.0050165 .0105754 0.47 0.639 -.0167216 .0267547 x2|.0540611 .0159838 3.38 0.002 .021206 .0869162 _cons|-.5656643 1.240127 -0.46 0.652 -3.114782 1.983454-现在学习的是第20页,共50页6 标准偏回归系数与自变量的贡献现在学习的是第21页,共50页STATA的输出结果.reg y x1 x2,beta Source|SS df MS Number of obs=29-+

11、-F(2,26)=15.63 Model|3.07573394 2 1.53786697 Prob F =0.0000 Residual|2.55788675 26 .098380259 R-squared =0.5460-+-Adj R-squared=0.5110 Total|5.63362069 28 .201200739 Root MSE =.31366-y|Coef.Std.Err.t P|t|Beta-+-x1|.0050165 .0105754 0.47 0.639 .0935215 x2|.0540611 .0159838 3.38 0.002 .6668242 _cons|-

12、.5656643 1.240127 -0.46 0.652 .-现在学习的是第22页,共50页一元回归分析的结果.reg y x1-y|Coef.Std.Err.t P|t|95%Conf.Interval-+-x1|.0315609 .0083471 3.78 0.001 .0144341 .0486878 _cons|-2.608541 1.275414 -2.05 0.051 -5.225474 .008393-.reg y x2-y|Coef.Std.Err.t P|t|95%Conf.Interval-+-x2|.0596878 .0105587 5.65 0.000 .038023

13、2 .0813524 _cons|-.0091673 .3961987 -0.02 0.982 -.8221 .8037653-为什么单变量分析时都有统计学意义,而同时放入方程则一个有统计学意义,另一个无统计学意义?现在学习的是第23页,共50页自变量的作用X1 YX2现在学习的是第24页,共50页自变量作用的分解 自变量中间变量直接贡献间接贡献与y的相关riy身高x1x2b1=0.09352b2 r12=0.66682 0.7421=0.49480.5884体重x2x1b2=0.66682b1 r12=0.09352 0.7421=0.06940.7362现在学习的是第25页,共50页3.8

14、 指标的量化 o性别 现在学习的是第26页,共50页例 t 检验与回归的关系正常人组II期矽肺组64.26 74.9742.84 88.0652.48 93.4748.19 95.1080.22100.6769.61101.1418.19113.5250.90正常人与矽肺患者血清粘蛋白合理(mg/100mg)现在学习的是第27页,共50页资料重新整理 y group 1.64.26 0 2.42.84 0 3.52.48 0 4.48.19 0 5.80.22 0 6.69.61 0 7.18.19 0 8.50.9 0 9.74.97 1 10.88.06 1 11.93.47 1 12.9

15、5.1 1 13.100.67 1 14.101.14 1 15.113.52 1 现在学习的是第28页,共50页t 检验结果.ttest y,by(group)Two-sample t test with equal variances-Group|Obs Mean Std.Err.Std.Dev.95%Conf.Interval-+-0|8 53.33625 6.662102 18.84327 37.58288 69.08962 1|7 95.27571 4.535631 12.00015 84.17742 106.374-+-combined|15 72.908 6.871658 26.

16、61382 58.16976 87.64624-+-diff|-41.93946 8.307497 -59.88672 -23.99221-Degrees of freedom:13 Ho:mean(0)-mean(1)=diff=0 Ha:diff 0 t=-5.0484 t=-5.0484 t=-5.0484 P|t|=0.0002 P t=0.9999现在学习的是第29页,共50页与方差分析结果等价.anova y group Number of obs=15 R-squared =0.6622 Root MSE =16.0516 Adj R-squared=0.6362 Source|

17、Partial SS df MS F Prob F-+-Model|6566.62918 1 6566.62918 25.49 0.0002|group|6566.62918 1 6566.62918 25.49 0.0002|Residual|3349.50389 13 257.654145 -+-Total|9916.13307 14 708.29522 现在学习的是第30页,共50页与回归分析结果的比较.reg y group Source|SS df MS Number of obs=15-+-F(1,13)=25.49 Model|6566.62918 1 6566.62918 Pr

18、ob F =0.0002 Residual|3349.50389 13 257.654145 R-squared =0.6622-+-Adj R-squared=0.6362 Total|9916.13307 14 708.29522 Root MSE =16.052-y|Coef.Std.Err.t P|t|95%Conf.Interval-+-group|41.93946 8.307497 5.05 0.000 23.99221 59.88672 _cons|53.33625 5.675101 9.40 0.000 41.07594 65.59656-现在学习的是第31页,共50页回归系数

19、与各组均数的关系现在学习的是第32页,共50页指标的量化 o血型(A,B,AB,O)x1=0,x2=0,x3=0 表示O型x1=1,x2=0,x3=0 表示A型x1=0,x2=1,x3=0 表示B型x1=0,x2=0,x3=1 表示AB型哑变量(dummy)又称指示变量(indicator variables)现在学习的是第33页,共50页方差分析与回归分析正常人组I期矽肺组II期矽肺组64.2665.46 74.9742.8460.63 88.0652.4869.73 93.4748.1974.97 95.1080.2280.44100.6769.6197.58101.1418.1995.2

20、0113.5250.9096.39血清粘蛋白合理(mg/100mg)现在学习的是第34页,共50页各组均数.tab group,sum(y)|Summary of y group|Mean Std.Dev.Freq.-+-0|53.336251 18.84327 8 1|80.050001 14.766198 8 2|95.275713 12.000153 7-+-Total|75.392174 23.069605 23现在学习的是第35页,共50页指标的量化 o组别(0,1,2)x1=0,x2=0 表示0组(正常人)x1=1,x2=0 表示1组(矽肺I期)x1=0,x2=1 表示2组(矽肺I

21、I期)哑变量(dummy)又称指示变量(indicator variables)现在学习的是第36页,共50页资料整理正常人组I期矽肺组II期矽肺组64.26065.461 74.97242.84060.631 88.06252.48069.731 93.47248.19074.971 95.10280.22080.441100.67269.61097.581101.14218.19095.201113.52250.90096.391血清粘蛋白含量(mg/100mg)现在学习的是第37页,共50页方差分析的结果.anova y g Number of obs=23 R-squared =0.5

22、836 Root MSE =15.6138 Adj R-squared=0.5419 Source|Partial SS df MS F Prob F -+-Model|6832.7588 2 3416.3794 14.01 0.0002|group|6832.7588 2 3416.3794 14.01 0.0002|Residual|4875.78815 20 243.789407 -+-Total|11708.5469 22 532.206679 现在学习的是第38页,共50页回归分析的结果.reg y g2 g3 Source|SS df MS Number of obs=23-+-F

23、(2,20)=14.01 Model|6832.7588 2 3416.3794 Prob F =0.0002 Residual|4875.78815 20 243.789407 R-squared =0.5836-+-Adj R-squared=0.5419 Total|11708.5469 22 532.206679 Root MSE =15.614-y|Coef.Std.Err.t P|t|95%Conf.Interval-+-g2|26.71375 7.806878 3.42 0.003 10.42889 42.99861 g3|41.93946 8.080887 5.19 0.000

24、 25.08303 58.7959 _cons|53.33625 5.520297 9.66 0.000 41.82111 64.85139-现在学习的是第39页,共50页系数与均数现在学习的是第40页,共50页男婴男婴女婴女婴身高身高体重体重体表面积体表面积身高身高体重体重体表面积体表面积543.002446543.002117502.251928532.252200512.502094512.501906563.502506513.001850523.002121513.001632769.503845777.503934809.0043807710.004180749.504314779

25、.504246809.004078749.003358768.004134737.5038099613.5058309112.0053589714.0060139113.0056109916.0064109415.0060749211.0052839212.0052909415.0061019112.505291协方差分析与回归分析现在学习的是第41页,共50页heightweightygenderhwygender543.0024461543.0021170502.2519281532.2522000512.5020941512.5019060563.5025061513.001850052

26、3.0021211513.0016320769.5038451777.5039340809.00438017710.0041800749.5043141779.5042460809.0040781749.0033580768.0041341737.50380909613.50583019112.00535809714.00601319113.00561009916.00641019415.00607409211.00528319212.00529009415.00610119112.5052910资料整理现在学习的是第42页,共50页协方差分析.anova y height weight ge

27、nder,cate(gender)Number of obs=30 R-squared =0.9845 Root MSE =203.667 Adj R-squared=0.9827 Source|Partial SS df MS F Prob F -+-Model|68508456.5 3 22836152.2 550.53 0.0000|height|925956.904 1 925956.904 22.32 0.0001 weight|374288.752 1 374288.752 9.02 0.0058 gender|144515.841 1 144515.841 3.48 0.0733

28、|Residual|1078488.66 26 41480.3332 -+-Total|69586945.2 29 2399549.83 现在学习的是第43页,共50页.reg y w h g Source|SS df MS Number of obs=30-+-F(3,26)=550.53 Model|68508456.5 3 22836152.2 Prob F =0.0000 Residual|1078488.66 26 41480.3332 R-squared =0.9845-+-Adj R-squared=0.9827 Total|69586945.2 29 2399549.83 Ro

29、ot MSE =203.67-y|Coef.Std.Err.t P|t|95%Conf.Interval-+-weight|131.7348 43.85493 3.00 0.006 41.58975 221.8799 height|53.97971 11.425 4.72 0.000 30.49528 77.46414 gender|139.0977 74.52177 1.87 0.073 -14.08405 292.2793 _cons|-1226.631 493.6082 -2.49 0.020 -2241.257 -212.0045-与回归分析比较现在学习的是第44页,共50页o线性回归

30、分析与 t 检验等价o线性回归分析与方差分析等价o线性回归分析与协方差分析等价o回归分析适用于:计量资料(计量、分类、等级)方程左边 方程右边现在学习的是第45页,共50页衡量回归方程的标准 o复相关系数R o校正复相关系数Radj o剩余标准差现在学习的是第46页,共50页 模拟数据X1X2X3X4YX1X2X3X4Y137261911.5166191410.21511403419.82410322619.8218291713.72211393825.31912153321.610717209.72711132722.3188342214.83210211519.12911282120.71

31、78181611.71811163219.62610352319.41610153420.3146141810.6187231411.12813213425.52311292920.7199132918.72513414028.91210193819.3329121518.3238251715.63611371821.52811333224.7319251417.7219181915.32913143828.33514243429.81810113521.6现在学习的是第47页,共50页例3.2资料的一切可能回归(24-1=15个)参数参数个数个数方程中变量方程中变量R2 Cp AIC2X10

32、.365290.3441319.787412834.0097.45623X20.915120.912292.64619354.7433.07465X30.051890.0202929.557574247.00110.29764X40.586000.5722012.906691839.0083.782623X1,X20.920780.915322.55491331.2232.86640X1,X30.375960.3329220.125702788.0098.91384X1,X40.993390.992930.213283.82-46.59486X2,X30.916010.910212.70887

33、352.7434.73893X2,X40.922130.916762.51133325.1232.31589X3,X40.609070.5821112.607801737.0083.948024X1,X2,X30.921230.912792.63099331.1734.68250X1,X2,X40.993810.993140.206893.93-46.69119X1,X3,X40.993600.992920.213694.85-45.65645X2,X3,X40.923480.915282.55590321.0333.755905X1,X2,X3,X40.994010.993130.20742

34、5.00-45.77377现在学习的是第48页,共50页(参考文献参考文献-1)TABLE 3 Variance(R2)explained in total and regional fat mass on the basis of BMI and WC in a multiple regression analysisX1=BMI,X2=WCX1=WC,X2=BMIFat massWomenMen WomenMen(n=135)(n=206)(n=135)(n=206)TotalX1 0.92 0.78 0.87 0.68X2 0.940.82 0.94 0.82AbdominalX1 0.68 0.76 0.73 0.68X2 0.74 0.81 0.74 0.81NonabdominalX1 0.89 0.73 0.83 0.62X2 0.90 0.77 0.90 0.77Abdominal subcutaneousX1 0.53 0.72 0.52 0.49X2 0.54 P=0.20 0.54 0.72VisceralX10.60 0.46 0.76 0.55X2 0.76 0.57 P=0.080.57现在学习的是第49页,共50页现在学习的是第50页,共50页

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁