多元线性回归 (3)讲稿.ppt

上传人:石*** 文档编号:84149712 上传时间:2023-04-02 格式:PPT 页数:50 大小:2.97MB
返回 下载 相关 举报
多元线性回归 (3)讲稿.ppt_第1页
第1页 / 共50页
多元线性回归 (3)讲稿.ppt_第2页
第2页 / 共50页
点击查看更多>>
资源描述

《多元线性回归 (3)讲稿.ppt》由会员分享,可在线阅读,更多相关《多元线性回归 (3)讲稿.ppt(50页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、多元线性回归第一页,讲稿共五十页哦主要内容1 多元线性回归模型简介2 回归系数的估计3 方程的假设检验4 决定系数与剩余标准差5 偏回归系数的假设检验6 指标的量化7 回归与t检验、方差分析的关系8 标准偏回归系数与自变量的贡献 文献导读第二页,讲稿共五十页哦某地13岁男童身高,体重,肺活量的实测数据(部分)编号身高(cm)x1体重(kg)x2肺活量(L)y1135.132.01.753163.646.22.755156.237.12.757167.841.52.759145.033.02.5011165.549.53.0013153.341.02.7515160.547.22.2517147

2、.640.52.0019155.144.72.7521143.031.51.7523160.840.42.7525158.237.52.0027144.534.72.2529156.532.01.75第三页,讲稿共五十页哦问题:o身高、体重与肺活量有无线性关系?o用身高和体重预测肺活量有多高的精度?o单独用身高、或体重是否也能达到同样效果?o身高的贡献大,还是体重的贡献大?第四页,讲稿共五十页哦1 多元线性回归模型简介o多元回归nmultiple regressionnmultiple linear regressiono因变量n dependent variablen response va

3、riable(响应变量)o自变量n independent variablen explanatory variable(解释变量)第五页,讲稿共五十页哦回归模型o因变量y,自变量为x1,x2,xmoa为截距(intercept),又称常数项(constant),表示各自变量均为0时y的估计值obi 称为偏回归系数(partial regression coefficient),简称为回归系数o 称为 y 的估计值或预测值(predicted value)第六页,讲稿共五十页哦例:o根据某地29名13岁男童的身高x1(cm),体重x2(kg)和肺活量y(L)建立的回归方程为:o当x1=150,

4、x2=32时,=1.9168,表示对所有身高为150cm,体重为32kg的13岁男童,估计平均肺活量为1.9168(L)。第七页,讲稿共五十页哦2 回归系数的估计o最小二乘法(least square,LS)o基本思想n残差平方和(sum of squares for residuals)最小 第八页,讲稿共五十页哦估计值与残差 编号编号ye编号编号ye11.751.8420-0.092022.001.77960.220432.752.7527-0.002742.501.98030.519752.752.22360.526462.002.1381-0.138172.752.51960.2304

5、81.501.8612-0.361292.501.94580.5542102.252.19040.0596113.002.94060.0594121.251.6037-0.3537132.752.41990.3301141.751.9268-0.1768152.252.7912-0.5412161.751.9318-0.1818172.002.3643-0.3643182.252.5653-0.3153192.752.62890.1211202.002.2668-0.2668211.751.8546-0.1046222.252.01650.2335232.752.42510.3249242.5

6、02.31330.1867252.002.2552-0.2552261.752.1330-0.3830272.252.03510.2149282.502.34530.1547291.751.9494-0.1994第九页,讲稿共五十页哦估计值与残差有下列性质:第十页,讲稿共五十页哦3 Y的总变异分解o未引进回归时的总变异:(sum of squares about the mean of Y)o引进回归以后的变异(剩余):(sum of squares about regression)o回归的贡献,回归平方和:(sum of squares due to regression)第十一页,讲稿共

7、五十页哦回归方程的方差分析表 变异来源变异来源SS自由度自由度MSF总总lyyn-1回归回归UmU/m剩余剩余Qn-m-1Q/(n-m-1)第十二页,讲稿共五十页哦例3.1资料回归方程的方差分析 变异来源SS自由度自由度MSFP总5.6336206928回归3.0757339421.5378669715.63190.0000剩余2.55788685260.09838026第十三页,讲稿共五十页哦4 决定系数与剩余标准差o决定系数(determination coefficient)第十四页,讲稿共五十页哦R2可用于检验多元回归方程的显著性:oH0:2=0;oH1:20。o检验统计量为:第十五页

8、,讲稿共五十页哦复相关系数的性质 o0R1。o当只有一个因变量y与一个自变量x时,R就等于y与x的简单相关系数之绝对值:R=|ryx|o当有多个自变量x1,x2,xm时,R的值比任何一个自变量与因变量的简单相关系数之绝对值大,即:第十六页,讲稿共五十页哦 剩余标准差 o 剩余标准差 第十七页,讲稿共五十页哦剩余标准差的用途o剩余标准差可用于偏回归系数的假设检验o y的容许区间估计o y的可信区间估计o自变量的选择等 因此,剩余标准差在回归分析中是一个非常重要的统计量第十八页,讲稿共五十页哦5 偏回归系数的假设检验oH0:i=0;oH1:i 0。第十九页,讲稿共五十页哦STATA的输出结果.re

9、g y x1 x2reg y x1 x2 Source|SS df MS Number of obs=29-+-F(2,26)=15.63 Model|3.07573394 2 1.53786697 Prob F =0.0000 Residual|2.55788675 26 .098380259 R-squared =0.5460-+-Adj R-squared=0.5110 Total|5.63362069 28 .201200739 Root MSE =.31366-y|Coef.Std.Err.t P|t|95%Conf.Interval-+-x1|.0050165 .0105754 0

10、.47 0.639 -.0167216 .0267547 x2|.0540611 .0159838 3.38 0.002 .021206 .0869162 _cons|-.5656643 1.240127 -0.46 0.652 -3.114782 1.983454-第二十页,讲稿共五十页哦6 标准偏回归系数与自变量的贡献第二十一页,讲稿共五十页哦STATA的输出结果.reg y x1 x2,beta Source|SS df MS Number of obs=29-+-F(2,26)=15.63 Model|3.07573394 2 1.53786697 Prob F =0.0000 Res

11、idual|2.55788675 26 .098380259 R-squared =0.5460-+-Adj R-squared=0.5110 Total|5.63362069 28 .201200739 Root MSE =.31366-y|Coef.Std.Err.t P|t|Beta-+-x1|.0050165 .0105754 0.47 0.639 .0935215 x2|.0540611 .0159838 3.38 0.002 .6668242 _cons|-.5656643 1.240127 -0.46 0.652 .-第二十二页,讲稿共五十页哦一元回归分析的结果.reg y x1

12、-y|Coef.Std.Err.t P|t|95%Conf.Interval-+-x1|.0315609 .0083471 3.78 0.001 .0144341 .0486878 _cons|-2.608541 1.275414 -2.05 0.051 -5.225474 .008393-.reg y x2-y|Coef.Std.Err.t P|t|95%Conf.Interval-+-x2|.0596878 .0105587 5.65 0.000 .0380232 .0813524 _cons|-.0091673 .3961987 -0.02 0.982 -.8221 .8037653-为

13、什么单变量分析时都有统计学意义,而同时放入方程则一个有统计学意义,另一个无统计学意义?第二十三页,讲稿共五十页哦自变量的作用X1 YX2第二十四页,讲稿共五十页哦自变量作用的分解 自变量中间变量直接贡献间接贡献与y的相关riy身高x1x2b1=0.09352b2 r12=0.66682 0.7421=0.49480.5884体重x2x1b2=0.66682b1 r12=0.09352 0.7421=0.06940.7362第二十五页,讲稿共五十页哦3.8 指标的量化 o性别 第二十六页,讲稿共五十页哦例 t 检验与回归的关系正常人组II期矽肺组64.26 74.9742.84 88.0652.

14、48 93.4748.19 95.1080.22100.6769.61101.1418.19113.5250.90正常人与矽肺患者血清粘蛋白合理(mg/100mg)第二十七页,讲稿共五十页哦资料重新整理 y group 1.64.26 0 2.42.84 0 3.52.48 0 4.48.19 0 5.80.22 0 6.69.61 0 7.18.19 0 8.50.9 0 9.74.97 1 10.88.06 1 11.93.47 1 12.95.1 1 13.100.67 1 14.101.14 1 15.113.52 1 第二十八页,讲稿共五十页哦t 检验结果.ttest y,by(gr

15、oup)Two-sample t test with equal variances-Group|Obs Mean Std.Err.Std.Dev.95%Conf.Interval-+-0|8 53.33625 6.662102 18.84327 37.58288 69.08962 1|7 95.27571 4.535631 12.00015 84.17742 106.374-+-combined|15 72.908 6.871658 26.61382 58.16976 87.64624-+-diff|-41.93946 8.307497 -59.88672 -23.99221-Degrees

16、 of freedom:13 Ho:mean(0)-mean(1)=diff=0 Ha:diff 0 t=-5.0484 t=-5.0484 t=-5.0484 P|t|=0.0002 P t=0.9999第二十九页,讲稿共五十页哦与方差分析结果等价.anova y group Number of obs=15 R-squared =0.6622 Root MSE =16.0516 Adj R-squared=0.6362 Source|Partial SS df MS F Prob F-+-Model|6566.62918 1 6566.62918 25.49 0.0002|group|65

17、66.62918 1 6566.62918 25.49 0.0002|Residual|3349.50389 13 257.654145 -+-Total|9916.13307 14 708.29522 第三十页,讲稿共五十页哦与回归分析结果的比较.reg y group Source|SS df MS Number of obs=15-+-F(1,13)=25.49 Model|6566.62918 1 6566.62918 Prob F =0.0002 Residual|3349.50389 13 257.654145 R-squared =0.6622-+-Adj R-squared=0

18、.6362 Total|9916.13307 14 708.29522 Root MSE =16.052-y|Coef.Std.Err.t P|t|95%Conf.Interval-+-group|41.93946 8.307497 5.05 0.000 23.99221 59.88672 _cons|53.33625 5.675101 9.40 0.000 41.07594 65.59656-第三十一页,讲稿共五十页哦回归系数与各组均数的关系第三十二页,讲稿共五十页哦指标的量化 o血型(A,B,AB,O)x1=0,x2=0,x3=0 表示O型x1=1,x2=0,x3=0 表示A型x1=0,x

19、2=1,x3=0 表示B型x1=0,x2=0,x3=1 表示AB型哑变量(dummy)又称指示变量(indicator variables)第三十三页,讲稿共五十页哦方差分析与回归分析正常人组I期矽肺组II期矽肺组64.2665.46 74.9742.8460.63 88.0652.4869.73 93.4748.1974.97 95.1080.2280.44100.6769.6197.58101.1418.1995.20113.5250.9096.39血清粘蛋白合理(mg/100mg)第三十四页,讲稿共五十页哦各组均数.tab group,sum(y)|Summary of y group|

20、Mean Std.Dev.Freq.-+-0|53.336251 18.84327 8 1|80.050001 14.766198 8 2|95.275713 12.000153 7-+-Total|75.392174 23.069605 23第三十五页,讲稿共五十页哦指标的量化 o组别(0,1,2)x1=0,x2=0 表示0组(正常人)x1=1,x2=0 表示1组(矽肺I期)x1=0,x2=1 表示2组(矽肺II期)哑变量(dummy)又称指示变量(indicator variables)第三十六页,讲稿共五十页哦资料整理正常人组I期矽肺组II期矽肺组64.26065.461 74.9724

21、2.84060.631 88.06252.48069.731 93.47248.19074.971 95.10280.22080.441100.67269.61097.581101.14218.19095.201113.52250.90096.391血清粘蛋白含量(mg/100mg)第三十七页,讲稿共五十页哦方差分析的结果.anova y g Number of obs=23 R-squared =0.5836 Root MSE =15.6138 Adj R-squared=0.5419 Source|Partial SS df MS F Prob F -+-Model|6832.7588 2

22、 3416.3794 14.01 0.0002|group|6832.7588 2 3416.3794 14.01 0.0002|Residual|4875.78815 20 243.789407 -+-Total|11708.5469 22 532.206679 第三十八页,讲稿共五十页哦回归分析的结果.reg y g2 g3 Source|SS df MS Number of obs=23-+-F(2,20)=14.01 Model|6832.7588 2 3416.3794 Prob F =0.0002 Residual|4875.78815 20 243.789407 R-square

23、d =0.5836-+-Adj R-squared=0.5419 Total|11708.5469 22 532.206679 Root MSE =15.614-y|Coef.Std.Err.t P|t|95%Conf.Interval-+-g2|26.71375 7.806878 3.42 0.003 10.42889 42.99861 g3|41.93946 8.080887 5.19 0.000 25.08303 58.7959 _cons|53.33625 5.520297 9.66 0.000 41.82111 64.85139-第三十九页,讲稿共五十页哦系数与均数第四十页,讲稿共五

24、十页哦男婴男婴女婴女婴身高身高体重体重体表面积体表面积身高身高体重体重体表面积体表面积543.002446543.002117502.251928532.252200512.502094512.501906563.502506513.001850523.002121513.001632769.503845777.503934809.0043807710.004180749.504314779.504246809.004078749.003358768.004134737.5038099613.5058309112.0053589714.0060139113.0056109916.0064109

25、415.0060749211.0052839212.0052909415.0061019112.505291协方差分析与回归分析第四十一页,讲稿共五十页哦heightweightygenderhwygender543.0024461543.0021170502.2519281532.2522000512.5020941512.5019060563.5025061513.0018500523.0021211513.0016320769.5038451777.5039340809.00438017710.0041800749.5043141779.5042460809.0040781749.003

26、3580768.0041341737.50380909613.50583019112.00535809714.00601319113.00561009916.00641019415.00607409211.00528319212.00529009415.00610119112.5052910资料整理第四十二页,讲稿共五十页哦协方差分析.anova y height weight gender,cate(gender)Number of obs=30 R-squared =0.9845 Root MSE =203.667 Adj R-squared=0.9827 Source|Partial S

27、S df MS F Prob F -+-Model|68508456.5 3 22836152.2 550.53 0.0000|height|925956.904 1 925956.904 22.32 0.0001 weight|374288.752 1 374288.752 9.02 0.0058 gender|144515.841 1 144515.841 3.48 0.0733|Residual|1078488.66 26 41480.3332 -+-Total|69586945.2 29 2399549.83 第四十三页,讲稿共五十页哦.reg y w h g Source|SS df

28、 MS Number of obs=30-+-F(3,26)=550.53 Model|68508456.5 3 22836152.2 Prob F =0.0000 Residual|1078488.66 26 41480.3332 R-squared =0.9845-+-Adj R-squared=0.9827 Total|69586945.2 29 2399549.83 Root MSE =203.67-y|Coef.Std.Err.t P|t|95%Conf.Interval-+-weight|131.7348 43.85493 3.00 0.006 41.58975 221.8799

29、height|53.97971 11.425 4.72 0.000 30.49528 77.46414 gender|139.0977 74.52177 1.87 0.073 -14.08405 292.2793 _cons|-1226.631 493.6082 -2.49 0.020 -2241.257 -212.0045-与回归分析比较第四十四页,讲稿共五十页哦o线性回归分析与 t 检验等价o线性回归分析与方差分析等价o线性回归分析与协方差分析等价o回归分析适用于:计量资料(计量、分类、等级)方程左边 方程右边第四十五页,讲稿共五十页哦衡量回归方程的标准 o复相关系数R o校正复相关系数R

30、adj o剩余标准差第四十六页,讲稿共五十页哦 模拟数据X1X2X3X4YX1X2X3X4Y137261911.5166191410.21511403419.82410322619.8218291713.72211393825.31912153321.610717209.72711132722.3188342214.83210211519.12911282120.7178181611.71811163219.62610352319.41610153420.3146141810.6187231411.12813213425.52311292920.7199132918.72513414028.9

31、1210193819.3329121518.3238251715.63611371821.52811333224.7319251417.7219181915.32913143828.33514243429.81810113521.6第四十七页,讲稿共五十页哦例3.2资料的一切可能回归(24-1=15个)参数参数个数个数方程中变量方程中变量R2 Cp AIC2X10.365290.3441319.787412834.0097.45623X20.915120.912292.64619354.7433.07465X30.051890.0202929.557574247.00110.29764X40.

32、586000.5722012.906691839.0083.782623X1,X20.920780.915322.55491331.2232.86640X1,X30.375960.3329220.125702788.0098.91384X1,X40.993390.992930.213283.82-46.59486X2,X30.916010.910212.70887352.7434.73893X2,X40.922130.916762.51133325.1232.31589X3,X40.609070.5821112.607801737.0083.948024X1,X2,X30.921230.912

33、792.63099331.1734.68250X1,X2,X40.993810.993140.206893.93-46.69119X1,X3,X40.993600.992920.213694.85-45.65645X2,X3,X40.923480.915282.55590321.0333.755905X1,X2,X3,X40.994010.993130.207425.00-45.77377第四十八页,讲稿共五十页哦(参考文献参考文献-1)TABLE 3 Variance(R2)explained in total and regional fat mass on the basis of BM

34、I and WC in a multiple regression analysisX1=BMI,X2=WCX1=WC,X2=BMIFat massWomenMen WomenMen(n=135)(n=206)(n=135)(n=206)TotalX1 0.92 0.78 0.87 0.68X2 0.940.82 0.94 0.82AbdominalX1 0.68 0.76 0.73 0.68X2 0.74 0.81 0.74 0.81NonabdominalX1 0.89 0.73 0.83 0.62X2 0.90 0.77 0.90 0.77Abdominal subcutaneousX1 0.53 0.72 0.52 0.49X2 0.54 P=0.20 0.54 0.72VisceralX10.60 0.46 0.76 0.55X2 0.76 0.57 P=0.080.57第四十九页,讲稿共五十页哦第五十页,讲稿共五十页哦

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁