《高级统计多元回归优秀PPT.ppt》由会员分享,可在线阅读,更多相关《高级统计多元回归优秀PPT.ppt(26页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、高级统计多元回归高级统计多元回归第一页,本课件共有26页1.1.回归模型的拟合度回归模型的拟合度第二页,本课件共有26页简单回归从散点图开始有助我们对变量间的关系有从散点图开始有助我们对变量间的关系有一个形象化的了解。一个形象化的了解。如何对变量间的关系进行更准确的描述?如何对变量间的关系进行更准确的描述?线性回归线性回归画出回归线画出回归线哪条直线是最优拟合?哪条直线是最优拟合?第三页,本课件共有26页回归线回归线拟合的程度怎样?第四页,本课件共有26页残差残差从点到线的离差可代表拟合的程度(残差)(残差)Residuals第五页,本课件共有26页作回归线作回归线使离差的平方和为最小 离差=
2、y 观测值-y 预测值叫做 Least-squares regression回归方程y=a+bxIGRAPH/VIEWNAME=Scatterplot/X1=VAR(salbegin)TYPE=SCALE/Y=VAR(salary)TYPE=SCALE/COORDINATE=VERTICAL /FITLINE METHOD=REGRESSION LINEAR LINE=TOTAL第六页,本课件共有26页好的模型残差很小R2=0.89第七页,本课件共有26页一般的模型R2=0.35残差较大第八页,本课件共有26页差的模型R2=0.002这里的直线基本不能描述数据第九页,本课件共有26页2.2.2
3、.2.多元回归的方法(多元回归的方法(多元回归的方法(多元回归的方法(methodmethodmethodmethod)第十页,本课件共有26页多元回归的方法(多元回归的方法(methodmethod)方法间的区别在于如何处理相关的自变量重方法间的区别在于如何处理相关的自变量重叠部分的方差,即用何原则确定变量进入方叠部分的方差,即用何原则确定变量进入方程的次序程的次序标准回归或同时回归:标准回归或同时回归:Enter逐步回归:逐步回归:Stepwise层次回归:层次回归:hierarchical 第十一页,本课件共有26页标准回归标准回归亦称同时回归(亦称同时回归(simultaneous)重
4、叠部分对重叠部分对R2有贡献,但不分配到任何有贡献,但不分配到任何一个自变量中一个自变量中与其他自变量重叠区域大的自变量的相与其他自变量重叠区域大的自变量的相对重要性可能被忽视对重要性可能被忽视第十二页,本课件共有26页逐步回归:逐步回归:StepwiseStepwise在分析的每一阶段,与因变量有最大偏相关的自在分析的每一阶段,与因变量有最大偏相关的自变量被加在模型上。变量被加在模型上。变式变式ForwardBackwardremove拟合度最优,用于探索性回归拟合度最优,用于探索性回归最好最好 n 20 IV慎推广,须交互验证慎推广,须交互验证 第十三页,本课件共有26页层次回归:层次回归
5、:hierarchical hierarchical 研究者根据理论假设确定次序,定研究者根据理论假设确定次序,定义义block因果顺序在前的,先进入方程因果顺序在前的,先进入方程欲考察的重要变量或者放在前,或放在欲考察的重要变量或者放在前,或放在最后最后应选择应选择 statistics R square change第十四页,本课件共有26页3.3.3.3.多元回归的数据要求多元回归的数据要求多元回归的数据要求多元回归的数据要求第十五页,本课件共有26页多元回归的数据要求多元回归的数据要求 (1 1)因变量应为等距因变量应为等距/等比型变量。等比型变量。在实际操作中,如果有足够在实际操作中
6、,如果有足够的水平,顺序型变量也可。如果因变量的水平,顺序型变量也可。如果因变量 是命名型,则须用是命名型,则须用判别分析或判别分析或 logistic regression。自变量应为等距自变量应为等距/等比型变量。在实际操作中,顺序型变量也可。等比型变量。在实际操作中,顺序型变量也可。命名型若为命名型若为 2水平水平(dichotomies)可直接用。可直接用。命名型若为多水平,命名型若为多水平,可先转换为可先转换为 dummy variables。因变量与自变量的关系应为线性。如果变量间关系是曲线因变量与自变量的关系应为线性。如果变量间关系是曲线的的,但具单调性但具单调性 (递增或递减递
7、增或递减),可通过转换达成线性。可通过转换达成线性。如果是如果是 U 型线型线,需特殊转换处理。需特殊转换处理。尽管自变量间彼此可以有相关尽管自变量间彼此可以有相关,其相关不可接近完全线性。否则称其相关不可接近完全线性。否则称为为 multicollinearity。第十六页,本课件共有26页多元回归的数据要求多元回归的数据要求 (2 2)被试数目与自变量数目的比率为被试数目与自变量数目的比率为10:1 (根据不同情况在根据不同情况在20:1至至5:1 的范围中的范围中);被试被试数目数目 100没有没有 非常值非常值(Outliers)没有没有 Multicollinearity第十七页,本
8、课件共有26页多元回归的统计前提多元回归的统计前提3个前提:个前提:1.因变量残差正态分布因变量残差正态分布2.残差与残差与 预测值呈线性关系预测值呈线性关系3.在因变量预测值的所有水平上,残差的方在因变量预测值的所有水平上,残差的方差相等差相等散点图:纵轴为因变量的预测值散点图:纵轴为因变量的预测值(ZPRED),横轴为残差(),横轴为残差(ZRESID)第十八页,本课件共有26页残差图残差图告诉我们回归线在不同变量水平的拟合程度第十九页,本课件共有26页残差图提供的重要信息残差的系统分布提示有未被解释的系统性方差自变量增大时,残差增大。变量间的关系不是线性的第二十页,本课件共有26页Mul
9、ticollinearity Statistics.Collinearity diagnostics任何两个自变量间的相关在任何两个自变量间的相关在.70以上,以上,Collinearity 就会出现。就会出现。Tolerance 75%很好很好;50-75%不错不错;25-50%一般一般;25%不够不够 2.所有自变量总共与因变量有无显著关联所有自变量总共与因变量有无显著关联?-F 虚无假设是虚无假设是 所有自变量与因变量均无关联。所有自变量与因变量均无关联。.3.当其他自变量保持恒定时,每一自变量与因变量当其他自变量保持恒定时,每一自变量与因变量有什么样的关系有什么样的关系?-B 回归系数回归系数。4.哪个自变量对因变量的影响最大?哪个自变量对因变量的影响最大?-beta 标准化回归系数(标准化回归系数(beta weights)回归分析前,将因变回归分析前,将因变量和自变量都转换成量和自变量都转换成Z分数。分数。5.将所有自变量考虑在内后,每一自变量与因变量关将所有自变量考虑在内后,每一自变量与因变量关系是否显著系是否显著?-t 值第二十六页,本课件共有26页