《高级统计多元回归精选文档.ppt》由会员分享,可在线阅读,更多相关《高级统计多元回归精选文档.ppt(26页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、高级统计多元回归高级统计多元回归本讲稿第一页,共二十六页1.1.回归模型的拟合度回归模型的拟合度本讲稿第二页,共二十六页简单回归从散点图开始有助我们对变量间的关系有从散点图开始有助我们对变量间的关系有一个形象化的了解。一个形象化的了解。如何对变量间的关系进行更准确的描述?如何对变量间的关系进行更准确的描述?线性回归线性回归画出回归线画出回归线哪条直线是最优拟合?哪条直线是最优拟合?本讲稿第三页,共二十六页回归线回归线拟合的程度怎样?本讲稿第四页,共二十六页残差残差从点到线的离差可代表拟合的程度(残差)(残差)Residuals本讲稿第五页,共二十六页作回归线作回归线使离差的平方和为最小 离差=
2、y 观测值-y 预测值叫做 Least-squares regression回归方程y=a+bxIGRAPH/VIEWNAME=Scatterplot/X1=VAR(salbegin)TYPE=SCALE/Y=VAR(salary)TYPE=SCALE/COORDINATE=VERTICAL /FITLINE METHOD=REGRESSION LINEAR LINE=TOTAL本讲稿第六页,共二十六页好的模型残差很小R2=0.89本讲稿第七页,共二十六页一般的模型R2=0.35残差较大本讲稿第八页,共二十六页差的模型R2=0.002这里的直线基本不能描述数据本讲稿第九页,共二十六页2.2.2
3、.2.多元回归的方法(多元回归的方法(多元回归的方法(多元回归的方法(methodmethodmethodmethod)本讲稿第十页,共二十六页多元回归的方法(多元回归的方法(methodmethod)方法间的区别在于如何处理相关的自变量重叠部方法间的区别在于如何处理相关的自变量重叠部分的方差,即用何原则确定变量进入方程的次序分的方差,即用何原则确定变量进入方程的次序标准回归或同时回归:标准回归或同时回归:Enter逐步回归:逐步回归:Stepwise层次回归:层次回归:hierarchical 本讲稿第十一页,共二十六页标准回归标准回归亦称同时回归(亦称同时回归(simultaneous)重
4、叠部分对重叠部分对R2有贡献,但不分配到任何有贡献,但不分配到任何一个自变量中一个自变量中与其他自变量重叠区域大的自变量的相与其他自变量重叠区域大的自变量的相对重要性可能被忽视对重要性可能被忽视本讲稿第十二页,共二十六页逐步回归:逐步回归:StepwiseStepwise在分析的每一阶段,与因变量有最大偏相关的自变在分析的每一阶段,与因变量有最大偏相关的自变量被加在模型上。量被加在模型上。变式变式ForwardBackwardremove拟合度最优,用于探索性回归拟合度最优,用于探索性回归最好最好 n 20 IV慎推广,须交互验证慎推广,须交互验证 本讲稿第十三页,共二十六页层次回归:层次回归
5、:hierarchical hierarchical 研究者根据理论假设确定次序,定义研究者根据理论假设确定次序,定义block因果顺序在前的,先进入方程因果顺序在前的,先进入方程欲考察的重要变量或者放在前,或放欲考察的重要变量或者放在前,或放在最后在最后应选择应选择 statistics R square change本讲稿第十四页,共二十六页3.3.3.3.多元回归的数据要求多元回归的数据要求多元回归的数据要求多元回归的数据要求本讲稿第十五页,共二十六页多元回归的数据要求多元回归的数据要求 (1 1)因变量应为等距因变量应为等距/等比型变量。等比型变量。在实际操作中,如果有足够的水平,顺在
6、实际操作中,如果有足够的水平,顺序型变量也可。如果因变量序型变量也可。如果因变量 是命名型,则须用判别分析或是命名型,则须用判别分析或 logistic regression。自变量应为等距自变量应为等距/等比型变量。在实际操作中,顺序型变量也可。等比型变量。在实际操作中,顺序型变量也可。命名型若为命名型若为 2水平水平(dichotomies)可直接用。可直接用。命名型若为多水平,命名型若为多水平,可先转换为可先转换为 dummy variables。因变量与自变量的关系应为线性。如果变量间关系是曲线的因变量与自变量的关系应为线性。如果变量间关系是曲线的,但但具单调性具单调性 (递增或递减递
7、增或递减),可通过转换达成线性。可通过转换达成线性。如果是如果是 U 型线型线,需需特殊转换处理。特殊转换处理。尽管自变量间彼此可以有相关尽管自变量间彼此可以有相关,其相关不可接近完全线性。否则称为其相关不可接近完全线性。否则称为 multicollinearity。本讲稿第十六页,共二十六页多元回归的数据要求多元回归的数据要求 (2 2)被试数目与自变量数目的比率为被试数目与自变量数目的比率为10:1 (根据不同情况在根据不同情况在20:1至至5:1 的范围中的范围中);被试被试数目数目 100没有没有 非常值非常值(Outliers)没有没有 Multicollinearity本讲稿第十七
8、页,共二十六页多元回归的统计前提多元回归的统计前提3个前提:个前提:1.因变量残差正态分布因变量残差正态分布2.残差与残差与 预测值呈线性关系预测值呈线性关系3.在因变量预测值的所有水平上,残差的方在因变量预测值的所有水平上,残差的方差相等差相等散点图:纵轴为因变量的预测值散点图:纵轴为因变量的预测值(ZPRED),横轴为残差(),横轴为残差(ZRESID)本讲稿第十八页,共二十六页残差图残差图告诉我们回归线在不同变量水平的拟合程度本讲稿第十九页,共二十六页残差图提供的重要信息残差的系统分布提示有未被解释的系统性方差自变量增大时,残差增大。变量间的关系不是线性的本讲稿第二十页,共二十六页Mul
9、ticollinearity Statistics.Collinearity diagnostics任何两个自变量间的相关在任何两个自变量间的相关在.70以上,以上,Collinearity 就会出现。就会出现。Tolerance 75%很好很好;50-75%不错不错;25-50%一般一般;25%不够不够 2.所有自变量总共与因变量有无显著关联所有自变量总共与因变量有无显著关联?-F 虚无假设是虚无假设是 所有自变量与因变量均无关联。所有自变量与因变量均无关联。.3.当其他自变量保持恒定时,每一自变量与因变量有什当其他自变量保持恒定时,每一自变量与因变量有什么样的关系么样的关系?-B 回归系数回归系数。4.哪个自变量对因变量的影响最大?哪个自变量对因变量的影响最大?-beta 标准化回归系数(标准化回归系数(beta weights)回归分析前,将因变量和回归分析前,将因变量和自变量都转换成自变量都转换成Z分数。分数。5.将所有自变量考虑在内后,每一自变量与因变量关将所有自变量考虑在内后,每一自变量与因变量关系是否显著系是否显著?-t 值本讲稿第二十六页,共二十六页