《第4章多元相关与回归分析.课件电子教案教学教程.pptx》由会员分享,可在线阅读,更多相关《第4章多元相关与回归分析.课件电子教案教学教程.pptx(52页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第4章 多元相关与回归分析及R使用多元统计分析及建模 - 1-王斌会 教授多元统计分析及R语言建模 变量间的关系分析与回归分析。多元相关回归分析的目的和基本思想,回归变量选择及逐步回归分析方法。 在学生已具有的(一元)相关与回归分析的基础知识上,掌握和应用多元线性相关与回归分析。多元统计分析及R语言建模本节内容1 简单相关分析的R计算2 一元线性回归分析的R计算 【例 4-1】(续例2-2)身高与体重的相关关系分析。下面以例2-2的身高与体重数据分析。l plot(x1,x2) 通过散点图看身高与体重的关系x1=c(171,175,159,155,152,158,154,164,168,166
2、,159,164)x2=c(57,64,41,38,35,44,41,51,57,49,47,46)l lxyF) x 1 712077 712077 27427 |t|) (Intercept) -1.19660 1.16126 -1.03 0.311 x 1.11623 0.00674 165.61 |t|) (Intercept) 23.5321088 4.5990714 5.117 2.47e-05 *x1 -0.0033866 0.0080749 -0.419 0.678 x2 1.1641150 0.0404889 28.751 2e-16 *x3 0.0002919 0.0085
3、527 0.034 0.973 x4 -0.0437416 0.0092638 -4.722 7.00e-05 *Signif. codes: 0*0.001 *0.01 *0.05 .0.1 1Residual standard error: 2.79 on 26 degrees of freedomMultiple R-squared: 0.9997,Adjusted R-squared: 0.9997 F-statistic: 2.289e+04 on 4 and 26 DF, p-value: 2.2e-16summary(fm)#多元线性回归系数t检验lm(formula = y x
4、1 + x2 + x3 + x4, data = yX)Residuals: Min 1Q Median 3Q Max -5.0229 -2.1354 0.3297 1.2639 6.9690 多元统计分析及R语言建模 在相关分析中,研究较多的是两个变量之间的关系,称为简单相关;当涉及到的变量为三个或者三个以上时,称为偏相关或复相关。实际上,偏相关和复相关是对简单相关的一种推广。多元统计分析及R语言建模多元统计分析及R语言建模设样本矩阵为:多元统计分析及R语言建模多元统计分析及R语言建模此时任意两个变量间相关系数构成的矩阵为:多元统计分析及R语言建模多元统计分析及R语言建模其中rij为任意两变
5、量之间的简单相关系数:多元统计分析及R语言建模举例与说明(续例4.4)财政收入与其他变量间的相关分析。计算财政收入和国民生产总值及税收、进出口贸易总额、经济活动人口两两之间相关系数,表4.9给出了相关系数的假设检验统计量。首先我们计算变量两两间的相关系数多元统计分析及R语言建模#多元数据相关系数矩阵cor(yX) R语言代码数据输出多元统计分析及R语言建模函数说明多元统计分析及R语言建模library(mvstats)#多元数据相关系数检验corr.test(yX) R语言代码数据输出从结果可以看出,财政收入和国民生产总值及税收、进出口贸易总额、经济活动人口之间的关系都非常密切,财政收入与税收
6、之间的关系最为密切。多元统计分析及R语言建模复相关分析 在实际分析中,一个变量的变化往往要受到多种变量的综合影响,这时就需要采用复相关分析方法。所谓复相关,就是研究多个变量同时与某个变量之间的相关关系,度量复相关程度的指标是复相关系数。多元统计分析及R语言建模多元统计分析及R语言建模假定回归模型为:复相关系数多元统计分析及R语言建模多元统计分析及R语言建模复相关系数计算公式为:复相关系数多元统计分析及R语言建模多元统计分析及R语言建模复相关系数:决定系数决定系数:多元统计分析及R语言建模#显示多元线性回归模型决定系数(R2=summary(fm)$r.sq) R语言代码数据输出#显示多元数据复
7、相关系数(R=sqrt(R2)1 0.99971 0.9999多元统计分析及R语言建模多元统计分析及R语言建模多元回归分析主要用途用于描述解释现象, 这时希望回归方程中所包含的自变量尽可能少一些用于预测, 这时希望预测的均方误差较小用于控制,这时希望各回归系数具有较小的方差和均方误差多元统计分析及R语言建模多元统计分析及R语言建模变量太多,容易引起的问题变量多增加了模型的复杂计算量增大估计和预测的精度下降模型应用费用增加多元统计分析及R语言建模多元统计分析及R语言建模全部子集法向后删除法向前引入法逐步回归法多元统计分析及R语言建模全局最优法从理论上说,自变量选择最好的方法是所有可能回归法,即建
8、立因变量和所有自变量全部子集组合的回归模型,也称全部子集法。对于每个模型,在实用上,从数据与模型拟合优劣的直观考虑出发,基于残差(误差)平方和的变量选择准则使用的最多。多元统计分析及R语言建模举例与说明【例4.6】(续例4.4)在“财政收入”数据中,有4个自变量:x1,x2,x3,x4。所有可能的模型可分为5组子集:多元统计分析及R语言建模举例与说明例4.4数据的RSS与R2准则回归子集:多元统计分析及R语言建模library(leaps) #加载leaps包varsel=regsubsets(yx1+x2+x3+x4,data=yX) result=summary(varsel) data.
9、frame(resultoutmat,RSS=resultrss,R2=result$rsq) R语言代码数据输出多元统计分析及R语言建模多元统计分析及R语言建模R2和RSS准则优缺点具有较大R2的对较少自变量的模型应该是好的选择,较大的意味着有好的拟合效果,而较少的变量个数可减轻信息的收集和控制。对于有个自变量的回归模型来说,当自变量子集在扩大时,残差平方和随之减少。因此,如果按RSS“愈小愈好”和按R2”愈大愈好”的原则来选择自变量子集,则毫无疑问应该选全部自变量多元统计分析及R语言建模多元统计分析及R语言建模平均残差平方和最小准则误差均方根MSE最小准则校正复相关系数平方(Adjuste
10、d R2)准则Cp准则AIC准则BIC准则多元统计分析及R语言建模举例与说明表4.10例4.4数据的Cp与BIC准则回归子集多元统计分析及R语言建模data.frame(resultoutmat,adjR2=resultadjr2,Cp=resultcp,BIC=result$bic)R语言代码数据输出多元统计分析及R语言建模多元统计分析及R语言建模全局择优法的缺陷如果自变量个数为4,则所有的回归有15个,当自变量个数为10时,所有可能的回归为1023个,当自变量数个数为50时,所有可能的回归为1015个,当p很大时,数字2p大得惊人,有时计算是不可能的,于是就提出了所谓逐步回归的方法.多元统
11、计分析及R语言建模逐步回归分析在作实际多元线性回归时常有这样情况, 变量x1,x2,.xp相互之间常常是线性相关的,即在x1,x2,.xp中任何两个变量是完全线性相关的, 即相关系数为1,则矩阵XTX的秩小于p,XTX就无解。当变量x1,x2,.xp中任有两个变量存在较大的相关性时, 矩阵XTX处于病态, 会给模型带来很大误差。因此作回归时, 应选变量x1,x2,.xp中的一部分作回归, 剔除一些变量。逐步回归法就是寻找较优子空间的一种变量选择方法。多元统计分析及R语言建模多元统计分析及R语言建模向前引入法向后剔除法逐步筛选法多元统计分析及R语言建模fm=lm(yx1+x2+x3+x4, data=yX) fm.step=step(fm,direction=forward) #向前引入法变量选择结果R语言代码数据输出多元统计分析及R语言建模fm.step=step(fm,direction=backward) #向后剔除法变量选择结果R语言代码数据输出多元统计分析及R语言建模fm.step=step(fm,direction=both) #逐步筛选法变量选择结果R语言代码数据输出