《自变量选择与逐步回归.ppt》由会员分享,可在线阅读,更多相关《自变量选择与逐步回归.ppt(64页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第七章第七章自变量选择与逐步回归 多元线性回归方程中所包含的自变量是根据专多元线性回归方程中所包含的自变量是根据专业知识和经验事先选择好的,但在许多回归分析的、业知识和经验事先选择好的,但在许多回归分析的、应用中,由于没有清晰的理论依据,回归模型所包应用中,由于没有清晰的理论依据,回归模型所包含的自变量难以预先确定,如果将一些不重要的自含的自变量难以预先确定,如果将一些不重要的自变量也引入方程,会降低模型的精度,因此选择有变量也引入方程,会降低模型的精度,因此选择有意义的自变量是回归分析的第一步。意义的自变量是回归分析的第一步。选择自变量的基本思路是:尽可能将回归效果选择自变量的基本思路是:尽
2、可能将回归效果显著的自变量选入回归方程中,将作用不显著的特显著的自变量选入回归方程中,将作用不显著的特别是与自变量有密切线性关系的自变量排除在外。别是与自变量有密切线性关系的自变量排除在外。第七章 第一节第一节机动 目录 上页 下页 返回 结束 自变量选择对估计和预测的影响在多元线性回归模型中,自变量的选择实质上就是模型的选择。其中:Y是nx1的观测值,X是nxm结构矩阵,并假定X的秩为m。现设一切可供选择的变量是t个,它们组成的回归模型称为全模型(记m=t+1)是mx1未知参数向量,下面的回归模型称为选模型:下面的回归模型称为选模型:现从现从这这t个变量中选个变量中选t变量,不妨设变量,不妨
3、设矩阵矩阵X可作如下的分块(记:可作如下的分块(记:),那么对全模型中的参数,那么对全模型中的参数 和结构和结构自变量的选择问题可以看成是这样二个问题自变量的选择问题可以看成是这样二个问题:究竟应用全模型还是用选模型;究竟应用全模型还是用选模型;若用选模型,则究竟应包含多少变量最适合。如若用选模型,则究竟应包含多少变量最适合。如果全模型为真,而我们用了选模型,这就表示在果全模型为真,而我们用了选模型,这就表示在方程中丢掉了部分有用变量,相反,如果选模型方程中丢掉了部分有用变量,相反,如果选模型为真,而我们选用了全模型,这就表示在方程中为真,而我们选用了全模型,这就表示在方程中引入了一些无用变量
4、,下面从参数估计和预测两引入了一些无用变量,下面从参数估计和预测两个角度来看一看由于模型选择不当带来的后果。个角度来看一看由于模型选择不当带来的后果。为了讨论方便起见,先引入几个记号:全模型中参数 的估计:其中:R(X)为矩阵X的秩。在选模型中参数在选模型中参数 的估计:的估计:在在 上的预测值上的预测值分块矩阵求逆公式:均方误差的概念 对无偏估计常用 来衡量估计量的好坏,而对有偏估计则相应采用均方误差 注注:由上述定理说明,若全模型为真的而误用选模型 作为y值的预测的话,所得的估计是有偏的.但预测方差会有所下降。而对有偏的估计,一般可用均方差去表明估计的好坏,在均方误差的意义下,预测的均方误
5、差也是会下降。所以删去一些影响不大,但回归系数方差过大的变量(用 为非负定矩阵来表示),对预测精度的提高是有利的.综合以上所述,一般我们尽可能使模型的变量少而精,要引入对y有显著影响的变量,而对y并不很显著的变量要删除,这样不仅对估计而且对预测也有利.第七章 第二节第二节机动 目录 上页 下页 返回 结束 自变量选择方法自变量选择准则自变量选择准则若一个多元回归的问题中有若一个多元回归的问题中有t可供选择的自变量,那可供选择的自变量,那么所有可能的回归方程有么所有可能的回归方程有 2t-1个,下面给出一些自个,下面给出一些自变量选择的准则,希望能从变量选择的准则,希望能从 2t-1个回归方程中
6、选择个回归方程中选择一个最合理的方程一个最合理的方程.对全模型,记:对全模型,记:对选模型,记:对选模型,记:准则准则1 平均残差平方和达到最小.准则准则3 预测偏差预测偏差 的方差的方差 准则准则4 平均预测均方误差平均预测均方误差Sp达到最小。达到最小。准则准则5 Cp统计量统计量其中三其中三s2是全模型中是全模型中 的无偏估计的无偏估计.准则准则7 AIC准则准则 AIC准则的定义:AIC=-2(模型的对数似然估计函数的极大值)+2(模型中独立参数的个数)第七章 第三节第三节机动 目录 上页 下页 返回 结束 逐步回归一、全局选择法一、全局选择法对自变量各种不同的组合所建立的回归方程进行
7、比对自变量各种不同的组合所建立的回归方程进行比较,从全部组合中挑出一个较,从全部组合中挑出一个“最优最优”的回归方程。的回归方程。uR2可用来评价回归方程优劣。可用来评价回归方程优劣。u随着自变量增加,随着自变量增加,R2不断增大,对两个不不断增大,对两个不 同个数自变量回归方程比较,须考虑方程同个数自变量回归方程比较,须考虑方程 包含自变量个数影响,应对包含自变量个数影响,应对R2进行校正。进行校正。u所谓所谓“最优最优”回归方程指回归方程指 最大者。最大者。1.1.校正决定系数校正决定系数 选择法选择法2.2.选择法选择法P为方程中自变量个数。为方程中自变量个数。最优方程的最优方程的Cp期
8、望值是期望值是p+1。应选择应选择Cp最接近最接近P+1的回归方程为最优。的回归方程为最优。是由是由 个自变量作回归的误差平方个自变量作回归的误差平方和,和,是从全部是从全部m个自变量的回归模型中得个自变量的回归模型中得到的残差均方。到的残差均方。27名糖尿病人的血糖及有关变量的测量结果 全局择优法的局限性全局择优法的局限性 如果自变量个数为4,则所有的回归模型有241 15个;当自变量数个数为10时,所有可能的回归为 2101 1023个;当自变量数个数为50时,所有可能的回归为25011015个。二、逐步选择法二、逐步选择法全局选择计算量很大:全局选择计算量很大:6个变量,计算个变量,计算
9、26-1=63个方程;个方程;10个变量,计算个变量,计算210-1=1023个方程。个方程。按选入变量顺序不同分按选入变量顺序不同分前进法、后退法与逐步回前进法、后退法与逐步回归法归法,共同特点是每一步只引,共同特点是每一步只引 入或剔除一个自变入或剔除一个自变量量Xj。n对对Xj的取舍要进行的取舍要进行F检验:检验:计算进行到第计算进行到第l步时:步时:p:方程中自变量个数方程中自变量个数SS回:回:Xj的偏回归平方和的偏回归平方和SS残:残:残差平方和残差平方和缺点:缺点:后续变量的引入可能使先前引入的变量变的后续变量的引入可能使先前引入的变量变的 不重要。不重要。Xj入选入选1.前进法
10、前进法(只选不剔)(只选不剔)自变量从无到有、从少到多自变量从无到有、从少到多 Y对每一个自变量作直线回归,对对每一个自变量作直线回归,对回归平方和回归平方和最大最大的自变量作的自变量作F检验,有意义(检验,有意义(P小)则引入。小)则引入。在此基础上,计算其它自变量的在此基础上,计算其它自变量的偏回归平方和偏回归平方和,选,选取偏回归平方和取偏回归平方和最大者最大者作作F检验,检验,2.后退法(后退法(只剔不选)只剔不选)开始方程中包含全部自变量开始方程中包含全部自变量,然后从方程中选取,然后从方程中选取偏回归平方和最小的自变量作偏回归平方和最小的自变量作F检验以决定是否从检验以决定是否从方
11、程中剔除,直至无自变量可以从方程中剔除为方程中剔除,直至无自变量可以从方程中剔除为止。止。缺点:缺点:当某些自变量高度相关时,可能得不出正确当某些自变量高度相关时,可能得不出正确 结果。结果。Xj剔除剔除 3.逐步回归法(先选后剔,双向筛选)逐步回归法(先选后剔,双向筛选)p开始方程中无自变量,从方程外选取偏回归平方开始方程中无自变量,从方程外选取偏回归平方和最大的自变量作和最大的自变量作F检验以决定是否选入方程;检验以决定是否选入方程;p每引一个自变量进入方程后,从方程中选取偏回每引一个自变量进入方程后,从方程中选取偏回归平方和最小的自变量作归平方和最小的自变量作F检验以决定是否从方程中检验
12、以决定是否从方程中剔除;剔除;p直至方程外无自变量可引入,方程内无自变量可直至方程外无自变量可引入,方程内无自变量可剔除为止。剔除为止。Xj剔除剔除内剔内剔Xj入选入选外引外引入入值定的越小选取自变量标准越严,被选值定的越小选取自变量标准越严,被选 入方程内入方程内自变量数越少。自变量数越少。入入值越大则反之。值越大则反之。小样本:小样本:入入,出出。大样本:大样本:入入,出出。入入出出,以免以免Xj上一步剔除后下一步又被选入上一步剔除后下一步又被选入逐步回归法流程图逐步回归法流程图 例例 1.全回归全回归 2.决定系数决定系数R2血糖含量变异的血糖含量变异的60%可由总胆固醇、甘油三酯、可由
13、总胆固醇、甘油三酯、胰岛素和糖化血红蛋白的变异解释。胰岛素和糖化血红蛋白的变异解释。选选X4前先建立前先建立4个直线回归方程;个直线回归方程;选选X1前先建立前先建立1个含个含3个自变量、个自变量、3个含个含2个个 自变量的多元线性回归方程。自变量的多元线性回归方程。逐步回归法流程图逐步回归法流程图在自变量很多时,其中有的因素可能对应变量的影响不是很大,而且x之间可能不完全相互独立的,可能有种种互作关系。在这种情况下可用逐步回归分析,进行x因子的筛选,这样建立的多元回归模型预测效果会更较好。逐步回归分析,首先要建立因变量y与自变量x之间的总回归方程,再对总的方程及每个自变量进行假设检验。当总的
14、方程不显著时,表明该多元回归方程线性关系不成立;而当某个自变量对y影响不显著时,应该把它剔除,重新建立不包含该因子的多元回归方程。筛选出有显著影响的因子作为自变量,并建立“最优”回归方程。回归方程包含的自变量越多,回归平方和越大,剩余的平方和越小,剩余均方也随之较小,预测值的误差也愈小,模拟的效果愈好。但是方程中的变量过多,预报工作量就会越大,其中有些相关性不显著的预报因子会影响预测的效果。因此在多元回归模型中,选择适宜的变量数目尤为重要。例例变量说明如下:X1X1粮粮 食食X11X11烟草类烟草类X2X2淀粉及薯类淀粉及薯类X12X12酒和饮料酒和饮料X3X3干豆类及豆制品干豆类及豆制品X1
15、3X13干鲜瓜果类干鲜瓜果类X4X4油脂类油脂类X14X14糕点类糕点类X5X5肉禽及制品肉禽及制品X15X15奶及奶制品奶及奶制品X6X6蛋蛋 类类X16X16其他食品其他食品X7X7水产品类水产品类X17X17在外用餐在外用餐X8X8菜菜 类类X18X18食品加工服务费食品加工服务费X9X9调味品调味品Y Y消费性支出消费性支出X10X10 糖糖 类类1)准备分析数据 在SPSS数据编辑窗口中,用“FileOpenData”命令2)启动线性回归过程 单击SPSS主菜单的“Analyze”下的“Regression”中“Linear”项3)设置分析变量 设置因变量:将左边变量列表中的“y”变
16、量,选入到“Dependent”因变量显示栏里。设置自变量:将左边变量列表中的“x1”“x21”变量,全部选移到“Independent(S)”自变量栏里。设置控制变量:本例子中不使用控制变量,所以不选择任何变量。选择标签变量:选择“DIST”为标签变量。选择加权变量:本例子没有加权变量,因此不作任何设置。4)回归方式 在“Method”分析方法框中选中“Stepwise”逐步分析方法。该方法是根据“Options”选择对话框中显著性检验(F)的设置,在方程中进入或剔除单个变量,直到所建立的方程中不再含有可加入或可剔除的变量为止。5)设置变量检验水平“Options”“Stepping Met
17、hod Criteria”框里的设置用于逐步回归分析的选择标准。其中“Use probability of F”选项,提供设置显著性F检验的概率。如果一个变量的F检验概率小于或等于进入“Entry”栏里设置的值,那么这个变量将被选入回归方程中;当回归方程中变量的F值检验概率大于剔除“Removal”栏里设置的值,则该变量将从回归方程中被剔除。由此可见,设置F检验概率时,应使进入值小于剔除值。“Ues F value”选项,提供设置显著性F检验的分布值。如果一个变量的F值大于所设置的进入值(Entry),那么这个变量将被选入回归方程中;当回归方程中变量的F值小于设置的剔除值(Removal),则
18、该变量将从回归方程中被剔除。同时,设置F分布值时,应该使进入值大于剔除值。本例子使用显著性F检验的概率,在进入“Entry”栏里设置为“0.15”,在剔除“Removal”栏里设置为“0.20”(剔除的概率值应比进入的值大),如图2-89所示。6)设置输出统计量“Statistics”“Regression Coefficients”回归系数选项:“Estimates”输出回归系数和相关统计量。“Residuals”残差选项:其它输入选项“Model fit”输出相关系数、相关系数平方、调整系数、估计标准误、ANOVA表。7)绘图选项“Plots”8)保存分析数据的选项“Save”“Predi
19、cted Values”预测值栏选项:本例选中“Unstandardized”非标准化预测值。“Distances”距离栏选项:“Prediction Intervals”预测区间选项:“Save to New File”保存为新文件:“Export model information to XML file”导出统计过程中的回归模型信息到指定文件。本例不选。“Residuals”保存残差选项:“Influence Statistics”统计量的影响。9)提交执行 在主对话框里单击“OK”,提交执行,结果将显示在输出窗口中10)结果分析 主要结果:逐步回归每一步进入或剔除回归模型中的变量情况逐步回归每一步的回归模型的统计量:R 是相关系数;R Square 相关系数的平方,又称判定系数,判定线性回归的拟合程度:用来说明用自变量解释因变量变异的程度(所占比例);Adjusted R Square 调整后的判定系数;Std.Error of the Estimate 估计标准误差。逐步回归每一步的回归模型的方差分析逐步回归每一步的回归方程系数表。