自变量选择与逐步回归课件.ppt

上传人:石*** 文档编号:51227496 上传时间:2022-10-18 格式:PPT 页数:64 大小:3.14MB
返回 下载 相关 举报
自变量选择与逐步回归课件.ppt_第1页
第1页 / 共64页
自变量选择与逐步回归课件.ppt_第2页
第2页 / 共64页
点击查看更多>>
资源描述

《自变量选择与逐步回归课件.ppt》由会员分享,可在线阅读,更多相关《自变量选择与逐步回归课件.ppt(64页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、自变量选择与逐步自变量选择与逐步回归回归第1页,此课件共64页哦 多元线性回归方程中所包含的自变量是根据专业多元线性回归方程中所包含的自变量是根据专业知识和经验事先选择好的,但在许多回归分析的、应知识和经验事先选择好的,但在许多回归分析的、应用中,由于没有清晰的理论依据,回归模型所包含的用中,由于没有清晰的理论依据,回归模型所包含的自变量难以预先确定,如果将一些不重要的自变量也自变量难以预先确定,如果将一些不重要的自变量也引入方程,会降低模型的精度,因此选择有意义的自引入方程,会降低模型的精度,因此选择有意义的自变量是回归分析的第一步。变量是回归分析的第一步。选择自变量的基本思路是:尽可能将回

2、归效果显著选择自变量的基本思路是:尽可能将回归效果显著的自变量选入回归方程中,将作用不显著的特别是与自的自变量选入回归方程中,将作用不显著的特别是与自变量有密切线性关系的自变量排除在外。变量有密切线性关系的自变量排除在外。第2页,此课件共64页哦 第七章 第一节第一节机动 目录 上页 下页 返回 结束 自变量选择对估计和预测的影响第3页,此课件共64页哦在多元线性回归模型中,自变量的选择实质上就是模型的选择。其中:Y是nx1的观测值,X是nxm结构矩阵,并假定X的秩为m。现设一切可供选择的变量是t个,它们组成的回归模型称为全模型(记m=t+1)是mx1未知参数向量,第4页,此课件共64页哦下面

3、的回归模型称为选模型:下面的回归模型称为选模型:现从现从这这t个变量中选个变量中选t变量,不妨设变量,不妨设矩阵矩阵X可作如下的分块(记:可作如下的分块(记:),那么对全模型中的参数,那么对全模型中的参数 和结构和结构第5页,此课件共64页哦自变量的选择问题可以看成是这样二个问题自变量的选择问题可以看成是这样二个问题:究竟应用全模型还是用选模型;究竟应用全模型还是用选模型;若用选模型,则究竟应包含多少变量最适合。如果全若用选模型,则究竟应包含多少变量最适合。如果全模型为真,而我们用了选模型,这就表示在方程中丢模型为真,而我们用了选模型,这就表示在方程中丢掉了部分有用变量,相反,如果选模型为真,

4、而我们掉了部分有用变量,相反,如果选模型为真,而我们选用了全模型,这就表示在方程中引入了一些无用变选用了全模型,这就表示在方程中引入了一些无用变量,下面从参数估计和预测两个角度来看一看由于模量,下面从参数估计和预测两个角度来看一看由于模型选择不当带来的后果。型选择不当带来的后果。第6页,此课件共64页哦为了讨论方便起见,先引入几个记号:全模型中参数 的估计:其中:R(X)为矩阵X的秩。第7页,此课件共64页哦在选模型中参数在选模型中参数 的估计:的估计:在在 上的预测值上的预测值第8页,此课件共64页哦分块矩阵求逆公式:第9页,此课件共64页哦均方误差的概念 对无偏估计常用 来衡量估计量的好坏

5、,而对有偏估计则相应采用均方误差 第10页,此课件共64页哦第11页,此课件共64页哦第12页,此课件共64页哦注注:由上述定理说明,若全模型为真的而误用选模型 作为y值的预测的话,所得的估计是有偏的.但预测方差会有所下降。而对有偏的估计,一般可用均方差去表明估计的好坏,在均方误差的意义下,预测的均方误差也是会下降。所以删去一些影响不大,但回归系数方差过大的变量(用 为非负定矩阵来表示),对预测精度的提高是有利的.综合以上所述,一般我们尽可能使模型的变量少而精,要引入对y有显著影响的变量,而对y并不很显著的变量要删除,这样不仅对估计而且对预测也有利.第13页,此课件共64页哦 第七章 第二节第

6、二节机动 目录 上页 下页 返回 结束 自变量选择方法第14页,此课件共64页哦自变量选择准则自变量选择准则若一个多元回归的问题中有若一个多元回归的问题中有t可供选择的自变量,那么所有可供选择的自变量,那么所有可能的回归方程有可能的回归方程有 2t-1个,下面给出一些自变量选择的准个,下面给出一些自变量选择的准则,希望能从则,希望能从 2t-1个回归方程中选择一个最合理的方程个回归方程中选择一个最合理的方程.对全模型,记:对全模型,记:对选模型,记:对选模型,记:第15页,此课件共64页哦准则准则1 平均残差平方和达到最小.第16页,此课件共64页哦第17页,此课件共64页哦准则准则3 预测偏

7、差预测偏差 的方差的方差 准则准则4 平均预测均方误差平均预测均方误差Sp达到最小。达到最小。准则准则5 Cp统计量统计量其中三其中三s2是全模型中是全模型中 的无偏估计的无偏估计.第18页,此课件共64页哦第19页,此课件共64页哦第20页,此课件共64页哦第21页,此课件共64页哦准则准则7 AIC准则准则 AIC准则的定义:AIC=-2(模型的对数似然估计函数的极大值)+2(模型中独立参数的个数)第22页,此课件共64页哦第23页,此课件共64页哦 第七章 第三节第三节机动 目录 上页 下页 返回 结束 逐步回归第24页,此课件共64页哦一、全局选择法一、全局选择法对自变量各种不同的组合

8、所建立的回归方程进行比较,从全对自变量各种不同的组合所建立的回归方程进行比较,从全部组合中挑出一个部组合中挑出一个“最优最优”的回归方程。的回归方程。第25页,此课件共64页哦 uR2可用来评价回归方程优劣。可用来评价回归方程优劣。u随着自变量增加,随着自变量增加,R2不断增大,对两个不不断增大,对两个不 同个数自变量回归方程比较,须考虑方程同个数自变量回归方程比较,须考虑方程 包含自变量个数影响,应对包含自变量个数影响,应对R2进行校正。进行校正。u所谓所谓“最优最优”回归方程指回归方程指 最大者。最大者。1.1.校正决定系数校正决定系数 选择法选择法第26页,此课件共64页哦2.2.选择法

9、选择法P为方程中自变量个数。为方程中自变量个数。最优方程的最优方程的Cp期望值是期望值是p+1。应选择应选择Cp最接近最接近P+1的回归方程为最优。的回归方程为最优。是由是由 个自变量作回归的误差平方个自变量作回归的误差平方和,和,是从全部是从全部m个自变量的回归模型中得个自变量的回归模型中得到的残差均方。到的残差均方。第27页,此课件共64页哦第28页,此课件共64页哦27名糖尿病人的血糖及有关变量的测量结果 第29页,此课件共64页哦全局择优法的局限性全局择优法的局限性 如果自变量个数为4,则所有的回归模型有241 15个;当自变量数个数为10时,所有可能的回归为 2101 1023个;当

10、自变量数个数为50时,所有可能的回归为25011015个。第30页,此课件共64页哦第31页,此课件共64页哦二、逐步选择法二、逐步选择法全局选择计算量很大:全局选择计算量很大:6个变量,计算个变量,计算26-1=63个方程;个方程;10个变量,计算个变量,计算210-1=1023个方程。个方程。按选入变量顺序不同分按选入变量顺序不同分前进法、后退法与逐步回归法前进法、后退法与逐步回归法,共同特点是每一步只引共同特点是每一步只引 入或剔除一个自变量入或剔除一个自变量Xj。第32页,此课件共64页哦n对对Xj的取舍要进行的取舍要进行F检验:检验:计算进行到第计算进行到第l步时:步时:p:方程中自

11、变量个数方程中自变量个数SS回:回:Xj的偏回归平方和的偏回归平方和SS残:残:残差平方和残差平方和第33页,此课件共64页哦缺点:缺点:后续变量的引入可能使先前引入的变量变的后续变量的引入可能使先前引入的变量变的 不重要。不重要。Xj入选入选1.前进法前进法(只选不剔)(只选不剔)自变量从无到有、从少到多自变量从无到有、从少到多 Y对每一个自变量作直线回归,对对每一个自变量作直线回归,对回归平方和回归平方和最大的自最大的自变量作变量作F检验,有意义(检验,有意义(P小)则引入。小)则引入。在此基础上,计算其它自变量的在此基础上,计算其它自变量的偏回归平方和偏回归平方和,选取偏,选取偏回归平方

12、和回归平方和最大者最大者作作F检验,检验,第34页,此课件共64页哦 2.后退法(后退法(只剔不选)只剔不选)开始方程中包含全部自变量开始方程中包含全部自变量,然后从方程中选取偏回归,然后从方程中选取偏回归平方和最小的自变量作平方和最小的自变量作F检验以决定是否从方程中剔除,检验以决定是否从方程中剔除,直至无自变量可以从方程中剔除为止。直至无自变量可以从方程中剔除为止。缺点:缺点:当某些自变量高度相关时,可能得不出正确当某些自变量高度相关时,可能得不出正确 结果。结果。Xj剔除剔除第35页,此课件共64页哦 3.逐步回归法(先选后剔,双向筛选)逐步回归法(先选后剔,双向筛选)p开始方程中无自变

13、量,从方程外选取偏回归平方和开始方程中无自变量,从方程外选取偏回归平方和最大的自变量作最大的自变量作F检验以决定是否选入方程;检验以决定是否选入方程;p每引一个自变量进入方程后,从方程中选取偏回归平每引一个自变量进入方程后,从方程中选取偏回归平方和最小的自变量作方和最小的自变量作F检验以决定是否从方程中剔除;检验以决定是否从方程中剔除;p直至方程外无自变量可引入,方程内无自变量可剔除为止。直至方程外无自变量可引入,方程内无自变量可剔除为止。第36页,此课件共64页哦 Xj剔除剔除内剔内剔Xj入选入选外引外引入入值定的越小选取自变量标准越严,被选值定的越小选取自变量标准越严,被选 入方程内自入方

14、程内自变量数越少。变量数越少。入入值越大则反之。值越大则反之。小样本:小样本:入入=0.05,出出=0.10。大样本:大样本:入入=0.10,出出=0.15。入入出出,以免以免Xj上一步剔除后下一步又被选入上一步剔除后下一步又被选入第37页,此课件共64页哦逐步回归法流程图逐步回归法流程图第38页,此课件共64页哦 例例第39页,此课件共64页哦 1.全回归全回归第40页,此课件共64页哦 第41页,此课件共64页哦 2.决定系数决定系数R2血糖含量变异的血糖含量变异的60%可由总胆固醇、甘油三酯、胰岛素可由总胆固醇、甘油三酯、胰岛素和糖化血红蛋白的变异解释。和糖化血红蛋白的变异解释。第42页

15、,此课件共64页哦 选选X4前先建立前先建立4个直线回归方程;个直线回归方程;选选X1前先建立前先建立1个含个含3个自变量、个自变量、3个含个含2个个 自变量的多元线性回归方程。自变量的多元线性回归方程。第43页,此课件共64页哦 第44页,此课件共64页哦 第45页,此课件共64页哦 第46页,此课件共64页哦 第47页,此课件共64页哦 第48页,此课件共64页哦逐步回归法流程图逐步回归法流程图第49页,此课件共64页哦在自变量很多时,其中有的因素可能对应变量的影响不是很大,而且x之间可能不完全相互独立的,可能有种种互作关系。在这种情况下可用逐步回归分析,进行x因子的筛选,这样建立的多元回

16、归模型预测效果会更较好。逐步回归分析,首先要建立因变量y与自变量x之间的总回归方程,再对总的方程及每个自变量进行假设检验。当总的方程不显著时,表明该多元回归方程线性关系不成立;而当某个自变量对y影响不显著时,应该把它剔除,重新建立不包含该因子的多元回归方程。筛选出有显著影响的因子作为自变量,并建立“最优”回归方程。第50页,此课件共64页哦回归方程包含的自变量越多,回归平方和越大,剩余的平方和越小,剩余均方也随之较小,预测值的误差也愈小,模拟的效果愈好。但是方程中的变量过多,预报工作量就会越大,其中有些相关性不显著的预报因子会影响预测的效果。因此在多元回归模型中,选择适宜的变量数目尤为重要。第

17、51页,此课件共64页哦例例变量说明如下:X1X1粮粮 食食X11X11烟草类烟草类X2X2淀粉及薯类淀粉及薯类X12X12酒和饮料酒和饮料X3X3干豆类及豆制品干豆类及豆制品X13X13干鲜瓜果类干鲜瓜果类X4X4油脂类油脂类X14X14糕点类糕点类X5X5肉禽及制品肉禽及制品X15X15奶及奶制品奶及奶制品X6X6蛋蛋 类类X16X16其他食品其他食品X7X7水产品类水产品类X17X17在外用餐在外用餐X8X8菜菜 类类X18X18食品加工服务费食品加工服务费X9X9调味品调味品Y Y消费性支出消费性支出X10X10 糖糖 类类第52页,此课件共64页哦第53页,此课件共64页哦1)准备分

18、析数据 在SPSS数据编辑窗口中,用“FileOpenData”命令2)启动线性回归过程 单击SPSS主菜单的“Analyze”下的“Regression”中“Linear”项第54页,此课件共64页哦3)设置分析变量 设置因变量:将左边变量列表中的“y”变量,选入到“Dependent”因变量显示栏里。设置自变量:将左边变量列表中的“x1”“x21”变量,全部选移到“Independent(S)”自变量栏里。设置控制变量:本例子中不使用控制变量,所以不选择任何变量。选择标签变量:选择“DIST”为标签变量。选择加权变量:本例子没有加权变量,因此不作任何设置。第55页,此课件共64页哦4)回归

19、方式 在“Method”分析方法框中选中“Stepwise”逐步分析方法。该方法是根据“Options”选择对话框中显著性检验(F)的设置,在方程中进入或剔除单个变量,直到所建立的方程中不再含有可加入或可剔除的变量为止。第56页,此课件共64页哦5)设置变量检验水平“Options”“Stepping Method Criteria”框里的设置用于逐步回归分析的选择标准。其中“Use probability of F”选项,提供设置显著性F检验的概率。如果一个变量的F检验概率小于或等于进入“Entry”栏里设置的值,那么这个变量将被选入回归方程中;当回归方程中变量的F值检验概率大于剔除“Rem

20、oval”栏里设置的值,则该变量将从回归方程中被剔除。由此可见,设置F检验概率时,应使进入值小于剔除值。第57页,此课件共64页哦“Ues F value”选项,提供设置显著性F检验的分布值。如果一个变量的F值大于所设置的进入值(Entry),那么这个变量将被选入回归方程中;当回归方程中变量的F值小于设置的剔除值(Removal),则该变量将从回归方程中被剔除。同时,设置F分布值时,应该使进入值大于剔除值。本例子使用显著性F检验的概率,在进入“Entry”栏里设置为“0.15”,在剔除“Removal”栏里设置为“0.20”(剔除的概率值应比进入的值大),如图2-89所示。第58页,此课件共6

21、4页哦6)设置输出统计量“Statistics”“Regression Coefficients”回归系数选项:“Estimates”输出回归系数和相关统计量。“Residuals”残差选项:其它输入选项“Model fit”输出相关系数、相关系数平方、调整系数、估计标准误、ANOVA表。第59页,此课件共64页哦7)绘图选项“Plots”8)保存分析数据的选项“Save”“Predicted Values”预测值栏选项:本例选中“Unstandardized”非标准化预测值。“Distances”距离栏选项:“Prediction Intervals”预测区间选项:“Save to New

22、File”保存为新文件:“Export model information to XML file”导出统计过程中的回归模型信息到指定文件。本例不选。“Residuals”保存残差选项:“Influence Statistics”统计量的影响。9)提交执行 在主对话框里单击“OK”,提交执行,结果将显示在输出窗口中第60页,此课件共64页哦10)结果分析 主要结果:逐步回归每一步进入或剔除回归模型中的变量情况第61页,此课件共64页哦逐步回归每一步的回归模型的统计量:R 是相关系数;R Square 相关系数的平方,又称判定系数,判定线性回归的拟合程度:用来说明用自变量解释因变量变异的程度(所占比例);Adjusted R Square 调整后的判定系数;Std.Error of the Estimate 估计标准误差。第62页,此课件共64页哦逐步回归每一步的回归模型的方差分析第63页,此课件共64页哦逐步回归每一步的回归方程系数表。第64页,此课件共64页哦

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁