逐步回归分析.pdf

上传人:qwe****56 文档编号:69623986 上传时间:2023-01-07 格式:PDF 页数:9 大小:551.44KB
返回 下载 相关 举报
逐步回归分析.pdf_第1页
第1页 / 共9页
逐步回归分析.pdf_第2页
第2页 / 共9页
点击查看更多>>
资源描述

《逐步回归分析.pdf》由会员分享,可在线阅读,更多相关《逐步回归分析.pdf(9页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、逐步回归分析 在自变量很多时,其中有的因素可能对应变量的影响不是很大,而且 x 之间可能不完全相互独立的,可能有种种互作关系。在这种情况下可用逐步回归分析,进行 x 因子的筛选,这样建立的多元回归模型预测效果会更较好。逐步回归分析,首先要建立因变量 y 与自变量 x 之间的总回归方程,再对总的方程及每个自变量进行假设检验。当总的方程不显著时,表明该多元回归方程线性关系不成立;而当某个自变量对 y 影响不显著时,应该把它剔除,重新建立不包含该因子的多元回归方程。筛选出有显著影响的因子作为自变量,并建立“最优”回归方程。回归方程包含的自变量越多,回归平方和越大,剩余的平方和越小,剩余均方也随之较小

2、,预测值的误差也愈小,模拟的效果愈好。但是方程中的变量过多,预报工作量就会越大,其中有些相关性不显著的预报因子会影响预测的效果。因此在多元回归模型中,选择适宜的变量数目尤为重要。逐步回归在病虫预报中的应用实例:以陕西省长武地区 19841995 年的烟蚜传毒病情资料、相关虫情和气象资料为例(数据见 DATA6 xls),建立蚜传病毒病情指数的逐步回归模型,说明逐步回归分析的具体步骤。影响蚜传病毒病情指数的虫情因子和气象因子一共有 21 个,通过逐步回归,从中选出对病情指数影响显著的因子,从而建立相应的模型。对 19841995 年的病情指数进行回检,然后对 19961998 年的病情进行预报,

3、再检验预报的效果。变量说明如下:y:历年病情指数 x1:前年冬季油菜越冬时的蚜量(头/株)x2:前年冬季极端气温 x3:5 月份最高气温 x4:5 月份最低气温 x5:35 月份降水量 x6:46 月份降水量 x7:35 月份均温 x8:46 月份均温 x9:4 月份降水量 x10:4 月份均温 x11:5 月份均温 x12:5 月份降水量 x13:6 月份均温 x14:6 月份降水量 x15:第一次蚜迁高峰期百株烟草有翅蚜量 x16:5 月份油菜百株蚜量 x17:7 月份降水量 x18:8 月份降水量 x19:7 月份均温 x20:8 月份均温 x21:元月均温 1)准备分析数据 在 SPS

4、S 数据编辑窗口中,用“FileOpenData”命令,打开“DATA6xls”数据文件。数据工作区如下图 3-1 显示。中华统计学习网 w w w.1000t j.c o m中华统计学习网 w w w.1000t j.c o m圣才学习网 w w w.100 x u e x i.c o m中华统计学习网 w w w.1000t j.c o m圣才学习网 w w w.100 x u e x i.c o m 图 3-1 2)启动线性回归过程 单击 SPSS 主菜单的“Analyze”下的“Regression”中“Linear”项,将打开如图 3-2 所示的线性回归过程窗口。图 3-2 线性回归

5、对话窗口 3)设置分析变量 设置因变量:将左边变量列表中的“y”变量,选入到“Dependent”因变量显示栏里。设置自变量:将左边变量列表中的“x1”“x21”变量,全部选移到“Independent(S)”自变量栏里。设置控制变量:本例子中不使用控制变量,所以不选择任何变量。选择标签变量:选择“年份”为标签变量。选择加权变量:本例子没有加权变量,因此不作任何设置。4)回归方式 在“Method”分析方法框中选中“Stepwise”逐步分析方法。该方法是根据“Options”选择对话框中显著性检验(F)的设置,在方程中进入或剔除单个变量,直到所建立的方程中不再含有可加入或可剔除的变量为止。设

6、置后的对话窗口如图 3-3。中华统计学习网 w w w.1000t j.c o m中华统计学习网 w w w.1000t j.c o m圣才学习网 w w w.100 x u e x i.c o m中华统计学习网 w w w.1000t j.c o m圣才学习网 w w w.100 x u e x i.c o m 图 3-3 5)设置变量检验水平 在图 6-15 主对话框里单击“Options”按钮,将打开如图 3-4 所示的对话框。图 3-4 “Stepping Method Criteria”框里的设置用于逐步回归分析的选择标准。其中“Use probability of F”选项,提供设

7、置显著性 F 检验的概率。如果一个变量的 F 检验概率小于或等于进入“Entry”栏里设置的值,那么这个变量将被选入回归方程中;当回归方程中变量的 F 值检验概率大于剔除“Removal”栏里设置的值,则该变量将从回归方程中被剔除。由此可见,设置 F 检验概率时,应使进入值小于剔除值。“Ues F value”选项,提供设置显著性 F 检验的分布值。如果一个变量的 F 值大于所设置的进入值(Entry),那么这个变量将被选入回归方程中;当回归方程中变量的 F 值小于设置的剔除值(Removal),则该变量将从回归方程中被剔除。同时,设置 F 分布值时,应该使进入值大于剔除值。中华统计学习网 w

8、 w w.1000t j.c o m中华统计学习网 w w w.1000t j.c o m圣才学习网 w w w.100 x u e x i.c o m中华统计学习网 w w w.1000t j.c o m圣才学习网 w w w.100 x u e x i.c o m 本例子使用显著性 F 检验的概率,在进入“Entry”栏里设置为“0.15”,在剔除“Removal”栏里设置为“0.20”(剔除的概率值应比进入的值大),如图 6-17 所示。图 6-17 窗口中的其它设置参照一元回归设置。6)设置输出统计量 在主对话图 3-2 窗口中,单击“Statistics”按钮,将打开如图 6-18

9、所示的对话框。该对话框用于设置相关参数。其中各项的意义分别为:图 3-5“Statistics”对话框 “Regression Coefficients”回归系数选项:“Estimates”输出回归系数和相关统计量。“Confidence interval”回归系数的 95%置信区间。“Covariance matrix”回归系数的方差-协方差矩阵。本例子选择“Estimates”输出回归系数和相关统计量。“Residuals”残差选项:“Durbin-Watson”Durbin-Watson 检验。“Casewise diagnostic”输出满足选择条件的观测量的相关信息。选择该项,下面两

10、项处于可选状态:“Outliers outside standard deviations”选择标准化残差的绝对值大于输入值的观测量;“All cases”选择所有观测量。本例子都不选。其它输入选项 “Model fit”输出相关系数、相关系数平方、调整系数、估计标准误、ANOVA 表。“R squared change”输出由于加入和剔除变量而引起的复相关系数平方的变化。“Descriptives”输出变量矩阵、标准差和相关系数单侧显著性水平矩阵。“Part and partial correlation”相关系数和偏相关系数。“Collinearity diagnostics”显示单个变量

11、和共线性分析的公差。本例子选择“Model fit”项。7)绘图选项 在主对话框单击“Plots”按钮,将打开如图 3-6 所示的对话框窗口。该对话框用于设置要绘制的图形的参数。图中的“X”和“Y”框用于选择 X 轴和 Y 轴相应的变量。中华统计学习网 w w w.1000t j.c o m中华统计学习网 w w w.1000t j.c o m圣才学习网 w w w.100 x u e x i.c o m中华统计学习网 w w w.1000t j.c o m圣才学习网 w w w.100 x u e x i.c o m 图 3-6“Plots”绘图对话框窗口 左上框中各项的意义分别为:“DEP

12、ENDNT”因变量。“ZPRED”标准化预测值。“ZRESID”标准化残差。“DRESID”删除残差。“ADJPRED”调节预测值。“SRESID”学生氏化残差。“SDRESID”学生氏化删除残差。“Standardized Residual Plots”设置各变量的标准化残差图形输出。其中共包含两个选项:“Histogram”用直方图显示标准化残差。“Normal probability plots”比较标准化残差与正态残差的分布示意图。“Produce all partial plot”偏残差图。对每一个自变量生成其残差对因变量残差的散点图。本例子不作绘图,不选择。8)保存分析数据的选项

13、在主对话框里单击“Save”按钮,将打开如图 3-7 所示的对话框。中华统计学习网 w w w.1000t j.c o m中华统计学习网 w w w.1000t j.c o m圣才学习网 w w w.100 x u e x i.c o m中华统计学习网 w w w.1000t j.c o m圣才学习网 w w w.100 x u e x i.c o m 图 3-7“Save”对话框 “Predicted Values”预测值栏选项:Unstandardized 非标准化预测值。就会在当前数据文件中新添加一个以字符“PRE_”开头命名的变量,存放根据回 归模型拟合的预测值。Standardize

14、d 标准化预测值。Adjusted 调整后预测值。SEof mean predictions 预测值的标准误。本例选中“Unstandardized”非标准化预测值。“Distances”距离栏选项:Mahalanobis:距离。Cooks”:Cook 距离。Leverage values:杠杆值。“Prediction Intervals”预测区间选项:Mean:区间的中心位置。Individual:观测量上限和下限的预测区间。在当前数据文件中新添加一个以字符“LICI_”开头命名的变量,存放 预测区间下限值;以字符“UICI_”开头命名的变量,存放预测区间上限值。Confidence In

15、terval:置信度。本例不选。“Save to New File”保存为新文件:选中“Coefficient statistics”项将回归系数保存到指定的文件中。本例不选。“Export model information to XML file”导出统计过程中的回归模型信息到指定文件。本例不选。“Residuals”保存残差选项:“Unstandardized”非标准化残差。“Standardized”标准化残差。“Studentized”学生氏化残差。“Deleted”删除残差。“Studentized deleted”学生氏化删除残差。本例不选。“Influence Statisti

16、cs”统计量的影响。“DfBeta(s)”删除一个特定的观测值所引起的回归系数的变化。“Standardized DfBeta(s)”标准化的 DfBeta 值。“DiFit”删除一个特定的观测值所引起的预测值的变化。“Standardized DiFit”标准化的 DiFit 值。“Covariance ratio”删除一个观测值后的协方差矩隈的行列式和带有全部观测值的协方差矩阵的行列式的比率。本例子不保存任何分析变量,不选择。9)提交执行 在主对话框里单击“OK”,提交执行,结果将显示在输出窗口中。主要结果见表 6-10 至表 6-13。10)结果分析 主要结果:中华统计学习网 w w w

17、.1000t j.c o m中华统计学习网 w w w.1000t j.c o m圣才学习网 w w w.100 x u e x i.c o m中华统计学习网 w w w.1000t j.c o m圣才学习网 w w w.100 x u e x i.c o m 表 6-10 是逐步回归每一步进入或剔除回归模型中的变量情况。表 6-11 是逐步回归每一步的回归模型的统计量:R 是相关系数;R Square 相关系数的平方,又称判定系数,判定线性回归的拟合程度:用来说明用自变量解释因变量变异的程度(所占比例);Adjusted R Square 调整后的判定系数;StdError of the E

18、stimate 估计标准误差。中华统计学习网 w w w.1000t j.c o m中华统计学习网 w w w.1000t j.c o m圣才学习网 w w w.100 x u e x i.c o m中华统计学习网 w w w.1000t j.c o m圣才学习网 w w w.100 x u e x i.c o m 表 6-12 是逐步回归每一步的回归模型的方差分析,F 值为 10.930,显著性概率是 0.001,表明回归极显著。表 6-13 是逐步回归每一步的回归方程系数表。分析:建立回归模型:根据多元回归模型:从 6-13 中看出,过程一共运行了四步,最后一步以就是表中的第 4 步的计算

19、结果得知:21 个变量中只进入了 4 个变量 x15、x4、x7 和 x5。中华统计学习网 w w w.1000t j.c o m中华统计学习网 w w w.1000t j.c o m圣才学习网 w w w.100 x u e x i.c o m中华统计学习网 w w w.1000t j.c o m圣才学习网 w w w.100 x u e x i.c o m 把表 6-13 中“非标准化回归系数”栏目中的“B”列数据代入多元回归模型得到预报方程:预测值的标准差可用剩余标准差估计:回归方程的显著性检验:从表 6-12 方差分析表第 4 模型中得知:F 统计量为 622.72,系统自动检验的显著

20、性水平为 0.0000(非常小)。F(0.00001,4,7)值为 70.00。因此回归方程相关非常非常显著。由回归方程式可以看出,在陕西长武烟草蚜传病毒病 8 月份的病情指数(y)与 x4(5月份最低气温)、x15(第一次蚜迁高峰期百株烟草有翅蚜量)呈显著正相关,而与 x5(35 月份降水量)和 x7(35 月份均温)呈显著负相关。通过大田调查结果表明,烟草蚜传病毒病发生与蚜虫的迁飞有密切的关系。迁入烟田的有翅蚜有两次高峰期,呈双峰曲线。第一高峰期出现在 5 月中旬至 6 月初,此次迁飞的高峰期与大田发病率呈显著正相关。第二高峰期在 6 月上旬末至 6 月中旬,此次迁飞高峰期与大田发病率关系不大。5 月份的最低气温(x4)和 35 月份均温(x7)通过影响传媒介体蚜虫的活动来影响田间发病。而第一次蚜迁高峰期百株烟草有翅蚜量(x15)是影响烟草蚜传病毒病病情指数(y)的重要因子。35 月份降水量(x5)通过影响田间蚜虫传病毒病发病植株的症状表现影响大田发病程度。中华统计学习网 w w w.1000t j.c o m中华统计学习网 w w w.1000t j.c o m圣才学习网 w w w.100 x u e x i.c o m中华统计学习网 w w w.1000t j.c o m圣才学习网 w w w.100 x u e x i.c o m

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 财经金融

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁