《多元线性回归分析的实例研究.doc》由会员分享,可在线阅读,更多相关《多元线性回归分析的实例研究.doc(4页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、科技信息 IT 论坛 SCIENCE & TECHNOLOGYINFORMATION 2009 年 第 9 期 【 摘 要 】 通过运用 多元线性回归分析的实例研究 张宇 山 ( 广东商 学院 数学 与计 算科 学系 广 东 广州 510320) SAS 统计软件 , 针对一实际例子 , 编程建立线性 回归模型 , 并通过 方差分析和共线性判断等对模型参数进行检 验 , 调整 模型形式 , 最后得到与原数据比较拟和的模型 。 【 关键词 】 SAS; 多元线性回归 ; 多重共线性 ; 方差膨胀因子 【 Abstract】 By making programmings in SAS, this
2、paper sets up three linear regression models based on real-world data. After analyzing their respective variance and estimating multicollinearity of variables, the models are adjusted to be more adaptive to the data. 【 Key words】 SAS; Linear analysis; Multicollinearity; Variance inflation factor 1 统
3、计 软件 SAS 简介 某成品的密度可作为衡量该产品的指标 它由生 产过程中的 个 SAS 是美国 SAS 软件研究所研制的一套大型集成应用软件系统 , 变量所决定 , 5 具有完备的数据存取、数据管理、数据分析和数据展现功能。 尤其是创 业产 品 统 计分析系统部 分,由于其具有 强大的数据分析 能力,在数 据处理和统计分析领域,被誉为国际上的标准软件和最权威的优秀统 计软件包, 广泛应用于政府行 政管理、科研 、教育、生产 和金融等不同 领域,发挥着重要的作用。 SAS 系统操作以编程为主,人机对话界面不 太友好,系统地学习和掌握 SAS,需要花费一定的时间和精力。 但无论 从速度或功能等
4、各个方面, SAS 作为专业统计软件中的巨无霸, 现在 还很难有什么统计软件足以与之抗衡 。 本文使用的是 SAS For Windows 6.12 。 2 实例背景 : X1 = 该成品所含水量 X2 = 该成品生产过程中所包含的重复使用材料数 3 4 5 现有 48 组数据如表 1。 3 回归分析 首先对 48 组数据进行简单的描述统计量的计算 , 3.1 模型( 1) 见表 2。 本文使 用的数据 来源于 料库。 中 Industry 的数据资 表 1 首先从最简单的线性回归模型入手,假设回归模型形式如下: y=0+1x1+2x2+3x3+4x4+5x5+ ( 1 ) 54 X1 X2
5、 X3 X4 X5 Y X1 X2 X3 X4 X5 Y 0 800 135 578 13.195 104 75 800 135 550 12.745 103 0 800 135 578 13.195 102 75 800 135 550 12.745 111 0 800 135 578 13.195 100 75 800 135 550 12.745 111 0 800 135 578 13.195 96 75 800 135 550 12.745 107 0 800 135 578 13.195 93 75 800 135 550 12.745 112 0 800 135 578 13.1
6、95 103 75 800 135 550 12.745 106 0 800 150 585 13.180 118 75 800 150 595 13.885 111 0 800 150 585 13.180 113 75 800 150 595 13.885 107 0 800 150 585 13.180 107 75 800 150 595 13.885 104 0 800 150 585 13.180 114 75 800 150 595 13.885 103 0 800 150 585 13.180 110 75 800 150 595 13.885 104 0 800 150 58
7、5 13.180 114 75 800 150 595 13.885 103 0 1000 135 590 13.440 97 75 1000 135 530 11.705 116 0 1000 135 590 13.440 87 75 1000 135 530 11.705 108 0 1000 135 590 13.440 92 75 1000 135 530 11.705 104 0 1000 135 590 13.440 85 75 1000 135 530 11.705 116 0 1000 135 590 13.440 94 75 1000 135 530 11.705 112 0
8、 1000 135 590 13.440 102 75 1000 135 530 11.705 111 0 1000 150 590 13.600 104 75 1000 150 590 13.835 110 0 1000 150 590 13.600 102 75 1000 150 590 13.835 115 0 1000 150 590 13.600 101 75 1000 150 590 13.835 114 0 1000 150 590 13.600 104 75 1000 150 590 13.835 114 0 1000 150 590 13.600 98 75 1000 150
9、 590 13.835 114 0 1000 150 590 13.600 101 75 1000 150 590 13.835 114 生产过程的平均温度 烘 干炉中的温度 原材料的质量指标 科技信息 IT 论坛 SCIENCE & TECHNOLOGYINFORMATION 2009 年 第 9 期 其中 x1, ,x5 表示数据中的自变量 , y 为表示产品密度的因变量 。 fii 就称为 2 Xi 的方差膨胀因子,它与 Ri2 有如下关系 : 2 进行方差分析和参数检验,得到结果见表 3 。 时, 当 Ri 0,即 Xi 与其 他自变量 不线性相关 时, VIFi=1; 当 0 Ri
10、1 ;当 2 ,即 与其他自变量完全线性相关时, 。 从图 2 结果可以看到 ,决定系数 R-Square = 0.6375, 表明方程模 VIFi 1 Ri 1 Xi VIFi= 拟得并不理 想,回归方程的显著性检验 p 值虽然较理想 (.0001),但回 所有自 变量中 最大的 VIFi 通常用 来作为 多重共 线性严 重程 度的 指 归系数的显著性检验表明除了常数项和 x3 的系数高度显著外 , 其余 标,如果 maxVIFi 10 ,说明共线性可能严重影响了最小二 乘估计值, 就要进行自变量的筛选等来调整原方程。 系数都不十分显著,特别是 看到: x4 和 x5 。 另外我们通过绘制残
11、差图,可以 在模型 (1) 中出现了类似于问题 (1) 的结果,以下为其 VIF 结果 。 Variance Variable Intercept X1 X2 X3 X4 X5 很明显, VIF4 和 VIF5 DF 1 1 1 1 1 1 都太大了。 Inflation 0 3.63163 1.02953 2.23149 40.14088 29.70489 以下 的 Pearson 系 数 相 关 矩 阵 matrix)反映了各变量之间的关系。 ( Pearson correlation coefficients 图 1 模型 ( 1) 的残差图 可以看到,在 y =105 ,残 差都在零线
12、以下。 所以综合上述,模型( 1) 并不是一个与原数据拟和十分理想的模型。 表 2 表 3 由上面的数据可看出 , X4 和 X5 有很强的相关性,且 X4 与 y 更相 关。 由此考虑去除 x4 或把 x4 和 x5 都去除。 3.3 模型( 2)和模型( 3) p p 完全模型的误差方差的估计 -(n-2p) 即若用 平方和,则 SSEP 表示 k 个自变量中的 p 个自变量建立的方程的剩余 Cp= SSE p -(n-2p-2) 3.2 调整模型的思路 MSE 如果每个数对 (p+1 , Cp)表示一个预测变量的子集,则数对 (p , Cp)的 曲线图显示了 预测观察响应 的模型的好坏
13、,一般的 好的模型 其 (p+1 , Cp)点靠近 45 度 直线。 也就是按照 Cp 准则选 择除完全模型外 Cp 值与 (p+1)最接近的模型。 R VIF , SAS , 模型( 2 )和模型( 3): 2 y= + x + x x + x x + x + 2 在多元线性回归的应用中可能碰到这样的问题:( 1) 在某个检验 0 3 3 12 1 2 23 2 3 4 4 2 2 2 2 水 平 下,整个回归 方程的统计检验 小于 ,而方程的各 偏回归系数 该模型是在所有剔除 X5 后由 X1, X2, X3, X4, X1 , X2 ,X3 , X4 , 以及 的 检验却大于 ;( 2)
14、 根 据专业知识, 某 自变量与因 变量间关 系密切 , X1X2, ., X3X4 组成的所有可能的自变量组所建立的回归方程 中选择 出来的。 但 检 验 结 果 大 于 。 在 统 计 学 中 这 种 现 象 称 为 多 重 共 线 性 模型 ( 3 ): y= + x + x x + x x + x x x + ( 3 ) ( multicollinearity )。 当自变量间存在近似的线性关系,即某个自变量能 0 2 2 23 2 3 13 1 3 123 1 2 3 近似的由其它自变量的线性函数来描述,就会造成参数 估计的误差急 剧增大,从而导致了上述的问题。 如 何识别自变 量组
15、( X1,X2, ,Xn) 是否存在 多重共 线性, 首先想 到 以 X1,X2, ,Xn 中的 一个(如 Xi)为因 变量,其 他的 Xj(ji)为自变 量 建立回归 方程,看 此回归方 程的决 定系数 (记 为 Ri ) 是否较 大,若 2 Ri , Xi Xj 。 n 自变量 相应的就可求得 n 个 Ri ,只要其中 有一个 Ri 较 大,该组自变 2 2 量就存在多重共线现象。 而在实际中并不需要建立 n 个回归方程来求 Ri , (variance inflation factor, VIF) 标准。 设 X1,X2, ,Xn 的 相关矩阵 CORRx,可以 证明 Ri 与 (COR
16、Rx)2 1 fii fii=(1-Ri ) 2 统计量 具有 个参数( 包括截距)的子集模型的残差平方和 = 2 22 2 2 -1 该模型是从将 x4 和 x5 都剔除了的回归方程中选取出来的。 但是模型( 3)的 VIF 还是明显偏大,如下: Variable DF Variance Inflation INTERCEP 1 0.00000000 X2 1 6.38480145 X13 1 82.00000000 X23 1 5.41736289 X123 1 82.99728629 而模型( 2)则符合要求: Standardized Variance Variable DF Esti
17、mate Inflation 55 科技信息 IT 论坛 SCIENCE & TECHNOLOGYINFORMATION 2009 年 第 9 期 INTERCEP X3 X1X2 X2X3 1 1 1 1 0.00000000 0.88567868 0.21251572 -0.17327640 0.00000000 2.33109818 1.60950648 1.23935515 4 结论 通过三个模型的比较,可以认为模型 把模型( 2)的各系数代入方程得: (2 ) 最好 。 2 X4*X4 1 -0.76078293 2.72263588 2 y=64.33222+0.909998x3+
18、0.000047934x1x2-0.000084587x2x3-0.000238x 即为所求得的回归方程。 科 4 所以模型( 2)比模 型( 3 )好,以下为模型( 1)和( 2) 的 R 和 MSE 的 比较。 【 参考文献 】 点。 MODEL Model(1) Model(2) 可看出,模型 (2) 优于模型 R-Square 0.6375 0.6964 ( 1 ),由模型 (2 ) Root MSE 4.95985 4.81775 的残差图也说明了这一 1 王孝仁 , 王松桂 编译 . 实 用多元 统计分 析 M . 上海科 学技 术出版 社, 1990, 195-264. 2上海师
19、范大学数学系概率统计教研组编 .回归分析及其试验设计 M .上 海教 育出版社, 1978. 3沈其君主编 .SAS 统计分析 M .东南大学出版社 . 4 SAS DOC INSIGHT. http:/rss.acs.unt.edu/sasdoc/insight. 5 SAS 6.12 教程 . http:/ 作者 简介 : 张宇山 ( 1975.5), 男 , 汉族 , 广东兴宁人 , 广东 商学院数学与 计 算科学学院讲师 , 硕士 , 主要从事应用数学和数理统计的研究 。 责任编辑 : 韩铭 图 2 模型 ( 2) 的残差图 至于模型的回归 诊断,以下为残差的 Q-Q图 。 图中的 “
20、” 号表示 标准正态 u 值的参 考直线, “* ”号表示实际 残差数据点,如果残差服从 正态分布 ,则观测值数据 “* ”构成的直线 与参考直线基本 重合。 在图 中,残差值与参考直线基本重合所以可以认为误差服从正态分布。 图 3 模型 ( 2) 的残差的 Q-Q 图 ( 上接第 97 页 )找到了这种幻觉 。 超越性、有无店铺经营 。 大学生在找工作 时要特别注意 : 1 ) 通过正规的招聘 单位寻找 工 随着社会 、 经济的发展 , 新形势下的大学 生安全问题也 出现了一 作。 各 高校与教育 行政部门所安排 的就业招聘需 要严格审查单位 资 质,可靠性比较高。 2)通过其他途径找到的工
21、作要严格审查公司 的资 质与信用,包括从网上、营业地的工商部门查询,要求对方出示 营业执 照和组织机构代码证书、开户许可证书、税务登记证书和代理授权 书。 3 ) “朋友不言商 ”,传销多通过同学、朋友等熟人进行,不要因朋 友感情 害了自己。 4 )仔细弄清直销与传销的区别:有无入门费、有无依托优质 产品、产品是否在市场上销售、有无退货保障制度、销售人员结 构有无 些新的特征。 我 们一方面要从 现实之中多 加观 察,提高警惕 性、警觉 性,对于大学生的安全教育工作严抓不懈,做到 “ 防患于未燃 ”;另一个 方面又要能很好 的处理突发事 故,一旦发生, 学校与学生都 能沉着应 对,采取相应的策略。 科 责任编辑 : 田瑞鑫 56