《第四章_回归与相.ppt》由会员分享,可在线阅读,更多相关《第四章_回归与相.ppt(41页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、4 4 多元线性回归与相关分析多元线性回归与相关分析u研究随机变量对多个自变量的回归关系研究随机变量对多个自变量的回归关系u主要目的:利用回归方程对依变量的取值进行估计和预测主要目的:利用回归方程对依变量的取值进行估计和预测2多元回归分析的样本数据 个体个体 依变量依变量 自变量自变量 1 y1 x11 x12 x1p 2 y2 x21 x22 x2p n yn xn1 xn2 xnp 4-1 4-1 多元线性回归分析多元线性回归分析多元线性回归的任务是由上表所示n个观察值估计参数1,2,p,2,作出回归方程是否适合、各个自变量是否重要等统计检验,以确定它能否反映y关于x1,x2,.,xp的数
2、量规律 表表4-4-2 394-4-2 39头头成年水牛成年水牛实测实测体重、体尺数据表体重、体尺数据表编号12345678体重443.5507.5462.5514.0471.5545540.5536胸围194200194211205204215207体长146150150153153153154142体高122.1123.5126.5134.5129.5125.5133.0128.5编号910111213141516体重468550.5492.0583442.5439.5477.5450胸围201199200210194190203194体长153160149160140147148135体
3、高128.7127.5123.5138.6124121129118编号1718192021222324体重466480422413.5471.0414.5410428.5胸围190190185183193188179193体长135138.5140130145133140140体高122124119.5114123.5119119116编号2526272829303132体重468517.5578620481702420491胸围190195.5207.5211203220197194体长155150160150137165142149体高120.5129.5128.5132.5130142.
4、2124122编号33343536373839体重515483505465460404496胸围198200197192185187194体长150135153144154151152体高131.5128124119.5119.5123.0120.00:常数项j:偏回归系数(j=1,2,p)当其他自变量保持不变时,自变量当其他自变量保持不变时,自变量 xj j 每改变每改变1 1个单位所造成的个单位所造成的 y y 的变化量的变化量i:随机误差 各个i彼此独立多元线性回归方程的中心化模型和标准化模型多元线性回归方程的中心化模型和标准化模型4-2 多元线性回归参数的最小二乘估计多元线性回归参数的
5、最小二乘估计设:则:中心化的多元线性回归方程:得一般回归方程:而在点 处的误差为 据最小二乘法原理知,应使最小即:4-2 多元线性回归参数的最小二乘估计多元线性回归参数的最小二乘估计10 b0,b1,b2,,bp 是0,1,2,p的最小二乘估计值,它们满足11或求极值,得:12正规方程组(最小二乘方程组):正规方程组(最小二乘方程组):系数矩阵右手项向量4-3 参数的统计性质参数的统计性质LXX-1为p p维矩阵,其元素为cKJ,即Lxx-1=(ckj)p p,cjj为的主对角线上的元素bj,b0均为最佳线性无偏估计,简称BLUE估计如果y和 均为随机变量,即y为一维正态变量,为P维随机列向量
6、,则y与x间的相关称为复相关,即y与 间的相关 复相关系数记为 ,其估计简记为R U为各x能控制的y的总变异部分,称为x对y变异的决定系数4-4 多元线性回归的统计检验多元线性回归的统计检验多元线性回归方程显著性检验的假设为:2的无偏估计为:在成立之下有:U与Q相互独立且因而在H0成立的前提下,检验统计量为:它可化为复相关系数R的检验:自由度为n-p-1,变量个数为p-14-4-2 4-4-2 偏回偏回归归系数系数b bj j的的检验检验表表4-4-2 394-4-2 39头头成年水牛成年水牛实测实测体重、体尺数据表体重、体尺数据表编号12345678体重443.5507.5462.5514.
7、0471.5545540.5536胸围194200194211205204215207体长146150150153153153154142体高122.1123.5126.5134.5129.5125.5133.0128.5编号910111213141516体重468550.5492.0583442.5439.5477.5450胸围201199200210194190203194体长153160149160140147148135体高128.7127.5123.5138.6124121129118编号1718192021222324体重466480422413.5471.0414.5410428
8、.5胸围190190185183193188179193体长135138.5140130145133140140体高122124119.5114123.5119119116编号2526272829303132体重468517.5578620481702420491胸围190195.5207.5211203220197194体长155150160150137165142149体高120.5129.5128.5132.5130142.2124122编号33343536373839体重515483505465460404496胸围198200197192185187194体长150135153144
9、154151152体高131.5128124119.5119.5123.0120.0变异来源df(自由度)SS(平方和)MS(均方)FFx119410.4418(U1)9410.44189.154*x216553.4201(U2)6553.42016.3746*x311103.0016(U3)1103.00161回归3(p)108128.5546(U)36042.84535.06*剩余35(n-p-1)35981.5546(Q)1028.0444总变异38(n-1)144110.0897(Lyy)表表4-4-3 4-4-3 三元三元线线性回性回归归方程的方差分析方程的方差分析结果表明,回归方程
10、是极显著的;b1,b2达到显著水平;从实际问题出发,可以认为贵阳地区成年水牛的体重与胸围、体斜长和体高间存在着显著的三元线性回归关系然而,主要决定于胸围和体斜长,体高的作用是不显著的,x3在方程中不显著,应该从方程中剔除掉剔除后b1,b2为b1*,b2*:相应地U和Q也要改变为U*和Q*:自由度为:改变后的F值为:新的b0*为:回归方程为:决定系数为:在多元线性回归方程中,如果各自变量都是显著的,则称这个回归方程为最佳回归方程如果回归方程中,有多个自变量不显著,不必要一个一个地剔除,只需采用逐步回归技术,就可得到最佳回归方程选择“最佳子集的变量筛选法包括逐步回归法(Stepwise),向前引入法(Forward)和向后剔除法(Backwad)。5通径分析与偏相关分析通径分析与偏相关分析通径分析实质上是标准化的多元线性回归分析5-2偏相关分析偏相关分析