《第九章 回归分析-一元线性回归.ppt》由会员分享,可在线阅读,更多相关《第九章 回归分析-一元线性回归.ppt(78页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、统计软件包统计软件包SAS系统与统计分析系统与统计分析第九章第九章 回归分析与回归分析与REG过程过程9.1、线性回归分析方法简介、线性回归分析方法简介一、回归分析的含义及其所要解决的问题一、回归分析的含义及其所要解决的问题(1)构建因变量与自变量之间的回归模型,并依据)构建因变量与自变量之间的回归模型,并依据样本观测值对模型中的参数进行估计,给出回归样本观测值对模型中的参数进行估计,给出回归方程。方程。(2)对回归方程中的参数和方程本身进行显著性检)对回归方程中的参数和方程本身进行显著性检验。验。(3)评价自变量对因变量的贡献。)评价自变量对因变量的贡献。(4)利用回归方程对因变量进行预测,
2、对自变量进)利用回归方程对因变量进行预测,对自变量进行控制。行控制。二、线性回归模型及其假设条件二、线性回归模型及其假设条件一元线性回归模型一元线性回归模型多元线性回归模型多元线性回归模型矩阵形式矩阵形式 模型一般假定模型一般假定三、三、线性回归模型的参数估计线性回归模型最小二乘估计量(OLS)为:对一元线性回归模型其中四、回归模型诊断四、回归模型诊断1假设检验假设检验1、方差拟合优度好。多元的情况下,通常对R2进行调整2、自变量与因变量之间的线性关系的F检验则自变量和因变量只有有显著的线性关系,否则,不显著。3、回归参数的显著性检验检验统计量1、残差分析残差分析五、回归模型诊断五、回归模型诊
3、断2根据模型假定,误差项的估计量,即残差根据模型假定,误差项的估计量,即残差若模型拟合较好,则标准化残差图中应有若模型拟合较好,则标准化残差图中应有95%的点在的点在2、方差齐性的统计检验及其处理、方差齐性的统计检验及其处理步骤:步骤:若回归系数与若回归系数与0有显著差异,则误差项存在异方差性,否则,有显著差异,则误差项存在异方差性,否则,接受同方差性假定。接受同方差性假定。1、格莱泽(、格莱泽(Glejser)检验)检验2、斯皮尔曼(斯皮尔曼(Spearman)等级相关检验)等级相关检验步骤:步骤:3、存在异方差时的处理方法、存在异方差时的处理方法二是对数据进行变换,使变换后的数据具有同方差
4、性。二是对数据进行变换,使变换后的数据具有同方差性。一是在误差项方差已知的情况下,进行加权最小二乘。一是在误差项方差已知的情况下,进行加权最小二乘。二是对数据进行变换,使变换后的数据具有同方差性。二是对数据进行变换,使变换后的数据具有同方差性。六、回归预测六、回归预测假定由10家armand比萨饼餐馆组成一个样本,变量分别为餐馆,学生样本大小(千人),季度销售额(千美元),例如:餐馆1,学生数为2,销售额为58,表明这家餐馆位于有2000名学生的校园附近,每个季度的销售额为58000美元。为了了解学生数与餐馆的销售额是否有线性关系,我们做下面的回归。data armand;input rest
5、aurant populationsales;cards;1258261053888481185121176161377201578201699221491026202;proc gplot;plot sales*population;run;proc reg graphics;model sales=population;run;REG过程的主要功能过程的主要功能可以对任意多个自变量建立线性回归模型可以对任意多个自变量建立线性回归模型多种选元的方法多种选元的方法可以对变量之间进行各种形式的假设检验可以对变量之间进行各种形式的假设检验可以对输入数据或由回归分析产生的统计量绘图可以对输入数据或由
6、回归分析产生的统计量绘图可以根据输出参数的估计值及因变量的预测值、可以根据输出参数的估计值及因变量的预测值、置信限等各种常用的统计量置信限等各种常用的统计量提供了回归诊断模型的一些常用的方法提供了回归诊断模型的一些常用的方法当自变量间存在多重共线性时,当自变量间存在多重共线性时,REG过程还提供过程还提供了岭回归方法了岭回归方法REG(回归分析)过程简介(回归分析)过程简介REG过程的一般格式过程的一般格式PROC REG ;MODEL dependent=indendents;BY variable;FREQ variable;WEIGHT variable;ID variable;VAR
7、variables;ADD variables;DELETE variables;OUTPUT OUT=sas-data-set keyword=names;PLOT;TEST eqution;(一)PROC REG语句:语句:一般格式:PROC REG;REG过程常用语句说明:过程常用语句说明:常用选项有以下两类:关于数据集选项关于数据集选项:(1)DATA=data-set;(2)COVOUT:将参数估计的协方差阵输出到由 OUTTEST=DATA-SET规定的数据集中;(3)OUTEST=DATA-SET:把参数估计量和一些常用的统计量输出到指定的SAS数据集中。关于输出选项:关于输出选
8、项:(1)ALL:要求打印MODEL语句和VAR语句中规定变量的简单统计量和相关矩阵;(2)CORR:要求打印MODEL语句和VAR语句中规定变量的相关矩阵;(3)NOPRINT:不打印输出。(二)(二)MODEL语句语句一般格式为:一般格式为:MODEL dependents=independents;规定线性回归模型的形式,左边为因变量,右边为自变量。规定线性回归模型的形式,左边为因变量,右边为自变量。模型选择选项模型选择选项(1)SELECTION=name;(stepwise,forward,Bakward,maxr,minr,requare,cp,none):规定自变量选择的方法;(
9、2)NOINT:取消模型中的常数项;(3)SLENTRY|SLE=value:为为forward(缺省(缺省0.5)和和stepwise(缺省缺省0.15)选元方法规定选元方法规定变量被选入模型的显著性水平;变量被选入模型的显著性水平;(4)SLSTAY|SLS=value:为为backward(缺省(缺省0.1)和和stepwise(缺省缺省0.15)选元方法规选元方法规定变量保留在模型的显著性水平;定变量保留在模型的显著性水平;关于估计细节的选项关于估计细节的选项(1)COLLIN:给出自变量间多重共线性的诊断统计量;(2)COVB:输出参数估计量的协方差阵的估计量;(3)STB:输出标准
10、回归系数;(4)TOL:输出自变量的容许值,即1R2;(5)VIF:输出方差膨胀因子。关于预测值和残差值的选项:关于预测值和残差值的选项:(1)CLI:输出个别值的95置信限;(2)CLM:输出因变量均值的95置信限;(3)DW:计算D-W统计量(对时间序列数据);(4)INFLUENCE:输出每个观测对预测值影响的 详细资料;(5)P:计算因变量的预测值;(6)R:进行残差分析。BY语句,FREQ语句,WEIGHT语句,ID语句,VAR语句ADD语句,DELETE语句对已有模型增加或删除变量,并重新拟合模型。且要增加的变量需通过VAR语句予以说明。OUTPUT语句语句一般格式:一般格式:OU
11、TPUT keyword=names;创建包括所有输入变量,由创建包括所有输入变量,由Keyword=names命名的统计量命名的统计量得新数据集。得新数据集。常见统计量:常见统计量:(1)P=name:预测值;预测值;(2)L95(U95)=name:因变量单个值的:因变量单个值的95预测下限(上预测下限(上限);限);(3)L95M(U95M)=name:因变量均值的:因变量均值的95预测下限预测下限(上限);(上限);(4)Rname:残差;:残差;等等等等.PLOT语句语句 一般格式:一般格式:PLOT ;要求对给定变量绘制散点图、连线图等要求对给定变量绘制散点图、连线图等 TEST语
12、句语句 一般格式:一般格式:TEST equation;对对MODEL语句出现的参数进行假设检验。语句出现的参数进行假设检验。REG过程在一元线性回归分析中的应用过程在一元线性回归分析中的应用参见书P325关于一元线性回归模型的的通常假定。一元线性回归模型通常要解决的问题:(1)拟合回归方程,即通过OLS进行参数估计;(2)对拟合的回归方程进行诊断;(3)诊断发现拟合不充分或误差项不满足经典假设时,对数据进行处理后再拟合;(4)进行预测或控制。家庭12345678910 11 12保险额324050 202235 55 45 28 22 24 30收入141923 12915 22 25 15
13、 10 12 16例例1:某保险公司打算对收入在25000元及其以下的家庭考察其收入与户主生命保险额之间的关系。随机抽取了12个家庭进行调查,结果如下表:(1)以收入为自变量,保险额为因变量,确定线性回归方程,并计算 ;(2)对回归方程的拟合情况进行诊断;(3)在收入为20000元的家庭中,平均每个户主的保险额和某一个户主保险额的预测值各是多少?(显著水平为0.05)data insuranc;input insurce income;cards;32 14 40 19 50 23 20 12 22 9 35 15 55 22 45 25 28 15 22 10 24 12 30 16.20
14、;proc gplot;plot insurce*income;run;由散点图可知两变量有明显的线性关系,故可构建一元线性回归模型。proc reg;model insurce=income;run;方差分析表中F值=57.99,对应概率P0.05,说明与0没有显著差异。变量income的系数估计值为2.06711,T值对应的概率p0.0001,说明在0.05的显著性水平下显著不为0.故需要拟合一个没有截距项的回归模型。proc reg;model insurce=income/noint r clm cli;plot student.*p.;run;model insurce=income
15、/noint r clm cli;plot student.*p.;Noint:拟合不带截距项的线性回归模型 r:输出每个观测的预测值、残差、标准化残差、COOK的D统计量 clm:输出平均保险额的预测值的95%的置信上下限Cli:输出个别户主保险额的95%的置信上下限 plot student.*p.;要求绘制标准化残差与预测值的残差图模型一:Root MSE:4.68588 R-square:0.8529 调整的R-Sq:0.8382模型二:Root MSE:4.47061 R-square:0.9854 调整的R-Sq:0.9840比较可知,模型二显然优于模型一Income的回归系数估计
16、值为2.09614,T值对应的概率P2)和COOK的D统计量(0.5)可以看出第7,8个观测为强影响点.对强影响点一遍剔除,重新拟合。残差图显示各点基本随机分布,没有明显趋势,即误差项不存在异方差和自相关,且其值基本分布在-2和+2之间,故正态性也满足。因此,进一步说明用不含截距项的回归模型拟合是合适的。因此,进一步说明用不含截距项的回归模型拟合是合适的。一元线性回归模型的诊断一元线性回归模型的诊断异常点的判断与处理:异常点的判断与处理:(1)H杠杆率;表示第杠杆率;表示第i个观测在模型中的影响程度,值越大,个观测在模型中的影响程度,值越大,影响程度越大;影响程度越大;(2)COOKD:库克距
17、离统计量,当:库克距离统计量,当cookd0.5时认为为强时认为为强影响点;影响点;(3)DFFITSname:第:第i个观测对预测的影响程度,大于个观测对预测的影响程度,大于2时怀疑为强影响点;时怀疑为强影响点;(4)残差图:标准化残差绝对值大于)残差图:标准化残差绝对值大于2疑为强影响点。疑为强影响点。异方差性的判断及处理异方差性的判断及处理(1)残差图;(2)格来泽检验(Glejser)检验:步骤:1)进行OLS估计,得到误差项的估计值(3)斯皮尔曼(Spearman)等级相关检验检验步骤:存在异方差性时模型处理方法存在异方差性时模型处理方法加权最小二乘法:加权最小二乘法:对数据进行变换
18、:对数据进行变换:常用因变量变换方法投标金额(百万)2.13 1.21 11.0 6.0 5.6 6.91 2.97 3.35 10.39 1.1 4.36 8.0准备费用(千元)15.5 11.1 62.6 35.4 24.9 28.1 15.0 23.0 42.0 10.0 20.0 47.5例例2:某建筑公司欲用回归分析方法研究其建筑投标金额X与其投标准备费用Y之间的关系。为此收集了12次投标过程中投标金额与投标费用的有关数据。试根据以上数据建立投标金额X与投标准备费用Y之间的线性回归方程。data invest;input toubiao expend;cards;2.13 15.5
19、1.21 11.1 11.0 62.6 6.0 35.4 5.6 24.96.91 28.1 2.97 15.0 3.35 23.0 10.39 42.0 1.1 10.04.36 20.0 8.0 47.5;proc gplot;plot expend*toubiao;run;散点图显示有明显线性关系散点图显示有明显线性关系残差图显示存在较明显的异方差性。残差图显示存在较明显的异方差性。变量变量toubiao和和expend之间的散点图之间的散点图从散点图显示两变量有明显线性关系从散点图显示两变量有明显线性关系进行回归分析,对回归结果进行诊断,并绘制残差图进行回归分析,对回归结果进行诊断,并
20、绘制残差图Proc reg graphics;Model expend=toubiao/r;Output out=result r=residual;Plot student.*p.;run;投标金额对投标费用的回归结果投标金额对投标费用的回归结果统计量统计量F值值=73.42,对应,对应P值值0.0001,故两变量间线性关,故两变量间线性关系显著。系显著。回归系数中截距项和回归系数中截距项和0没有显著差异,故模型需改进。没有显著差异,故模型需改进。R-Square=0.8801,说明拟合良好,说明拟合良好标准化残差图显示,误差项存在明显的异方差性。标准化残差图显示,误差项存在明显的异方差性。
21、进一步用进一步用SPEARMAN等级相关检验来检验异方差性等级相关检验来检验异方差性data result1;set result;absr=abs(residual);toubsq=toubiao*toubiao;rsq=residual*residual;run;proc corr data=result1 spearman;var absr toubiao;data result2;n=12;rs=0.97902;T=rs*sqrt(n-2)/sqrt(1-rs*rs);/*检验的T统计量*/t1=tinv(0.975,n-2);/*临界值*/proc print noobs;run;计
22、算残差项绝对值和自变量间的计算残差项绝对值和自变量间的Spearman等级相关系数,等级相关系数,构造统计量构造统计量T检验残差和自变量间是否相关,进而检验是否检验残差和自变量间是否相关,进而检验是否存在异方差性。存在异方差性。残差项绝对值和自变量间的残差项绝对值和自变量间的Spearman等级相关系数为等级相关系数为0.97902,显著性概率,显著性概率0.0001,故存在显著线性关系。,故存在显著线性关系。统计量统计量T值值=15.1937,大于,大于0.05显著水平的的临界值显著水平的的临界值2.22814,因此,可知误差项存在异方差性,因此,可知误差项存在异方差性。proc reg d
23、ata=result1;model rsq=toubsq/noint;利用格莱泽方法对方程利用格莱泽方法对方程作为权重进行加权最小二乘法进行模型参数估计。作为权重进行加权最小二乘法进行模型参数估计。方程拟合结果:方程拟合结果:rsq=0.72604*toubsqdata result3;set result1;wi=1/(0.726040*toubsq);run;proc reg data=result3 graphics;model expend=toubiao/r;weight wi;plot student.*p.;run;利用上述结果进行加权最小二乘法进行模型参数估计。利用上述结果进行
24、加权最小二乘法进行模型参数估计。回归方程回归方程expend=5.65855+4.18503*toubiaoF检验显示回归方程显著,回归系数的检验显示回归方程显著,回归系数的T检验也表明回归系数都检验也表明回归系数都显著。显著。R-Square和和Adj R-Sq表明方程拟合非常充分。表明方程拟合非常充分。标准化残差图不存在异方差性和强影响点,另外标准化残差图不存在异方差性和强影响点,另外COOK的的D统计统计量也进一步证明不存在强影响点。量也进一步证明不存在强影响点。几个常用的函数形式的回归模型几个常用的函数形式的回归模型 在实际中,除了变量之间具有线性关系的线性模型在实际中,除了变量之间具
25、有线性关系的线性模型外,还常遇到函数关系。但这类模型虽然变量之间的外,还常遇到函数关系。但这类模型虽然变量之间的关系是非线性的,但通过关系是非线性的,但通过某种数据变换可以化为参数某种数据变换可以化为参数为线性的模型:为线性的模型:用于测度弹性的指数模型用于测度弹性的指数模型用于测度增长率的幂函数模型用于测度增长率的幂函数模型双曲线模型双曲线模型拟合的一般步骤:拟合的一般步骤:1、根据有关理论或变量之间的散点图给出回归模型根据有关理论或变量之间的散点图给出回归模型2、根据模型本身的特点对模型或数据进行变量变换,使变、根据模型本身的特点对模型或数据进行变量变换,使变换后的模型或数据具有线性回归模
26、型形式换后的模型或数据具有线性回归模型形式3、对变换后的线性模型进行拟合,并进行回归诊断、对变换后的线性模型进行拟合,并进行回归诊断4、对诊断符要求的模型用原变量写出回归模型,并用于预、对诊断符要求的模型用原变量写出回归模型,并用于预测和控制测和控制模型的一般形式:对上述模型两边同时取对数,有一、幂函数模型一、幂函数模型则变换后模型为也称为双对数线性模型也称为双对数线性模型模型的一般形式:对上述模型两边同时取对数,有二、指数模型二、指数模型则变换后模型为也称为半对数线性模型也称为半对数线性模型常用于人口增长、产值或利润增长、劳动生产率以及就业等问题中。模型的一般形式:三、双曲线模型三、双曲线模
27、型则变换后模型为也称为倒数模型也称为倒数模型常用于考察产量与平均固定成本、失业率与 通货膨胀率之间的关系。data train;input day score;scoreln=log(score);cards;1 45 1 40 2 50 2 60 3 65381 4 90 4 100 5 140 5 148;例例3、某商业公司欲研究对推销员进行职业培训的天数与某商业公司欲研究对推销员进行职业培训的天数与其业务表现评分之间的关系,收集了其业务表现评分之间的关系,收集了10个推销员的有关个推销员的有关数据,试分析两者之间的关系,并确定回归模型。数据,试分析两者之间的关系,并确定回归模型。(1)画
28、出两变量的散点图)画出两变量的散点图proc gplot;plot score*day;symbol v=star;run;业务表现评分与培训天数的散点图业务表现评分与培训天数的散点图散点图可认为两变量间可能为线性,也可能为非线性函数关系散点图可认为两变量间可能为线性,也可能为非线性函数关系proc reg graphics;model score=day/r;plot r.*day;run;(2)对两变量按线性关系进行回归,并画出残差图)对两变量按线性关系进行回归,并画出残差图回归方程显著,回归方程显著,R-square=0.9057也较大,拟合比较充分也较大,拟合比较充分day的回归系数显
29、著不为的回归系数显著不为0,但截距项和零没有显著差异,与实际,但截距项和零没有显著差异,与实际不符,因为即使不参加培训,业务表现也不应该为不符,因为即使不参加培训,业务表现也不应该为0。业务表现评分与培训天数线性回归结果业务表现评分与培训天数线性回归结果残差图成曲线形式,表明残差图成曲线形式,表明score和和day之间可能存在曲线而非直线关系。之间可能存在曲线而非直线关系。线性关系下的残差图线性关系下的残差图(3)对两变量按指数函数关系进行回归,并画出残)对两变量按指数函数关系进行回归,并画出残差图差图由由score和和day之间的散点图可假定模型形式为指数之间的散点图可假定模型形式为指数函
30、数,即函数,即proc reg graphics;model scoreln=day/r;plot r.*day;run;回归方程显著,截距项和回归方程显著,截距项和day的回归系数都显著不为的回归系数都显著不为0。且且 R-Square=0.9610大于第一个模型大于第一个模型R-Square=0.9057Root MSE=0.09537也远小于第一个模型也远小于第一个模型12.39506业务表现评分与培训天数指数函数关系下回归结果业务表现评分与培训天数指数函数关系下回归结果残差图也表明符合线性回归模型的基本假设。故用指数函数来拟合模型比较合适,方程为:即指数函数关系下的残差图指数函数关系下
31、的残差图例例4、下面来研究一下下面来研究一下1950年到年到1966年年17年间,年间,英国工资率的每年变化百分比和失业率之间统计英国工资率的每年变化百分比和失业率之间统计数据,试确定两者之间的关系数据,试确定两者之间的关系。菲利普斯曲线:描述工资变化率或物价变动率与失业率之菲利普斯曲线:描述工资变化率或物价变动率与失业率之间的关系,具有双曲线所具有的性质间的关系,具有双曲线所具有的性质本例课假设所需拟合模型为:本例课假设所需拟合模型为:data philips;input inflat nojob;dnojob=1/nojob;cards;1.4 1.8 1.1 8.5 1.5 8.4 1.
32、5 4.5 1.2 4.3 1.0 6.91.1 8.0 1.3 5.0 1.8 3.6 1.9 2.6 1.5 2.6 1.4 4.21.8 3.6 2.1 3.7 1.5 4.8 1.3 4.3 1.4 4.6;proc gplot;plot inflat*nojob;runproc reg graphics;model inflat=dnojob/r dwprob;plot r.*dnojob=*;run;Dwprob 要求计算DW值散点图也表明两变量间具有双曲线的关系proc gplot;plot inflat*nojob;run;工资变化率与失业率倒数线性回归结果工资变化率与失业率倒
33、数线性回归结果F值值=3.35,对应的概率,对应的概率0.0873,在,在0.05的显著性水平下应接受的显著性水平下应接受原假设:变量间不存在线性关系。原假设:变量间不存在线性关系。Durbin-Watson D=1.060 说明误差项存在正相关标准化残差中第标准化残差中第1和第和第14个观测的值分别为个观测的值分别为-2.155和和2.265,且,且Cook-D统计量值也比较大,可判断这两个值可能为异常点。统计量值也比较大,可判断这两个值可能为异常点。残差图残差图残差图也显示有两个点在直线残差图也显示有两个点在直线+2和和-2之外,且残差之间表现出之外,且残差之间表现出明显的自相关性。明显的
34、自相关性。剔除两个异常点后重新拟合模型剔除两个异常点后重新拟合模型剔除异常点后工资变化率与失业率倒数线性回归结果剔除异常点后工资变化率与失业率倒数线性回归结果F值值=12.81,对应的概率,对应的概率0.0034,在,在0.05的显著性水平下认为的显著性水平下认为变量间存在线性关系。变量间存在线性关系。且参数显著性检验结果显示常数项和且参数显著性检验结果显示常数项和dnojob的系数都显著不为的系数都显著不为0.R-square=0.4963 Root MSE=0.19724也比剔除前的也比剔除前的0.1824和和0.28028有明显的改善。有明显的改善。标准化残差都在标准化残差都在-2和和2
35、之间,且之间,且Cook-D统计量值除了第统计量值除了第10个观测个观测0.735稍大外,其它都小于稍大外,其它都小于0.5.说明剔除异常点后拟合较好,最终可建立回归方程:说明剔除异常点后拟合较好,最终可建立回归方程:下面是10个主要啤酒品牌的广告费用(百万美元)和销售量(百万桶)的数据:BrandMedia Expenditures($M)Shipments in bbls.(M)Budweiser12036.3Bud Light68.720.7Miller Lite100.115.9Coors Light76.613.2Busch8.78.1Natural Light0.17.1Mille
36、r Genuine Draft21.55.6Miller High Lite1.44.4Busch Light5.34.3Milwaukees Best1.74.3根据这些数据建立估计回归方程应用残差分析来判断是否存在异常值或有影响的观察值,简要概括你的发现和结论data armand;input brand$20.expendsales;cards;Budweiser 12036.3Bud Light 68.7 20.7Miller Lite 100.115.9Coors Light 76.613.2Busch 8.78.1Natural Light 0.17.1Miller Genuine Draft21.55.6Miller High Lite 1.44.4Busch Light 5.34.3Milwaukees Best 1.74.3;proc print;run;proc gplot;plot sales*expend;run;proc reg graphics;model sales=expend/influence;output out=result h=h cookd=cd dffits=df;plot student.*p.;run;proc print data=result noobs;run;