《第12章线性回归分析精选文档.ppt》由会员分享,可在线阅读,更多相关《第12章线性回归分析精选文档.ppt(70页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第第12章线性回归分章线性回归分析析本讲稿第一页,共七十页主要内容主要内容1 一元线性回归的基本思路和步骤一元线性回归的基本思路和步骤2 多元线性回归多元线性回归3 SPSS的线性回归操作的线性回归操作本讲稿第二页,共七十页第一节第一节 一元线性回归一元线性回归本讲稿第三页,共七十页本讲稿第四页,共七十页什么是回归分析?什么是回归分析?(Regression)n从样本数据出发,确定变量的数学关系式数学关系式;n对关系式的可信程度进行统计检验,找到影响某一特定变量显著因素显著因素;n根据变量的取值来预预测测或或控控制制另一个特定变量的取值,并给出这种预测或控制的精确程度;本讲稿第五页,共七十页回
2、归分析的一般步骤回归分析的一般步骤重点内容重点内容本讲稿第六页,共七十页本讲稿第七页,共七十页一元线性回归一元线性回归n涉及一个自变量的回归;n因变量y与自变量x之间为线性关系;因因变变量量(dependent variable):被预测或被解释的变量,用y表示。自自变变量量(independent variable):预测或解释因变量的一个或多个变量,用x表示。n因变量与自变量之间的关系用一条线性方程来表示;本讲稿第八页,共七十页一元回归的例子一元回归的例子n n人均收入人均收入是否会显著影响人均食品消费支人均食品消费支出出;n n贷款余额贷款余额是否会影响到不良贷款不良贷款;n n航班正点
3、率航班正点率是否对顾客投诉次数顾客投诉次数有显著影响;n n广告费用支出广告费用支出是否对销售额销售额有显著影响;本讲稿第九页,共七十页本讲稿第十页,共七十页一元线性回归模型一元线性回归模型n描述因变量 y 如何依赖于自变量 x 和误差项 的方程称为回归模型回归模型n一元线性回归模型:y=0 0+1 1 x+e ey 是 x 的线性函数(部分)加上误差项线性部分反映了由于 x 的变化引起的 y 的变化误差项 是随机变量l反映了除 x 和 y 之间线性关系之外的随机因素对 y 的影响l是不能由 x 和 y 之间的线性关系所解释的变异性 0 0 和和和和 1 1 称为模型的参数称为模型的参数称为模
4、型的参数称为模型的参数本讲稿第十一页,共七十页一元线性回归模型一元线性回归模型(基本假定基本假定)n误差项是期望值为0的随机变量,即E()=0。n对于一个给定的 x 值,y 的期望值为 E(y)=0+1 xn对于所有的 x 值,的方差2 都相同n误差项协方差等于零,即i和j相互独立(ij);n误差项是服从正态分布的随机变量,且相互独立。即N(0,2)本讲稿第十二页,共七十页回归方程回归方程(regression equation)n n描描述述述述 y 的的平平均均值值或或期期望望值值如何依赖于 x 的方程称为回归方程;回归方程;n一元线性回归方程的形式如下:E(y)=0+1 xn方程表示一条
5、直线,也称为直线回归方程;n n 0 0是回归直线在是回归直线在是回归直线在是回归直线在 y y 轴上的截距轴上的截距轴上的截距轴上的截距,是当 x=0 时 y 的期望值;n n 1 1是是是是直直直直线线线线的的的的斜斜斜斜率率率率,称称称称为为为为回回回回归归归归系系系系数数数数,表表表表示示示示当当当当 x x 每每每每变变变变动动动动一一一一个个个个单单单单位位位位时,时,时,时,y y 的平均变动值的平均变动值的平均变动值的平均变动值;本讲稿第十三页,共七十页估计的回归方程估计的回归方程(estimated regression equation)n一元线性回归中估计的回归方程为:n
6、用样本统计量 和 代替回归方程中的未知参数 和 ,就得到了估计的回归方程;估计的回归方程;n总体回归参数 和 是未知的,必须利用样本数据去估计;其中:是估计的回归直线在 y 轴上的截距,是直线的斜率,它表示对于一个给定的 x 的值,是 y 的估计值,也表示 x 每变动一个单位时,y 的平均变动值。本讲稿第十四页,共七十页普通最小二乘法估计普通最小二乘法估计(OLS:Ordinary Least Square)n使因变量的观察值与估计值之间的离差平方和达到最小来求得 和 的方法。即n用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小本讲稿第十五页,共七十页最小二乘估计
7、最小二乘估计(图示图示)xy(x xn n,y yn n)(x x1 1,y y1 1)(x x2 2,y y2 2)(x xi i,y yi i)e ei i=y yi i-y yi i本讲稿第十六页,共七十页最小二乘法最小二乘法(和和 的计算公式的计算公式)根据最小二乘法的要求,可得求解 和 的公式如下本讲稿第十七页,共七十页本讲稿第十八页,共七十页一元回归方程一元回归方程统计检验的主要内容统计检验的主要内容本讲稿第十九页,共七十页本讲稿第二十页,共七十页变差变差n因变量 y 取值的波动称为变差n变差来源于两个方面:由于自变量 x 的取值不同造成;除 x 以外的其他因素(如测量误差等)的影
8、响;n对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差 来表示。本讲稿第二十一页,共七十页变差的分解变差的分解(图示图示)xyy y 本讲稿第二十二页,共七十页离差平方和的分解离差平方和的分解(三个平方和的意义三个平方和的意义)n总平方和总平方和(SST)反映因变量的 n 个观察值与其均值的总离差总离差总离差总离差;n回归平方和回归平方和(SSR)反映自变量 x 的变化对因变量 y 取值变化的影响,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和;可解释的平方和;可解释的平方和;可解释的平方和;n残差平方和残差平方和(SSE)反映除 x 以外的其
9、他因素对 y 取值的影响,也称为不不不不可解释的平方和或剩余平方和可解释的平方和或剩余平方和可解释的平方和或剩余平方和可解释的平方和或剩余平方和;本讲稿第二十三页,共七十页离差平方和的分解离差平方和的分解(三个平方和的关系三个平方和的关系)SST=SSR+SSE总平方和总平方和总平方和总平方和(SSTSST)回归平方和回归平方和回归平方和回归平方和(SSRSSR)残差平方和残差平方和残差平方和残差平方和(SSESSE)本讲稿第二十四页,共七十页判定系数判定系数R2 (coefficient of determination)n n回归平方和回归平方和占总离差平方和的比例n n反映回归方程的拟合
10、程度;反映回归方程的拟合程度;n n取值范围在取值范围在 0,1 0,1 之间;之间;n n R2 1,说明回归方程拟合的越好;,说明回归方程拟合的越好;R R20 0,说明回归方程拟合的越差;n n一元线性回归中,判定一元线性回归中,判定系数等于系数等于y y和和x相关系数的平相关系数的平方,即方,即R2(r r)2;本讲稿第二十五页,共七十页本讲稿第二十六页,共七十页线性关系的检验线性关系的检验n检验所所有有自自变变量量与因变量之间的线性关系是否显著;n将均方回归(MSR)同均方残差(MSE)加以比较,应用F检验来分析二者之间的差别是否显著;均方回归:回归平方和SSR除以相应的自由度(自变
11、量的个数K);均方残差:残差平方和SSE除以相应的自由度(n-k-1)。本讲稿第二十七页,共七十页线性关系的检验线性关系的检验(检验的步骤检验的步骤)n提出假设H0:1=0 所有回归系数与零无显著差异,y与全体x的线性关系不显著n n计算检验统计量F Fn n确定确定显著性水平显著性水平,并根据分子自由度,并根据分子自由度1 1和分母自由度n n-2找出找出临界值临界值F n n作出决策:若出决策:若F FF,拒绝拒绝H H0 0;若若F F t t,拒绝,拒绝H H0 0;t t F,拒绝H0本讲稿第四十三页,共七十页本讲稿第四十四页,共七十页回归系数的检验回归系数的检验(步骤步骤)n提出假
12、设H0:i=0 (自变量 xi 与 因变量 y 没有线性关系)H1:i 0 (自变量 xi 与 因变量 y有线性关系)n计算检验的统计量 tn 确定显著性水平,并进行决策 tt,拒绝H0;tt,不能拒绝H0本讲稿第四十五页,共七十页多元回归分析中的其他问题多元回归分析中的其他问题本讲稿第四十六页,共七十页多重共线性多重共线性(multicollinearity)n回归模型中两个或两个以上的自变量彼此相关的现象。n多重共线性带来的问题有 回归系数估计值的不稳定性增强;回归系数假设检验的结果不显著等。n多重共线性检验的主要方法容忍度方差膨胀因子(VIF)本讲稿第四十七页,共七十页容忍度容忍度n容忍
13、度nRi是解释变量xi与方程中其他解释变量间的复相关系数;n容忍度在01之间,越接近于0,表示多重共线性越强,越接近于1,表示多重共线性越弱。本讲稿第四十八页,共七十页方差膨胀因子方差膨胀因子n方差膨胀因子是容忍度的倒数nVIFi越大,特别是大于等于10,说明解释变量xi与方程中其他解释变量之间有严重的多重共线性;nVIFi越接近1,表明解释变量xi和其他解释变量之间的多重共线性越弱。本讲稿第四十九页,共七十页变量的筛选问题变量的筛选问题n回归方程中到底引入多少解释变量xn变量的筛选策略向前筛选策略(Forward);向后筛选策略(Backward);逐步筛选策略(逐步筛选策略(Stepwis
14、e)。本讲稿第五十页,共七十页向前筛选策略(向前筛选策略(Forward)n解释变量x不断进入回归方程的过程;n首先,选择与y具有最高线性相关系数的变量进入方程,进行回归方程的各种检验;n然后,在剩余变量中寻找与当前解释变量偏相关系数最高且通过检验的变量进入方程;n该过程一直重复,直到用尽所有的自变量。本讲稿第五十一页,共七十页向后筛选策略(向后筛选策略(Backward)n变量不断剔除出回归方程的过程;n首先,所有自变量全部引入回归方程,对回归方程进行检验;n然后,在回归系数显著性不高的变量中,剔除t检验值最小的自变量,重新检验新的回归方程;n如果新建回归方程中所有变量的回归系数检验都显著,
15、则回归方程建立结束。n否则重复第二步,直到再没有可剔除的变量。本讲稿第五十二页,共七十页逐步筛选策略(逐步筛选策略(Stepwise)n也叫逐步回归n在向前筛选策略的基础上,结合向后筛选策略,在每个变量进入方程后再次判断是否存在应该剔除出方程的变量。本讲稿第五十三页,共七十页第三节第三节 SPSS的线性回归操作的线性回归操作本讲稿第五十四页,共七十页一元回归:自变量强行一元回归:自变量强行进入的回归进入的回归n使用SPSS的“Analyze Regression linear”模块分析n数据文件:例11.6.sav本讲稿第五十五页,共七十页研究假设:各项贷款研究假设:各项贷款余额余额x是影响不
16、良贷是影响不良贷款款y的关键因素的关键因素 因变量因变量被解释变量被解释变量Y自变量自变量解释变量解释变量X解释变量的筛选策略解释变量的筛选策略Enter 所选变量强行进入所选变量强行进入回归方程;回归方程;Stepwise逐步回归策略;逐步回归策略;Remove从回归方程中从回归方程中剔除所选变量;剔除所选变量;Backward向后筛选策略;向后筛选策略;Forward向前筛选策略;向前筛选策略;输出回归系数、回归系数输出回归系数、回归系数标准误差、标准化回归系数、标准误差、标准化回归系数、回归系数显著性检验回归系数显著性检验一元回归的拟合优度一元回归的拟合优度R2本讲稿第五十六页,共七十页
17、一元回归只需要一元回归只需要看此项即可看此项即可拟合优度为拟合优度为0.712,模型的总体拟合,模型的总体拟合情况较好情况较好本讲稿第五十七页,共七十页SSTSSESSRSig值小于显著性水平,拒绝回归方程显著性值小于显著性水平,拒绝回归方程显著性检验的零假设,认为各回归系数不同时为零。检验的零假设,认为各回归系数不同时为零。本讲稿第五十八页,共七十页非标准化的回归系数非标准化的回归系数回归系数的标准误差回归系数的标准误差本讲稿第五十九页,共七十页标准化回归系数标准化回归系数本讲稿第六十页,共七十页解释变量解释变量“各项贷款余额各项贷款余额”的的sig值小于显著性水平值小于显著性水平a,表明该
18、解释变量的回归系数与零有显著差异;表明该解释变量的回归系数与零有显著差异;非标准化回归方程:标准化回归方程:本讲稿第六十一页,共七十页多元回归:自变量强行多元回归:自变量强行进入的回归进入的回归n使用SPSS的“Analyze Regression linear”模块分析n数据文件:例11.6.sav本讲稿第六十二页,共七十页各项贷款余额各项贷款余额各项贷款余额各项贷款余额x1x1x1x1、累积应收贷款、累积应收贷款、累积应收贷款、累积应收贷款x2x2x2x2、贷款项目数量、贷款项目数量、贷款项目数量、贷款项目数量x3x3x3x3、固定资产、固定资产、固定资产、固定资产投资额投资额投资额投资额
19、x4x4x4x4是影响不良贷款是影响不良贷款是影响不良贷款是影响不良贷款y y y y的关的关的关的关键因素。键因素。键因素。键因素。多元线性回归模型 多重共线性检验多重共线性检验调整的多重判定系数调整的多重判定系数本讲稿第六十三页,共七十页多元回归的拟合优度检验看这一项,多元回归的拟合优度检验看这一项,调整的多重判定系数为调整的多重判定系数为0.757,模型总体,模型总体拟合较好。拟合较好。本讲稿第六十四页,共七十页Sig值小于显著性水平,拒绝回归方程显著性值小于显著性水平,拒绝回归方程显著性检验的零假设,认为各回归系数不同时为零。检验的零假设,认为各回归系数不同时为零。本讲稿第六十五页,共
20、七十页“各项贷款余额各项贷款余额各项贷款余额各项贷款余额”自变量的自变量的自变量的自变量的ToleranceToleranceToleranceTolerance值为值为值为值为0.1880.1880.1880.188,“贷款项目个数贷款项目个数贷款项目个数贷款项目个数”自自自自变量的变量的变量的变量的ToleranceToleranceToleranceTolerance值为值为值为值为0.2610.2610.2610.261,表明可能存在共线性。,表明可能存在共线性。,表明可能存在共线性。,表明可能存在共线性。回归方法Method选择Stepwise,即“逐步回归”方法 本讲稿第六十六页,
21、共七十页本讲稿第六十七页,共七十页模型模型模型模型b b 调整后的多重判定系数调整后的多重判定系数调整后的多重判定系数调整后的多重判定系数Adjusted R SquareAdjusted R Square为为为为0.7390.739,要,要,要,要优于模型优于模型优于模型优于模型a a,后续表格只分析模型,后续表格只分析模型,后续表格只分析模型,后续表格只分析模型b b的数据即可的数据即可的数据即可的数据即可 本讲稿第六十八页,共七十页模型模型模型模型b b b b的的的的F F F F统计量为统计量为统计量为统计量为35.03435.03435.03435.034,SigSigSigSig
22、为为为为0.0000.0000.0000.000,小于显著性水平,小于显著性水平,小于显著性水平,小于显著性水平0.050.050.050.05,表明拒绝原假设,认为各回归系数不同时为,表明拒绝原假设,认为各回归系数不同时为,表明拒绝原假设,认为各回归系数不同时为,表明拒绝原假设,认为各回归系数不同时为0 0 0 0,说明自变,说明自变,说明自变,说明自变量量量量与因变量之间存在线性关系与因变量之间存在线性关系与因变量之间存在线性关系与因变量之间存在线性关系。本讲稿第六十九页,共七十页多重共线性检验多重共线性检验容忍度为容忍度为0.392,共线性较弱;,共线性较弱;VIF为为2.551,也表明共线性较弱,也表明共线性较弱非标准化回归方程:标准化回归方程:本讲稿第七十页,共七十页