《一元线性回归和多元线性回归.pptx》由会员分享,可在线阅读,更多相关《一元线性回归和多元线性回归.pptx(115页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、一元线性回归和多元线性回归现在学习的是第1页,共115页课程纲要Ch1 导论Ch2 数据的搜集Ch3 数据的图表展示Ch4 数据的概括性度量Ch5 概率与概率分布Ch6 统计量及其抽样分布Ch7 参数估计2现在学习的是第2页,共115页课程纲要(续)Ch8 假设检验Ch9 列联分析Ch10 方差分析Ch11 一元线性回归Ch12 多元线性回归Ch13 时间序列分析及预测Ch14 指数3现在学习的是第3页,共115页Ch11 一元线性回归11.1 变量间关系的度量变量间关系的度量 11.2 一元线性回归一元线性回归现在学习的是第4页,共115页11.1 变量间关系的度量变量间关系的度量11.1.
2、1 变量间的关系变量间的关系11.1.2 相关关系的描述与测度相关关系的描述与测度11.1.3 相关系数的显著性检验相关系数的显著性检验现在学习的是第5页,共115页变量间的关系现在学习的是第6页,共115页函数关系1.是一一对应的确定关系2.设有两个变量 x 和 y,变量 y 随变量 x 一起变化,并完全依赖于 x。当变量 x 取某个数值时,y 依确定的关系取相应的值,则称 y 是 x 的函数,记为 y=f(x),其中 x 称为自变量,y 称为因变量3.各观测点落在一条线上 现在学习的是第7页,共115页函数关系(几个例子)n某种商品的销售额y与销售量x之间的关系可表示为 y=px(p 为单
3、价)n圆的面积S与半径R之间的关系可表示为S=R2 n企业的原材料消耗额y与产量x1、单位产量消耗x2、原材料价格x3之间的关系可表示为 y=x1 x2 x3 现在学习的是第8页,共115页相关关系(correlation)1.变量间关系不能用函数关系精确表达2.一个变量的取值不能由另一个变量唯一确定3.当变量 x 取某个值时,变量 y 的取值可能有几个4.各观测点分布在直线周围 x xy y现在学习的是第9页,共115页相关关系(几个例子)n父亲身高y与子女身高x之间的关系n收入水平y与受教育程度x之间的关系n粮食单位面积产量y与施肥量x1、降雨量x2、温度x3之间的关系n商品的消费量y与居
4、民收入x之间的关系n商品销售额y与广告费支出x之间的关系现在学习的是第10页,共115页相关关系的描述与测度(散点图)现在学习的是第11页,共115页相关分析及其假定1.相关分析要解决的问题变量之间是否存在关系?如果存在关系,它们之间是什么样的关系?变量之间的关系强度如何?样本所反映的变量之间的关系能否代表总体变量之间的关系?2.为解决这些问题,在进行相关分析时,对总体有以下两个主要假定两个变量之间是线性关系两个变量都是随机变量现在学习的是第12页,共115页散点图(scatter diagram)不相关不相关不相关不相关 负线性相关负线性相关负线性相关负线性相关 正线性相关正线性相关正线性相
5、关正线性相关 非线性相关非线性相关非线性相关非线性相关 完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关 现在学习的是第13页,共115页散点图(例题分析)【例例】一家大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的增长,这给银行业务的发展带来较大压力。为弄清楚不良贷款形成的原因,管理者希望利用银行业务的有关数据做些定量分析,以便找出控制不良贷款的办法。下面是该银行所属的25家分行2002年的有关业务数据 现在学习的
6、是第14页,共115页散点图(例题分析)现在学习的是第15页,共115页散点图(不良贷款对其他变量的散点图)现在学习的是第16页,共115页相关关系的描述与测度(相关系数)现在学习的是第17页,共115页相关系数(correlation coefficient)1.度量变量之间关系强度的一个统计量2.对两个变量之间线性相关强度的度量称为简单相关系数3.若相关系数是根据总体全部数据计算的,称为总体相关系数,记为 4.若是根据样本数据计算的,则称为样本相关系数,简称为相关系数,记为 r也称为线性相关系数(linear correlation coefficient)或 称 为 Pearson相 关
7、 系 数 (Pearsons correlation coefficient)现在学习的是第18页,共115页相关系数(计算公式)样本相关系数的计算公式或化简为或化简为现在学习的是第19页,共115页相关系数的性质性质性质1:r 的取值范围是-1,1|r|=1,为完全相关r=1,为完全正相关r=-1,为完全负正相关 r=0,不存在线性相关关系-1r0,为负相关0r1,为正相关|r|越趋于1表示关系越强;|r|越趋于0表示关系越弱现在学习的是第20页,共115页相关系数的性质性质性质2:r具有对称性。即x与y之间的相关系数和y与x之间 的相关系数相等,即rxy=ryx性质性质3:r数值大小与x和
8、y原点及尺度无关,即改变x和y的 数据原点及计量尺度,并不改变r数值大小性质性质4:仅仅是x与y之间线性关系的一个度量,它不能用 于描述非线性关系。这意为着,r=0只表示两个变 量之间不存在线性相关关系,并不说明变量之间没 有任何关系性质性质5:r虽然是两个变量之间线性关系的一个度量,却不 一定意味着x与y一定有因果关系现在学习的是第21页,共115页相关系数的经验解释1.|r|0.8时,可视为两个变量之间高度相关2.0.5|r|0.8时,可视为中度相关3.0.3|r|0.5时,视为低度相关4.|r|t,拒绝H0l 若tt(25-2)=2.069,拒绝H0,不良贷款与贷款余额之间存在着显著的正
9、线性相关关系 现在学习的是第26页,共115页相关系数的显著性检验(例题分析)各相关系数检验的统计量各相关系数检验的统计量现在学习的是第27页,共115页11.2 一元线性回归一元线性回归11.2.1 一元线性回归模型一元线性回归模型11.2.2 参数的最小二乘估计参数的最小二乘估计11.2.3 回归直线的拟合优度回归直线的拟合优度11.2.4 显著性检验显著性检验现在学习的是第28页,共115页什么是回归分析?(Regression)1.从一组样本数据出发,确定变量之间的数学关系式2.对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著3
10、.利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度现在学习的是第29页,共115页回归模型的类型现在学习的是第30页,共115页一元线性回归模型现在学习的是第31页,共115页一元线性回归1.涉及一个自变量的回归2.因变量y与自变量x之间为线性关系被 预 测 或 被 解 释 的 变 量 称 为 因 变 量(dependent variable),用y表示用来预测或用来解释因变量的一个或多个变量称为自变量(independent variable),用x表示 3.因变量与自变量之间的关系用一个线性方程来表示现在学习的是第32页,共115页
11、回归模型(regression model)1.回答“变量之间是什么样的关系?”2.方程中运用1 个数值型因变量(响应变量)被预测的变量1 个或多个数值型或分类型自变量(解释变量)用于预测的变量3.主要用于预测和估计现在学习的是第33页,共115页一元线性回归模型1.描述因变量 y 如何依赖于自变量 x 和误差项 的方程称为回归模型2.一元线性回归模型可表示为 y=0 0+1 1 x +y 是 x 的线性函数(部分)加上误差项线性部分反映了由于 x 的变化而引起的 y 的变化误差项 是随机变量反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响是不能由 x 和 y 之间的线性关系所
12、解释的变异性0 和 1 称为模型的参数现在学习的是第34页,共115页一元线性回归模型(基本假定)1.1.因变量因变量x与自变量与自变量y之间具有线性关系之间具有线性关系2.2.在重复抽样中,自变量在重复抽样中,自变量x的取值是固定的,即假定的取值是固定的,即假定x是非随机是非随机的的3.3.误差误差项项是一个期望值为是一个期望值为0的随机变量,即的随机变量,即E()=0。对于一个。对于一个给定的给定的 x 值,值,y 的期望值为的期望值为E(y)=0+1 x4.4.对对于所有的于所有的 x 值,值,的方差的方差2 都相同都相同5.5.误误差差项项是是一一个个服服从从正正态态分分布布的的随随机
13、机变变量量,且且相相互互独独立立。即即N(0,2)独独立立性性意意味味着着对对于于一一个个特特定定的的 x 值值,它它所所对对应应的的与与其其他他 x 值值所所对对应的应的不相关不相关对对于于一一个个特特定定的的 x 值值,它它所所对对应应的的 y 值值与与其其他他 x 所所对对应应的的 y 值值也也不不相关相关现在学习的是第35页,共115页一元线性回归模型(基本假定)x=x3时的E(y)x=x2时y的分布x=x1时y的分布x=x2时的E(y)x3x2x1x=x1时的E(y)0 xyx=x3时y的分布0+1x现在学习的是第36页,共115页回归方程(regression equation)1
14、.描述 y 的平均值或期望值如何依赖于 x 的方程称为回归方程2.一元线性回归方程的形式如下 E(y)=0+1 x方程的图示是一条直线,也称为直线回归方程0是回归直线在 y 轴上的截距,是当 x=0 时 y 的期望值1是直线的斜率,称为回归系数,表示当 x 每变动一个单位时,y 的平均变动值现在学习的是第37页,共115页估计的回归方程(estimated regression equation)3.3.一元线性回归中估计的回归方程为一元线性回归中估计的回归方程为2.2.用用样样本本统统计计量量 和和 代代替替回回归归方方程程中中的的未未知知参参数数 和和 ,就得到了估计的回归方程,就得到了估
15、计的回归方程1.1.总总体体回回归归参参数数 和和 是是未未知知的的,必必须须利利用用样样本本数数据去估计据去估计现在学习的是第38页,共115页参数的最小二乘估计现在学习的是第39页,共115页最小二乘估计(method of least squares)1.德国科学家Karl Gauss(1777-1855)提出用最小化图中垂直方向的误差平方和来估计参数 2.使因变量的观察值与估计值之间的误差平方和达到最小来求得 和 的方法。即3.用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小现在学习的是第40页,共115页Karl Gauss的最小化图xy(x xn n,
16、y yn n)(x x1 1,y y1 1)(x x2 2,y y2 2)(x xi i,y yi i)e ei i=y yi i-y yi i现在学习的是第41页,共115页最小二乘法(和 的计算公式)根据最小二乘法,可得求解根据最小二乘法,可得求解 和和 的公式如下的公式如下现在学习的是第42页,共115页估计方程的求法(例题分析)【例例】求不良贷款对贷款余额的回归方程回归方程为:回归方程为:y=-0.8295+0.037895 x回归系数 =0.037895 表示,贷款余额每增加1亿元,不良贷款平均增加0.037895亿元 现在学习的是第43页,共115页估计方程的求法(例题分析)不良贷
17、款对贷款余额回归方程的图示现在学习的是第44页,共115页用Excel进行回归分析第第1步:步:选择【工具工具】下拉菜单第第2步:步:选择【数据分析数据分析】选项第第3步:步:在分析工具中选择【回归回归】,选择【确定确定】第第4步:步:当对话框出现时 在【Y值值输输入入区区域域】设置框内键入Y的数据区域 在【X值输入区域值输入区域】设置框内键入X的数据区域 在【置信度置信度】选项中给出所需的数值 在【输出选项输出选项】中选择输出区域 在【残差残差】分析选项中选择所需的选项现在学习的是第45页,共115页回归直线的拟合优度现在学习的是第46页,共115页变差1.因变量 y 的取值是不同的,y 取
18、值的这种波动称为变差。变差来源于两个方面由于自变量 x 的取值不同造成的除 x 以外的其他因素(如x对y的非线性影响、测量误差等)的影响2.对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差 来表示现在学习的是第47页,共115页误差的分解(图示)xyy y现在学习的是第48页,共115页误差平方和的分解(三个平方和的关系)SST=SSR+SSE总平方和总平方和(SST)回归平方和回归平方和(SSR)残差平方和残差平方和(SSE)现在学习的是第49页,共115页误差平方和的分解(三个平方和的意义)1.1.总平方和总平方和(SSTtotal sum of squares)反映因变
19、量的 n 个观察值与其均值的总误差2.2.回归平方和回归平方和(SSRsum squares of regression)反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和3.3.残差平方和残差平方和(SSEsum squares of error)反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和现在学习的是第50页,共115页判定系数R2 (coefficient of determination)1.回归平方和占总误差平方和的比例2.2.反映回归直线的拟合程度反映回归直线
20、的拟合程度3.3.取值范围在取值范围在 0,1 之间之间4.4.R2 1,说明回归方程拟合的越好;,说明回归方程拟合的越好;R20,说,说明回归方程拟合的越差明回归方程拟合的越差5.5.判定判定系数等于相关系数的平方,即系数等于相关系数的平方,即R2r2现在学习的是第51页,共115页判定系数 (例题分析)【例例】计算不良贷款对贷款余额回归的判定系数,并解释其意义 判判定定系系数数的的实实际际意意义义是是:在不良贷款取值的变差中,有71.16%可以由不良贷款与贷款余额之间的线性关系来解释,或者说,在不良贷款取值的变动中,有71.16%是由贷款余额所决定的。也就是说,不良贷款取值的差异有2/3以
21、上是由贷款余额决定的。可见不良贷款与贷款余额之间有较强的线性关系 现在学习的是第52页,共115页估计标准误差(standard error of estimate)1.实际观察值与回归估计值误差平方和的均方根2.反映实际观察值在回归直线周围的分散状况3.对误差项的标准差的估计,是在排除了x对y的线性影响后,y随机波动大小的一个估计量4.反映用估计的回归方程预测y时预测误差的大小 5.计算公式为注:例题的计算结果为1.9799现在学习的是第53页,共115页显著性检验现在学习的是第54页,共115页线性关系的检验1.检验自变量与因变量之间的线性关系是否显著2.将回归均方(MSR)同残差均方(M
22、SE)加以比较,应用F检验来分析二者之间的差别是否显著回归均方:回归平方和SSR除以相应的自由度(自变量的个数k)残差均方:残差平方和SSE除以相应的自由度(n-k-1)现在学习的是第55页,共115页线性关系的检验(检验的步骤)1.提出假设H0:1=0 线性关系不显著2.计算计算检验统计量检验统计量F3.3.确定确定显著性水平显著性水平,并根据分子自由度,并根据分子自由度1和分母自和分母自由度由度n-2找出找出临界值临界值F 4.4.作作出决策:若出决策:若FF ,拒绝拒绝H0;若若FF ,拒绝拒绝H0,线性关系显著,线性关系显著现在学习的是第57页,共115页线性关系的检验(方差分析表)E
23、xcel 输出的方差分析表输出的方差分析表现在学习的是第58页,共115页回归系数的检验3.3.在一元线性回归中,等价于线性关系的显著性检验在一元线性回归中,等价于线性关系的显著性检验4.4.采用采用t检验检验1.1.检检验验 x 与与 y 之之间间是是否否具具有有线线性性关关系系,或或者者说说,检检验自变量验自变量 x 对因变量对因变量 y 的影响是否显著的影响是否显著2.2.理论基础是回归系数理论基础是回归系数 的抽样分布的抽样分布现在学习的是第59页,共115页回归系数的检验(检验步骤)1.提出假设H0:1=0(没有线性关系)H1:1 0(有线性关系)2.计算检验的统计量3.确定显著性水
24、平,并进行决策 tt,拒绝H0;tt=2.201,拒绝H0,表明不良贷款与贷款余额之间有显著的线性关系现在学习的是第61页,共115页回归系数的检验(例题分析)P 值的应用值的应用P=0.000000F,拒绝H0现在学习的是第87页,共115页回归系数检验和推断现在学习的是第88页,共115页回归系数的检验1.线性关系检验通过后,对各个回归系数有选择地进行一次或多次检验2.究竟要对哪几个回归系数进行检验,通常需要在建立模型之前作出决定3.对回归系数检验的个数进行限制,以避免犯过多的第类错误(弃真错误)4.对每一个自变量都要单独进行检验5.应用 t 检验统计量现在学习的是第89页,共115页回归
25、系数的检验(步骤)1.提出假设H0:i=0 (自变量 xi 与 因变量 y 没有线性关系)H1:i 0 (自变量 xi 与 因变量 y有线性关系)2.计算检验的统计量 t3.确定显著性水平,并进行决策 tt,拒绝H0;tt(25-2)=2.069,所以均拒绝原假设,说明这4个自变量两两之间都有显著的相关关系2.由表Excel输出的结果可知,回归模型的线性关系显著(Significance-F1.03539E-06=0.05)。这也暗示了模型中存在多重共线性3.固定资产投资额的回归系数为负号(-0.029193),与预期的不一致现在学习的是第98页,共115页多重共线性问题的处理现在学习的是第9
26、9页,共115页多重共线性(问题的处理)1.将一个或多个相关的自变量从模型中剔除,使保留的自变量尽可能不相关2.如果要在模型中保留所有的自变量,则应避免根据 t 统计量对单个参数进行检验对因变量值的推断(估计或预测)的限定在自变量样本值的范围内现在学习的是第100页,共115页注意1.在建立多元线性回归模型时,不要试图引入更多的自变量,除非确实有必要2.在社会科学的研究中,由于所使用的大多数数据都是非试验性质的,因此,在某些情况下,得到的结果往往并不令人满意,但这不一定是选择的模型不合适,而是数据的质量不好,或者是由于引入的自变量不合适 现在学习的是第101页,共115页12.5 变量选择与逐
27、步回归变量选择与逐步回归12.5.1 变量选择过程变量选择过程12.5.2 向前选择向前选择12.5.3 向后剔除向后剔除12.5.4 逐步回归逐步回归现在学习的是第102页,共115页变量选择过程1.1.在建立回归模型时,对自变量进行筛选在建立回归模型时,对自变量进行筛选2.2.选择自变量的原则是对统计量进行显著性检验选择自变量的原则是对统计量进行显著性检验将将一一个个或或一一个个以以上上的的自自变变量量引引入入到到回回归归模模型型中中时时,是是否否使使得得残残差差平平方方和和(SSE)有有显显著著地地减减少少。如如果果增增加加一一个个自自变变量量使使SSE的的减减少少是是显显著著的的,则则
28、说说明明有有必必要要将将这这个个自自变变量量引引入入回回归归模模型型,否否则则,就就没没有必要将这个自变量引入回归模型有必要将这个自变量引入回归模型确确定定引引入入自自变变量量是是否否使使SSE有有显显著著减减少少的的方方法法,就就是是使使用用F统统计计量量的的值值作作为为一一个个标标准准,以以此此来来确确定定是是在在模模型型中中增增加加一一个个自自变变量量,还还是从模型中剔除一个自变量是从模型中剔除一个自变量3.3.变变量量选选择择的的方方法法主主要要有有:向向前前选选择择、向向后后剔剔除除、逐逐步步回回归、最优子集等归、最优子集等 现在学习的是第103页,共115页向前选择(forward
29、 selection)1.从模型中没有自变量开始2.对k个自变量分别拟合对因变量的一元线性回归模型,共有k个,然后找出F统计量的值最高的模型及其自变量,并将其首先引入模型 3.分别拟合引入模型外的k-1个自变量的线性回归模型 4.如此反复进行,直至模型外的自变量均无统计显著性为止现在学习的是第104页,共115页向后剔除(backward elimination)1.先对因变量拟合包括所有k个自变量的回归模型。然后考察p(pk)个去掉一个自变量的模型(这些模型中每一个都有的k-1个自变量),使模型的SSE值减小最少的自变量被挑选出来并从模型中剔除2.考察p-1个再去掉一个自变量的模型(这些模型
30、中在每一个都有k-2个的自变量),使模型的SSE值减小最少的自变量被挑选出来并从模型中剔除3.如此反复进行,一直将自变量从模型中剔除,直至剔除一个自变量不会使SSE显著减小为止现在学习的是第105页,共115页逐步回归(stepwise regression)1.将向前选择和向后剔除两种方法结合起来筛选自变量2.在增加了一个自变量后,它会对模型中所有的变量进行考察,看看有没有可能剔除某个自变量。如果在增加了一个自变量后,前面增加的某个自变量对模型的贡献变得不显著,这个变量就会被剔除3.按照方法不停地增加变量并考虑剔除以前增加的变量的可能性,直至增加变量已经不能导致SSE显著减少4.在前面步骤中
31、增加的自变量在后面的步骤中有可能被剔除,而在前面步骤中剔除的自变量在后面的步骤中也可能重新进入到模型中现在学习的是第106页,共115页逐步回归(例题分析SPSS输出结果)Variable Entered/Removed a model Variable EnteredVariable Removedmethod1各项贷款余额各项贷款余额x1 Stepwise(Criteria:Probability-of-F-to-enter=.050,Probability-of-F-to-remove=.100).2固定资产投资额固定资产投资额x4 Stepwise(Criteria:Probabili
32、ty-of-F-to-enter=.050,Probability-of-F-to-remove=.100).a Dependent variable:不良贷款y现在学习的是第107页,共115页逐步回归(例题分析SPSS输出结果)Model summary model RR-SquareAdjusted R-Square Std.Error of the Estimate 1.844a.712.6991.97992.872b.761.7391.8428a Predictors:(Constant),各项贷款余额x1b Predictors:(Constant),各项贷款余额x1,固定资产投资
33、额x4含x1和x4的模型只含x1的模型现在学习的是第108页,共115页逐步回归(例题分析SPSS输出结果)ANOVA c modelSum of SquaresdfMean SquareFSig.1 Regress ResidualTotal222.48690.164312.65012324222.4863.92056.754.000a2 Regress Residual Total237.94174.709312.65022224118.9713.39635.034.000ba Predictors:(Constant),各项贷款余额x1b Predictors:(Constant),各项
34、贷款余额x1,固定资产投资额x4c Dependent variable:不良贷款y现在学习的是第109页,共115页逐步回归(例题分析SPSS输出结果)ModelUnstandardizedCoefficientsStandardizedCoefficientstSig.BStd.ErrorBeta1 (Constant)贷款余额x1 -.830.038.723.0050844-1.1477.534.263.0002 (Constant)贷款余额x1 固定资产投资x4-.443.050-.032.697.007.0151.120-.355-.6366.732-2.133.531.000.04
35、4a Dependent variable:不良贷款yCoefficients a现在学习的是第110页,共115页*虚拟自变量的回归虚拟变量:也称哑元(Dummy variable),一般式分类型自变量。如果定性自变量有k个水平,需要在回归模型中引进k-1个虚拟变量,可以表示为:111现在学习的是第111页,共115页含有一个虚拟自变量的回归 为研究考试成绩与性别之间的关系,从某大学商学院随机抽取男女学生8名,得到他们的统计学课程的考试成绩如右表所示。试建立考试成绩与性别之间的线性回归模型,并解释回归系数的含义。112现在学习的是第112页,共115页散点图113男女0102030405060708090100现在学习的是第113页,共115页114现在学习的是第114页,共115页 为研究工资水平与工作年限和性别之间的关系,在某行业中随机抽取10名职工,所得数据如下表。115现在学习的是第115页,共115页