《经济学统计学一元线性回归.pptx》由会员分享,可在线阅读,更多相关《经济学统计学一元线性回归.pptx(94页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、学习目标1.相关系数的分析方法2.一元线性回归的基本原理和参数的最小二乘估计3.回归直线的拟合优度4.回归方程的显著性检验5.利用回归方程进行估计和预测6.用 Excel 进行回归第1页/共94页10.1 变量间关系的度量变量间的关系相关关系的描述与测度相关系数的显著性检验第2页/共94页变量间的关系第3页/共94页函数关系1.是一一对应的确定关系2.设有两个变量 x 和 y,变量 y 随变量 x 一起变化,并完全依赖于 x,当变量 x 取某个数值时,y 依确定的关系取相应的值,则称 y 是 x 的函数,记为 y=f(x),其中 x 称为自变量,y 称为因变量3.各观测点落在一条线上 x xy
2、 y第4页/共94页函数关系(几个例子)函数关系的例子函数关系的例子某某种种商商品品的的销销售售额额y y与与销销售售量量x x之之间间的的关关系系可可表表示为示为 y y=px px(p p 为单价为单价)圆的面积圆的面积S S与半径之间的关系可表示为与半径之间的关系可表示为S S=R R2 2 企企业业的的原原材材料料消消耗耗额额y y与与产产量量x x1 1 、单单位位产产量量消消耗耗x x2 2 、原材料价格、原材料价格x x3 3之间的关系可表示为之间的关系可表示为 y y=x x1 1 x x2 2 x x3 3 第5页/共94页相关关系(correlation)1.变量间关系不能
3、用函数关系精确表达2.一个变量的取值不能由另一个变量唯一确定3.当变量 x 取某个值时,变量 y 的取值可能有几个4.各观测点分布在直线周围 x xy y第6页/共94页相关关系(几个例子)相关关系的例子相关关系的例子父亲身高父亲身高y y与子女身高与子女身高x x之间的关系之间的关系收入水平收入水平y y与受教育程度与受教育程度x x之间的关系之间的关系粮粮食食亩亩产产量量y y与与施施肥肥量量x x1 1 、降降雨雨量量x x2 2 、温温度度x x3 3之间的关系之间的关系商品的消费量商品的消费量y y与居民收入与居民收入x x之间的关系之间的关系商品销售额商品销售额y y与广告费支出与
4、广告费支出x x之间的关系之间的关系第7页/共94页相关关系(类型)第8页/共94页相关关系的描述与测度(散点图)第9页/共94页散点图(scatter diagram)不相关不相关不相关 负线性相关负线性相关负线性相关 正线性相关正线性相关正线性相关 非线性相关非线性相关非线性相关 完全负线性相关完全负线性相关完全负线性相关完全正线性相关完全正线性相关完全正线性相关 第10页/共94页散点图(例题分析)【例】一家大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的增长,这给银行业务
5、的发展带来较大压力。为弄清楚不良贷款形成的原因,希望利用银行业务的有关数据做些定量分析,以便找出控制不良贷款的办法。下面是该银行所属的25家分行2002年的有关业务数据 第11页/共94页散点图(例题分析)第12页/共94页散点图(例题分析)第13页/共94页相关关系的描述与测度(相关系数)第14页/共94页相关系数(correlation coefficient)1.对变量之间关系密切程度的度量2.对两个变量之间线性相关程度的度量称为简单相关系数3.若相关系数是根据总体全部数据计算的,称为总体相关系数,记为 4.若是根据样本数据计算的,则称为样本相关系数,记为 r第15页/共94页相关系数(
6、计算公式)样本相关系数的计算公式或化简为第16页/共94页相关系数(取值及其意义)1.r 的取值范围是-1,12.|r|=1,为完全相关r=1,为完全正相关r=-1,为完全负正相关3.r=0,不存在线性相关关系4.-1r0,为负相关5.0 t t,拒绝,拒绝H H0 0 若若 t t =7.5344t t(25-2)=2.069(25-2)=2.069,拒拒绝绝H H0 0,不不良良贷贷款与贷款余额之间存在着显著的正线性相关关系款与贷款余额之间存在着显著的正线性相关关系 第23页/共94页相关系数的显著性检验(例题分析)各相关系数检验的统计量第24页/共94页10.2 一元线性回归一元线性回归
7、模型参数的最小二乘估计回归直线的拟合优度显著性检验第25页/共94页什么是回归分析?(Regression)1.从一组样本数据出发,确定变量之间的数学关系式2.对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著3.利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度回归一词是回归一词是怎么来的怎么来的??第26页/共94页回归分析与相关分析的区别1.相关分析中,变量 x 变量 y 处于平等的地位;回归分析中,变量 y 称为因变量,处在被解释的地位,x 称为自变量,用于预测因变量的变化2
8、.相关分析中所涉及的变量 x 和 y 都是随机变量;回归分析中,因变量 y 是随机变量,自变量 x 可以是随机变量,也可以是非随机的确定变量3.相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量 x 对变量 y 的影响大小,还可以由回归方程进行预测和控制 第27页/共94页回归模型的类型第28页/共94页一元线性回归模型第29页/共94页一元线性回归1.涉及一个自变量的回归2.因变量y与自变量x之间为线性关系被预测或被解释的变量称为因变量(dependent variable),用y表示用 来 预 测 或 用 来 解 释 因 变 量 的 一 个 或 多 个 变 量 称
9、为 自 变 量(independent variable),用x表示 3.因变量与自变量之间的关系用一个线性方程来表示第30页/共94页回归模型(regression model)1.回答“变量之间是什么样的关系?”2.方程中运用1 个数值型因变量(响应变量)被预测的变量1 个或多个数值型或分类型自变量(解释变量)用于预测的变量3.主要用于预测和估计第31页/共94页一元线性回归模型1.描述因变量 y 如何依赖于自变量 x 和误差项 的方程称为回归模型2.一元线性回归模型可表示为 y=0 0+1 1 x+e ey 是 x 的线性函数(部分)加上误差项线性部分反映了由于 x 的变化而引起的 y
10、的变化误差项 是随机变量反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响是不能由 x 和 y 之间的线性关系所解释的变异性0 和 1 称为模型的参数第32页/共94页一元线性回归模型(基本假定)1.误差项是一个期望值为0的随机变量,即E()=0。对于一个给定的 x 值,y 的期望值为E(y)=0+1 x2.对于所有的 x 值,的方差2 都相同3.误差项是一个服从正态分布的随机变量,且相互独立。即N(0,2)独立性意味着对于一个特定的 x 值,它所对应的与其他 x 值所对应的不相关对于一个特定的 x 值,它所对应的 y 值与其他 x 所对应的 y 值也不相关第33页/共94页回归
11、方程(regression equation)1.描述 y 的平均值或期望值如何依赖于 x 的方程称为回归方程2.一元线性回归方程的形式如下 E(y)=0+1 x 方程的图示是一条直线,也称为直线回归方程方程的图示是一条直线,也称为直线回归方程 0 0是回归直线在是回归直线在 y y 轴上的截距,是当轴上的截距,是当 x x=0=0 时时 y y 的期望值的期望值 1 1是是直直线线的的斜斜率率,称称为为回回归归系系数数,表表示示当当 x x 每每变变动动一一个个单单位位时时,y y 的的平均变动值平均变动值第34页/共94页估计的回归方程(estimated regression equat
12、ion)3.一元线性回归中估计的回归方程为一元线性回归中估计的回归方程为2.用用样样本本统统计计量量 和和 代代替替回回归归方方程程中中的的未未知知参参数数 和和 ,就得到了,就得到了估计的回归方程估计的回归方程估计的回归方程估计的回归方程1.总总体体回回归归参参数数 和和 是是未未知知的的,必必须须利利用用样样本本数数据去估计据去估计其其中中:是是估估计计的的回回归归直直线线在在 y y 轴轴上上的的截截距距,是是直直线线的的斜斜率率,它它表表示示对对于于一一个个给给定定的的 x x 的的值值,是是 y y 的的估估计计值值,也也表表示示 x x 每每变变动动一一个个单单位位时时,y y 的
13、平均变动值的平均变动值 第35页/共94页参数的最小二乘估计第36页/共94页最小二乘估计1.使因变量的观察值与估计值之间的离差平方和达到最小来求得 和 的方法。即2.用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小第37页/共94页最小二乘估计(图示)x xy y(x xn n,y yn n)(x x1 1,y y1 1)(x x2 2,y y2 2)(x xi i,y yi i)e ei i=y yi i-y yi i第38页/共94页最小二乘法(和 的计算公式)根据最小二乘法的要求,可得求解 和 的公式如下第39页/共94页估计方程的求法(例题分析)【例】求
14、不良贷款对贷款余额的回归方程回归方程为:y=-0.8295+0.037895 x回回归归系系数数 =0.037895=0.037895 表表示示,贷贷款款余余额额每每增增加加1 1亿元,不良贷款平均增加亿元,不良贷款平均增加0.0378950.037895亿元亿元 第40页/共94页估计方程的求法(例题分析)不良贷款对贷款余额回归方程的图示第41页/共94页用Excel进行回归分析第1步:选择“工具”下拉菜单第2步:选择“数据分析”选项第3步:在分析工具中选择“回归”,然后选择“确定”第4步:当对话框出现时 在“Y值输入区域”设置框内键入Y的数据区域 在“X值输入区域”设置框内键入X的数据区域
15、 在“置信度”选项中给出所需的数值 在“输出选项”中选择输出区域 在“残差”分析选项中选择所需的选项 用Excel进行回归分析第42页/共94页回归直线的拟合优度第43页/共94页变差1.因变量 y 的取值是不同的,y 取值的这种波动称为变差。变差来源于两个方面由于自变量 x 的取值不同造成的除 x 以外的其他因素(如x对y的非线性影响、测量误差等)的影响2.对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差 来表示第44页/共94页变差的分解(图示)x xy yy y 第45页/共94页离差平方和的分解(三个平方和的关系)SST=SSR+SSE总平方和总平方和(SSTSST)
16、回归平方和回归平方和(SSRSSR)残差平方和残差平方和(SSESSE)第46页/共94页离差平方和的分解(三个平方和的意义)1.总平方和(SST)反映因变量的 n 个观察值与其均值的总离差2.回归平方和(SSR)反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和3.残差平方和(SSE)反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和第47页/共94页判定系数r2 (coefficient of determination)1.回归平方和占总离差平方和的比例2.反映回归直线的
17、拟合程度3.取值范围在 0,1 之间4.R2 1,说明回归方程拟合的越好;R20,说明回归方程拟合的越差5.判定系数等于相关系数的平方,即R2r2第48页/共94页判定系数r2 (例题分析)【例】计算不良贷款对贷款余额回归的判定系数,并解释其意义 判定系数的实际意义是:在不良贷款取值的变差中,有71.16%可以由不良贷款与贷款余额之间的线性关系来解释,或者说,在不良贷款取值的变动中,有71.16%是由贷款余额所决定的。也就是说,不良贷款取值的差异有2/3以上是由贷款余额决定的。可见不良贷款与贷款余额之间有较强的线性关系 第49页/共94页估计标准误差(standard error of est
18、imate)1.实际观察值与回归估计值离差平方和的均方根2.反映实际观察值在回归直线周围的分散状况3.对误差项的标准差的估计,是在排除了x对y的线性影响后,y随机波动大小的一个估计量4.反映用估计的回归方程预测y时预测误差的大小 5.计算公式为注:例题的计算结果为注:例题的计算结果为1.97991.9799第50页/共94页显著性检验第51页/共94页线性关系的检验1.检验自变量与因变量之间的线性关系是否显著2.将回归均方(MSR)同残差均方(MSE)加以比较,应用F检验来分析二者之间的差别是否显著回归均方:回归平方和SSR除以相应的自由度(自变量的个数p)残差均方:残差平方和SSE除以相应的
19、自由度(n-p-1)第52页/共94页线性关系的检验(检验的步骤)1.提出假设H0:1=0 线性关系不显著2.计算检验统计量F3.确定显著性水平,并根据分子自由度1和分母自由度n-2找出临界值F 4.作出决策:若FF,拒绝H0;若FF,拒绝H0,线性关系显著第54页/共94页线性关系的检验(方差分析表)Excel 输出的方差分析表第55页/共94页回归系数的检验3.在一元线性回归中,等价于线性关系的显著性检验1.检验 x 与 y 之间是否具有线性关系,或者说,检验自变量 x 对因变量 y 的影响是否显著2.理论基础是回归系数 的抽样分布第56页/共94页回归系数的检验(样本统计量 的分布)1.
20、1.1.是是是根根根据据据最最最小小小二二二乘乘乘法法法求求求出出出的的的样样样本本本统统统计计计量量量,它它它有有有自自自己己己的分布的分布的分布2.2.2.的的的分布具有如下性质分布具有如下性质分布具有如下性质 分布形式:正态分布分布形式:正态分布分布形式:正态分布 数学期望:数学期望:数学期望:标准差:标准差:标准差:由由由于于于 未未未知知知,需需需用用用其其其估估估计计计量量量s s sy yy来来来代代代替替替得得得到到到 的的的估估估计计计的的的标准差标准差标准差第57页/共94页回归系数的检验(检验步骤)1.提出假设H0:1=0(没有线性关系)H1:1 0(有线性关系)2.计算
21、检验的统计量3.确定显著性水平确定显著性水平,并进行决策,并进行决策 t t t t,拒绝,拒绝H H0 0;t t =7.533515t t=2.201=2.201,拒拒绝绝H H0 0,表表明明不不良良贷贷款款与贷款余额之间有线性关系与贷款余额之间有线性关系第59页/共94页回归系数的检验(例题分析)P 值的应用P P=0.000000=0.000000=0.05=0.05,拒绝原假设,拒绝原假设,不良贷款与贷不良贷款与贷款余额之间有线性关系款余额之间有线性关系第60页/共94页Excel输出的部分回归结果R2)第61页/共94页10.3 利用回归方程进行估计和预测点估计区间估计第62页/
22、共94页利用回归方程进行估计和预测1.根据自变量 x 的取值估计或预测因变量 y的取值2.估计或预测的类型点估计y 的平均值的点估计y 的个别值的点估计区间估计y 的平均值的置信区间估计y 的个别值的预测区间估计第63页/共94页点估计第64页/共94页点估计2.点估计值有n ny y 的的平均值平均值的点估计的点估计n ny y 的的个别值个别值的点估计的点估计3.在点估计条件下,平均值的点估计和个别值的的点估计是一样的,但在区间估计中则不同1.对于自变量 x 的一个给定值x0,根据回归方程得到因变量 y 的一个估计值第65页/共94页 y 的平均值的点估计利用估计的回归方程,对于自变量 x
23、 的一个给定值 x0,求出因变量 y 的平均值的一个估计值E(y0),就是平均值的点估计在前面的例子中,假如我们要估计贷款余额为100亿元时,所有分行不良贷款的平均值,就是平均值的点估计。根据估计的回归方程得第66页/共94页y 的个别值的点估计利用估计的回归方程,对于自变量 x 的一个给定值 x0,求出因变量 y 的一个个别值的估计值 ,就是个别值的点估计例如,如果我们只是想知道贷款余额为72.8亿元的那个分行(这里是编号为10的那个分行)的不良贷款是多少,则属于个别值的点估计。根据估计的回归方程得第67页/共94页区间估计第68页/共94页区间估计1.点估计不能给出估计的精度,点估计值与实
24、际值之间是有误差的,因此需要进行区间估计2.对于自变量 x 的一个给定值 x0,根据回归方程得到因变量 y 的一个估计区间3.区间估计有两种类型置信区间估计(confidence interval estimate)预测区间估计(prediction interval estimate)第69页/共94页置信区间估计1.利用估计的回归方程,对于自变量 x 的一个给定值 x0,求出因变量 y 的平均值的估计区间,这一估计区间称为置信区间(confidence interval)2.E(y0)在1-置信水平下的置信区间为式中:式中:s sy y为估计标准误差为估计标准误差第70页/共94页置信区间
25、估计(例题分析)【例】求出贷款余额为100亿元时,不良贷款95%置信水平下的置信区间 解:根据前面的计算结果,已知n=25,sy=1.9799,t(25-2)=2.069 置信区间为当当贷贷款款余余额额为为100100亿亿元元时时,不不良良贷贷款款的的平平均均值值在在2.11412.1141亿元到亿元到3.80593.8059亿元之间亿元之间 第71页/共94页预测区间估计1.利用估计的回归方程,对于自变量 x 的一个给定值 x0,求出因变量 y 的一个个别值的估计区间,这一区间称为预测区间(prediction interval)2.y0在1-置信水平下的预测区间为注意!注意!第72页/共9
26、4页预测区间估计(例题分析)【例】求出贷款余额为72.8亿元的那个分行,不良贷款95%的预测区间 解:根据前面的计算结果,已知n=25,sy=1.9799,t(25-2)=2.069 预测区间为贷贷款款余余额额为为72.872.8亿亿元元的的那那个个分分行行,其其不不良良贷贷款款的预测区间在的预测区间在-2.2766-2.2766亿元到亿元到6.13666.1366亿元之间亿元之间 第73页/共94页影响区间宽度的因素1.置信水平(1-)区间宽度随置信水平的增大而增大2.数据的离散程度s区间宽度随离散程度的增大而增大3.样本容量区间宽度随样本容量的增大而减小4.用于预测的 xp与x的差异程度区
27、间宽度随 xp与x 的差异程度的增大而增大第74页/共94页置信区间、预测区间、回归方程xp pyx x预测上限置信上限预测下限置信下限第75页/共94页10.4 残差分析用残差证实模型的假定用残差检测异常值和有影响的观测值第76页/共94页残差(residual)1.因变量的观测值与根据估计的回归方程求出的预测值之差,用e表示2.反映了用估计的回归方程去预测而引起的误差 3.确定有关误差项的假定是否成立 4.检测有影响的观测值第77页/共94页用残差证实模型的假定第78页/共94页残差图(residual plot)1.表示残差的图形关于x的残差图关于y的残差图标准化残差图2.用于判断误差的
28、假定是否成立 3.检测有影响的观测值第79页/共94页残差图(形态及判别)第80页/共94页残差图(例题分析)第81页/共94页标准化残差(standardized residual)残差除以它的标准差后得到的数值。计算公式为 ei是第i个残差的标准差,其计算公式为 第82页/共94页标准化残差图 用以直观地判断误差项服从正态分布这一假定是否成立 若假定成立,标准化残差的分布也应服从正态分布在标准化残差图中,大约有95%的标准化残差在-2到+2之间 第83页/共94页标准化残差图(例题分析)第84页/共94页用残差检测异常值和有影响的观测值第85页/共94页异常值(outlier)1.如果某一
29、个点与其他点所呈现的趋势不相吻合,这个点就有可能是异常点,或称为野点如果异常值是一个错误的数据,比如记录错误造成的,应该修正该数据,以便改善回归的效果如果是由于模型的假定不合理,使得标准化残差偏大,应该考虑采用其他形式的模型,比如非线性模型如果完全是由于随机因素而造成的异常值,则应该保留该数据2.在处理异常值时,若一个异常值是一个有效的观测值,不应轻易地将其从数据集中予以剔除 第86页/共94页异常值(识别)1.异常值也可以通过标准化残差来识别2.如果某一个观测值所对应的标准化残差较大,就可以识别为异常值3.一般情况下,当一个观测值所对应的标准化残差小于-2或大于+2时,就可以将其视为异常值第
30、87页/共94页有影响的观测值1.如果某一个或某一些观测值对回归的结果有强烈的影响,那么该观测值或这些观测值就是有影响的观测值 2.一个有影响的观测值可能是一个异常值,即有一个值远远偏离了散点图中的趋势线对应一个远离自变量平均值的观测值或者是这二者组合而形成的观测值,第88页/共94页有影响的观测值(图示)不存在影响值的趋势有影响的观测值存在影响值的趋势第89页/共94页杠杆率点(ieverage point)1.如果自变量存在一个极端值,该观测值则称为高杠杆率点(high ieverage point)2.在一元回归中,第i个观测值的杠杆率用hi表示,其计算公式为 3.如果一个观测值的杠杆率 就可以将该观测值识别为有高杠杆率的点 4.一个有高杠杆率的观测值未必是一个有影响的观测值,它可能对回归直线的斜率没有什么影响 第90页/共94页高杠杆率点(图示)高杠杆率点第91页/共94页本章小结1.变量间关系的度量2.回归模型、回归方程与估计的回归方程3.回归直线的拟合优度4.回归分析中的显著性检验5.估计和预测6.用Excel 进行回归分析第92页/共94页结 束第93页/共94页感谢您的观看!第94页/共94页