《统计学第11章(精品).ppt》由会员分享,可在线阅读,更多相关《统计学第11章(精品).ppt(147页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第11章相关与回归分析 11.1 变量间关系的度量 11.2 一元线性回归 11.3 利用回归方程进行估计和预测 11.4 残差分析 11.5多元线性回归11.1 变量间关系的度量 11.1.1 变量间的关系 11.1.2 相关关系的描述与测度 11.1.3 相关系数的显著性检验11.1.1 变量间的关系1.确定性关系函数关系2.非确定性关系 相关关系 函数关系1、是一一对应的确定关系2、设有两个变量 x 和 y,变量 y 随变量 x 一起变化,并完全依赖于 x,当变量 x 取某个数值时,y 依确定的关系取相应的值,则称 y 是 x 的函数,记为 y=f(x),其中 x 称为自变量,y 称为因
2、变量3、各观测点落在一条线上 x xy y函数关系(几个例子)某种商品的销售额(y)与销售量(x)之间的关系可表示为 y=px(p 为单价)圆的面积(S)与半径之间的关系可表示为S=R2 企业的原材料消耗额(y)与产量(x1)、单位产量消耗(x2)、原材料价格(x3)之间的关系可表示为y=x1 x2 x3 相关关系1、变量间关系不能用函数关系精确表达2、一个变量的取值不能由另一个变量唯一确定3、当变量 x 取某个值时,变量 y 的取值可能有几个4、各观测点分布在直线周围 x xy y相关关系(几个例子)子女身高(y)与父母身高(x)之间的关系收入水平(y)与受教育程度(x)之间的关系粮食亩产量
3、(y)与施肥量(x1)、降雨量(x2)、温度(x3)之间的关系商品的消费量(y)与居民收入(x)之间的关系商品销售额(y)与广告费支出(x)之间的关系相关关系的类型相关关系线性相关非线性相关正相关负相关11.1.2 相关关系的描述与测度n相关分析要解决的问题变量之间是否存在关系?如果存在关系,它们之间是什么样的关系?变量之间的关系强度如何?样本所反映的变量之间的关系能否代表总体变量之间的关系?1.散点图(scatter diagram)完全正线性相关完全负线性相关 非线性相关 正线性相关 负线性相关 不相关图11-1 不同形态的散点图例11.6 一家大型商业银行在多个地区设有分行,其业务主要是
4、进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款.近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的提高,这给银行业务的发展带来较大压力.为弄清楚不良贷款形成的原因,希望利用银行业务的有关数据做些定量分析,以便找出控制不良贷款的办法.下面是该银行所属的25家分行2002年的有关业务数据.表11-1 某商业银行2002年的有关业务数据图11-2贷款余额不良贷款不良贷款与贷款余额的散点图图11-3累计应收贷款不良贷款不良贷款与累计应收贷款的散点图图11-4贷款项目个数不良贷款不良贷款与贷款项目个数的散点图图11-5不良贷款与固定资产投资额的散点图固定资产投资额不良贷款例11.6
5、 从各散点图可以看出,不良贷款与贷款余额、应收贷款、贷款项目个数、固定资产投资额之间都具有一定的线性关系。但从各散点的分布情况看,不良贷款与贷款余额的线性关系比较密切,而与固定资产投资额之间的关系最不密切。2.相关系数(correlation coefficient)1.变量之间线性相关关系的程度和方向的特征数.2.两个变量之间线性相关程度的度量,也称简单相关系数.3.根据总体全部数据计算而得的相关系数,称总体相关系数,记为 .4.根据样本数据计算而的得相关系数,称为样本相关系数,记为 .样本相关系数计算(11.1)和 的样本相关系数为相关系数的取值范围及意义1.r 的取值范围为1,1.2.,
6、称完全相关,即存在线性函数关系.r 1,称完全正相关.r 1,称完全负相关.3.r 0,称零相关,即不存在线性相关关系.4.r 0,称负相关.5.r 0,称正相关.6.愈大,表示相关关系愈密切.相关系数的性质性 质 1:r具 有 对 称 性。即 x与 y之 间 的 相 关 系 数 和 y与 x之 间 的相关系数相等,即rxy=ryx性 质 2:r数 值 大 小 与 x和 y原 点 及 尺 度 无 关,即 改 变 x和 y的 数据原点及计量尺度,并不改变r数值大小性 质 3:仅 仅 是 x与 y之 间 线 性 关 系 的 一 个 度 量,它 不 能 用 于描述非线性关系。这意味着,r=0只表示两
7、个变量之间不存在线性相关关系,并不说明变量之间没有任何关系性 质 4:r虽 然 是 两 个 变 量 之 间 线 性 关 系 的 一 个 度 量,却 不 一定意味着x与y一定有因果关系相关系数的经验解释1、|r|0.8时,可视为两个变量之间高度相关2、0.5|r|0.8时,可视为中度相关3、0.3|r|0.5时,视为低度相关4、|r|0.8,表明运送距离与运送时间之间有较强的正线性相关关系。解:要求:3、检验相关系数是否显著。()1).2).计算检验的统计量 3).根据 ,查表得因此,拒绝 ,认为 x 和 y 的相关系数 ,即运送时间与运送距离之间的线性相关关系显著.由于解:要求:4、求最小二乘
8、回归方程。估计的回归方程为:解:要求:5、计算判定系数 ,并解释其意义。在运送时间取值的变动中,有大约90%可以从统计意义上由其中涉及的运送距离来解释。解:要求:6、计算上述运输时间问题中估计值的标准误差 。这就是说,根据运送距离来估计运送时间时,平均的估计误差为0.48天。解:要求:7、检验运送时间与运送距离之间线性关系的显著性 ()。解:提出假设根据(11.21)式由于从而拒绝 ,即回归方程显著,或线性关系显著.要求:8、检验回归系数 是否通过显著性检验()。(3)根据显著性水平,得 (1)提出假设 (2)计算检验的统计量从而拒绝 .表明运送时间与运送距离之间有线性关系.由于解:要求:9、
9、估计对于一个1000公里的送货任务,从货物可以提取时开始计算的运送时间。可以用这个回归方程来估计2500公里的送货任务所需的运送时间吗?解:不适合,因为原来估计这个线性回归方程的样本数据包含的最大距离只到1350公里。要求:10、求运送距离为1000公里时所需运送时间均值的95%的置信区间。解:根据前面的计算结果,已知得 的置信区间为:从而平均运送时间 的95%的置信区间为 当运送距离为1000公里时,运送时间的平均值在3.30天到4.14天之间.要求:11、计算一份距离为1000公里的送货任务所需运送时间为95%的预测区间。得从而运送时间 的0.95预测区间为 距离为1000公里的送货任务,
10、所需运送时间的预测区间在2.54天到4.90天之间.解:根据前面的计算结果,已知要求:12、计算残差,并画出残差图。实际观测值预测 Y残差3.53.0758630.42413710.8889330.11106743.9542210.04577922.089952-0.0899511.838993-0.8389933.416451-0.416454.54.958058-0.458061.51.2832970.21670332.5201680.47983254.4740650.525935要求:11.5多元线性回归 11.5.1 多元线性回归模型 11.5.2 回归方程的拟合优度 11.5.3 显
11、著性检验 11.5.4 多重共线性 11.5.5 利用回归方程进行估计和预测 11.5.1 多元线性回归模型1.多元回归模型(multiple regression model)称为多元线性回归模型(1)多元线性回归模型包含一个因变量与两个或两个以上自变量.(2)误差项 为随机变量(3)为模型的参数,称偏回归系数.(11.28)多元线性回归模型误差项的基本假定 (1)误差项 是一个期望值为0的随机变量,即 .(2)误差项 的方差都相等,即 (3)误差项服从正态分布,即2.多元回归方程(multiple regression equation)称(11.29)为总体多元线性回归方程.表示当其他变
12、量不变,而 每变动一个单位时,E(y)相应的变动值.多元线性回归方程的直观解释(1)表示 保持不变时,每变动一个单位时 的相应变化量.(2)表示 保持不变时,每变动一个单位时 的相应变化量.考虑二元线性回归模型二元回归方程的直观解释二元线性回归模型(观察到的观察到的y y)回归面回归面 0 0 i ix x1 1y yx x2 2(x x1 1,x x2 2)3.估计的多元回归的方程 是未知参数,可以根据样本数据作估计.记的估计为,则称为估计的多元回归方程(estimated multiple regression equation)或样本多元回归方程.(11.30)4.参数的最小二乘估计使因
13、变量的观察值 y 与估计值 之间的残差平方和达到最小来求,即使达到最小.称 为 的最小二乘估计.(11.31)续 根据微积分中求极值的原理,应是下列正规方程组的解(11.32)例11.16 一家大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的提高,这给银行业务的发展带来较大压力。为弄清楚不良贷款形成的原因,抽取了该银行所属的25家分行2002年的有关业务数据。试建立不良贷款(y)与贷款余额(x1)、累计应收贷款(x2)、贷款项目个数(x3)和固定资产投资额(x4)的线性回归方程,
14、并解释各回归系数的含义。表11-8某商业银行2002年的有关业务数据用Excel进行回归分析的步骤表11-9Excel输出的回归分析结果参数的最小二乘法(例题分析)根据Excel输出的结果,得到不良贷款与贷款余额、累计应收贷款、贷款项目个数和固定资产投资额的多元线性回归方程为:各回归系数的实际意义为:表示,在累计应收贷款、贷款项目个数和固定资产投资额不变的条件下,贷款余额每增加1亿元,不良贷款平均增加0.040039亿元。表示,在贷款余额、贷款项目个数和固定资产投资额不变的条件下,累计应收贷款每增加1亿元,不良贷款平均增加0.148034亿元。表示,在贷款余额、累计应收贷款和固定资产投资额不变
15、的条件下,贷款项目个数每增加1个,不良贷款平均增加0.014529亿元。表示,在贷款余额、累计应收贷款和贷款项目个数不变的条件下,固定资产投资额每增加1亿元,不良贷款平均减少0.029193亿元。11.5.2 回归方程的拟合优度 对多元回归同样可分解成如下形式则多重判定系数(multiple coefficient of determination)为(11.33)(11.34)1.多重判定系数续 多重判定系数反映样本回归方程的拟合好坏程度,R 愈大,说明样本回归方程拟合得愈好。显然,.而称 y 关于 的样本复相关系数,R 的大小可以反映作为一个整体的与 y 的线性相关的密切程度.调整的多重判
16、定系数 由于样本多重判定系数的分母 SST 对给定的样本数据是不变的,而SSR与引进回归方程的自变量个数有关.因此,为避免增加自变量而高估R,应对R 作调整,调整的样本多重判定系数(adjusted multiple coefficient of determination)为(11.35)例 根据例11.16的数据,计算多重判定系数.解:根据(11.34)式,得 多重判定系数 =0.797604=79.7604%。其实际意义是:在不良贷款取值的变差中,能被不良贷款与贷款余额、累计应收贷款、贷款项目个数和固定资产投资额的多元回归方程所解释的比例为79.7604%。而根据(11.35)式,则 调
17、整的多重判定系数 =0.757125=75.7125%,表示在用样本量和模型中自变量的个数进行调整后,在不良贷款取值的变差中,能被不良贷款与贷款余额、累计应收贷款、贷款项目个数和固定资产投资额的多元回归方程所解释的比例为75.7125%。2.估计标准误差 误差项的标准差的估计称为估计标准误差(standard error of estimate),或称为估计量的标准差.根据例11.16的数据,得(11.36)为自变量的个数 其含义是:根据所建立的多元回归方程,用贷款余额、累计应收贷款、贷款项目个数和固定资产投资额来预测不良贷款时,平均的预测误差为1.778752亿元。11.5.3 显著性检验1
18、.线性关系检验 线性关系检验,即回归方程的显著性检验,具体步骤为 1).提出原假设和备择假设).对规定的显著性水平,若则拒绝,认为 y 对 存在线性关系,称回归方程显著.否则,认为 y 对 之间不存在线性关系,称回归方程不显著.2).计算检验统计量至少有一个不为0(11.37)方差分析表前面的这些计算结果可以列成表格的形式,称为方差分析表.方差分析表方差来源平方和自由度均方F 值回归SSRkSSR/k残差SSEn-k-1SSE/(n-k-1)总和SSTn-1例11.17 根据例 11.16 建立的回归方程,检验线性关系的显著性.解:提出假设根据(11.37)式 查F 分布表得 ,由于 从而拒绝
19、原假设.即不良贷款与贷款余额、累计应收贷款、贷款项目个数和固定资产投资额之间的线性关系是显著的.至少有一个不为0线性关系检验(例题分析)也可直接将Excel输出的回归方差分析表中的Significance-F值(即P值),与给定的显著性水平比较,由于Significance-F=1.03539E-06t(25-2)=2.069,所以均拒绝原假设,说明这4个自变量两两之间都有显著的相关关系。2、由表Excel输出的结果可知,回归模型的线性关系显著(Significance-F1.03539E-06=0.05)。这也暗示了模型中存在多重共线性。3、固定资产投资额的回归系数为负号(-0.029193
20、),与预 期的不一致。3.多重共线性问题的处理 剔除紧密相关且不重要的自变量,从而尽可能使自变量之间线性无关.例11.20 根据例 11.16 的数据,对多重共线性进行处理.解:由于 最小,首先剔除 ,建立 y 与 的回归方程.又由于这时 最小,且 不显著.从而再剔除 ,建立 y 与 的回归方程.这时,都是显著.包含 x1、x2 和 x4 的回归方程表 1112 包含 x1 和 x4 的回归方程11.5.5 利用回归方程进行估计和预测对自变量 的一组取值根据样本回归方程用作为 或 的估计,称为点估计或点预测.区间预测对于自变量的一组取值 根据样本回归方程给出 或 的一个估计区间,称为置信区间或
21、预测区间.由于置信区间和预测区间的计算较复杂,一般可由统计软件直按给出.例11.21 根据例 11.16 的数据,贷款余额 x1=100、累计应收贷款x2=10、贷款项目个数 x3=15 和固定资产投额 x4=60,试给出不良贷款的0.95置信区间和预测区间.解:由STATISTICA 输出的不良贷款的置信区间和预测区间如表11-13和表11-14所示.表 1113 不良贷款的置信区间表 1114 不良贷款的预测区间近似区间预测当 n 较大时,且时,则从而 ,由于 ,得则 0.95 的近似预测区间为 对例 11.21,则从而不良贷款0.95 的近似预测区间为 (-0.63,6.49)多重共线性
22、所产生的问题 例,在前面的例子中,线性回归方程是显著的,但4个回归系数中,只有1通过了检验,其他3个回归系数均未通过检验。这种检验结果看起来矛盾,但实际上并不矛盾。因为线性关系检验(F检验)表明回归方程显著时,这只是说,因变量至少同4个自变量中的一个自变量的线性关系是显著的,并非意味着同每个自变量之间的关系都显著。事实上,4个自变量在预测不良贷款时可能都有贡献,只不过一些自变量的贡献与另一些自变量的贡献相互重叠了。多重共线性所产生的问题 例,在4个回归系数中,这意味着固定资产投资额增加时,不良贷款是减少的。但如果仅就不良贷款与固定资产投资额作一元回归,得到的估计方程为:,这表明固定资产投资额每增加1亿元,不良贷款平均增加0.046586亿元。产生这种情况的原因就是由于自变量之间的相关所造成的,因为4个自变量放在一起产生了多于的信息。