《第14章相关分析和回归分析精选文档.ppt》由会员分享,可在线阅读,更多相关《第14章相关分析和回归分析精选文档.ppt(49页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第第14章相关分析和回章相关分析和回归分析归分析本讲稿第一页,共四十九页第第1414章章 相关分析和回归分析相关分析和回归分析vv了解散点图和相关系数的概念了解散点图和相关系数的概念了解散点图和相关系数的概念了解散点图和相关系数的概念vv了解等级相关的概念了解等级相关的概念了解等级相关的概念了解等级相关的概念vv描述简单线性回归模型描述简单线性回归模型描述简单线性回归模型描述简单线性回归模型vv描述多元回归分析模型描述多元回归分析模型描述多元回归分析模型描述多元回归分析模型vv了解使用回归分析时应注意的问题了解使用回归分析时应注意的问题了解使用回归分析时应注意的问题了解使用回归分析时应注意的问
2、题2022/9/222 2本讲稿第二页,共四十九页2022/9/223 3开篇案例:数据挖掘在定类变量相关性分析中的应用开篇案例:数据挖掘在定类变量相关性分析中的应用v数据探索性分析在研究分析中有着巨大的作用,同时在做探索性分析时,数据探索性分析在研究分析中有着巨大的作用,同时在做探索性分析时,相关系数往往是被经常采用的工具用以衡量变量与变量之间的关系,相关系数往往是被经常采用的工具用以衡量变量与变量之间的关系,然后决定是否分析这些变量。然后决定是否分析这些变量。v相关系数用来描述两个变量或两组变量之间的接近程度的量化指标,相关系数用来描述两个变量或两组变量之间的接近程度的量化指标,有着广泛的
3、应用。有着广泛的应用。v数据预分析就是要研究定类变量数据之间的关系,从而找出认为有价值的信数据预分析就是要研究定类变量数据之间的关系,从而找出认为有价值的信息。息。v在对定类变量之间的相关性分析可以直接使用交叉表分析方法,不过这在对定类变量之间的相关性分析可以直接使用交叉表分析方法,不过这种方法只能给出变量之间是否存在相关性,却不能准确地反映出变量种方法只能给出变量之间是否存在相关性,却不能准确地反映出变量之间相关性的大小。之间相关性的大小。本讲稿第三页,共四十九页v于是在用于比较变量之间相关性大小的关系时,这种方法无法提供有效的于是在用于比较变量之间相关性大小的关系时,这种方法无法提供有效的
4、信息,此时可以采用系数法来判断依据某一变量对另外一个变量进行预测信息,此时可以采用系数法来判断依据某一变量对另外一个变量进行预测时的误差大小。时的误差大小。v该相关系数可以用来分析定类变量之间的相关性大小,并且同时可该相关系数可以用来分析定类变量之间的相关性大小,并且同时可以给出一个定量的数值,然而系数在应用上需要区别变量之间的关以给出一个定量的数值,然而系数在应用上需要区别变量之间的关系,有对称和不对称关系两种计算方式,于是在计算时就要特别注系,有对称和不对称关系两种计算方式,于是在计算时就要特别注意变量之间的关系。意变量之间的关系。v统计软件统计软件SPSS SPSS 没有智能挖掘变量之间
5、关系的功能,所以在使用时局限没有智能挖掘变量之间关系的功能,所以在使用时局限性很大,性很大,2 2 个变量就需要分析个变量就需要分析2 2 次、次、3 3 个变量之间的关系就需要分析个变量之间的关系就需要分析6 6 次,次,4 4 个变量则需要分析个变量则需要分析12 12 次才能得出哪两个变量之间的相关性最强。次才能得出哪两个变量之间的相关性最强。2022/9/224 4本讲稿第四页,共四十九页v在数据挖掘中,定类变量之间的相关性往往使用关联分析进行计算,关联分在数据挖掘中,定类变量之间的相关性往往使用关联分析进行计算,关联分析是使用一种支持度的概念来支持某件商品值不值得分析。析是使用一种支
6、持度的概念来支持某件商品值不值得分析。v比如假设商品比如假设商品 A A 共出现共出现N N(A A)次、同时商品)次、同时商品B B 共出现共出现N N(B B)次,对于)次,对于N N(A and BA and B)是用来表示)是用来表示A A 和和B B 两种物品同时出现的次数,那么两种物品同时出现的次数,那么A A 和和B B的的支持度即为:支持度即为:N N(A and BA and B)/MIN/MIN(N N(A A),),N N(B B),这样一种支持度),这样一种支持度的优点是可以全面的挖掘数据内部的信息,即可以更加精细全面地的优点是可以全面的挖掘数据内部的信息,即可以更加精
7、细全面地把所有值得分析的数据关系全部呈现出来,否则可能会因为上式中把所有值得分析的数据关系全部呈现出来,否则可能会因为上式中分母的大小影响对于重要数据关系的挖掘。分母的大小影响对于重要数据关系的挖掘。2022/9/225 5本讲稿第五页,共四十九页相关分析和回归分析概述相关分析和回归分析概述v相关分析和回归分析都是用于研究变量之间关系的方法,而且两者经相关分析和回归分析都是用于研究变量之间关系的方法,而且两者经常替换使用。常替换使用。v两者还是存在一些差异两者还是存在一些差异 。发给相关分析旨在测定变量间关系紧密的程度,因而关注的是评价对象两者发给相关分析旨在测定变量间关系紧密的程度,因而关注
8、的是评价对象两者之间的相对变动,其中哪个是自变量,哪个是因变量,没有必要区分;它们之间的相对变动,其中哪个是自变量,哪个是因变量,没有必要区分;它们各自单独的变化状况也不用清地加以确定或限制。各自单独的变化状况也不用清地加以确定或限制。回归分析则希望明确建立一个方程关系式,借助一个或多个变量回归分析则希望明确建立一个方程关系式,借助一个或多个变量(自变量自变量)来推测另一个变量来推测另一个变量(因变量因变量)的变化趋势。如果某个或多个自变量本身变动的变化趋势。如果某个或多个自变量本身变动也处于不确定中,或者为随机变量,自变量的概率分布情况就必然要通过实也处于不确定中,或者为随机变量,自变量的概
9、率分布情况就必然要通过实验加以确定和限制。验加以确定和限制。2022/9/226 6本讲稿第六页,共四十九页相关分析和回归分析概述相关分析和回归分析概述v简单回归简单回归 :只包括一个自变量和一个因变量的回归分析。:只包括一个自变量和一个因变量的回归分析。v多元回归分析多元回归分析 :包括两个或两个以上自变量的回归分析:包括两个或两个以上自变量的回归分析 。v线性回归线性回归 :变量间的关系可以用一条直线近似表示出来:变量间的关系可以用一条直线近似表示出来 。v曲性回归曲性回归 :变量间的关系是用曲线近似表示出来的:变量间的关系是用曲线近似表示出来的 。2022/9/227 7本讲稿第七页,共
10、四十九页2022/9/228 8散点图散点图(scatter diagram)v探讨变量探讨变量x x、y y的相关关系时,常须先做出散点图。的相关关系时,常须先做出散点图。v以数标轴上的点代表以数标轴上的点代表x x、y y的一对观察值,可以直观地考察变量之间联系的一对观察值,可以直观地考察变量之间联系程度,并且有助于选择合适的估计模型。程度,并且有助于选择合适的估计模型。v正的相关关系(正的相关关系(positive correlationpositive correlation):自变量:自变量x x增加,因变量增加,因变量y y也随之也随之增加。增加。v负相关系负相关系(negativ
11、e correlation)(negative correlation):x x增加,增加,y y减少。减少。v无相关(无相关(non-correlationnon-correlation):x x的变化不影响的变化不影响y y的变动。的变动。本讲稿第八页,共四十九页2022/9/229 9y0 x正相关正相关y0 x负相关负相关y0 x不相关不相关y0 x曲线相关曲线相关本讲稿第九页,共四十九页2022/9/221010相关系数相关系数 v现假定观测到现假定观测到n n个变量个变量x x,y y的组合值,分别为(的组合值,分别为(x1,y1x1,y1)()(x2,y2x2,y2)(xn,yn
12、xn,yn)。)。v容易得到容易得到x x,y y的平均数的平均数 ,。v如果把坐标移到(如果把坐标移到(,),则新坐标为:),则新坐标为:。v在新坐标的第一、第三象限里,在新坐标的第一、第三象限里,xyxy的乘积为的乘积为v 正值;在第二、第四象限晨,它们的乘积正值;在第二、第四象限晨,它们的乘积xyxyv 均为负值。均为负值。v当当x x、y y为正相关时,也就是绝大多数点落于为正相关时,也就是绝大多数点落于v 一、三象限时,一、三象限时,为正;为正;v 若若x,yx,y为负相关,即绝大多数点落于二、四象为负相关,即绝大多数点落于二、四象v 限时,限时,为负;为负;v 若若x x、y y对
13、应的点散布于四个象限,则上值接近于对应的点散布于四个象限,则上值接近于0 0。(,)本讲稿第十页,共四十九页2022/9/221111相关系数相关系数v变量的相关可以用变量的相关可以用 来表示来表示 。v -变量变量x x的标准差;的标准差;v -变量变量y y的标准差的标准差;v r r -变量的相关系数变量的相关系数本讲稿第十一页,共四十九页2022/9/221212相关系数相关系数v为了简化公式,为了简化公式,r r的公式还了演变为:的公式还了演变为:vr r的值在的值在-1-1和和1 1之间变化。之间变化。r=1 完全正相关 0r1 正相关 r=0 不相关-1r0 负相关 r=-1 完
14、全负相关 相关系数表相关系数表本讲稿第十二页,共四十九页2022/9/221313等级相关等级相关 v无法用精密数量确定事物大小,惟一可行的方法是以等级或次序对无法用精密数量确定事物大小,惟一可行的方法是以等级或次序对事物进行排序,如才智高低、事态轻重、色泽深浅、效率大小以及事物进行排序,如才智高低、事态轻重、色泽深浅、效率大小以及味道的好坏等;味道的好坏等;v有时候即使是精密的数据,也采用等级来测定它们之间的相互关系有时候即使是精密的数据,也采用等级来测定它们之间的相互关系 ,其关系紧密程度的衡量指标就叫等级相关系数。其关系紧密程度的衡量指标就叫等级相关系数。v在这些等级相关系数中,以司庇而
15、曼在这些等级相关系数中,以司庇而曼(C(CSpearman)Spearman)的等级相关运用最的等级相关运用最为普遍。其公式为:为普遍。其公式为:其中,其中,didi:各对数据的等级差异;:各对数据的等级差异;n n:样本的数据总数。:样本的数据总数。本讲稿第十三页,共四十九页2022/9/221414v司庇而曼相关系数是针对两个序数变量的;司庇而曼相关系数是针对两个序数变量的;v其中每个变量的数据已按一定标准划分成其中每个变量的数据已按一定标准划分成1 1至至n n个等级;个等级;v如果如果d2id2i的和为的和为0 0,那么,那么rs=1rs=1。也就是说,此时两个变量的等级是等价。也就是
16、说,此时两个变量的等级是等价的;的;vrsrs值由值由+1(+1(完全正相关完全正相关)变化到一变化到一1(1(完全负相关完全负相关),其中若,其中若rs=Ors=O意味着彼此意味着彼此不相关。不相关。本讲稿第十四页,共四十九页2022/9/221515样本相关系数的分布和测验样本相关系数的分布和测验 v在假定两变量在假定两变量(x,y)(x,y)的组合总体适合于正态分布的组合总体适合于正态分布(三度空间的立体三度空间的立体正态曲面正态曲面)的条件下,的条件下,z z与与y y的相关系数的相关系数r r的抽样分布是随着两个因的抽样分布是随着两个因素素样本单位数样本单位数n n与总体相关系数与总
17、体相关系数p p的不同而变化着。的不同而变化着。v不过总的说来,不过总的说来,r r分布的形态是属于各种各样的。分布的形态是属于各种各样的。v如把总体相关系数如把总体相关系数p p分成三类:分成三类:p=0p=0,p=0.50p=0.50以及以及p=0.90p=0.90,在不,在不同的同的n n条下,条下,r r的分布形态见下图。的分布形态见下图。本讲稿第十五页,共四十九页2022/9/221616本讲稿第十六页,共四十九页2022/9/221717样本相关系数的分布和测验样本相关系数的分布和测验v由于由于r r分布的偏态形态,作实际测验的计算时,比较困难,英国著分布的偏态形态,作实际测验的计
18、算时,比较困难,英国著名统计学家埃名统计学家埃爱爱费煦为了补救这种复杂计算的缺陷,用变量费煦为了补救这种复杂计算的缺陷,用变量E E代替代替r r,替代公式为:,替代公式为:v其中其中lnln表示以表示以e e为底的自然对数,对为底的自然对数,对E E的变量来说,它的分布接近于正的变量来说,它的分布接近于正态分布,因此,就可利用正态分布表作出测验。另外,费煦已经作出了态分布,因此,就可利用正态分布表作出测验。另外,费煦已经作出了r r与与E E间的变换表格,所以计算就大大地简化了。间的变换表格,所以计算就大大地简化了。本讲稿第十七页,共四十九页2022/9/221818相关系数相关系数r r的
19、虚无假设的测验以及可信任界限的计算举例的虚无假设的测验以及可信任界限的计算举例v样本为样本为3535对数据时,求出对数据时,求出r r为为0.800.80,试用,试用5 5的显著标准来作出总体相的显著标准来作出总体相关系数关系数p=0.90p=0.90的虚无假设测验。先假定以虚无假设出发,的虚无假设测验。先假定以虚无假设出发,r=0.80r=0.80可能从总体可能从总体p=0.90p=0.90中抽出,如果概率超过中抽出,如果概率超过5 5,就接受这个假设,否,就接受这个假设,否则,就推翻这个假设。则,就推翻这个假设。v从附表我们查出,从附表我们查出,r=0.80r=0.80时,时,z=1.09
20、9z=1.099,并从同一附表中,找出,并从同一附表中,找出P=0.90P=0.90时,时,mz=1.472mz=1.472,我们知道:,我们知道:本讲稿第十八页,共四十九页2022/9/221919v由由t t分布近似于正态分布,可以利用正态分布。分布近似于正态分布,可以利用正态分布。v可以利用正态面积表求出在可以利用正态面积表求出在t=t=一一2.112.11左边的概率面积是:左边的概率面积是:A=0.0174A=0.0174;v由于这是两侧测验,所以概率是由于这是两侧测验,所以概率是p=2*(0.0174)=0.0348p=2*(0.0174)=0.0348,这是小于,这是小于5 5的显
21、著水准,所以,拒绝这个假设,也就是的显著水准,所以,拒绝这个假设,也就是r=0.80r=0.80不可能从总体相不可能从总体相关系数关系数p=O.90p=O.90的总体中抽取出来的,也可以说,的总体中抽取出来的,也可以说,P=0.90P=0.90与与r=0.80r=0.80是有显是有显著差异的。著差异的。本讲稿第十九页,共四十九页2022/9/222020简单回归分析简单回归分析 v回归分析:在由一个或一组非随机变量来估计或预测某一个随机变量回归分析:在由一个或一组非随机变量来估计或预测某一个随机变量的观察值时,所建立的数学模型及所进行的统计分析。的观察值时,所建立的数学模型及所进行的统计分析。
22、v如果这个模型是线性的就称为线性回归分析如果这个模型是线性的就称为线性回归分析 。v线性回归中最简单的就是两个变量,或者称为简单线性回归。线性回归中最简单的就是两个变量,或者称为简单线性回归。本讲稿第二十页,共四十九页2022/9/222121v在对社会现象进行调查时,不可能存在等于零的误差。考虑到这一在对社会现象进行调查时,不可能存在等于零的误差。考虑到这一点,我们会在上述方程式中添加一个误差变量,以可能性模型来替点,我们会在上述方程式中添加一个误差变量,以可能性模型来替代确定方程,即:代确定方程,即:v 第第f f个地区的销售额水平;个地区的销售额水平;v 第第f f个地区的电视广告时数;
23、个地区的电视广告时数;v 与第与第i i个观察值相关的误差。个观察值相关的误差。误差项是该模型不可缺少的一部分,它暗示着模型可能有未包含进去的变量、一种误差项是该模型不可缺少的一部分,它暗示着模型可能有未包含进去的变量、一种人类行为中不可预测的因素以及偏差的度量。人类行为中不可预测的因素以及偏差的度量。可能性模型在给定可能性模型在给定 、值情况下,值情况下,yiyi与与xixi不是一一对应的关系;所能确定的只是某种情况不是一一对应的关系;所能确定的只是某种情况下下yiyi分布的平均值,而真实值则围绕自己分布的平均值上下波动。分布的平均值,而真实值则围绕自己分布的平均值上下波动。本讲稿第二十一页
24、,共四十九页2022/9/222222最小二乘法最小二乘法v我们最终确定的回归方程是一种确定模型,因而我们希望能找到一我们最终确定的回归方程是一种确定模型,因而我们希望能找到一条最能代表真实可能性情况的方程或者说两者偏离最小。条最能代表真实可能性情况的方程或者说两者偏离最小。v最常见的方法是最小二乘法,而该方法又是以随机误差最常见的方法是最小二乘法,而该方法又是以随机误差符合一定符合一定假设为前提的,这些假设条件具体如下:假设为前提的,这些假设条件具体如下:的均值或期望值为的均值或期望值为0 0;的方差是一个常数而且的方差是一个常数而且的方差与各个自变量无关;的方差与各个自变量无关;彼此之间是
25、相互独立的;彼此之间是相互独立的;彼此之间是相互独立的。彼此之间是相互独立的。本讲稿第二十二页,共四十九页2022/9/222323v回归方程求出的理论估计值记为回归方程求出的理论估计值记为 。v 与真实值与真实值yi yi 存在离差,记为:存在离差,记为:v最小二乘法就是通过一系列方法找到一个模型,使得各个离差的平方和最小,最小二乘法就是通过一系列方法找到一个模型,使得各个离差的平方和最小,即即 最小。最小。v ,为从样本估出的方程系数值为从样本估出的方程系数值 。v ,为总体系数值。为总体系数值。本讲稿第二十三页,共四十九页2022/9/222424结果结果其中其中本讲稿第二十四页,共四十
26、九页估计标准差估计标准差v对右图观察发现,尽管直线拟合对右图观察发现,尽管直线拟合数据合得很好,但仍在若干点对数据合得很好,但仍在若干点对于直线的偏离;于直线的偏离;v这些偏差的大小代表了回归方程这些偏差的大小代表了回归方程直线拟合的优劣,成为判断方程直线拟合的优劣,成为判断方程好坏的一个指标好坏的一个指标。2022/9/222525yx1本讲稿第二十五页,共四十九页2022/9/222626v直线直线 是对于真实回归方程是对于真实回归方程 的一种估计。的一种估计。v假设绕直线上下波动的随机变量假设绕直线上下波动的随机变量 的方差为的方差为 或或 ,在总体离差,在总体离差 不知道的不知道的情况
27、下,通过样本可得推出其的一个无偏估计。情况下,通过样本可得推出其的一个无偏估计。v类似的,用类似的,用 作为作为 的无偏估计,则公式如下:的无偏估计,则公式如下:本讲稿第二十六页,共四十九页2022/9/222727有关斜率系数的分析有关斜率系数的分析 v斜率系数斜率系数 值是否源于偶然性,是否具有意义,需要对其进行显著性检验。值是否源于偶然性,是否具有意义,需要对其进行显著性检验。v经过论证如果经过论证如果 为正态分布,那为正态分布,那 也同样呈正态分布。也同样呈正态分布。v其中其中 的方差满足公式:的方差满足公式:v因为总体方差因为总体方差 并不知晓,并不知晓,同样为未知数并要求做最佳估计
28、,则可用样本来代同样为未知数并要求做最佳估计,则可用样本来代替。替。v 本讲稿第二十七页,共四十九页2022/9/222828v在变量为正态分布、总体参数未知的情况下,通常用在变量为正态分布、总体参数未知的情况下,通常用t-t-来检验样本参数的显来检验样本参数的显著性。著性。v现设定虚无假设为在样本变量之间存在线性关系时总体参数间并不存在性关现设定虚无假设为在样本变量之间存在线性关系时总体参数间并不存在性关系。即:系。即:v统计检验为统计检验为 ,其中的自由度个数为,其中的自由度个数为n n一一2 2。本讲稿第二十八页,共四十九页2022/9/222929对对y y值的预测值的预测v如果所求出
29、的回归方程并非为偶然联系,那么我们就可以利用它来对给如果所求出的回归方程并非为偶然联系,那么我们就可以利用它来对给定定x x下的下的y y进行预测。进行预测。本讲稿第二十九页,共四十九页2022/9/223030相关系数相关系数v在回归分析中,除了已介绍的相关系数,更常用的是相关系数的在回归分析中,除了已介绍的相关系数,更常用的是相关系数的另外一种形式另外一种形式可决系数可决系数r2r2,相关系数的平方。,相关系数的平方。v一般进行的市场调研由于经费、时间等因素的影响,往往只是抽样一般进行的市场调研由于经费、时间等因素的影响,往往只是抽样调查,而非涉及全面的普查。这就涉及到由样本结果推断总体结
30、论调查,而非涉及全面的普查。这就涉及到由样本结果推断总体结论的准确度的问题。的准确度的问题。v可决系数不区分自变量和因变量,我们对于研究变量最好的估计是它的可决系数不区分自变量和因变量,我们对于研究变量最好的估计是它的均值。均值。本讲稿第三十页,共四十九页2022/9/223131v可决系数一般与回归分析联合使用,用以解释回归方程在多大程度可决系数一般与回归分析联合使用,用以解释回归方程在多大程度上说明因变量的差异,即:上说明因变量的差异,即:本讲稿第三十一页,共四十九页2022/9/223232对对r r的显著性作假设检验的显著性作假设检验 v假设假设p p表示相应未知的总体相关系数,我们计
31、算以下的表示相应未知的总体相关系数,我们计算以下的t t一统计量:一统计量:vr r的标准误差为的标准误差为 :v因此,对零假设因此,对零假设p=0p=0的检验统计量简化为的检验统计量简化为 :该统计量服从自由度为该统计量服从自由度为n-2n-2的的t t分布。分布。本讲稿第三十二页,共四十九页2022/9/223333多元回归分析多元回归分析 v回归模型和回归方程回归模型和回归方程 v复相关与偏相关复相关与偏相关 v整体解释力的统计显著性整体解释力的统计显著性 v虚拟变量虚拟变量 v曲线相关曲线相关v使用回归分析需要注意的事项使用回归分析需要注意的事项 本讲稿第三十三页,共四十九页2022/
32、9/223434回归模型和回归方程回归模型和回归方程 v描述应变量描述应变量y y如何依赖于自变量如何依赖于自变量x1,x2x1,x2,xnxn和误差项的方程称为和误差项的方程称为回归回归模型模型 ;v在多元回归模型中参数含义与简单回归模型中的有一些不同。在多元回归模型中参数含义与简单回归模型中的有一些不同。v以二元回归模型为例:以二元回归模型为例:为为 的简化。的简化。v小数点左边的二位数字为直接关系的变量。第一位代表因变量,第二位表小数点左边的二位数字为直接关系的变量。第一位代表因变量,第二位表示该系数所代表的自变量;小数右边的是表示不变的变量,称为次级变量。示该系数所代表的自变量;小数右
33、边的是表示不变的变量,称为次级变量。当然随着自变量的增多,小数点右边的数字可以到当然随着自变量的增多,小数点右边的数字可以到k-1k-1个(个(k k为自变量个数)为自变量个数)。本讲稿第三十四页,共四十九页2022/9/223535v例如,系数例如,系数 (简化为(简化为 )的意义如下:在所有其他解释变量)的意义如下:在所有其他解释变量(如(如X2X2)保持不系时,)保持不系时,x1x1每变动一个单位所导致的每变动一个单位所导致的y y的相应变化。的相应变化。v通过这种方法,我们能够把每个解释变量对通过这种方法,我们能够把每个解释变量对y y的影响分离出来,不受的影响分离出来,不受其他解释变
34、量的干扰和影响。所以,其他解释变量的干扰和影响。所以,和和 的值称为局部回归系的值称为局部回归系数。数。本讲稿第三十五页,共四十九页2022/9/223636复相关与偏相关复相关与偏相关 vn n个变量影响一个变量的相关称为复相关,求出的系数,称个变量影响一个变量的相关称为复相关,求出的系数,称为复相关系数。为复相关系数。v当两个独立变量当两个独立变量z1z1、z2z2影响一个因变量时,影响一个因变量时,相关系数的计算式是:相关系数的计算式是:vRy.12Ry.12即为复相关系数即为复相关系数(multiple correlation coefficient)(multiple correla
35、tion coefficient),为复关可决系数。为复关可决系数。本讲稿第三十六页,共四十九页2022/9/223737复相关与偏相关复相关与偏相关v所谓偏相关所谓偏相关(partial correlation)(partial correlation)是在测定是在测定n n个独立变量对一个因个独立变量对一个因变量的响时,在排除其他变量的影响后,指定一个独立变量对这变量的响时,在排除其他变量的影响后,指定一个独立变量对这个因变量计算得的相关系数,称为偏相关系数,也可称为纯相关个因变量计算得的相关系数,称为偏相关系数,也可称为纯相关系数系数(net correlation coefficien
36、t(net correlation coefficient)。v不能解释的部分可以用估计标准离差不能解释的部分可以用估计标准离差 来表示来表示 ,总差异可,总差异可以用因变量以用因变量y y的方差来说明的方差来说明 ,即:,即:。本讲稿第三十七页,共四十九页2022/9/223838v于是于是:v公式中的最后一项表明,在考虑了自变量公式中的最后一项表明,在考虑了自变量x x影响时,因变量影响时,因变量y y中仍然不中仍然不能被说明的变化差异与能被说明的变化差异与y y变动的绝对变化差异之间的比值。变动的绝对变化差异之间的比值。v这个比值度量着这两个变量之间的关联度在多大程度上可用于解这个比值度
37、量着这两个变量之间的关联度在多大程度上可用于解释因变量释因变量y y。本讲稿第三十八页,共四十九页2022/9/223939整体解释力的统计显著性整体解释力的统计显著性vFF统计量:被解释的变化与未被解释的变化之比。统计量:被解释的变化与未被解释的变化之比。v解释变量的方差解释变量的方差 可以被分解为两部分,部分通过回归可以被分解为两部分,部分通过回归值值 来解释。一部分通过残差来解释。一部分通过残差 来解释。来解释。v被解释的变化与未被解释的变化的有关表达式简单地等于,总的被解释和被解释的变化与未被解释的变化的有关表达式简单地等于,总的被解释和未被解释的方差除以各自的自由度未被解释的方差除以
38、各自的自由度(分别是分别是n-k-1)n-k-1)。本讲稿第三十九页,共四十九页2022/9/224040(一一)F)F检验检验vFF检验的统计显著性检验程序:检验的统计显著性检验程序:事先说明假设检验事先说明假设检验 ;把计算好的把计算好的F F一统计值与临界值相比,临界值取自在一给定概率水平下一统计值与临界值相比,临界值取自在一给定概率水平下F F一概率分布的一概率分布的F F一统计表。一统计表。v假设可以表述为:假设可以表述为:v如果我们拒绝如果我们拒绝H0H0,我们就可以断定,在被解释变量和至少一个解释变,我们就可以断定,在被解释变量和至少一个解释变量之间有显著的关系,回归方程整体来看
39、是显著的。量之间有显著的关系,回归方程整体来看是显著的。v在只有一个解释变量时的简单回归分析的情形下,整体解释力的在只有一个解释变量时的简单回归分析的情形下,整体解释力的F F一一检验必然相当于单个回归系数检验必然相当于单个回归系数 的的t-t-检验。这时,可以看到,检验。这时,可以看到,F=tlF=tl。本讲稿第四十页,共四十九页(二二)F)F一统计表和一统计表和F F一分布一分布vF F一分布的形状如右图。一分布的形状如右图。该分布是不对称的;该分布是不对称的;F F值不可能为负值不可能为负 。分布的实际形状取决于与分布的实际形状取决于与F F一统计量的表达式相应的分子和一统计量的表达式相
40、应的分子和分母的自由度分母的自由度(分别是分别是K K和和n-k-1)n-k-1)。vF F一统计表中概率值一统计表中概率值(a)(a)有有0.050.05和和0.010.01两种,对应于相两种,对应于相应的自由度,分子和分母分别用应的自由度,分子和分母分别用v1v1和和V2V2表示,从表示,从1 1到到。v如:可以查到,在如:可以查到,在V1=9V1=9和和V2=12V2=12时,时,F F一统计量的临界值一统计量的临界值(用用FaFa表示表示)在在0.050.05的显著水平下等于的显著水平下等于2.802.80,在,在0.010.01的显著水的显著水平下等于平下等于4.394.39;也就是
41、说,只有;也就是说,只有5 5的可能性得到一个大于的可能性得到一个大于2.802.80的的F F一统计值,只有一统计值,只有1 1的可能性超过的可能性超过4.394.39。v如果计算的如果计算的F F一统计量超过了临界值,我们拒绝零假设,并一统计量超过了临界值,我们拒绝零假设,并断定整个回归在统计上是显著的。断定整个回归在统计上是显著的。2022/9/224141概率概率(a a)本讲稿第四十一页,共四十九页2022/9/224242虚拟变量虚拟变量v看下面一个例子:看下面一个例子:纯净过滤水股份公司对于水过滤系统提供维修保养服务。当顾客的水过滤系统纯净过滤水股份公司对于水过滤系统提供维修保养
42、服务。当顾客的水过滤系统出现故障时,公司对他们的水过滤系统进行维修。出现故障时,公司对他们的水过滤系统进行维修。为了估计服务时间和服务成本,纯净公司的管理人员希望对顾客的每一次维修请求预测必要为了估计服务时间和服务成本,纯净公司的管理人员希望对顾客的每一次维修请求预测必要的维修时间。的维修时间。管理人员认为,维修时间依赖两个方面:从最后一次维修服务至今已经使用的管理人员认为,维修时间依赖两个方面:从最后一次维修服务至今已经使用的月数和需要维修的故障类型月数和需要维修的故障类型(机械的或电子的机械的或电子的)。本讲稿第四十二页,共四十九页虚拟变量虚拟变量2022/9/224343vy y表示按小
43、时计算的维修时间,表示按小时计算的维修时间,x1x1表示从最后一次维修服务至今的月数,表示从最后一次维修服务至今的月数,仅仅利用仅仅利用x1x1进行预测的回归模型是:进行预测的回归模型是:v利用有关软件,得到估计的回归方程如下:利用有关软件,得到估计的回归方程如下:v与该方程与该方程t(t(或或F)F)检验对应的实测显著水平为检验对应的实测显著水平为0.0160.016,小于置信度,小于置信度0.050.05。这就表明维修时问显著地依赖于从最后一次维修服务至今的月数。这就表明维修时问显著地依赖于从最后一次维修服务至今的月数。r2=53.4r2=53.4,表明,表明x1x1仅仅解释了维修时变异性
44、的仅仅解释了维修时变异性的53.453.4。本讲稿第四十三页,共四十九页虚拟变量虚拟变量2022/9/224444v为了将故障的维修类型引入回归模型,我们定义下面的变量:为了将故障的维修类型引入回归模型,我们定义下面的变量:v在回归分析中,在回归分析中,x2x2称为称为虚拟变量虚拟变量或指标变量。或指标变量。v多元回归模型如下:多元回归模型如下:v最后得到方程:最后得到方程:v经检验,两个变量在统计上都是显著的经检验,两个变量在统计上都是显著的 。本讲稿第四十四页,共四十九页曲线相关曲线相关2022/9/224545v如果变量之间呈现非线性关系,我们可以借助变量转换,将复杂如果变量之间呈现非线
45、性关系,我们可以借助变量转换,将复杂难解的曲线回归转变成通常的线性回归,求出我们所需要的模型。难解的曲线回归转变成通常的线性回归,求出我们所需要的模型。考虑模型:考虑模型:令:令:得到模型得到模型(2)(2):v模型模型(2)(2)为一线性回归,因而我们很容易地利用最小二乘法估计出方程中为一线性回归,因而我们很容易地利用最小二乘法估计出方程中的各个参数。的各个参数。本讲稿第四十五页,共四十九页2022/9/224646使用回归分析需要注意的事项使用回归分析需要注意的事项v简单回归的缺陷简单回归的缺陷 :回归分析局限于揭示变量之间的线值关系;回归分析局限于揭示变量之间的线值关系;通过了显著性检验
46、或拥有较高通过了显著性检验或拥有较高R2R2值的回归方程并不一定保证解值的回归方程并不一定保证解释变量与被解释变量之间的因果关系;释变量与被解释变量之间的因果关系;回归方程对于超过给定范围的自变量对应下因变量的预测也就回归方程对于超过给定范围的自变量对应下因变量的预测也就是我们常说的是我们常说的“外推预测外推预测”可信度不高;可信度不高;建立在小规模样本上的回归方程是不可靠的;建立在小规模样本上的回归方程是不可靠的;自变量和因变量的数据变化范围能够影响回归方程的可用性,自变量和因变量的数据变化范围能够影响回归方程的可用性,如果要令得出的回归方程具有实用性,自变量和因变量的数据如果要令得出的回归
47、方程具有实用性,自变量和因变量的数据范围就应该宽泛。范围就应该宽泛。本讲稿第四十六页,共四十九页2022/9/224747使用回归分析需要注意的事项使用回归分析需要注意的事项v此外,在使用多元回归中,还容易忽略一下几个问题:此外,在使用多元回归中,还容易忽略一下几个问题:(1)(1)估计的回归方程选择了不恰当的方程形式估计的回归方程选择了不恰当的方程形式(即线性或非线性关系即线性或非线性关系),被称为,被称为方程形式的错误识别;方程形式的错误识别;(2)(2)两个或更多的解释变量彼此相关的程度,使得可靠地度量它们各自的影响成两个或更多的解释变量彼此相关的程度,使得可靠地度量它们各自的影响成为不
48、可能,这个问题被称为多重共线性;为不可能,这个问题被称为多重共线性;(3)(3)不同时间的被解释变量的观测值自身相关的可能性,被称为自相关或序列相关问不同时间的被解释变量的观测值自身相关的可能性,被称为自相关或序列相关问题,这影响到局部回归系数显著性检验的可靠性;题,这影响到局部回归系数显著性检验的可靠性;(4)(4)预测误差可能不是常数,相反,它可能与解释变量的由于这个原因大小预测误差可能不是常数,相反,它可能与解释变量的由于这个原因大小相关,这个问题被称为异方差问题,这也可能影响到估计回归系数的显著性相关,这个问题被称为异方差问题,这也可能影响到估计回归系数的显著性检验的可靠性;检验的可靠
49、性;(5)(5)在回归模型中解释变量含有测量误差的可能性,这个问题被称为变量误在回归模型中解释变量含有测量误差的可能性,这个问题被称为变量误差,这将导致回归系数的估计不是无偏的和一致的。差,这将导致回归系数的估计不是无偏的和一致的。本讲稿第四十七页,共四十九页2022/9/224848本章小结本章小结v在这章里,我们主要说明了如何运用相关分析和回归分析由一个或多个自变在这章里,我们主要说明了如何运用相关分析和回归分析由一个或多个自变量量x x来推断一个因变量来推断一个因变量y y的变动。的变动。v尽管相关分析和回归分析有一定的差异,但两者常常一起使用,并被视为一体。因尽管相关分析和回归分析有一
50、定的差异,但两者常常一起使用,并被视为一体。因此,在相关系数一节只介绍了简单相关和等级相关,复相关以及偏相关赦在了回归此,在相关系数一节只介绍了简单相关和等级相关,复相关以及偏相关赦在了回归分析的相关章节里。分析的相关章节里。v在简单线性回归情形中,回归模型是在简单线性回归情形中,回归模型是 ,我们利用最小二乘法求,我们利用最小二乘法求出估计的回归方程出估计的回归方程 ;接着对回归模型的系数和误差项进行了讨论,说;接着对回归模型的系数和误差项进行了讨论,说明了如何利用估计的回归方程求出明了如何利用估计的回归方程求出y y的平均值的置信区间估计和的平均值的置信区间估计和y y的个别值的预测区的个