《第14章相关分析和回归分析优秀课件.ppt》由会员分享,可在线阅读,更多相关《第14章相关分析和回归分析优秀课件.ppt(49页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第第14章相关分析和回章相关分析和回归分析归分析第1页,本讲稿共49页第第1414章章 相关分析和回归分析相关分析和回归分析vv了解散点图和相关系数的概念了解散点图和相关系数的概念了解散点图和相关系数的概念了解散点图和相关系数的概念vv了解等级相关的概念了解等级相关的概念了解等级相关的概念了解等级相关的概念vv描述简单线性回归模型描述简单线性回归模型描述简单线性回归模型描述简单线性回归模型vv描述多元回归分析模型描述多元回归分析模型描述多元回归分析模型描述多元回归分析模型vv了解使用回归分析时应注意的问题了解使用回归分析时应注意的问题了解使用回归分析时应注意的问题了解使用回归分析时应注意的问题
2、2023/5/192 2第2页,本讲稿共49页2023/5/193 3开篇案例:数据挖掘在定类变量相关性分析中的应用开篇案例:数据挖掘在定类变量相关性分析中的应用v数据探索性分析在研究分析中有着巨大的作用,同时在做探索性分析时,数据探索性分析在研究分析中有着巨大的作用,同时在做探索性分析时,相关系数往往是被经常采用的工具用以衡量变量与变量之间的关系,然相关系数往往是被经常采用的工具用以衡量变量与变量之间的关系,然后决定是否分析这些变量。后决定是否分析这些变量。v相关系数用来描述两个变量或两组变量之间的接近程度的量化指标,有相关系数用来描述两个变量或两组变量之间的接近程度的量化指标,有着广泛的应
3、用。着广泛的应用。v数据预分析就是要研究定类变量数据之间的关系,从而找出认为有价值数据预分析就是要研究定类变量数据之间的关系,从而找出认为有价值的信息。的信息。v在对定类变量之间的相关性分析可以直接使用交叉表分析方法,不过这种在对定类变量之间的相关性分析可以直接使用交叉表分析方法,不过这种方法只能给出变量之间是否存在相关性,却不能准确地反映出变量之间相方法只能给出变量之间是否存在相关性,却不能准确地反映出变量之间相关性的大小。关性的大小。第3页,本讲稿共49页v于是在用于比较变量之间相关性大小的关系时,这种方法无法提供有效的信息,于是在用于比较变量之间相关性大小的关系时,这种方法无法提供有效的
4、信息,此时可以采用系数法来判断依据某一变量对另外一个变量进行预测时的误差大此时可以采用系数法来判断依据某一变量对另外一个变量进行预测时的误差大小。小。v该相关系数可以用来分析定类变量之间的相关性大小,并且同时可以给出一个该相关系数可以用来分析定类变量之间的相关性大小,并且同时可以给出一个定量的数值,然而系数在应用上需要区别变量之间的关系,有对称和不对称关定量的数值,然而系数在应用上需要区别变量之间的关系,有对称和不对称关系两种计算方式,于是在计算时就要特别注意变量之间的关系。系两种计算方式,于是在计算时就要特别注意变量之间的关系。v统计软件统计软件SPSS SPSS 没有智能挖掘变量之间关系的
5、功能,所以在使用时局限没有智能挖掘变量之间关系的功能,所以在使用时局限性很大,性很大,2 2 个变量就需要分析个变量就需要分析2 2 次、次、3 3 个变量之间的关系就需要分析个变量之间的关系就需要分析6 6 次,次,4 4 个变量则需要分析个变量则需要分析12 12 次才能得出哪两个变量之间的相关性最强。次才能得出哪两个变量之间的相关性最强。2023/5/194 4第4页,本讲稿共49页v在数据挖掘中,定类变量之间的相关性往往使用关联分析进行计算,关联在数据挖掘中,定类变量之间的相关性往往使用关联分析进行计算,关联分析是使用一种支持度的概念来支持某件商品值不值得分析。分析是使用一种支持度的概
6、念来支持某件商品值不值得分析。v比如假设商品比如假设商品 A A 共出现共出现N N(A A)次、同时商品)次、同时商品B B 共出现共出现N N(B B)次,对于)次,对于N N(A and BA and B)是用来表示)是用来表示A A 和和B B 两种物品同时出现的次数,那么两种物品同时出现的次数,那么A A 和和B B的支的支持度即为:持度即为:N N(A and BA and B)/MIN/MIN(N N(A A),),N N(B B),这样一种支持度的优),这样一种支持度的优点是可以全面的挖掘数据内部的信息,即可以更加精细全面地把所有值得点是可以全面的挖掘数据内部的信息,即可以更加
7、精细全面地把所有值得分析的数据关系全部呈现出来,否则可能会因为上式中分母的大小影响对分析的数据关系全部呈现出来,否则可能会因为上式中分母的大小影响对于重要数据关系的挖掘。于重要数据关系的挖掘。2023/5/195 5第5页,本讲稿共49页相关分析和回归分析概述相关分析和回归分析概述v相关分析和回归分析都是用于研究变量之间关系的方法,而且两者经常相关分析和回归分析都是用于研究变量之间关系的方法,而且两者经常替换使用。替换使用。v两者还是存在一些差异两者还是存在一些差异 。发给相关分析旨在测定变量间关系紧密的程度,因而关注的是评价发给相关分析旨在测定变量间关系紧密的程度,因而关注的是评价对象两者之
8、间的相对变动,其中哪个是自变量,哪个是因变量,没对象两者之间的相对变动,其中哪个是自变量,哪个是因变量,没有必要区分;它们各自单独的变化状况也不用清地加以确定或限制。有必要区分;它们各自单独的变化状况也不用清地加以确定或限制。回归分析则希望明确建立一个方程关系式,借助一个或多个变量回归分析则希望明确建立一个方程关系式,借助一个或多个变量(自变量自变量)来推测另一个变量来推测另一个变量(因变量因变量)的变化趋势。如果某个或多个自变量本身变的变化趋势。如果某个或多个自变量本身变动也处于不确定中,或者为随机变量,自变量的概率分布情况就必然要动也处于不确定中,或者为随机变量,自变量的概率分布情况就必然
9、要通过实验加以确定和限制。通过实验加以确定和限制。2023/5/196 6第6页,本讲稿共49页相关分析和回归分析概述相关分析和回归分析概述v简单回归简单回归 :只包括一个自变量和一个因变量的回归分析。:只包括一个自变量和一个因变量的回归分析。v多元回归分析多元回归分析 :包括两个或两个以上自变量的回归分析:包括两个或两个以上自变量的回归分析 。v线性回归线性回归 :变量间的关系可以用一条直线近似表示出来:变量间的关系可以用一条直线近似表示出来 。v曲性回归曲性回归 :变量间的关系是用曲线近似表示出来的:变量间的关系是用曲线近似表示出来的 。2023/5/197 7第7页,本讲稿共49页202
10、3/5/198 8散点图散点图(scatter diagram)v探讨变量探讨变量x x、y y的相关关系时,常须先做出散点图。的相关关系时,常须先做出散点图。v以数标轴上的点代表以数标轴上的点代表x x、y y的一对观察值,可以直观地考察变量之间联系程度,的一对观察值,可以直观地考察变量之间联系程度,并且有助于选择合适的估计模型。并且有助于选择合适的估计模型。v正的相关关系(正的相关关系(positive correlationpositive correlation):自变量:自变量x x增加,因变量增加,因变量y y也随之也随之增加。增加。v负相关系负相关系(negative corre
11、lation)(negative correlation):x x增加,增加,y y减少。减少。v无相关(无相关(non-correlationnon-correlation):x x的变化不影响的变化不影响y y的变动。的变动。第8页,本讲稿共49页2023/5/199 9y0 x正相关正相关y0 x负相关负相关y0 x不相关不相关y0 x曲线相关曲线相关第9页,本讲稿共49页2023/5/191010相关系数相关系数 v现假定观测到现假定观测到n n个变量个变量x x,y y的组合值,分别为(的组合值,分别为(x1,y1x1,y1)()(x2,y2x2,y2)(xn,ynxn,yn)。)。
12、v容易得到容易得到x x,y y的平均数的平均数 ,。v如果把坐标移到(如果把坐标移到(,),则新坐标为:),则新坐标为:。v在新坐标的第一、第三象限里,在新坐标的第一、第三象限里,xyxy的乘积为的乘积为v 正值;在第二、第四象限晨,它们的乘积正值;在第二、第四象限晨,它们的乘积xyxyv 均为负值。均为负值。v当当x x、y y为正相关时,也就是绝大多数点落于为正相关时,也就是绝大多数点落于v 一、三象限时,一、三象限时,为正;为正;v 若若x,yx,y为负相关,即绝大多数点落于二、四象为负相关,即绝大多数点落于二、四象v 限时,限时,为负;为负;v 若若x x、y y对应的点散布于四个象
13、限,则上值接近于对应的点散布于四个象限,则上值接近于0 0。(,)第10页,本讲稿共49页2023/5/191111相关系数相关系数v变量的相关可以用变量的相关可以用 来表示来表示 。v -变量变量x x的标准差;的标准差;v -变量变量y y的标准差的标准差;v r r -变量的相关系数变量的相关系数第11页,本讲稿共49页2023/5/191212相关系数相关系数v为了简化公式,为了简化公式,r r的公式还了演变为:的公式还了演变为:vr r的值在的值在-1-1和和1 1之间变化。之间变化。r=1 完全正相关 0r1 正相关 r=0 不相关-1r0 负相关 r=-1 完全负相关 相关系数表
14、相关系数表第12页,本讲稿共49页2023/5/191313等级相关等级相关 v无法用精密数量确定事物大小,惟一可行的方法是以等级或次序对事物无法用精密数量确定事物大小,惟一可行的方法是以等级或次序对事物进行排序,如才智高低、事态轻重、色泽深浅、效率大小以及味道的好进行排序,如才智高低、事态轻重、色泽深浅、效率大小以及味道的好坏等;坏等;v有时候即使是精密的数据,也采用等级来测定它们之间的相互关系有时候即使是精密的数据,也采用等级来测定它们之间的相互关系 ,其,其关系紧密程度的衡量指标就叫等级相关系数。关系紧密程度的衡量指标就叫等级相关系数。v在这些等级相关系数中,以司庇而曼在这些等级相关系数
15、中,以司庇而曼(C(CSpearman)Spearman)的等级相关运用最为普的等级相关运用最为普遍。其公式为:遍。其公式为:其中,其中,didi:各对数据的等级差异;:各对数据的等级差异;n n:样本的数据总数。:样本的数据总数。第13页,本讲稿共49页2023/5/191414v司庇而曼相关系数是针对两个序数变量的;司庇而曼相关系数是针对两个序数变量的;v其中每个变量的数据已按一定标准划分成其中每个变量的数据已按一定标准划分成1 1至至n n个等级;个等级;v如果如果d2id2i的和为的和为0 0,那么,那么rs=1rs=1。也就是说,此时两个变量的等级是等价。也就是说,此时两个变量的等级
16、是等价的;的;vrsrs值由值由+1(+1(完全正相关完全正相关)变化到一变化到一1(1(完全负相关完全负相关),其中若,其中若rs=Ors=O意味着彼此意味着彼此不相关。不相关。第14页,本讲稿共49页2023/5/191515样本相关系数的分布和测验样本相关系数的分布和测验 v在假定两变量在假定两变量(x,y)(x,y)的组合总体适合于正态分布的组合总体适合于正态分布(三度空间的立体三度空间的立体正态曲面正态曲面)的条件下,的条件下,z z与与y y的相关系数的相关系数r r的抽样分布是随着两个因的抽样分布是随着两个因素素样本单位数样本单位数n n与总体相关系数与总体相关系数p p的不同而
17、变化着。的不同而变化着。v不过总的说来,不过总的说来,r r分布的形态是属于各种各样的。分布的形态是属于各种各样的。v如把总体相关系数如把总体相关系数p p分成三类:分成三类:p=0p=0,p=0.50p=0.50以及以及p=0.90p=0.90,在不同,在不同的的n n条下,条下,r r的分布形态见下图。的分布形态见下图。第15页,本讲稿共49页2023/5/191616第16页,本讲稿共49页2023/5/191717样本相关系数的分布和测验样本相关系数的分布和测验v由于由于r r分布的偏态形态,作实际测验的计算时,比较困难,英国著名分布的偏态形态,作实际测验的计算时,比较困难,英国著名统
18、计学家埃统计学家埃爱爱费煦为了补救这种复杂计算的缺陷,用变量费煦为了补救这种复杂计算的缺陷,用变量E E代替代替r r,替代公式为:,替代公式为:v其中其中lnln表示以表示以e e为底的自然对数,对为底的自然对数,对E E的变量来说,它的分布接近于正态的变量来说,它的分布接近于正态分布,因此,就可利用正态分布表作出测验。另外,费煦已经作出了分布,因此,就可利用正态分布表作出测验。另外,费煦已经作出了r r与与E E间的变换表格,所以计算就大大地简化了。间的变换表格,所以计算就大大地简化了。第17页,本讲稿共49页2023/5/191818相关系数相关系数r r的虚无假设的测验以及可信任界限的
19、计算举例的虚无假设的测验以及可信任界限的计算举例v样本为样本为3535对数据时,求出对数据时,求出r r为为0.800.80,试用,试用5 5的显著标准来作出总体相的显著标准来作出总体相关系数关系数p=0.90p=0.90的虚无假设测验。先假定以虚无假设出发,的虚无假设测验。先假定以虚无假设出发,r=0.80r=0.80可能可能从总体从总体p=0.90p=0.90中抽出,如果概率超过中抽出,如果概率超过5 5,就接受这个假设,否则,就接受这个假设,否则,就推翻这个假设。就推翻这个假设。v从附表我们查出,从附表我们查出,r=0.80r=0.80时,时,z=1.099z=1.099,并从同一附表中
20、,找出,并从同一附表中,找出P=0.90P=0.90时,时,mz=1.472mz=1.472,我们知道:,我们知道:第18页,本讲稿共49页2023/5/191919v由由t t分布近似于正态分布,可以利用正态分布。分布近似于正态分布,可以利用正态分布。v可以利用正态面积表求出在可以利用正态面积表求出在t=t=一一2.112.11左边的概率面积是:左边的概率面积是:A=0.0174A=0.0174;v由于这是两侧测验,所以概率是由于这是两侧测验,所以概率是p=2*(0.0174)=0.0348p=2*(0.0174)=0.0348,这是小于,这是小于5 5的的显著水准,所以,拒绝这个假设,也就
21、是显著水准,所以,拒绝这个假设,也就是r=0.80r=0.80不可能从总体相关系数不可能从总体相关系数p=O.90p=O.90的总体中抽取出来的,也可以说,的总体中抽取出来的,也可以说,P=0.90P=0.90与与r=0.80r=0.80是有显著是有显著差异的。差异的。第19页,本讲稿共49页2023/5/192020简单回归分析简单回归分析 v回归分析:在由一个或一组非随机变量来估计或预测某一个随机回归分析:在由一个或一组非随机变量来估计或预测某一个随机变量的观察值时,所建立的数学模型及所进行的统计分析。变量的观察值时,所建立的数学模型及所进行的统计分析。v如果这个模型是线性的就称为线性回归
22、分析如果这个模型是线性的就称为线性回归分析 。v线性回归中最简单的就是两个变量,或者称为简单线性回归。线性回归中最简单的就是两个变量,或者称为简单线性回归。第20页,本讲稿共49页2023/5/192121v在对社会现象进行调查时,不可能存在等于零的误差。考虑到这一点,我在对社会现象进行调查时,不可能存在等于零的误差。考虑到这一点,我们会在上述方程式中添加一个误差变量,以可能性模型来替代确定方程,们会在上述方程式中添加一个误差变量,以可能性模型来替代确定方程,即:即:v 第第f f个地区的销售额水平;个地区的销售额水平;v 第第f f个地区的电视广告时数;个地区的电视广告时数;v 与第与第i
23、i个观察值相关的误差。个观察值相关的误差。误差项是该模型不可缺少的一部分,它暗示着模型可能有未包含进去的变量、误差项是该模型不可缺少的一部分,它暗示着模型可能有未包含进去的变量、一种人类行为中不可预测的因素以及偏差的度量。一种人类行为中不可预测的因素以及偏差的度量。可能性模型在给定可能性模型在给定 、值情况下,值情况下,yiyi与与xixi不是一一对应的关系;所能确定的只是某种情不是一一对应的关系;所能确定的只是某种情况下况下yiyi分布的平均值,而真实值则围绕自己分布的平均值上下波动。分布的平均值,而真实值则围绕自己分布的平均值上下波动。第21页,本讲稿共49页2023/5/192222最小
24、二乘法最小二乘法v我们最终确定的回归方程是一种确定模型,因而我们希望能找到我们最终确定的回归方程是一种确定模型,因而我们希望能找到一条最能代表真实可能性情况的方程或者说两者偏离最小。一条最能代表真实可能性情况的方程或者说两者偏离最小。v最常见的方法是最小二乘法,而该方法又是以随机误差最常见的方法是最小二乘法,而该方法又是以随机误差符合一定假设符合一定假设为前提的,这些假设条件具体如下:为前提的,这些假设条件具体如下:的均值或期望值为的均值或期望值为0 0;的方差是一个常数而且的方差是一个常数而且的方差与各个自变量无关;的方差与各个自变量无关;彼此之间是相互独立的;彼此之间是相互独立的;彼此之间
25、是相互独立的。彼此之间是相互独立的。第22页,本讲稿共49页2023/5/192323v回归方程求出的理论估计值记为回归方程求出的理论估计值记为 。v 与真实值与真实值yi yi 存在离差,记为:存在离差,记为:v最小二乘法就是通过一系列方法找到一个模型,使得各个离差的平方最小二乘法就是通过一系列方法找到一个模型,使得各个离差的平方和最小,即和最小,即 最小。最小。v ,为从样本估出的方程系数值为从样本估出的方程系数值 。v ,为总体系数值。为总体系数值。第23页,本讲稿共49页2023/5/192424结果结果其中其中第24页,本讲稿共49页估计标准差估计标准差v对右图观察发现,尽管直线拟对
26、右图观察发现,尽管直线拟合数据合得很好,但仍在若干合数据合得很好,但仍在若干点对于直线的偏离;点对于直线的偏离;v这些偏差的大小代表了回归方这些偏差的大小代表了回归方程直线拟合的优劣,成为判断程直线拟合的优劣,成为判断方程好坏的一个指标方程好坏的一个指标。2023/5/192525yx1第25页,本讲稿共49页2023/5/192626v直线直线 是对于真实回归方程是对于真实回归方程 的一种估计。的一种估计。v假设绕直线上下波动的随机变量假设绕直线上下波动的随机变量 的方差为的方差为 或或 ,在总体离差,在总体离差 不不知道的情况下,通过样本可得推出其的一个无偏估计。知道的情况下,通过样本可得
27、推出其的一个无偏估计。v类似的,用类似的,用 作为作为 的无偏估计,则公式如下:的无偏估计,则公式如下:第26页,本讲稿共49页2023/5/192727有关斜率系数的分析有关斜率系数的分析 v斜率系数斜率系数 值是否源于偶然性,是否具有意义,需要对其进行显著性检验。值是否源于偶然性,是否具有意义,需要对其进行显著性检验。v经过论证如果经过论证如果 为正态分布,那为正态分布,那 也同样呈正态分布。也同样呈正态分布。v其中其中 的方差满足公式:的方差满足公式:v因为总体方差因为总体方差 并不知晓,并不知晓,同样为未知数并要求做最佳估计,则可用同样为未知数并要求做最佳估计,则可用样本来代替。样本来
28、代替。v 第27页,本讲稿共49页2023/5/192828v在变量为正态分布、总体参数未知的情况下,通常用在变量为正态分布、总体参数未知的情况下,通常用t-t-来检验样本参数的显著来检验样本参数的显著性。性。v现设定虚无假设为在样本变量之间存在线性关系时总体参数间并不存在性现设定虚无假设为在样本变量之间存在线性关系时总体参数间并不存在性关系。即:关系。即:v统计检验为统计检验为 ,其中的自由度个数为,其中的自由度个数为n n一一2 2。第28页,本讲稿共49页2023/5/192929对对y y值的预测值的预测v如果所求出的回归方程并非为偶然联系,那么我们就可以利用它来如果所求出的回归方程并
29、非为偶然联系,那么我们就可以利用它来对给定对给定x x下的下的y y进行预测。进行预测。第29页,本讲稿共49页2023/5/193030相关系数相关系数v在回归分析中,除了已介绍的相关系数,更常用的是相关系数的另外一种形在回归分析中,除了已介绍的相关系数,更常用的是相关系数的另外一种形式式可决系数可决系数r2r2,相关系数的平方。,相关系数的平方。v一般进行的市场调研由于经费、时间等因素的影响,往往只是抽样调一般进行的市场调研由于经费、时间等因素的影响,往往只是抽样调查,而非涉及全面的普查。这就涉及到由样本结果推断总体结论的准查,而非涉及全面的普查。这就涉及到由样本结果推断总体结论的准确度的
30、问题。确度的问题。v可决系数不区分自变量和因变量,我们对于研究变量最好的估计是它可决系数不区分自变量和因变量,我们对于研究变量最好的估计是它的均值。的均值。第30页,本讲稿共49页2023/5/193131v可决系数一般与回归分析联合使用,用以解释回归方程在多大程度上说明可决系数一般与回归分析联合使用,用以解释回归方程在多大程度上说明因变量的差异,即:因变量的差异,即:第31页,本讲稿共49页2023/5/193232对对r r的显著性作假设检验的显著性作假设检验 v假设假设p p表示相应未知的总体相关系数,我们计算以下的表示相应未知的总体相关系数,我们计算以下的t t一统计量:一统计量:vr
31、 r的标准误差为的标准误差为 :v因此,对零假设因此,对零假设p=0p=0的检验统计量简化为的检验统计量简化为 :该统计量服从自由度为该统计量服从自由度为n-2n-2的的t t分布。分布。第32页,本讲稿共49页2023/5/193333多元回归分析多元回归分析 v回归模型和回归方程回归模型和回归方程 v复相关与偏相关复相关与偏相关 v整体解释力的统计显著性整体解释力的统计显著性 v虚拟变量虚拟变量 v曲线相关曲线相关v使用回归分析需要注意的事项使用回归分析需要注意的事项 第33页,本讲稿共49页2023/5/193434回归模型和回归方程回归模型和回归方程 v描述应变量描述应变量y y如何依
32、赖于自变量如何依赖于自变量x1,x2x1,x2,xnxn和误差项的方程称为和误差项的方程称为回归模回归模型型 ;v在多元回归模型中参数含义与简单回归模型中的有一些不同。在多元回归模型中参数含义与简单回归模型中的有一些不同。v以二元回归模型为例:以二元回归模型为例:为为 的简化。的简化。v小数点左边的二位数字为直接关系的变量。第一位代表因变量,第二位表示该小数点左边的二位数字为直接关系的变量。第一位代表因变量,第二位表示该系数所代表的自变量;小数右边的是表示不变的变量,称为次级变量。当然随系数所代表的自变量;小数右边的是表示不变的变量,称为次级变量。当然随着自变量的增多,小数点右边的数字可以到着
33、自变量的增多,小数点右边的数字可以到k-1k-1个(个(k k为自变量个数)。为自变量个数)。第34页,本讲稿共49页2023/5/193535v例如,系数例如,系数 (简化为(简化为 )的意义如下:在所有其他解释)的意义如下:在所有其他解释变量(如变量(如X2X2)保持不系时,)保持不系时,x1x1每变动一个单位所导致的每变动一个单位所导致的y y的相应变化。的相应变化。v通过这种方法,我们能够把每个解释变量对通过这种方法,我们能够把每个解释变量对y y的影响分离出来,不受的影响分离出来,不受其他解释变量的干扰和影响。所以,其他解释变量的干扰和影响。所以,和和 的值称为局部回归的值称为局部回
34、归系数。系数。第35页,本讲稿共49页2023/5/193636复相关与偏相关复相关与偏相关 vn n个变量影响一个变量的相关称为复相关,求出的系数,称为复相个变量影响一个变量的相关称为复相关,求出的系数,称为复相关系数。关系数。v当两个独立变量当两个独立变量z1z1、z2z2影响一个因变量时,影响一个因变量时,相关系数的计算式是:相关系数的计算式是:vRy.12Ry.12即为复相关系数即为复相关系数(multiple correlation coefficient)(multiple correlation coefficient),为复关可决系数。为复关可决系数。第36页,本讲稿共49页2
35、023/5/193737复相关与偏相关复相关与偏相关v所谓偏相关所谓偏相关(partial correlation)(partial correlation)是在测定是在测定n n个独立变量对一个因个独立变量对一个因变量的响时,在排除其他变量的影响后,指定一个独立变量对这个因变变量的响时,在排除其他变量的影响后,指定一个独立变量对这个因变量计算得的相关系数,称为偏相关系数,也可称为纯相关系数量计算得的相关系数,称为偏相关系数,也可称为纯相关系数(net(net correlation coefficientcorrelation coefficient)。v不能解释的部分可以用估计标准离差不能
36、解释的部分可以用估计标准离差 来表示来表示 ,总差异可以用因,总差异可以用因变量变量y y的方差来说明的方差来说明 ,即:,即:。第37页,本讲稿共49页2023/5/193838v于是于是:v公式中的最后一项表明,在考虑了自变量公式中的最后一项表明,在考虑了自变量x x影响时,因变量影响时,因变量y y中仍然不中仍然不能被说明的变化差异与能被说明的变化差异与y y变动的绝对变化差异之间的比值。变动的绝对变化差异之间的比值。v这个比值度量着这两个变量之间的关联度在多大程度上可用于解释因变这个比值度量着这两个变量之间的关联度在多大程度上可用于解释因变量量y y。第38页,本讲稿共49页2023/
37、5/193939整体解释力的统计显著性整体解释力的统计显著性vFF统计量:被解释的变化与未被解释的变化之比。统计量:被解释的变化与未被解释的变化之比。v解释变量的方差解释变量的方差 可以被分解为两部分,部分通过回归值可以被分解为两部分,部分通过回归值 来解释。一部分通过残差来解释。一部分通过残差 来解释。来解释。v被解释的变化与未被解释的变化的有关表达式简单地等于,总的被解释被解释的变化与未被解释的变化的有关表达式简单地等于,总的被解释和未被解释的方差除以各自的自由度和未被解释的方差除以各自的自由度(分别是分别是n-k-1)n-k-1)。第39页,本讲稿共49页2023/5/194040(一一
38、)F)F检验检验vFF检验的统计显著性检验程序:检验的统计显著性检验程序:事先说明假设检验事先说明假设检验 ;把计算好的把计算好的F F一统计值与临界值相比,临界值取自在一给定概率水平下一统计值与临界值相比,临界值取自在一给定概率水平下F F一概率分布的一概率分布的F F一统计表。一统计表。v假设可以表述为:假设可以表述为:v如果我们拒绝如果我们拒绝H0H0,我们就可以断定,在被解释变量和至少一个解释变,我们就可以断定,在被解释变量和至少一个解释变量之间有显著的关系,回归方程整体来看是显著的。量之间有显著的关系,回归方程整体来看是显著的。v在只有一个解释变量时的简单回归分析的情形下,整体解释力
39、的在只有一个解释变量时的简单回归分析的情形下,整体解释力的F F一检验一检验必然相当于单个回归系数必然相当于单个回归系数 的的t-t-检验。这时,可以看到,检验。这时,可以看到,F=tlF=tl。第40页,本讲稿共49页(二二)F)F一统计表和一统计表和F F一分布一分布vF F一分布的形状如右图。一分布的形状如右图。该分布是不对称的;该分布是不对称的;F F值不可能为负值不可能为负 。分布的实际形状取决于与分布的实际形状取决于与F F一统计量的表达式相一统计量的表达式相应的分子和分母的自由度应的分子和分母的自由度(分别是分别是K K和和n-k-1)n-k-1)。vF F一统计表中概率值一统计
40、表中概率值(a)(a)有有0.050.05和和0.010.01两种,对应于相应两种,对应于相应的自由度,分子和分母分别用的自由度,分子和分母分别用v1v1和和V2V2表示,从表示,从1 1到到。v如:可以查到,在如:可以查到,在V1=9V1=9和和V2=12V2=12时,时,F F一统计量的临界值一统计量的临界值(用用FaFa表示表示)在在0.050.05的显著水平下等于的显著水平下等于2.802.80,在,在0.010.01的显著水平下的显著水平下等于等于4.394.39;也就是说,只有;也就是说,只有5 5的可能性得到一个大于的可能性得到一个大于2.802.80的的F F一统计值,只有一统
41、计值,只有1 1的可能性超过的可能性超过4.394.39。v如果计算的如果计算的F F一统计量超过了临界值,我们拒绝零假设,并一统计量超过了临界值,我们拒绝零假设,并断定整个回归在统计上是显著的。断定整个回归在统计上是显著的。2023/5/194141概率概率(a a)第41页,本讲稿共49页2023/5/194242虚拟变量虚拟变量v看下面一个例子:看下面一个例子:纯净过滤水股份公司对于水过滤系统提供维修保养服务。当顾客的水过滤系统出现故障时,纯净过滤水股份公司对于水过滤系统提供维修保养服务。当顾客的水过滤系统出现故障时,公司对他们的水过滤系统进行维修。公司对他们的水过滤系统进行维修。为了估
42、计服务时间和服务成本,纯净公司的管理人员希望对顾客的每一次维修为了估计服务时间和服务成本,纯净公司的管理人员希望对顾客的每一次维修请求预测必要的维修时间。请求预测必要的维修时间。管理人员认为,维修时间依赖两个方面:从最后一次维修服务至今已经使用的管理人员认为,维修时间依赖两个方面:从最后一次维修服务至今已经使用的月数和需要维修的故障类型月数和需要维修的故障类型(机械的或电子的机械的或电子的)。第42页,本讲稿共49页虚拟变量虚拟变量2023/5/194343vy y表示按小时计算的维修时间,表示按小时计算的维修时间,x1x1表示从最后一次维修服务至今的月数,仅表示从最后一次维修服务至今的月数,
43、仅仅利用仅利用x1x1进行预测的回归模型是:进行预测的回归模型是:v利用有关软件,得到估计的回归方程如下:利用有关软件,得到估计的回归方程如下:v与该方程与该方程t(t(或或F)F)检验对应的实测显著水平为检验对应的实测显著水平为0.0160.016,小于置信度,小于置信度0.050.05。这就表明维修时问显著地依赖于从最后一次维修服务至今的月数。这就表明维修时问显著地依赖于从最后一次维修服务至今的月数。r2=53.4r2=53.4,表明,表明x1x1仅仅解释了维修时变异性的仅仅解释了维修时变异性的53.453.4。第43页,本讲稿共49页虚拟变量虚拟变量2023/5/194444v为了将故障
44、的维修类型引入回归模型,我们定义下面的变量:为了将故障的维修类型引入回归模型,我们定义下面的变量:v在回归分析中,在回归分析中,x2x2称为称为虚拟变量虚拟变量或指标变量。或指标变量。v多元回归模型如下:多元回归模型如下:v最后得到方程:最后得到方程:v经检验,两个变量在统计上都是显著的经检验,两个变量在统计上都是显著的 。第44页,本讲稿共49页曲线相关曲线相关2023/5/194545v如果变量之间呈现非线性关系,我们可以借助变量转换,将复杂难解的曲如果变量之间呈现非线性关系,我们可以借助变量转换,将复杂难解的曲线回归转变成通常的线性回归,求出我们所需要的模型。线回归转变成通常的线性回归,
45、求出我们所需要的模型。考虑模型:考虑模型:令:令:得到模型得到模型(2)(2):v模型模型(2)(2)为一线性回归,因而我们很容易地利用最小二乘法估计出为一线性回归,因而我们很容易地利用最小二乘法估计出方程中的各个参数。方程中的各个参数。第45页,本讲稿共49页2023/5/194646使用回归分析需要注意的事项使用回归分析需要注意的事项v简单回归的缺陷简单回归的缺陷 :回归分析局限于揭示变量之间的线值关系;回归分析局限于揭示变量之间的线值关系;通过了显著性检验或拥有较高通过了显著性检验或拥有较高R2R2值的回归方程并不一定保证解值的回归方程并不一定保证解释变量与被解释变量之间的因果关系;释变
46、量与被解释变量之间的因果关系;回归方程对于超过给定范围的自变量对应下因变量的预测也就回归方程对于超过给定范围的自变量对应下因变量的预测也就是我们常说的是我们常说的“外推预测外推预测”可信度不高;可信度不高;建立在小规模样本上的回归方程是不可靠的;建立在小规模样本上的回归方程是不可靠的;自变量和因变量的数据变化范围能够影响回归方程的可用性,自变量和因变量的数据变化范围能够影响回归方程的可用性,如果要令得出的回归方程具有实用性,自变量和因变量的数据如果要令得出的回归方程具有实用性,自变量和因变量的数据范围就应该宽泛。范围就应该宽泛。第46页,本讲稿共49页2023/5/194747使用回归分析需要
47、注意的事项使用回归分析需要注意的事项v此外,在使用多元回归中,还容易忽略一下几个问题:此外,在使用多元回归中,还容易忽略一下几个问题:(1)(1)估计的回归方程选择了不恰当的方程形式估计的回归方程选择了不恰当的方程形式(即线性或非线性关系即线性或非线性关系),被称为方程形,被称为方程形式的错误识别;式的错误识别;(2)(2)两个或更多的解释变量彼此相关的程度,使得可靠地度量它们各自的影响成为不可能,两个或更多的解释变量彼此相关的程度,使得可靠地度量它们各自的影响成为不可能,这个问题被称为多重共线性;这个问题被称为多重共线性;(3)(3)不同时间的被解释变量的观测值自身相关的可能性,被称为自相关
48、或序列相关问题,不同时间的被解释变量的观测值自身相关的可能性,被称为自相关或序列相关问题,这影响到局部回归系数显著性检验的可靠性;这影响到局部回归系数显著性检验的可靠性;(4)(4)预测误差可能不是常数,相反,它可能与解释变量的由于这个原因大小预测误差可能不是常数,相反,它可能与解释变量的由于这个原因大小相关,这个问题被称为异方差问题,这也可能影响到估计回归系数的显著性相关,这个问题被称为异方差问题,这也可能影响到估计回归系数的显著性检验的可靠性;检验的可靠性;(5)(5)在回归模型中解释变量含有测量误差的可能性,这个问题被称为变量误差,这将在回归模型中解释变量含有测量误差的可能性,这个问题被
49、称为变量误差,这将导致回归系数的估计不是无偏的和一致的。导致回归系数的估计不是无偏的和一致的。第47页,本讲稿共49页2023/5/194848本章小结本章小结v在这章里,我们主要说明了如何运用相关分析和回归分析由一个或多个自变量在这章里,我们主要说明了如何运用相关分析和回归分析由一个或多个自变量x x来推来推断一个因变量断一个因变量y y的变动。的变动。v尽管相关分析和回归分析有一定的差异,但两者常常一起使用,并被视为一体。因此,尽管相关分析和回归分析有一定的差异,但两者常常一起使用,并被视为一体。因此,在相关系数一节只介绍了简单相关和等级相关,复相关以及偏相关赦在了回归分析的在相关系数一节
50、只介绍了简单相关和等级相关,复相关以及偏相关赦在了回归分析的相关章节里。相关章节里。v在简单线性回归情形中,回归模型是在简单线性回归情形中,回归模型是 ,我们利用最,我们利用最小二乘法求出估计的回归方程小二乘法求出估计的回归方程 ;接着对回归模型的系数和;接着对回归模型的系数和误差项进行了讨论,说明了如何利用估计的回归方程求出误差项进行了讨论,说明了如何利用估计的回归方程求出y y的平均值的置的平均值的置信区间估计和信区间估计和y y的个别值的预测区间估计的方法;作为估计方程拟合优度的一个量度。的个别值的预测区间估计的方法;作为估计方程拟合优度的一个量度。我们最后介绍了可决系数。相关系数的平方