《10相关与回归分析.ppt》由会员分享,可在线阅读,更多相关《10相关与回归分析.ppt(55页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、1第十章第十章 相关分析与回归分析相关分析与回归分析n n相关分析与回归分析的基本概念n n线性相关分析n n一元线性回归分析2第一节第一节 基本概念基本概念一、函数关系与相关关系n函数关系:当一个或几个变量取一定的值时,另一个变量有确定值与之相对应,称为确定性的函数关系。n函数关系的特点1.是一一对应的确定关系2.设有两个变量 x 和 y,变量 y 随变量 x 一起变化,并完全依赖于 x,当变量 x 取某个数值时,y 依确定的关系取相应的值,则称 y 是 x 的函数,记为 y=f(x),其中 x 称为自变量,y 称为因变量 3第一节第一节 基本概念基本概念一、函数关系与相关关系n相关关系:当
2、一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种规律在一定的范围内变化。变量之间的这种关系称为相关关系。n相关关系的特点1.变量间关系不能用函数关系精确表达;2.一个变量的取值不能由另一个变量唯一确定;3.当变量 x 取某个值时,变量 y 的取值可能有几个。4二、相关关系的种类二、相关关系的种类n n按相关关系的程度划分按相关关系的程度划分n n完全相关:完全相关:n n当一个现象的数量变化完全由另一个现象的数量变化所确当一个现象的数量变化完全由另一个现象的数量变化所确定时,称这两种现象间的关系为完全相关。定时,称这两种现象间的关系为完全相关。n n不相关
3、:不相关:n n当两种现象彼此互不影响,其数量变化各自独立时,称为当两种现象彼此互不影响,其数量变化各自独立时,称为不相关现象。不相关现象。n n不完全相关:不完全相关:n n两个现象之间的关系介于相关和不相关之间,称为不完全两个现象之间的关系介于相关和不相关之间,称为不完全相关。相关。5二、相关关系的种类二、相关关系的种类n n按相关形式划分n n线性相关:线性相关:n n当两种相关现象之间的关系大致呈现为线性关系当两种相关现象之间的关系大致呈现为线性关系时,称之为线性关关。时,称之为线性关关。n n非线性相关:非线性相关:n n如果两种相关现象之间,并不表现为直线的关系,如果两种相关现象之
4、间,并不表现为直线的关系,而是近似于某种曲线方程的关系,则这种相关关而是近似于某种曲线方程的关系,则这种相关关系称为非线性相关。系称为非线性相关。6n按相关的方向划分n正相关:n两个相关现象间,当一个变量的数值增加(或减少)时,另一个变量的数值也随之增加(或减少),即同方向变化。n负相关:n当一个变量的数值增加(或减少)时,而另一个变量的数值相反地呈减少(或增加)趋势变化,即反方向变化。二、相关关系的种类二、相关关系的种类7n按研究的变量划分n单相关:n两个变量之间的相关,称为单相关n复相关:n当所研究的是一个变量对两个或两个以上其他变量的相关关系时,称为复相关。n偏相关:n在某一现象与多种现
5、象相关的场合,假定其他变量不变,专门考察其中两个变量的相关关系称为偏相关。二、相关关系的种类二、相关关系的种类8三、相关分析与回归分析三、相关分析与回归分析(一)概念:n相关分析:n就是用一个指标来表明现象间相互依存关系的密切程度。n回归分析:n是指对具有相关关系的现象,根据其相关关系的具体形态,选择一个合适的数学模型(称为回归方程式),用来近似地表达变量间的平均变化关系的一种统计分析方法。9(二)相关分析与回归分析的相关分析与回归分析的区别区别 n n在相关分析中,不必确定自变量和因变量;而在回归分析中,必在相关分析中,不必确定自变量和因变量;而在回归分析中,必须事先确定哪个为自变量,哪个为
6、因变量,而且只能从自变量去须事先确定哪个为自变量,哪个为因变量,而且只能从自变量去推测因变量,而不能从因变量去推断自变量。推测因变量,而不能从因变量去推断自变量。n n相关分析不能指出变量间相互关系的具体形式;而回归分析能确相关分析不能指出变量间相互关系的具体形式;而回归分析能确切的指出变量之间相互关系的具体形式,它可根据回归模型从已切的指出变量之间相互关系的具体形式,它可根据回归模型从已知量估计和预测未知量。知量估计和预测未知量。n n相关分析所涉及的变量一般都是随机变量,而回归分析中因变量相关分析所涉及的变量一般都是随机变量,而回归分析中因变量是随机的,自变量则作为研究时给定的非随机变量。
7、是随机的,自变量则作为研究时给定的非随机变量。10(三)相关分析与回归分析的联系(三)相关分析与回归分析的联系n相关分析和回归分析有着密切的联系,它们不仅具有共同的研究对象,而且在具体应用时,常常必须互相补充。相关分析需要依靠回归分析来表明现象数量相关的具体形式,而回归分析则需要依靠相关分析来表明现象数量变化的相关程度。只有当变量之间存在着高度相关时,进行回归分析寻求其相关的具体形式才有意义。n简单说:n1、相关分析是回归分析的基础和前提;n2、回归分析是相关分析的深入和继续。11第二节第二节 线性相关分析线性相关分析n定性分析n n依据研究者的理论知识和实践经验,对客观现象之间依据研究者的理
8、论知识和实践经验,对客观现象之间是否存在相关关系,以及何种关系作出判断。是否存在相关关系,以及何种关系作出判断。n定量分析n n在定性分析的基础上,通过编制相关表、绘制相关图、在定性分析的基础上,通过编制相关表、绘制相关图、计算相关系数等方法,来判断现象之间相关的方向、计算相关系数等方法,来判断现象之间相关的方向、形态及密切程度。形态及密切程度。12一、相关表一、相关表n n相关表:将自变量相关表:将自变量x x的数值按照从小到大的顺序,并配合的数值按照从小到大的顺序,并配合因变量因变量y y的数值一一对应而平行排列的表。的数值一一对应而平行排列的表。n例:为了研究分析某种劳务产品完成量与其单
9、位产品成本之间的关系,调查30个同类服务公司得到的原始数据如表。13 整理后整理后14二、相关图二、相关图n n相关图相关图/散点图:以直角坐标系的横轴代表变量散点图:以直角坐标系的横轴代表变量x x,纵轴代表变量,纵轴代表变量y y,将两个变量间相对应的变量值,将两个变量间相对应的变量值用坐标点的形式描绘出来,用来反映两变量之间用坐标点的形式描绘出来,用来反映两变量之间的相关关系的图形。的相关关系的图形。n n例:例:15相关图相关图16三、相关系数三、相关系数(一)相关系数的定义(一)相关系数的定义:n n在线性条件下说明两个变量之间相关关系密切程度的统在线性条件下说明两个变量之间相关关系
10、密切程度的统计分析指标。计分析指标。n n总体相关系数:相关系数是根据总体全部数据计算的,记为总体相关系数:相关系数是根据总体全部数据计算的,记为 n n样本相关系数:根据样本数据计算的,记为样本相关系数:根据样本数据计算的,记为 r r17(二)相关系数的特点(二)相关系数的特点n n的取值介于与之间;的取值介于与之间;n n在大多数情况下,在大多数情况下,|,即,即与与的样本观测值之间存在着的样本观测值之间存在着一定的线性关系,当一定的线性关系,当时,与为正相关,当时,与为正相关,当时,时,与与为负相关。为负相关。n n|的数值愈接近于的数值愈接近于1 1,表示,表示x x与与y y直线相
11、关程度愈高;反之,直线相关程度愈高;反之,|的数值的数值愈接近于愈接近于0 0,表示,表示x x与与y y直线相关程度愈低。直线相关程度愈低。n n通常判断的标准是通常判断的标准是:|:|0.30.3称为微弱相关,称为微弱相关,0.3|0.3|0.50.5称为低度相关,称为低度相关,0.5|0.5|0.80.8称为显著相关称为显著相关 ,0.8|0.8|1 1称为高度相关或强相关。称为高度相关或强相关。n n如果如果|=1|=1,则表明,则表明与与完全线性相关,当完全线性相关,当=1=1时,称为完全正相时,称为完全正相关,而关,而=-1=-1时,称为完全负相关。时,称为完全负相关。n n是对变
12、量之间线性相关关系的度量。是对变量之间线性相关关系的度量。n n=0 0只是表明两个变量之间不存在线性关系,它并不意味着只是表明两个变量之间不存在线性关系,它并不意味着与与之间不之间不存在其他类型的关系。存在其他类型的关系。18(三)相关系数的计算(三)相关系数的计算19 例:下表是有关例:下表是有关15个地区某种食物需求量和地区人口增个地区某种食物需求量和地区人口增加量的资料。加量的资料。2021(四)相关系数的显著性检验(四)相关系数的显著性检验 n n检验两个变量之间是否存在线性相关关系检验两个变量之间是否存在线性相关关系n n采用采用 t t 检验检验n n检验的步骤为检验的步骤为n
13、n提出假设:提出假设:HH0 0:;HH1 1:0 0n n计算检验的统计量:计算检验的统计量:n确定显著性水平,并作出决策 若 t t,拒绝 H0 若 t =48.385t t(15-2)=2.160(15-2)=2.160,拒绝拒绝H H0 0,该,该种食物需求量和地区人口增加量之间的相之间的相关关系显著。关关系显著。23第三节第三节 一元线性回归一元线性回归一、回归函数n n总体回归函数:总体回归函数:t t 0 0 1 1t tu ut tnu t是随机误差项,又称随机干扰项,它是一个特殊的随机变量,反映未列入方程式的其他各种因素对的影响。n n样本回归函数:样本回归函数:n nt t
14、称为残差,在概念上,称为残差,在概念上,t t与总体误差项与总体误差项u ut t相互对相互对应;是样本的容量。应;是样本的容量。24样本回归函数与总体回归函数区别样本回归函数与总体回归函数区别1.1.总体回归线是未知的,只有一条。样本回归线是根据样本数据拟合的,每抽取一总体回归线是未知的,只有一条。样本回归线是根据样本数据拟合的,每抽取一组样本,便可以拟合一条样本回归线。组样本,便可以拟合一条样本回归线。2.2.总体回归函数中的总体回归函数中的 1 1和和 2 2是未知的参数,表现为常数。而样本回归函数中的是未知的参数,表现为常数。而样本回归函数中的 是随机变量,其具体数值随所抽取的样本观测
15、值不同而变动。是随机变量,其具体数值随所抽取的样本观测值不同而变动。3.3.总体回归函数中的总体回归函数中的u ut t是是t t与未知的总体回归线之间的纵向距离,它是不可直接观与未知的总体回归线之间的纵向距离,它是不可直接观测的。而样本回归函数中的测的。而样本回归函数中的t t是是t t与样本回归线之间的纵向距离,当根据样本观与样本回归线之间的纵向距离,当根据样本观测值拟合出样本回归线之后,可以计算出测值拟合出样本回归线之后,可以计算出t t的具体数值。的具体数值。n综上所述,样本回归函数是对总体回归函数的近似反应。回归分析的主要任务就是要采用适当的方法,充分利用样本所提供的信息,使得样本回
16、归函数尽可能地接近于真实的总体回归函数。25二、最小二乘法拟合回归方程二、最小二乘法拟合回归方程n n原理:使残差平方和最小原理:使残差平方和最小n n加以整理后有:加以整理后有:2627例:现以前例的资料配合回归直线,计算如下:例:现以前例的资料配合回归直线,计算如下:2829上式中 表示人口每增加(或减少)1千人,该种食品的年需求量平均来说增加(或减少)0.5301十吨即5.301吨。30三、一元线性回归方程的检验三、一元线性回归方程的检验 n n回归模型检验的种类n n回归方程的拟合程度的评价n n显著性检验 31(一)回归模型检验的种类(一)回归模型检验的种类n n回归模型的检验包括回
17、归模型的检验包括理论意义检验、一级检验理论意义检验、一级检验和和二级检验二级检验。n n理论意义检验理论意义检验主要涉及参数估计值的符号和取值区间,如果它们与实主要涉及参数估计值的符号和取值区间,如果它们与实质性科学的理论以及人们的实践经验不相符,就说明模型不能很好的质性科学的理论以及人们的实践经验不相符,就说明模型不能很好的解释现实的现象。解释现实的现象。n n一级检验一级检验/统计学检验:统计学检验:它是利用统计学中的抽样理论来检验样本回它是利用统计学中的抽样理论来检验样本回归方程的可靠性。具体又分为归方程的可靠性。具体又分为拟合程度评价拟合程度评价和和显著性检验显著性检验。n n二级检验
18、二级检验/经济计量学检验:经济计量学检验:它是对标准线性回归模型的假定条件能它是对标准线性回归模型的假定条件能否得到满足进行检验。具体包括序列相关检验、异方差性检验、多重否得到满足进行检验。具体包括序列相关检验、异方差性检验、多重共线性检验等。共线性检验等。32(二)回归模型的拟合程度的评价(二)回归模型的拟合程度的评价n n所谓拟合程度,是指样本观测值聚集在样本回归所谓拟合程度,是指样本观测值聚集在样本回归线周围的紧密程度。线周围的紧密程度。33n n因因变变量量 y y 的的取取值值是是不不同同的的,y y 取取值值的的这这种种波波动动称为离差。变差来源于两个方面:称为离差。变差来源于两个
19、方面:n n由于自变量由于自变量 x x 的取值不同造成的;的取值不同造成的;n n除除 x x 以以外外的的其其他他因因素素(如如x x对对y y的的非非线线性性影影响响、测测量量误差等误差等)的影响。的影响。n n对对一一个个具具体体的的观观测测值值来来说说,变变差差的的大大小小可可以以通通过该实际观测值与其均值之差过该实际观测值与其均值之差 来表示。来表示。34总变差平方和总变差平方和(SST)三个平方和的关系三个平方和的关系2.两端平方后求和有1.1.从图上看有从图上看有SST=SSR+SSE回归平方和回归平方和(SSR)残差平方和残差平方和(SSE)35三个平方和的意义三个平方和的意
20、义n n总平方和总平方和(SST)(SST)反映因变量的反映因变量的 n n 个观察值与其均值的总离差个观察值与其均值的总离差n n回归平方和回归平方和(SSR)(SSR)反反映映自自变变量量 x x 的的变变化化对对因因变变量量 y y 取取值值变变化化的的影影响响,或或者者说说,是是由由于于 x x 与与 y y 之之间间的的线线性性关关系系引引起起的的 y y 的的取取值值变变化化,也也称称为为可可解解释释的平方和。的平方和。n n残差平方和残差平方和(SSE)(SSE)反反映映除除 x x 以以外外的的其其他他因因素素对对 y y 取取值值的的影影响响,也也称称为为不不可可解解释释的的
21、平方和或剩余平方和。平方和或剩余平方和。36判定系数判定系数 R2n n将上式两边同除以将上式两边同除以SSTSST,得:,得:n n显而易见,各个样本观测点与样本回归直线靠得越显而易见,各个样本观测点与样本回归直线靠得越紧,紧,SSRSSR在在SSTSST中所占的比例就越大。因此,可定义中所占的比例就越大。因此,可定义这一比例为判定系数,即有:这一比例为判定系数,即有:37判定系数判定系数R2 的特征的特征n n判定系数R2具有非负性;n n判定系数取值范围0 R2 1;n n判定系数是样本观测值的函数,它也是一个统计量。n n在一元线性回归模型中,决定系数是单相关系数的平方。38 例:例:
22、利用前例资料计算利用前例资料计算利用前例资料计算利用前例资料计算39估计标准误差估计标准误差 n n总体随机误差项的方差总体随机误差项的方差 :可以反映理论模型误差的大小。:可以反映理论模型误差的大小。n n数学上可以证明,数学上可以证明,的无偏估计的无偏估计S Se e2 2可由下式给出:可由下式给出:n nS Se e2 2的正平方根又叫做回归估计的标准误差。的正平方根又叫做回归估计的标准误差。40n n S Se e越小表明实际观测点与所拟合的样本回归线的越小表明实际观测点与所拟合的样本回归线的离差程度越小,即回归线具有较强的代表性。反离差程度越小,即回归线具有较强的代表性。反之,之,S
23、 Se e越大表明实际观测点与所拟合的样本回归越大表明实际观测点与所拟合的样本回归线的离差程度越大,即回归线的代表性较差。线的离差程度越大,即回归线的代表性较差。n n简化公式:简化公式:41例:用前例资料继续计算例:用前例资料继续计算 已知:n=15,则有:42(三)显著性检验(三)显著性检验n n回归系数的显著性检验n n根根据据样样本本估估计计的的结结果果对对总总体体回回归归系系数数的的有有关关假假设进行检验设进行检验n n回归方程的显著性检验n n检检验验自自变变量量X X和和因因变变量量Y Y之之间间的的线线性性关关系系是是否否显著显著431、回归系数的显著性检验、回归系数的显著性检
24、验(1 1)提出假设)提出假设n nHH0 0:b b1 1=0 =0 HH1 1:b b1 1 (2 2)计算统计量)计算统计量(3 3)决策)决策44如前例:如前例:1.1.提出假设提出假设n nHH0 0:b b1 1=0 =0 人口增长与年均需求量之间无线性关系人口增长与年均需求量之间无线性关系n nHH1 1:b b1 1 0 0 人口增长与年均需求量之间有线性关系人口增长与年均需求量之间有线性关系2.2.计算检验的统计量计算检验的统计量3.t=36.0072t=2.201,拒绝H0,表明人人口口增增长长与与年年均均需需求量求量之间有线性关系452、回归方程的显著性检验、回归方程的显
25、著性检验(1)提出假设(2)计算检验统计量F(3)决策如前例如前例46(1)提出假设(3)决策拒绝原假设,表明所建立的回归方程是显著的,即该食品需求量与地区人口增长量之间的线性关系是显著的。(2)计算检验统计量F47五、一元线性回归模型预测五、一元线性回归模型预测n n点预测n n给定一个给定一个x x值,预测值,预测y y的取值的取值n n区间预测n n平均值的区间预测平均值的区间预测/置信区间置信区间n n对于对于x x的一个给定值的一个给定值x x0 0,求出,求出y y的平均值的区间估计的平均值的区间估计n n特定值的区间预测特定值的区间预测/预测区间预测区间n n对于对于x x的一个
26、给定值的一个给定值x x0 0,求出,求出y y的特定值的区间估计的特定值的区间估计48(一)点预测(一)点预测n n点预测的基本公式:点预测的基本公式:n n前例中,当人口增长量为前例中,当人口增长量为400400千人时,可预测该食千人时,可预测该食品的年需求量为:品的年需求量为:49(二)区间预测(二)区间预测n n1、y的平均值的置信区间为 50n n例:假定已知人口增长量为例:假定已知人口增长量为200200千人,要求利用上例中拟合的样本回归千人,要求利用上例中拟合的样本回归方程与有关数据,计算置信度为方程与有关数据,计算置信度为95%95%的该食品年平均需求量的置信区间。的该食品年平
27、均需求量的置信区间。n n解:将有关数据代入拟好的样本回归方程,可得:解:将有关数据代入拟好的样本回归方程,可得:n n已知:已知:51n n查查t t分布表可知:显著性水平为分布表可知:显著性水平为5%5%,自由度为,自由度为1313的双侧的双侧t t检检验的临界值是验的临界值是2.162.16。因此,当人口增长量为。因此,当人口增长量为200200千人时,置千人时,置信度为信度为95%95%的该食品年需求量的预测区间如下:的该食品年需求量的预测区间如下:n n当人口增长量为当人口增长量为200200千人时,有千人时,有95%95%的概率保证该食品的年的概率保证该食品的年平均需求量在平均需求
28、量在1247.91247.9到到1324.31324.3吨之间。吨之间。52(三)区间预测(三)区间预测n n2、y的特定值的预测区间为 53n n例:假定已知人口增长量为例:假定已知人口增长量为200200千人,要求利用上例中拟合的样本回归千人,要求利用上例中拟合的样本回归方程与有关数据,计算置信度为方程与有关数据,计算置信度为95%95%的该食品年需求量的置信区间。的该食品年需求量的置信区间。n n解:将有关数据代入拟好的样本回归方程,可得:解:将有关数据代入拟好的样本回归方程,可得:n n已知:已知:54n n查查t t分布表可知:显著性水平为分布表可知:显著性水平为5%5%,自由度为,自由度为1313的双侧的双侧t t检验的临界值检验的临界值是是2.162.16。因此,当人口增长量为。因此,当人口增长量为200200千人时,置信度为千人时,置信度为95%95%的该食品年的该食品年需求量的预测区间如下:需求量的预测区间如下:n n当人口增长量为当人口增长量为200200千人时,有千人时,有95%95%的概率保证该食品的年需求量在的概率保证该食品的年需求量在1142.21142.2到到14301430吨之间。吨之间。练习题练习题55