《(本科)第9章相关与回归分析ppt课件.pptx》由会员分享,可在线阅读,更多相关《(本科)第9章相关与回归分析ppt课件.pptx(87页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第九章第九章相关与回归分析相关与回归分析相关相关与回归分析的基本概念与回归分析的基本概念简单线性相关与回归分析简单线性相关与回归分析多元线性相关与回归分析多元线性相关与回归分析非线性相关与回归分析非线性相关与回归分析2(本科)第9章相关与回归分析ppt课件第一节第一节相关与回归分析的基本概念相关与回归分析的基本概念一一 函数关系与相关关系函数关系与相关关系二二 相关关系的种类相关关系的种类三三 相关分析与回归分析相关分析与回归分析四四 相关图相关图3(本科)第9章相关与回归分析ppt课件一、函数关系与相关关系一、函数关系与相关关系v当一个或几个变量取一定的值时,另一个变量有确定值与之相对应,我
2、们称这种关系为确定性的函数关系函数关系。例如,商品的销售收入Y与该商品的销售量X以及该商品价格P之间的关系。v当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种规律在一定的范围内变化。变量间的这种相互关系,称为具有不确定性的相关关系相关关系。例如,劳动生产率与工资水平的关系。4(本科)第9章相关与回归分析ppt课件v变量之间的函数关系和相关关系,在一定条件下是可以互变量之间的函数关系和相关关系,在一定条件下是可以互相转化的相转化的。本来具有函数关系的变量,当存在观测误差时,其函数关系往往以相关的形式表现出来。具有相关关系的变量之间的联系,如果对它们有了深刻
3、的规律性认识,并能够把影响因变量变动的因素全部纳入方程,这时的相关关系也可能转化为函数关系。v相关关系也具有某种变动规律性,所以,相关关系经常可以用一定的函数形式去近似地描述。客观现象的函数关系可以用数学分析的方法去研究,而研究客观现象的相关关研究客观现象的相关关系必须借助于统计学中的相关与回归分析方法系必须借助于统计学中的相关与回归分析方法。5(本科)第9章相关与回归分析ppt课件二、相关关系的种类二、相关关系的种类v按相关的程度可分为完全相关、不完全相关和不相关。当一种现象的数量变化完全由另一个现象的数量变化所确定时,称这两种现象间的关系为完全相关完全相关。在这种场合,相关关系便成为函数关
4、系。因此也可以说函函数关系是相关关系的一个特例数关系是相关关系的一个特例。当两个现象彼此互不影响,其数量变化各自独立时,称为不相关不相关现象。两个现象之间的关系介于完全相关和不相关之间,称为不完全相关,一般相关现象都是指这种不完全相关不完全相关。6(本科)第9章相关与回归分析ppt课件v按相关的方向可分为正相关和负相关。当一个现象的数量增加(或减少),另一个现象的数量也随之增加(或减少)时,称为正相关正相关。例如,消费水平随收入的增加而提高。当一个现象的数量增加(或减少),而另一个现象的数量向相反方向变动时,称为负相关负相关。例如商品流转的规模愈大,流通费用水平则愈低。v按相关的形式可分为线性
5、相关和非线性相关。现象之间的关系为线性关系时,称之为线性相关线性相关。相关现象之间近似于某种曲线方程的关系,则这种相关关系称为非线性相关非线性相关。7(本科)第9章相关与回归分析ppt课件v按所研究的变量多少可分为单相关、复相关和偏相关。两个变量之间的相关,称为单相关单相关。当所研究的是一个变量对两个或两个以上其他变量的相关关系时,称为复相关复相关。在某一现象与多种现象相关的场合,假定其他变量不变,专门考察其中两个变量的相关关系称为偏相关偏相关。例如,在假定人们的收入水平不变的条件下,某种商品的需求与其价格水平的关系就是一种偏相关。8(本科)第9章相关与回归分析ppt课件三、相关分析与回归分析
6、三、相关分析与回归分析v相关分析相关分析是用一个指标来表明现象间相互关系的密切程度。v回归分析回归分析是根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均变化关系。v相关分析和回归分析有着密切的联系有着密切的联系,它们不仅具有共同的研究对象,而且在具体应用时,常常必须互相补充。v相关分析与回归分析之间又有明显明显区别。区别。v相关分析研究变量之间相关的方向和相关的程度。回归分析则研究变量之间相互关系的具体形式。v相关分析无法从一个变量的变化来推测另一个变量的变化情况。可不必确定哪个是自变量,哪个是因变量,其所涉及的变量可以都是随机变量。回归分析必须事先确定自变量和因变量。
7、一般地说,因变量是随机的,而把自变量作为研究时给定的非随机变量。9(本科)第9章相关与回归分析ppt课件v相关与回归分析可以加深人们对客观现象之间相关关系的认识,因而是对客观现象进行分析的有效方法。v相关分析和回归分析只是定量分析的手段。通过相关与回归分析虽然可以从数量上反映现象之间的联系形式及其密切程度,但是无法准确地判断现象内在联系的有无,也无法单独以此来确定何种现象为因,何种现象为果。只有以实质性科学理论为指导,并结合实际进行研究,才能正确判断事物的内在联系和因果关系。如果对本来没有内在联系的现象,仅凭数据进行相关分析和回归分析,就可能是一种“伪相关伪相关”或“伪回归伪回归”,可能 导致
8、荒谬的结论。v在应用相关与回归分析方法时,一定要注意把定性分析和定量分析结合起来,在定性分析的基础上开展定量分析。10(本科)第9章相关与回归分析ppt课件四、相关图四、相关图v相关图相关图又称散点图。它是以直角坐标系的横轴代表变量X,纵轴代表变量Y,将两个变量间相对应的变量值用坐标点的形式描绘出来,用来反映两变量之间相关关系的图形。11(本科)第9章相关与回归分析ppt课件第二节第二节简单线性相关与回归分析简单线性相关与回归分析相关系数相关系数及其检验及其检验标准标准的一元线性回归模型的一元线性回归模型 一一元线性回归元线性回归模型估计模型估计一一元线性回归元线性回归模型检验模型检验 一一元
9、线性回归元线性回归模型模型预测预测12(本科)第9章相关与回归分析ppt课件一、相关系数及其检验一、相关系数及其检验(一)相关系数的定义(一)相关系数的定义v总体相关系数总体相关系数的定义式是 总体相关系数是反映两变量之间线性相关程度的一种特征值,表现为一个常数。v样本相关系数样本相关系数的定义式是 上式中,和 分别是X和Y的样本平均数。v样本相关系数是根据样本观测值计算的,抽取的样本不同其具体的数值也会有所差异。v样本相关系数是总体相关系数的一致估计量。13(本科)第9章相关与回归分析ppt课件(二)相关系数的特点(二)相关系数的特点vr的取值介于-1与1之间。当r=0时,X与Y的样本观测值
10、之间没有线性关系;0|r|0时,X与Y为正相关,当r 0时,X与Y为负相关。如果|r|=1,则表明X与Y完全线性相关,当r=1时,称为完全正相关,而r-1时,称为完全负相关。r是对变量之间线性相关关系的度量。r=0只是表明两个变量之间不存在线性关系,并不意味着X与Y之间不存在其他类型的关系。对于二者之间可能存在的非线性相关关系,需要利用其他指标去进行分析。14(本科)第9章相关与回归分析ppt课件(三)相关系数的计算(三)相关系数的计算上式可由相关系数的定义式推到而来。如:例例9-1.docx15(本科)第9章相关与回归分析ppt课件(四)相关系数的检验(四)相关系数的检验v 对总体相关系数
11、是否等于进行检验。计算相关系数r的t值:根据给定的显著性水平和自由度(n-2),查找t分布表中相应的临界值t /2。若|t|t /2,表明r在统计上是显著的。若|t|t /2,表明r在统计上是不显著的。16(本科)第9章相关与回归分析ppt课件例例9-2v假设根据6对样本观测数据计算出某公司的股票价格与气温的样本相关系数r=0.5,试问是否可根据5的显著水平认为该公司股票与气温之间存在一定程度的线性相关关系?v解:H0:=0;H0:0r的t检验值 查表可知:显著水平为5%,自由度为的临界值t /2=2.776,上式中的t值小于2.776,因此,r不能通过显著性检验。这就是说,尽管根据样本观测值
12、计算的r达到0.5,但是由于样本单位过少,这一结论并不可靠,它不足以证明该公司的股票与气温之间存在一定程度的线性相关关系。17(本科)第9章相关与回归分析ppt课件二二、标准的一元线性回归模型、标准的一元线性回归模型(一)总体回归函数(一)总体回归函数v在回归分析中,最简单的模型是只有一个因变量和一个自变量的线性回归模型,即一元线性回归模型一元线性回归模型,又称简单线简单线性回归模型性回归模型。上式被称为总体回归函数总体回归函数。式中的 1和 2是未知的参数,又叫回归系数。Yt和Xt分别是Y和X的第t个观测值。u t是随机误差项,又称随机干扰项,它是一个特殊的随机变量,反映未列入方程式的其他各
13、种因素对Y的影响。18(本科)第9章相关与回归分析ppt课件(t)12tX XY YY Yt tu ut t。图图7-2总体回归线与随机误差项总体回归线与随机误差项19(本科)第9章相关与回归分析ppt课件(二)样本回归函数(二)样本回归函数v在现实中,由于现象的总体单位数一般是很多的,在许多场合甚至是无限的,因此无法掌握变量总体的全部取值。需要利用样本的信息对其进行估计。v一元线性回归模型的样本回归线可表示为:式中的 是样本回归线上与Xt相对应的Y值,可视为E(Yt)的估计;是样本回归函数的截距系数,是样本回归函数的斜率系数,它们是对总体回归系数 1和 2的估计。20(本科)第9章相关与回归
14、分析ppt课件实际观测到的因变量Yt值,并不完全等于 ,如果用et表示二者之差(),则有:(t=1,2,.,n)上式称为样本回归函数样本回归函数。式中et称为残差残差。v样本回归函数是对总体回归函数的近似反映。回归分析的主要任务就是要充分利用样本所提供的信息,使得样本回归函数尽可能地接近于真实的总体回归函数21(本科)第9章相关与回归分析ppt课件样本回归函数与总体回归函数之间的间的样本回归函数与总体回归函数之间的间的区别区别v总体回归线是未知的,它只有一条。而样本回归线则是根据样本数据拟合的,每抽取一组样本,便可以拟合一条样本回归线。v总体回归函数中的1和2是未知的参数,表现为常数。而样本回
15、归函数中的 和 是随机变量,其具体数值随所抽取的样本观测值不同而变动。v总体回归函数中的ut是Yt与未知的总体回归线之间的纵向距离,它是不可直接观测的。而样本回归函数中的et是Yt与样本回归线之间的纵向距离,当根据样本观测值拟合出样本回归线之后,可以计算出et的具体数值。22(本科)第9章相关与回归分析ppt课件(三)误差项的标准(三)误差项的标准假定假定v假定:误差项的期望值为0,即对所有的t总有v假定:误差项的方差为常数,即对所有的t总有v假定:误差项之间不存在序列相关关系,其协方差为零,即当ts时有:v假定:自变量是给定的变量,与误差项线性无关。v假定:随机误差项服从正态分布。满足以上标
16、准假定的一元线性模型,称为标准的一元线性标准的一元线性回归模型回归模型。23(本科)第9章相关与回归分析ppt课件三、一元线性回归模型的估计三、一元线性回归模型的估计(一)回归系数的点估计(一)回归系数的点估计v最小二乘法是通过使残差平方和为最小来估计回归系数的一种方法。v将对求偏导数,并令其等于零,可得v加以整理后有设设24(本科)第9章相关与回归分析ppt课件v以上方程组称为正规方程组正规方程组或标准方程组标准方程组,式中的n是样本容量。求解这一方程组可得:25(本科)第9章相关与回归分析ppt课件(二)总体方差的估计(二)总体方差的估计v可以证明,2的无偏估计S2可由下式给出:式中,分子
17、是残差平方和,分母是自由度,其中n是样本观测值的个数,2是一元线性回归方程中回归系数的个数。S2的正平方根又叫做回归估计的标准误差。v一般采用以下公式计算残差平方和:上式的推导过程如下:26(本科)第9章相关与回归分析ppt课件(三)最小二乘估计量的(三)最小二乘估计量的性质性质v按照最小二乘法求得的估计总体回归系数的数学公式是样本观测值的函数,通常称之为最小二乘估计量最小二乘估计量。v可以证明,在标准假定能够得到满足的条件下,回归系数的最小二乘估计量的期望值等于其真值,即有:其方差为:27(本科)第9章相关与回归分析ppt课件v将Yt=1+2 Xt+ut代入 估计量,并作以下变形:v为推导上
18、式,利用了以下恒等式:v回归系数的最小二乘估计量可以表现为所要估计的参数的真值与随机误差项的线性组合。28(本科)第9章相关与回归分析ppt课件v由于已假定Xt是给定的变量,因此,同各期误差项相乘的权数也都是确定量。为叙述方便,令v则有:根据标准假定根据标准假定4 根据标准假定根据标准假定1 根据标准假定根据标准假定4、3 根据标准假定根据标准假定2 29(本科)第9章相关与回归分析ppt课件v利用关于随机误差项的标准假定和期望值运算的规则。可以证明 的期望值和方差分别为:和 。v 最小二乘估计量是因变量Yt的线性函数,其期望值等于总体回归系数的真值。因此,最小二乘估计量是总体回归系数的线性无
19、偏估计量线性无偏估计量。还可以进一步证明,在所有的线性无偏估计量中,回归系数的最小二乘估计量的方差最小;随着样本容量的增大,其方差会不断缩小。也就是说,回归系数的最小二乘估计量是最优线性无偏估最优线性无偏估计量计量和一致估计量一致估计量。v高斯高斯-马尔可夫定理马尔可夫定理表明:在标准的假定下,最小二乘估计量是一种最佳估计方式。但这并不意味着根据这一方式计算的具体的估计值都比根据其他方式计算的具体估计值更接近真值,而只是表明如果反复多次进行估计值计算或是扩大样本的容量进行估计值计算,按最佳估计方式计算的估计值接近真值的可能性(概率)最大。30 2(本科)第9章相关与回归分析ppt课件(四)回归
20、系数的区间估计(四)回归系数的区间估计v根据关于参数区间估计的原理,可得到以下回归系数区间估计的公式:式中,是回归系数估计的样本标准误差,是显著水平为,自由度为(n-2)的t分布双侧临界值。S 31(本科)第9章相关与回归分析ppt课件四、一元线性回归模型的检验四、一元线性回归模型的检验(一)(一)回归模型检验的种类回归模型检验的种类v理论意义检验理论意义检验主要涉及参数估计值的符号和取值区间,如果它们与实质性科学的理论以及人们的实践经验不相符,就说明模型不能很好地解释现实的现象。例如,在前面所举的消费函数中,2的取值区间应在0至1之间。在对实际的社会经济现象进行回归分析时,常常会遇到经济意义
21、检验不能通过的情况。造成这一结果的主要原因是:社会经济的统计数据无法像自然科学中的统计数据那样通过有控制的实验去取得,因而所观测的样本容量有可能偏小,不具有足够的代表性,或者不能满足标准线性回归分析所要求的假定条件。32(本科)第9章相关与回归分析ppt课件v一级检验一级检验又称统计学检验,它是利用统计学中的抽样理论来检验样本回归方程的可靠性,具体又可分为拟合程度评价和显著性检验。一级检验是对所有现象进行回归分析时都必须通过的检验。v二级检验二级检验又称经济计量学检验,它是对标准线性回归模型的假定条件能否得到满足进行检验,具体包括序列相关检验、异方差性检验、多重共线性检验等。二级检验对于社会经
22、济现象的定量分析具有特别重要的意义。v如果通过检验发现模型有缺陷,则必须回到模型的设定阶段或参数估计阶段。重新选择因变量和自变量及其函数形式,或者对数据进行加工整理之后再次估计参数。33(本科)第9章相关与回归分析ppt课件(二)拟合程度的评价(二)拟合程度的评价v总离差平方和的分解总离差平方和的分解对任一实际观测值Yt总有:对上式两边取平方并求和,得到:利用残差的定义和有关约束条件可以证明:从而有:即 SST=SSR+SSE34(本科)第9章相关与回归分析ppt课件上式中,SST是总离差平方和总离差平方和;SSR是由回归直线可以解释的那一部分离差平方和,称为回归平方和回归平方和;SSE是用回
23、归直线无法解释的离差平方和,称为残差平方和残差平方和。式子两边同除以SST,得:v显而易见,各个样本观测点与样本回归直线靠得越紧,SSR在SST中所占的比例就越大。因此,可定义这一比例为决定系数决定系数,即有:v决定系数是对回归模型拟合程度的综合度量,决定系数越大,模型拟合程度越高。35(本科)第9章相关与回归分析ppt课件v决定系数r2具有如下特性:1.决定系数r2具有非负性。由决定系数的定义式可知,r2的分子分母均是不可能为负值的平方和,因此其比值必大于零。(但是在回归模型中不包括截距项的场合,由于总离差平方和的分解公式不成立,按该式计算的r2有可能小于。)2.决定系数的取值范围为0 r2
24、 1。3.决定系数是样本观测值的函数,它也是一个统计量。4.在一元线性回归模型中,决定系数是单相关系数的平方。36(本科)第9章相关与回归分析ppt课件(三)显著性检验(三)显著性检验v回归分析中的显著性检验包括两方面的内容:一是对各回回归系数的显著性检验归系数的显著性检验;二是对整个回归方程的显著性检验整个回归方程的显著性检验。在一元线性回归模型中,由于只有一个解释变量,对20的检验与对整个方程的显著性检验是等价的。v所谓回归系数的显著性检验回归系数的显著性检验,就是根据样本估计的结果对总体回归系数的有关假设进行检验。1与2的检验方法是相同的,但2的检验更为重要,因为它表明自变量对因变量影响
25、的程度。37(本科)第9章相关与回归分析ppt课件1.t检验检验(1)提出假设。式中,H0表示原假设;H1表示备择假设;是假设的总体回归系数的真值。在许多回归分析的计算机程序里,常常令 0。这是因为 2 是否为0,可以表明X对Y是否有显著的影响。(2)确定显著水平。显著水平的大小应根据犯哪一类错误可能带来损失的大小确定。一般情况下可取0.05。(3)计算回归系数的t值。38(本科)第9章相关与回归分析ppt课件(4)确定临界值。t检验的临界值是由显著水平和自由度决定的。这时应该注意,原假设和备择假设设定的方式不同,据以判断的接受域和拒绝域也不相同。例如对H0:2=0,H1:2 0,进行的是双侧
26、t检验;而对H0:2=0.9,H1:2 k。我们称这条假定为标准假定6。50(本科)第9章相关与回归分析ppt课件二、多元线性回归模型的估计二、多元线性回归模型的估计(一)回归系数的估计(一)回归系数的估计v多元线性回归模型中回归系数的估计同样采用最小二乘法。设v根据微积分中求极小值的原理,可知残差平方和Q存在极小值,欲使Q达到最小,Q对 的偏导数必须等于零。将Q对 求偏导数,并令其等于零,加以整理后可得到以下k个方程式:通过求解这一方程组便可以得到 。51(本科)第9章相关与回归分析ppt课件v求解多元回归方程,用矩阵形式来表达较为简便(这里给出的矩阵形式具有一般性,一元线性回归模型也同样适
27、用。对于尚未学过矩阵代数的读者,可不必掌握这一部分内容。)记记52(本科)第9章相关与回归分析ppt课件v则总体回归函数(9.1)式可以写为:YXBUv样本回归函数(7.51)式可以写为:v标准方程组可以写为:式中X表示X的转置矩阵。(XX)是一个k k的对称矩阵根据标准假定6,(k-1)个自变量之间不存在高度线性相关,其逆矩阵存在。在上式两边同时左乘(XX)-1,可以得到:上式是回归系数最小二乘估计的一般形式上式是回归系数最小二乘估计的一般形式。53(本科)第9章相关与回归分析ppt课件(二)总体方差的估计(二)总体方差的估计v多元线性回归模型中的 2也是利用残差平方和除以其自由度来估计的。
28、即有:式中,n是样本观测值的个数;k是方程中回归系数的个数;可以证明,S2是 2的无偏估计。S2的正平方根S又叫做回归估计的标准误差。v编制计算机程序时,残差平方和一般利用以下公式计算:式中Y是因变量样本观测值向量;X是自变量样本观测值矩阵;是回归系数估计值向量的转置向量。(三)最小二乘估计量的三)最小二乘估计量的性质性质v在标准多元线性回归模型中,高斯定理同样成立。54(本科)第9章相关与回归分析ppt课件三、多元线性回归模型的检验和预测三、多元线性回归模型的检验和预测(一)拟合程度的评价(一)拟合程度的评价v利用R2来评价多元线性回归方程的拟合程度,必须注意以下问题。v由决定系数的定义可知
29、,R2的大小取决于残差平方和 在总离差平方和 中所占的比重。在样本容量一定的条件下,总离差平方和与自变量的个数无关,而残差平方和 则会随着模型中自变量个数的增加不断减少,至少不会增加。因此,R2是自变量个数的非递减函数。55(本科)第9章相关与回归分析ppt课件v在一元线性回归模型中,所有模型包含的变量数目都相同,如果所使用的样本容量也一样,决定系数便可以直接作为评价拟合程度的尺度。然而在多元线性回归模型中,各回归模型所含的变量的数目未必相同,以R2的大小作为衡量拟合优劣的尺度是不合适的。v在多元回归分析中,人们更常用的评价指标是所谓的修正修正自由度的决定系数自由度的决定系数。该指标定义如下:
30、式中,n是样本容量;k是模型中回归系数的个数。(n-1)和(n-k)分别是总离差平方和与残差平方和的自由度。56(本科)第9章相关与回归分析ppt课件v修正自由度的决定系数具有以下特点:1.。因为k1,所以根据 和R2各自的定义式可以得出这一结论。对于给定的R2值和n值,k值越大 越小。在进行回归分析时,一般总是希望以尽可能少的自变量去达到尽可能高的拟合程度。作为综合评价这两方面情况的一项指标显然比R2更为合适。2.小于1,但未必都大于0。在拟合极差的场合,有可能取负值。57(本科)第9章相关与回归分析ppt课件v【例9-11】假设有年的年度统计资料,现利用其对同一因变量拟合了两个样本回归方程
31、。方程一中:6,2=0.82;方程二中:2,20.80。试对这两个回归方程的拟合程度做出评价。v解:如果仅从2考察,似乎方程一的拟合程度更佳。但是,由于两个方程选用的自变量个数不同,这一结论是不正确的。将上列数据代入式(9.63),可得:v方程一的 1-(9-1)/(9-6)(1-0.82)=-0.08v 方程二的 1-(9-1)/(9-2)(1-0.80)=0.76v 由此可见,方程二的实际拟合程度远远优于方程一。58(本科)第9章相关与回归分析ppt课件(二)(二)显著性检验显著性检验1.回归系数的显著性检验回归系数的显著性检验v多元回归中进行这一检验的目的主要是为了检验与各回归系数对应的
32、自变量对因变量的影响是否显著,以便对自变量的取舍做出正确的判断。一般来说,当发现某个自变量的影响不显著时,应将其从模型中删除。这样才能够做到以尽可能少的自变量去达到尽可能高的拟合优度。v多元模型中回归系数的检验同样采用t检验检验和P检验检验,其原理和步骤与一元回归模型基本相同,这里不再赘述。下面仅给出回归系数显著性检验t统计量的一般计算公式。59(本科)第9章相关与回归分析ppt课件 j=1,2,k式中,是回归系数的估计值,是的标准差的估计值,其按下式计算:式中,是(XX)-1的第j个对角线元素,S2是随机误差项方差的估计值。上式的t 统计量背后的原假设是H0:j=0,因此 t的绝对值越大表明
33、 j为0的可能性越小,即表明相应的自变量对因变量的影响是显著的。60(本科)第9章相关与回归分析ppt课件2.回归方程的显著性检验回归方程的显著性检验v必须在方差分析的基础上利用F检验进行。其步骤如下:(1)假设总体回归方程不显著,即有 H0:2 3 k 0(2)进行方差分析,列出回归方差分析表(见下表)61(本科)第9章相关与回归分析ppt课件v表中,回归平方和的取值受k个回归系数估计值的影响,同时又要服从 的约束条件,其自由度是k-1。残差平方和取决于n个因变量的观测值,同时又要服从k个正规方程式的约束,其自由度是n-k。回归平方和与残差平方和各除以自身的自由度得到的是样本方差。回归模型方
34、差分析表回归模型方差分析表 离差名称离差名称平方和平方和自由度自由度方差方差回归平方和回归平方和k-1SSR/(k-1)残差平方和残差平方和n-kSSE/(n-k)总离差平方和总离差平方和n-162(本科)第9章相关与回归分析ppt课件(3)根据方差分析的结果求统计量,即数学上可以证明,在随机误差项服从正态分布同时原假设成立的条件下,F服从于自由度为(k-1)和(n-k)的F分布。(4)根据自由度和给定的显著性水平,查F分布表中的理论临界值F 。当F F 时,拒绝原假设,即认为总体回归函数中各自变量与因变量的线性回归关系显著。当F 0,b1时,曲线随X 值的增加而弯曲上升,趋于+;当a0,0b
35、1 时,曲线随X值的增长而弯曲下降趋于0。v(五)对数函数(五)对数函数 对数函数的方程形式为:Y=a+blnX 式中,ln表示取自然对数。对数函数的特点是随着X的增大,X的单位变动对因变量Y的影响效果不断递减。77(本科)第9章相关与回归分析ppt课件v(六)形曲线函数 逻辑曲线具有以下性质。Y是X的非减函数,开始时随着X的增加,Y的增长速度也逐渐加快,但是达到一定水平之后,其增长速度又逐渐放慢。最后无论X如何增加,Y只会趋近于L,而永远不会超过L。由于逻辑曲线的这一特点,它常被用来表现耐用消费品普及率的变化。v(七)多项式方程(七)多项式方程v多项式方程在非线性回归分析中占有重要的地位。因
36、为根据级数展开的原理,任何曲线、曲面、超曲面问题,在一定的范围内都能用多项式任意逼近。当变量之间的确实关系未知时,可以用适当幂次的多项式来近似反映。v一元多项式一元多项式78(本科)第9章相关与回归分析ppt课件三、非线性回归模型估计三、非线性回归模型估计v(一)倒数变换(一)倒数变换倒数变换倒数变换是用新的变量来替换原模型中变量的倒数,从而使原模型变成线性模型的一种方法。例如,对于双曲线函数,令X*=1/X代入原方程式,可有:Y=a+bX*。v(二)半对数变换(二)半对数变换 这种方法主要应用于对数函数的线性变换。对于对数函数,令X*=lnX,代入原方程,同样可得:Y=a+b X*。79(本
37、科)第9章相关与回归分析ppt课件v(三)双对数变换(三)双对数变换 这种方法通过用新变量替换原模型中变量的对数,从而使原模型变换为线性模型。如对幂函数的两边求对数,可得:lnY=lna+b1lnX1+b2lnX2+bklnXk 令Y*=lnY;b0=lna;X1*=lnX1,Xk*=lnXk,代入上式可得:Y*=b0+b1 X1*+b2 X2*+bk Xk*v(四)多项式变换(四)多项式变换 这种方法适用于多项式方程的变换。例如,对于二元二次多项式,可令X2*=X1,X3*=X2,X4*=X1X2,X5*=X12,X6*=X22,代入方程,得:Y=b1+b2 X2*+b3 X3*+b4 X4
38、*+b5 X5*+b6 X6*80(本科)第9章相关与回归分析ppt课件v实际应用时要注意以下几个问题实际应用时要注意以下几个问题:一些比较复杂的非线性函数,要综合利用各种方法。为了能够根据样本观测值,对通过变换得到的线性回归方程式进行估计,该方程中的所有变量都不允许包含未知的参数。在以上的讨论中,为叙述方便,省略了非线性回归函数中包含的随机误差项。但与线性回归分析的场合一样,非线性回归分析也要考虑随机误差项的问题。严格地说,上述各种线性变换方法只是适用于变量为非线性的函数。并不是所有的非线性函数都可以通过变换得到与原方程完全等价的线性方程。81(本科)第9章相关与回归分析ppt课件v【例【例
39、9-14】利用例】利用例9-9中给出的资料中给出的资料()拟合幂函数形式的商品需求函数。()利用以上建立的样本回归方程,预测居民人均收入为2200元、商品单价为50元时的商品需求量。解:()幂函数形式的需求函数如下:利用双对数变换法,同时加入随机误差项,可得以下线性回归函数:式中,Y*=lnY;1=lna;2=b2;3=b3;=lnX2;=lnX3。利用EXCEL实现的步骤如下:1数据准备数据准备82(本科)第9章相关与回归分析ppt课件v在E2中分别输入公式“=LN(B2)”,然后选定E2:G2,按Ctrl+R键将公式复制到F2:G2中,再选定E2:G11,按Ctrl+D键将选定区域第一行的
40、公式复制到下面所有行,即可在E到G列得到Y、X2和X3的对数化值。参见下图。83(本科)第9章相关与回归分析ppt课件v84(本科)第9章相关与回归分析ppt课件四、相关指数四、相关指数v变量之间非线性相关的强弱,难以用单相关系数去判断。这种场合,可利用相关指数作为判断变量之间是否存在某种类型的非线性相关的尺度。所谓相关指数,也就是对非相关指数,也就是对非线性回归模型进行拟合时所得到的决定系数线性回归模型进行拟合时所得到的决定系数。【例例9-15】假设变量Y与变量X的样本观测值如下:。X0123456Y9521259.285(本科)第9章相关与回归分析ppt课件 试计算Y与X的单相关系数和以Y为因变量、X为自变量的抛物线方程的相关指数,判断Y与X之间是否存在某种相关关系?v解:利用求单相关系数的公式可得:Y与X的单相关系数 rxy0.0138,可以认为两者之间线性关系很不密切。v但是,拟合抛物线方程可得:Y=15.3714-7.1214X+0.8928X2 R2=0.99702 F=669.77 可以认为Y与X之间存在非常显著的抛物线形式的相关关系。