《第四章相关与回归精选文档.ppt》由会员分享,可在线阅读,更多相关《第四章相关与回归精选文档.ppt(60页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第四章相关与回归第四章相关与回归本讲稿第一页,共六十页一、函数关系与相关关系一、函数关系与相关关系1.函数关系函数关系当一个或几个变量取一定的值时,当一个或几个变量取一定的值时,另一个变量有确定值与之相对应,另一个变量有确定值与之相对应,我们称这种关系为确定性的函数关我们称这种关系为确定性的函数关系。系。第一节第一节 相关关系和相关分析的内容相关关系和相关分析的内容本讲稿第二页,共六十页(函数关系)(函数关系)(1)是一一对应的确定关系)是一一对应的确定关系(2)设设有有两两个个变变量量 x 和和 y,变变量量 y 随随变变量量 x 一一起起变变化化,并并完完全全依依赖赖于于 x,当当变变量量
2、 x 取取某某个个数数值值时时,y 依依确确定定的的关关系系取取相相应应的的值值,则则称称 y 是是 x 的的函函数数,记记为为 y=f(x),其其中中 x 称称为为自自变变量量,y 称称为为因因变变量量(3)各观测点落在一条线上)各观测点落在一条线上 x xy y本讲稿第三页,共六十页变量间的关系变量间的关系(函数关系)(函数关系)函数关系的例子函数关系的例子n某某种种商商品品的的销销售售额额(y)与与销销售售量量(x)之之间间的的关关系系可表示为可表示为 y=p x(p 为单价为单价)n圆的面积圆的面积(S)与半径之间的关系可表示为与半径之间的关系可表示为S=r2 n企企业业的的原原材材料
3、料消消耗耗额额(y)与与产产量量(x1)、单单位位产产量量消消耗耗(x2)、原原材材料料价价格格(x3)之之间间的的关关系系可可表表示示为为y=x1 x2 x3 本讲稿第四页,共六十页2.相关关系:相关关系:当一个或几个相互联系的变量取当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽一定数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种规律在一定的范围然不确定,但它仍按某种规律在一定的范围内变化。内变化。现象之间客观存在的不严格、不确定的现象之间客观存在的不严格、不确定的数量依存关系。数量依存关系。本讲稿第五页,共六十页变量间的关系变量间的关系(相关关系)(相关关系)(
4、1)变变量量间间关关系系不不能能用用函函数数关关系系精确表达;精确表达;(2)一一个个变变量量的的取取值值不不能能由由另另一一个个变量唯一确定;变量唯一确定;(3)当当变变量量 x 取取某某个个值值时时,变变量量 y 的取值可能有几个;的取值可能有几个;(4)各观测点分布在直线周围。)各观测点分布在直线周围。x xy y本讲稿第六页,共六十页(相关关系)(相关关系)相关关系的例子相关关系的例子n商品的消费量商品的消费量(y)与居民收入与居民收入(x)之间的关系之间的关系n商品的消费量商品的消费量(y)与物价与物价(x)之间的关系之间的关系n粮粮食食亩亩产产量量(y)与与施施肥肥量量(x1)、降
5、降雨雨量量(x2)、温温度度(x3)之间的关系之间的关系n收入水平收入水平(y)与受教育程度与受教育程度(x)之间的关系之间的关系n父亲身高父亲身高(y)与子女身高与子女身高(x)之间的关系之间的关系本讲稿第七页,共六十页n相关关系也具有某种变动规律性,所以,相关相关关系也具有某种变动规律性,所以,相关关系经常可以用一定的函数形式去近似地描关系经常可以用一定的函数形式去近似地描述。述。n客观现象的函数关系可以用数学分析的方法去客观现象的函数关系可以用数学分析的方法去研究,而研究客观现象的相关关系则是借助研究,而研究客观现象的相关关系则是借助于统计学中的相关与回归分析方法。于统计学中的相关与回归
6、分析方法。本讲稿第八页,共六十页n指出下列现象之间属于相关关系还是函数关系?指出下列现象之间属于相关关系还是函数关系?n1.商品流转规模越大,流通费用率越低。商品流转规模越大,流通费用率越低。n2.秤砣的误差越大,所权衡的误差也越大。秤砣的误差越大,所权衡的误差也越大。n3.测量次数越多,其平均长度越接近于实际长度。测量次数越多,其平均长度越接近于实际长度。n4.物体体积随着温度升高而膨胀,随着压力加大而收物体体积随着温度升高而膨胀,随着压力加大而收缩。缩。n5.车辆使用年限越长,修理费用增长越快。车辆使用年限越长,修理费用增长越快。n6.圆的半径越大,其面积也越大。圆的半径越大,其面积也越大
7、。n7.广告费用支出越多,商品销售额也有增长倾向。广告费用支出越多,商品销售额也有增长倾向。n8.机械化程度越高,劳动生产率一般也越高。机械化程度越高,劳动生产率一般也越高。本讲稿第九页,共六十页二、相关关系的种类二、相关关系的种类1.按相关的程度可分为完全相关、不完全相关和不相关。按相关的程度可分为完全相关、不完全相关和不相关。当一种现象的数量变化完全由另一个现象的数量变化当一种现象的数量变化完全由另一个现象的数量变化所确定时,称这两种现象间的关系为完全相关。在这种场所确定时,称这两种现象间的关系为完全相关。在这种场合,相关关系便成为函数关系。因此也可以说函数关系是合,相关关系便成为函数关系
8、。因此也可以说函数关系是相关关系的一个特例。相关关系的一个特例。当两个现象彼此互不影响,其数量变化各自独立时,当两个现象彼此互不影响,其数量变化各自独立时,称为不相关现象。称为不相关现象。两个现象之间的关系介于完全相关和不相关之间,称两个现象之间的关系介于完全相关和不相关之间,称为不完全相关,一般的相关现象都是指这种不完全相关。为不完全相关,一般的相关现象都是指这种不完全相关。本讲稿第十页,共六十页 2.按相关形式划分可以分为线性相关和非线性相关。按相关形式划分可以分为线性相关和非线性相关。图中(图中(1)、()、(2)为线性相关,()为线性相关,(3)、()、(4)为非线性相关)为非线性相关
9、本讲稿第十一页,共六十页 3.按相关的方向划分可分为正相关和负相关。按相关的方向划分可分为正相关和负相关。n(1)正相关:两个相关现象间,当一个变量的数)正相关:两个相关现象间,当一个变量的数值增加(或减少)时,另一个变量的数值也随之增值增加(或减少)时,另一个变量的数值也随之增加(或减少),即同方向变化。加(或减少),即同方向变化。例如收入与消费的关系。例如收入与消费的关系。n(2)负相关:当一个变量的数值增加(或减少)时,)负相关:当一个变量的数值增加(或减少)时,而另一个变量的数值相反地呈减少(或增加)趋势变而另一个变量的数值相反地呈减少(或增加)趋势变化,即反方向变化。化,即反方向变化
10、。例如物价与消费的关系。例如物价与消费的关系。本讲稿第十二页,共六十页n4.按相关关系涉及的因素多少划分分为单相关、复相关按相关关系涉及的因素多少划分分为单相关、复相关和偏相关。和偏相关。n两个变量之间的相关,称为单相关。两个变量之间的相关,称为单相关。n当所研究的是一个变量对两个或两个以上其他变当所研究的是一个变量对两个或两个以上其他变量的相关关系时,称为复相关。量的相关关系时,称为复相关。n在某一现象与多种现象相关的场合,假定其他变在某一现象与多种现象相关的场合,假定其他变量不变,专门考察其中两个变量的相关关系称为量不变,专门考察其中两个变量的相关关系称为偏相关。例如,在假定人们的收入水平
11、不变的条偏相关。例如,在假定人们的收入水平不变的条件下,某种商品的需求与其价格水平的关系就是件下,某种商品的需求与其价格水平的关系就是一种偏相关。一种偏相关。本讲稿第十三页,共六十页三、相关分析的内容三、相关分析的内容n1.确定相关关系的存在,相关关系呈现的的形态和确定相关关系的存在,相关关系呈现的的形态和方向,相关的密切程度。方向,相关的密切程度。n绘制相关图表,计算相关系数。绘制相关图表,计算相关系数。n2.确定相关系数的数学表达式确定相关系数的数学表达式回归分析。回归分析。n3.确定因变量估计值误差的程度。确定因变量估计值误差的程度。n拟合程度的评价拟合程度的评价n计算估计标准误计算估计
12、标准误本讲稿第十四页,共六十页第二节第二节 相关图表和简单相关系数相关图表和简单相关系数n 一、相关表一、相关表n1.简单相关表:将自变量简单相关表:将自变量x的数值按照从小到大的顺序,并配合因变量的数值按照从小到大的顺序,并配合因变量y的的数值一一对应而平行排列的表。数值一一对应而平行排列的表。n例:为了研究分析某种劳务产品完成量与其单位产品成本之间的关系,调例:为了研究分析某种劳务产品完成量与其单位产品成本之间的关系,调查查30个同类服务公司得到的原始数据如表。个同类服务公司得到的原始数据如表。整理后有整理后有本讲稿第十五页,共六十页n2.分组相关表:按自变量分组相关表:按自变量x分组,并
13、计算次数分组,并计算次数f,对应的因变量,对应的因变量y不不分组,计算其平均数。分组,计算其平均数。本讲稿第十六页,共六十页n二、相关图:又称散点图。将二、相关图:又称散点图。将x置于横轴上,置于横轴上,y置于纵置于纵轴上,将(轴上,将(x,y)绘于坐标图上。)绘于坐标图上。本讲稿第十七页,共六十页三、简单相关系数的计算三、简单相关系数的计算n 1.简单相关系数:在线性条件下说明两个变量之间相简单相关系数:在线性条件下说明两个变量之间相关关系密切程度的统计分析指标关关系密切程度的统计分析指标,简称相关系数,通常简称相关系数,通常用用 表示。表示。n 2.计算:计算:本讲稿第十八页,共六十页计算
14、相关系数的计算相关系数的“积差法积差法”本讲稿第十九页,共六十页3.相关系数的特点相关系数的特点(1)的取值介于与之间,的取值介于与之间,r 的取值范围是的取值范围是-1,1(2)在大多数情况下,在大多数情况下,|,即,即与与的样本观测的样本观测值之间存在着一定的线性关系,当值之间存在着一定的线性关系,当时,与为时,与为正相关,当正相关,当时,时,与与为负相关。为负相关。|的数值愈接近于的数值愈接近于1,表示,表示x与与y直线相关程度愈高;反之,直线相关程度愈高;反之,|的数值愈接近于的数值愈接近于0,表示,表示x与与y直线相关程度愈低。通直线相关程度愈低。通常判断的标准是常判断的标准是:|0
15、.3称为微弱相关,称为微弱相关,0.3|0.5称为低度相关,称为低度相关,0.|0.8称为显著相关称为显著相关,0.8|1称为高度相关或强相关。称为高度相关或强相关。本讲稿第二十页,共六十页(3)如果)如果|=1,则表明,则表明与与完全线性相完全线性相关,当关,当=1时,称为完全正相关,时,称为完全正相关,而而=-1时,称为完全负相关。时,称为完全负相关。(4)是对变量之间线性相关关系的度量。是对变量之间线性相关关系的度量。=0只是表明两个变量之间不存在线性关系,只是表明两个变量之间不存在线性关系,它并不意味着它并不意味着与与之间不存在其他类型的之间不存在其他类型的关系。关系。本讲稿第二十一页
16、,共六十页相关关系的测度相关关系的测度(相关系数取值及其意义)(相关系数取值及其意义)-1.0+1.00-0.5+0.5完全负相关完全负相关无线性相关无线性相关完全正相关完全正相关负相关程度增加负相关程度增加r正相关程度增加正相关程度增加本讲稿第二十二页,共六十页n相关系数只度量变量间的线性关系,因此,弱相关相关系数只度量变量间的线性关系,因此,弱相关不一定表明变量间没有关系;不一定表明变量间没有关系;n极端值可能影响相关系数。极端值可能影响相关系数。n警惕伪相关。警惕伪相关。n相关关系可能是伪相关,即两变量的相关只是表面相关关系可能是伪相关,即两变量的相关只是表面上的上的,它实际上由第三变量
17、引起,当第三变量消失它实际上由第三变量引起,当第三变量消失时时,相关关系亦随之消失。相关关系亦随之消失。n请看下例。请看下例。本讲稿第二十三页,共六十页伪相关的例子:教堂数与监狱服刑人数同步增长伪相关的例子:教堂数与监狱服刑人数同步增长n美国印第安美国印第安纳纳州的地区教会想要筹款州的地区教会想要筹款兴兴建新教堂,提出建新教堂,提出教堂能教堂能洁净洁净人人们们的心灵,减少犯罪,降低的心灵,减少犯罪,降低监狱监狱服刑人数服刑人数的口号。的口号。n为为了增了增进进民众参与的民众参与的热诚热诚和信心,教会的神父收集了近和信心,教会的神父收集了近15年的教堂数与在年的教堂数与在监狱监狱服刑的人数服刑的
18、人数进进行行统计统计分析。分析。n结结果却令教会大吃一惊。最近果却令教会大吃一惊。最近15年教堂数与年教堂数与监狱监狱服刑人服刑人数呈数呈显显著的正相关。著的正相关。n那么是否可以由此得出,教堂建得越多,就可能那么是否可以由此得出,教堂建得越多,就可能带带来更来更多的犯罪呢?多的犯罪呢?2022/10/1924本讲稿第二十四页,共六十页n经过统计学家和教会神父深入讨论,并进一步收集近经过统计学家和教会神父深入讨论,并进一步收集近15年的当地人口变动资料和犯罪率等资料作进一步分析,年的当地人口变动资料和犯罪率等资料作进一步分析,发现:发现:n监狱服刑人数的增加和教堂数的增加都与人口的监狱服刑人数
19、的增加和教堂数的增加都与人口的增加有关。增加有关。n教堂数的增加并非监狱服刑人数增加的原因。教堂数的增加并非监狱服刑人数增加的原因。n至此,教会人士总算松了一口气至此,教会人士总算松了一口气。2022/10/1925本讲稿第二十五页,共六十页本讲稿第二十六页,共六十页还可以有:还可以有:本讲稿第二十七页,共六十页1234第三节第三节 简单简单线性回归分析线性回归分析相关分析与回归分析的关系相关分析与回归分析的关系一元线性回归模型一元线性回归模型拟合程度的评价拟合程度的评价估计标准误估计标准误2022/10/1928本讲稿第二十八页,共六十页n1877年年 弗朗弗朗西斯西斯高尔顿爵高尔顿爵士士
20、在遗传学研在遗传学研究过程中测量究过程中测量了了1078个父亲个父亲及成年儿子的及成年儿子的身高,它们之身高,它们之间的数量关系间的数量关系如图如图1:2022/10/1929“回归回归”一词的由来:一词的由来:n多数点子位于角平多数点子位于角平分斜线的两侧椭圆分斜线的两侧椭圆形面积之内,落在形面积之内,落在斜线上的点子极少,斜线上的点子极少,即儿子与父亲身高即儿子与父亲身高完全相同的极少。完全相同的极少。由点子落在斜线周由点子落在斜线周围还说明,高个子围还说明,高个子的父亲有着较高身的父亲有着较高身材的儿子,而矮个材的儿子,而矮个子父亲的儿子身材子父亲的儿子身材也比较矮。也比较矮。同时,我们
21、也看到一同时,我们也看到一些远离斜线的点子,些远离斜线的点子,这些点子反映的是父这些点子反映的是父亲的身高与儿子的身亲的身高与儿子的身高相差甚远的情况。高相差甚远的情况。比如高个子的父亲有比如高个子的父亲有矮儿子的情况,或者矮儿子的情况,或者矮父亲有高个儿子的矮父亲有高个儿子的情况。情况。45线本讲稿第二十九页,共六十页n作作相关分析相关分析知道,父亲身高和儿子身高的相关系数为知道,父亲身高和儿子身高的相关系数为0.501,表明高个,表明高个子的父亲会有较高的儿子,而低个子父亲的儿子也比较低,但这种相关关子的父亲会有较高的儿子,而低个子父亲的儿子也比较低,但这种相关关系并不明显。系并不明显。n
22、那么,父子身高之间有什么规律呢?经过对那么,父子身高之间有什么规律呢?经过对1078对父子身高数据的计对父子身高数据的计算,得到:算,得到:n父亲的平均身高父亲的平均身高=67.6英寸英寸68英寸英寸n儿子的平均身高儿子的平均身高=68.7英寸英寸69英寸英寸n儿子的平均身高比父亲高一英寸,表明下一代的平均身高比上一儿子的平均身高比父亲高一英寸,表明下一代的平均身高比上一代要高代要高?n这样,我们会自然地猜测这样,我们会自然地猜测72英寸的父亲平均会有英寸的父亲平均会有73英寸的儿子;英寸的儿子;64英寸的父亲平均会有英寸的父亲平均会有65英寸的儿子。英寸的儿子。2022/10/1930本讲稿
23、第三十页,共六十页图图2中斜虚线是从父子身高推测中斜虚线是从父子身高推测的关系,即的关系,即58英寸父亲有英寸父亲有59英英寸的儿子,寸的儿子,59英寸的父亲有英寸的父亲有60英寸的儿子等等。英寸的儿子等等。图图2中的实线是回归线。中的实线是回归线。2022/10/1931在父亲身高在父亲身高64英寸和英寸和72英英寸处的两个条形虚线,表明寸处的两个条形虚线,表明64英寸高父亲和英寸高父亲和72英寸高父英寸高父亲的儿子们身高的分布情况亲的儿子们身高的分布情况本讲稿第三十一页,共六十页回归regression平均身高n图图2表明表明64英寸高父亲的儿子们的身高多数高于英寸高父亲的儿子们的身高多数
24、高于65英寸,即英寸,即较矮较矮父亲的儿子们多少比父亲身材要高父亲的儿子们多少比父亲身材要高。n而而72英寸高父亲的儿子们身高多数低于英寸高父亲的儿子们身高多数低于73英寸,甚至多数低英寸,甚至多数低于与父亲同样高度的于与父亲同样高度的72英寸,即英寸,即较高父亲的儿子们多数比父亲身较高父亲的儿子们多数比父亲身材要矮。材要矮。n这种现象称为这种现象称为“回归效应回归效应”即回归到一般高度的效应。即回归到一般高度的效应。2022/10/1932本讲稿第三十二页,共六十页 一、回归分析与相关分析的关系一、回归分析与相关分析的关系1.相关分析相关分析就是用一个指标来表明现象间相互依就是用一个指标来表
25、明现象间相互依存关系的密切程度。广义的相关分析存关系的密切程度。广义的相关分析包括相关关系的分析(狭义的相关分包括相关关系的分析(狭义的相关分析)和回归分析。析)和回归分析。2.回归分析回归分析是指对具有相关关系的现象,根据其相是指对具有相关关系的现象,根据其相关关系的具体形态,选择一个合适的数关关系的具体形态,选择一个合适的数学模型(称为回归方程式),用来近似学模型(称为回归方程式),用来近似地表达变量间的平均变化关系的一种统地表达变量间的平均变化关系的一种统计分析方法。计分析方法。本讲稿第三十三页,共六十页 相关分析回归分析区别 不必确定自变量和因变量必须事先确定哪个为自变量,哪个为因变量
26、不能指出变量间相互关系的具体形式能确切的指出变量之间相互关系的具体形式变量一般都是随机变量因变量是随机的,自变量则作为研究时给定的非随机变量联系 相关分析是回归分析的基础和前提;回归分析是相关分析的深入和继续。2022/10/1934本讲稿第三十四页,共六十页二、简单线性回归方程二、简单线性回归方程n 回归方程:回归方程:经整理,得到以下标准方程组经整理,得到以下标准方程组解该方程组可得解该方程组可得 b表示自变量表示自变量x每变动一个计量单位时每变动一个计量单位时,因因变量变量y的平均变动值,称的平均变动值,称回归系数回归系数。当。当b的的符号为正时,符号为正时,x和和y按相同方向变动,是按
27、相同方向变动,是正相关关系;当正相关关系;当b的符号为负时,自变的符号为负时,自变量量x和因变量和因变量y按相反方向变动,是负相关按相反方向变动,是负相关关系。关系。本讲稿第三十五页,共六十页例:现以前例的资料配合回归直线,计算如下:例:现以前例的资料配合回归直线,计算如下:本讲稿第三十六页,共六十页 b表示人口增加量每增加(或减少)表示人口增加量每增加(或减少)1千人,该种食千人,该种食品的年需求量平均来说增加(或减少)品的年需求量平均来说增加(或减少)0.530十吨即十吨即5.301吨。吨。根据回归方程,还可以给出自变量的某一数值来估计或预测根据回归方程,还可以给出自变量的某一数值来估计或
28、预测因变量平均可能值。例如,当人口增长量为因变量平均可能值。例如,当人口增长量为400千人时,该食千人时,该食品的年需求量为品的年需求量为本讲稿第三十七页,共六十页用用Excel进行回归分析进行回归分析n第第1步:选择步:选择“工具工具”下拉菜单下拉菜单n第第2步:选择步:选择“数据分析数据分析”选项选项n第第3步:在分析工具中选择步:在分析工具中选择“回归回归”,然后选择,然后选择“确定确定”n第第4步:当对话框出现时步:当对话框出现时 在在“Y值输入区域值输入区域”方框内键入方框内键入Y的数据区域的数据区域 在在“X值输入区域值输入区域”方框内键入方框内键入X的数据区域的数据区域 在在“置
29、信度置信度”选项中给出所需的数值选项中给出所需的数值 在在“输出选项输出选项”中选择输出区域中选择输出区域 在在“残差残差”分析选项中选择所需的选项分析选项中选择所需的选项本讲稿第三十八页,共六十页Excel的输出结果的输出结果本讲稿第三十九页,共六十页直线回归方程中的回归系数与相关系数的关系直线回归方程中的回归系数与相关系数的关系:本讲稿第四十页,共六十页三、一元线性回归模型的检验三、一元线性回归模型的检验2022/10/1941n回归模型的检验包括理论意义检验、一级检验和二级检回归模型的检验包括理论意义检验、一级检验和二级检验。验。n理论意义检验主要涉及参数估计值的符号和取值区间,如果它们
30、理论意义检验主要涉及参数估计值的符号和取值区间,如果它们与实质性科学的理论以及人们的实践经验不相符,就说明模型不与实质性科学的理论以及人们的实践经验不相符,就说明模型不能很好地解释现实的现象。能很好地解释现实的现象。n一级检验又称统计学检验,它是利用统计学中的抽样理论来检验样一级检验又称统计学检验,它是利用统计学中的抽样理论来检验样本回归方程的可靠性,具体又可分为拟合程度评价和显著性检验。本回归方程的可靠性,具体又可分为拟合程度评价和显著性检验。一级检验是对所有现象进行回归分析时都必须通过的检验。一级检验是对所有现象进行回归分析时都必须通过的检验。n二级检验又称经济计量学检验,它是对标准线性回
31、归模型的假二级检验又称经济计量学检验,它是对标准线性回归模型的假定条件能否得到满足进行检验,具体包括序列相关检验、异方定条件能否得到满足进行检验,具体包括序列相关检验、异方差性检验、多重共线性检验等。差性检验、多重共线性检验等。本讲稿第四十一页,共六十页所谓拟合优度,是指样本观测值聚集在样本回所谓拟合优度,是指样本观测值聚集在样本回归线周围的归线周围的紧密程度紧密程度。测量紧密程度最常用的数量尺度是测量紧密程度最常用的数量尺度是样本判定系样本判定系数数(又称(又称决定系数决定系数)。)。它是建立在对总离差平方和进行分解的基它是建立在对总离差平方和进行分解的基础之上的。础之上的。2022/10/
32、1942拟合优度的评价拟合优度的评价本讲稿第四十二页,共六十页总离差平方和的分解总离差平方和的分解n因变量因变量 y 的取值是不同的,的取值是不同的,y 取值的这种波取值的这种波动称为变差。变差来源于两个方面:动称为变差。变差来源于两个方面:n由于自变量由于自变量 x 的取值不同造成的;的取值不同造成的;n除除 x 以外的其他因素以外的其他因素(如如x对对y的非线性影响、测的非线性影响、测量误差等量误差等)的影响。的影响。n对一个具体的观测值来说,离差的大小可以通对一个具体的观测值来说,离差的大小可以通过该实际观测值与其均值之差过该实际观测值与其均值之差 来表示。来表示。本讲稿第四十三页,共六
33、十页离差平方和的分解(图示)离差平方和的分解(图示)xyy y 离差分解图离差分解图本讲稿第四十四页,共六十页离差平方和的分解(三个平方和的关系)离差平方和的分解(三个平方和的关系)n n1、从图上看有、从图上看有n2、两端平方后求和有、两端平方后求和有SST=SSR+SSE残差平方和残差平方和(SSE)回归平方和回归平方和(SSR)总离差平方和总离差平方和(SST)本讲稿第四十五页,共六十页离差平方和的分解离差平方和的分解(三个平方和的意义)(三个平方和的意义)n总离差平方和总离差平方和(SST)n反映因变量的反映因变量的 n 个观察值与其均值的总离差个观察值与其均值的总离差n回归平方和回归
34、平方和(SSR)n反映自变量反映自变量 x 的变化对因变量的变化对因变量 y 取值变化的影响,取值变化的影响,或者说,是由于或者说,是由于 x 与与 y 之间的线性关系引起的之间的线性关系引起的 y 的取值变化,也称为可解释的离差平方和。的取值变化,也称为可解释的离差平方和。n残差平方和残差平方和(SSE)n反映除反映除 x 以外的其他因素对以外的其他因素对 y 取值的影响,也称取值的影响,也称为不可解释的离差平方和或剩余离差平方和。为不可解释的离差平方和或剩余离差平方和。本讲稿第四十六页,共六十页样本决定系数(判定系数样本决定系数(判定系数 )n1.回归平方和占总离差平方和的比例:回归平方和
35、占总离差平方和的比例:n2.反映回归直线的拟合程度。反映回归直线的拟合程度。n3.取值范围在取值范围在 0,1 之间。之间。n4.1,说明回归方程拟合的越好;,说明回归方程拟合的越好;0,说,说明回归方程拟合的越差。明回归方程拟合的越差。n5.在一元线性回归模型中,判定系数等于相关系在一元线性回归模型中,判定系数等于相关系数的平方,即数的平方,即本讲稿第四十七页,共六十页四、估计标准误差四、估计标准误差n 1.定义:是反映观测值与其估定义:是反映观测值与其估计值的平均差异程度的指标。计值的平均差异程度的指标。由总体资料计算或在大由总体资料计算或在大样本情况下样本情况下由样本资料计算由样本资料计
36、算可得简化式可得简化式本讲稿第四十八页,共六十页本讲稿第四十九页,共六十页2.在已知总体资料或大样本情况下:在已知总体资料或大样本情况下:n 3.作用作用n (1)说明以回归方程的估计值的代表性大小。)说明以回归方程的估计值的代表性大小。n (2)说明)说明x 和和y 的相关性大小。的相关性大小。n 四、正确运用回归分析的条件四、正确运用回归分析的条件n 在定性的基础上再进行定量分析。在定性的基础上再进行定量分析。n 这时有这时有本讲稿第五十页,共六十页定性分析定性分析是依据研究者的理论知识和实践经验,是依据研究者的理论知识和实践经验,对客观现象之间是否存在相关关系、对客观现象之间是否存在相关
37、关系、何种关系以及自变量因变量的确定作何种关系以及自变量因变量的确定作出判断。出判断。定量分析定量分析在定性分析的基础上,通过编制在定性分析的基础上,通过编制相相关表关表、绘制、绘制相关图相关图、计算、计算相关系数相关系数等等方法,来判断现象之间相关的方向、方法,来判断现象之间相关的方向、形态及密切程度,以及相应的回归方形态及密切程度,以及相应的回归方程的拟合。程的拟合。五、正确运用回归分析的条件五、正确运用回归分析的条件 在定性的基础上再进行定量分析。在定性的基础上再进行定量分析。本讲稿第五十一页,共六十页第四节非线性相关与回归分析第四节非线性相关与回归分析n一、非线性函数形式的确定一、非线
38、性函数形式的确定n在对实际的客观现象进行定量分析时,选择回归方程的在对实际的客观现象进行定量分析时,选择回归方程的具体形式应遵循以下原则:具体形式应遵循以下原则:n首先,方程形式应与有关实质性科学的基本理论相一致。例如,采首先,方程形式应与有关实质性科学的基本理论相一致。例如,采用幂函数的形式,能够较好地表现生产函数;采用多项式方程能够用幂函数的形式,能够较好地表现生产函数;采用多项式方程能够较好地反映总成本与总产量之间的关系等等。较好地反映总成本与总产量之间的关系等等。n其次,方程有较高的拟合程度。因为只有这样,才能说明回归其次,方程有较高的拟合程度。因为只有这样,才能说明回归方程可以较好地
39、反映现实经济的运行情况。方程可以较好地反映现实经济的运行情况。n最后,方程的数学形式要尽可能简单。如果几种形式都能基最后,方程的数学形式要尽可能简单。如果几种形式都能基本符合上述两项要求,则应该选择其中数学形式较简单的一本符合上述两项要求,则应该选择其中数学形式较简单的一种。一般来说,数学形式越简单,其可操作性就越强。种。一般来说,数学形式越简单,其可操作性就越强。本讲稿第五十二页,共六十页n(一)抛物线函数(一)抛物线函数n(二)双曲线函数(二)双曲线函数n(三)幂函数(三)幂函数n(四)指数函数(四)指数函数n(五)对数函数(五)对数函数n(六)形曲线函数(六)形曲线函数n(七)多项式方程
40、(七)多项式方程本讲稿第五十三页,共六十页几种常见的非线性模型几种常见的非线性模型n 指数函数指数函数2.线性化方法线性化方法n两端取对数得:两端取对数得:lny=ln +xn令:令:y=lny,则有,则有y=ln +x1.基本形式基本形式:3.图像图像 本讲稿第五十四页,共六十页几种常见的非线性模型几种常见的非线性模型n 幂函数幂函数2.线性化方法线性化方法n两端取对数得:两端取对数得:lg y=lg +lg xn令:令:y=lgy,x=lg x,则则y=lg +x1.基本形式:基本形式:3.图像图像00 1 1 1 1 =1=1-1-1 0 0 -1-1 =-1=-1 本讲稿第五十五页,共
41、六十页几种常见的非线性模型几种常见的非线性模型n 对数函数对数函数2.线性化方法线性化方法nx=lgx,则有则有y=+x1.基本形式:基本形式:3.图像图像 0 0 0 0 本讲稿第五十六页,共六十页几种常见的非线性模型几种常见的非线性模型n S 型曲线型曲线2.线性化方法线性化方法n令:令:y=1/y,x=e-x,则有则有y=+x1.基本形式:基本形式:3.图像图像本讲稿第五十七页,共六十页非线性回归非线性回归(实例)(实例)【例】为为研研究究生生产产率率与与废废品品率率之之间间的的关关系系,记记录录数数据如下表。试拟合适当的模型。据如下表。试拟合适当的模型。废品率与生产率的关系生产率(周/
42、单位)x1000200030003500400045005000废品率(%)y5.26.56.88.110.210.313.0本讲稿第五十八页,共六十页非线性回归非线性回归(实例)(实例)生产率与废品率的散点图生产率与废品率的散点图本讲稿第五十九页,共六十页非线性回归非线性回归(实例)(实例)1.用线性模型:用线性模型:y=0 1x+,有,有y=2.671+0.0018x2.用指数模型:用指数模型:y=x ,有,有y=4.05(1.0002)x3.比较比较直直线线的的残残差差平平方方和和5.3371指指数数模模型型的的残残差差平方和平方和6.11。直线模型略好于指数模型。直线模型略好于指数模型本讲稿第六十页,共六十页