《(07)第7章 回归分析.ppt》由会员分享,可在线阅读,更多相关《(07)第7章 回归分析.ppt(37页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、统计学统计学STATISTICS7-1第第7 7章章 回归分析回归分析7.1 概述概述7.2 一元线性回归一元线性回归7.3 多元线性回归多元线性回归7.4 使用哑变量的回归使用哑变量的回归7.5 非线性回归非线性回归7.6 使用使用Excel进行回归分析进行回归分析7-2统计学统计学STATISTICS学习目标学习目标1.1.相关分析与回归分析联系与区别相关分析与回归分析联系与区别相关分析与回归分析联系与区别相关分析与回归分析联系与区别2.2.掌握一元线性回归模型的建立,回归方程的掌握一元线性回归模型的建立,回归方程的掌握一元线性回归模型的建立,回归方程的掌握一元线性回归模型的建立,回归方程
2、的显著性检验及预测,会用显著性检验及预测,会用显著性检验及预测,会用显著性检验及预测,会用ExcelExcel表格分析表格分析表格分析表格分析3.3.理解多元线性回归分析,会使用理解多元线性回归分析,会使用理解多元线性回归分析,会使用理解多元线性回归分析,会使用ExcelExcel表格分表格分表格分表格分析多元线性回归析多元线性回归析多元线性回归析多元线性回归4.4.了解使用哑变量的回归分析了解使用哑变量的回归分析了解使用哑变量的回归分析了解使用哑变量的回归分析5.5.掌握将非线性回归转化为线性回归的方法掌握将非线性回归转化为线性回归的方法掌握将非线性回归转化为线性回归的方法掌握将非线性回归转
3、化为线性回归的方法7-3统计学统计学STATISTICS7.1 概述概述一、变量间的关系:一、变量间的关系:一、变量间的关系:一、变量间的关系:1 1、确定性关系(函数关系):、确定性关系(函数关系):、确定性关系(函数关系):、确定性关系(函数关系):当一个或几个变量当一个或几个变量当一个或几个变量当一个或几个变量取一定的值时,另一个变量有确定值与之相对应取一定的值时,另一个变量有确定值与之相对应取一定的值时,另一个变量有确定值与之相对应取一定的值时,另一个变量有确定值与之相对应,我们称这种关系为确定性的函数关系。,我们称这种关系为确定性的函数关系。,我们称这种关系为确定性的函数关系。,我们
4、称这种关系为确定性的函数关系。例如:例如:例如:例如:某种商品的销售额某种商品的销售额某种商品的销售额某种商品的销售额(y y)与销售量与销售量与销售量与销售量(x x)之间的关系可之间的关系可之间的关系可之间的关系可表示为表示为表示为表示为 y y=p x p x(p p 为单价为单价为单价为单价)圆的面积圆的面积圆的面积圆的面积(S)(S)与半径与半径与半径与半径r r之间的关系可表示为之间的关系可表示为之间的关系可表示为之间的关系可表示为S S=r r2 2 7-4统计学统计学STATISTICS7.1 概述(续)概述(续)2 2、不确定性关系(相关关系):、不确定性关系(相关关系):、
5、不确定性关系(相关关系):、不确定性关系(相关关系):当一个或几个相互当一个或几个相互当一个或几个相互当一个或几个相互联系的变量取一定数值时,与之相对应的另一变联系的变量取一定数值时,与之相对应的另一变联系的变量取一定数值时,与之相对应的另一变联系的变量取一定数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种规律在一定的量的值虽然不确定,但它仍按某种规律在一定的量的值虽然不确定,但它仍按某种规律在一定的量的值虽然不确定,但它仍按某种规律在一定的范围内变化。范围内变化。范围内变化。范围内变化。(1 1)变量间关系不能用函数关系精确表达;)变量间关系不能用函数关系精确表达;)变量间关系不能用
6、函数关系精确表达;)变量间关系不能用函数关系精确表达;(2 2)一个变量的取值不能由另一个变量唯一确定;)一个变量的取值不能由另一个变量唯一确定;)一个变量的取值不能由另一个变量唯一确定;)一个变量的取值不能由另一个变量唯一确定;(3 3)当当当当变变变变量量量量 x x 取取取取某某某某个个个个值值值值时时时时,变变变变量量量量 y y 的的的的取取取取值值值值可可可可能能能能有有有有几几几几个;个;个;个;(4 4)各观测点分布在直线周围)各观测点分布在直线周围)各观测点分布在直线周围)各观测点分布在直线周围7-5统计学统计学STATISTICS相关关系举例相关关系举例商品的消费量商品的消
7、费量(y)与居民收入与居民收入(x)之间的关之间的关系系商品的消费量商品的消费量(y)与物价与物价(x)之间的关系之间的关系商品销售额商品销售额(y)与广告费支出与广告费支出(x)之间的关之间的关系系粮食亩产量粮食亩产量(y)与施肥量与施肥量(x1)、降雨量、降雨量(x2)、温度、温度(x3)之间的关系之间的关系收入水平收入水平(y)与受教育程度与受教育程度(x)之间的关系之间的关系父亲身高父亲身高(y)与子女身高与子女身高(x)之间的关系之间的关系7-6统计学统计学STATISTICS二、相关分析和回归分析二、相关分析和回归分析1、相关分析:、相关分析:就是用一个指标(相关系数)就是用一个指
8、标(相关系数)来表明现象间相互依存关系的密切程度。来表明现象间相互依存关系的密切程度。2、回归分析:、回归分析:是指对具有相关关系的现象,是指对具有相关关系的现象,根据其相关关系的具体形态,选择一个合根据其相关关系的具体形态,选择一个合适的数学模型(称为回归方程式),用来适的数学模型(称为回归方程式),用来近似地表达变量间的平均变化关系的一种近似地表达变量间的平均变化关系的一种统计分析方法。简单的说回归分析侧重考统计分析方法。简单的说回归分析侧重考察变量之间的数量变化规律,并通过一定察变量之间的数量变化规律,并通过一定的数学模型来描述变量之间的相关关系。的数学模型来描述变量之间的相关关系。7-
9、7统计学统计学STATISTICS3、相关分析和回归分析区别相关分析和回归分析区别(1 1)在相关分析中,不必确定自变量和因变量;)在相关分析中,不必确定自变量和因变量;)在相关分析中,不必确定自变量和因变量;)在相关分析中,不必确定自变量和因变量;而在回归分析中,必须事先确定哪个为自变量,而在回归分析中,必须事先确定哪个为自变量,而在回归分析中,必须事先确定哪个为自变量,而在回归分析中,必须事先确定哪个为自变量,哪个为因变量,而且只能从自变量去推测因变哪个为因变量,而且只能从自变量去推测因变哪个为因变量,而且只能从自变量去推测因变哪个为因变量,而且只能从自变量去推测因变量,而不能从因变量去推
10、断自变量。量,而不能从因变量去推断自变量。量,而不能从因变量去推断自变量。量,而不能从因变量去推断自变量。(2 2)相关分析不能指出变量间相互关系的具体)相关分析不能指出变量间相互关系的具体)相关分析不能指出变量间相互关系的具体)相关分析不能指出变量间相互关系的具体形式;而回归分析能确切的指出变量之间相互形式;而回归分析能确切的指出变量之间相互形式;而回归分析能确切的指出变量之间相互形式;而回归分析能确切的指出变量之间相互关系的具体形式,它可根据回归模型从已知量关系的具体形式,它可根据回归模型从已知量关系的具体形式,它可根据回归模型从已知量关系的具体形式,它可根据回归模型从已知量估计和预测未知
11、量。估计和预测未知量。估计和预测未知量。估计和预测未知量。(3 3)相关分析所涉及的变量一般都是随机变量,)相关分析所涉及的变量一般都是随机变量,)相关分析所涉及的变量一般都是随机变量,)相关分析所涉及的变量一般都是随机变量,而回归分析中因变量是随机的,自变量则作为而回归分析中因变量是随机的,自变量则作为而回归分析中因变量是随机的,自变量则作为而回归分析中因变量是随机的,自变量则作为研究时给定的非随机变量。研究时给定的非随机变量。研究时给定的非随机变量。研究时给定的非随机变量。7-8统计学统计学STATISTICS4、相关分析和回归分析联系相关分析和回归分析联系 相关分析和回归分析有着密切的联
12、系,它们不仅相关分析和回归分析有着密切的联系,它们不仅相关分析和回归分析有着密切的联系,它们不仅相关分析和回归分析有着密切的联系,它们不仅具有共同的研究对象,而且在具体应用时,常常具有共同的研究对象,而且在具体应用时,常常具有共同的研究对象,而且在具体应用时,常常具有共同的研究对象,而且在具体应用时,常常必须互相补充。相关分析需要依靠回归分析来表必须互相补充。相关分析需要依靠回归分析来表必须互相补充。相关分析需要依靠回归分析来表必须互相补充。相关分析需要依靠回归分析来表明现象数量相关的具体形式,而回归分析则需要明现象数量相关的具体形式,而回归分析则需要明现象数量相关的具体形式,而回归分析则需要
13、明现象数量相关的具体形式,而回归分析则需要依靠相关分析来表明现象数量变化的相关程度。依靠相关分析来表明现象数量变化的相关程度。依靠相关分析来表明现象数量变化的相关程度。依靠相关分析来表明现象数量变化的相关程度。只有当变量之间存在着高度相关时,进行回归分只有当变量之间存在着高度相关时,进行回归分只有当变量之间存在着高度相关时,进行回归分只有当变量之间存在着高度相关时,进行回归分析寻求其相关的具体形式才有意义。析寻求其相关的具体形式才有意义。析寻求其相关的具体形式才有意义。析寻求其相关的具体形式才有意义。简单说:简单说:简单说:简单说:(1 1)相关分析是回归分析的基础和前提;)相关分析是回归分析
14、的基础和前提;)相关分析是回归分析的基础和前提;)相关分析是回归分析的基础和前提;(2 2)回归分析是相关分析的深入和继续。)回归分析是相关分析的深入和继续。)回归分析是相关分析的深入和继续。)回归分析是相关分析的深入和继续。7-9统计学统计学STATISTICS三、回归分析的分类三、回归分析的分类1 1、当当当当只只只只涉涉涉涉及及及及一一一一个个个个自自自自变变变变量量量量的的的的回回回回归归归归称称称称为为为为一一一一元元元元回回回回归归归归,也也也也称称称称简简简简单单单单回回回回归归归归;若若若若因因因因变变变变量量量量 y y 与与与与自自自自变变变变量量量量 x x 之之之之间间
15、间间为线性关系时称为为线性关系时称为为线性关系时称为为线性关系时称为一元线性回归一元线性回归一元线性回归一元线性回归。2 2、对对对对于于于于具具具具有有有有线线线线性性性性关关关关系系系系的的的的两两两两个个个个变变变变量量量量,可可可可以以以以用用用用一一一一条条条条线性方程来表示它们之间的关系。线性方程来表示它们之间的关系。线性方程来表示它们之间的关系。线性方程来表示它们之间的关系。3 3、当当当当涉涉涉涉及及及及的的的的自自自自变变变变量量量量是是是是两两两两个个个个或或或或两两两两个个个个以以以以上上上上的的的的回回回回归归归归称称称称为为为为多多多多元元元元回回回回归归归归;当当当
16、当因因因因变变变变量量量量与与与与自自自自变变变变量量量量之之之之间间间间为为为为线线线线性性性性关系时称为关系时称为关系时称为关系时称为多元线性回归多元线性回归多元线性回归多元线性回归。4 4、描描描描述述述述因因因因变变变变量量量量 y y 如如如如何何何何依依依依赖赖赖赖于于于于自自自自变变变变量量量量 x x 和和和和误误误误差差差差项项项项 的方程称为回归模型。的方程称为回归模型。的方程称为回归模型。的方程称为回归模型。7-10统计学统计学STATISTICS7.2 一元线性回归一元线性回归7.2.1 一元线性回归模型一元线性回归模型7.2.2 参数参数a,b,2的估计的估计7.2.
17、3 回归方程的显著性检验回归方程的显著性检验7.2.4 预测预测7-11统计学统计学STATISTICS7.2.1 一元线性回归模型一元线性回归模型设设两两个个变变量量X(自自变变量量,固固定定的的或或可可人人为为控控制制的的)及及Y(因变量,随机)之间存在如下关系:(因变量,随机)之间存在如下关系:其其中中,a,b,2是是未未知知参参数数,上上式式称称为为一一元元线线性性回回归归模模型。型。回归分析就是根据样本找出回归分析就是根据样本找出a,b的估计值的估计值 (样本回归直线样本回归直线)7-12统计学统计学STATISTICS7.2.2 参数参数a,b,2的估计的估计最小二乘法最小二乘法1
18、.使因变量的观察值与估计值之间的离差平方和达使因变量的观察值与估计值之间的离差平方和达到最小来求得到最小来求得 和和 的方法。即的方法。即2.用用最最小小二二乘乘法法拟拟合合的的直直线线来来代代表表X与与Y之之间间的的关关系与实际数据的误差比其他任何直线都小。系与实际数据的误差比其他任何直线都小。7-13统计学统计学STATISTICS参数参数a,b,2的估计(续)的估计(续)回归系数的估计的最小二乘法公式回归系数的估计的最小二乘法公式回归系数的估计的最小二乘法公式回归系数的估计的最小二乘法公式 设设 将对求偏导数,并令其等于零,可得将对求偏导数,并令其等于零,可得将对求偏导数,并令其等于零,
19、可得将对求偏导数,并令其等于零,可得:加以整理后有:加以整理后有:加以整理后有:加以整理后有:7-14统计学统计学STATISTICS参数参数a,b,2的估计(续)的估计(续)对方程组求解,可以得到:对方程组求解,可以得到:对方程组求解,可以得到:对方程组求解,可以得到:由此得到由此得到由此得到由此得到Y Y关于关于关于关于X X的线性回归方程的线性回归方程的线性回归方程的线性回归方程7-15统计学统计学STATISTICS 的无偏估计的无偏估计 为什么要估计为什么要估计?确定所估计参数的方差需要确定所估计参数的方差需要 由于由于 能直接观测,能直接观测,是未知的是未知的,对对 的数值的数值只
20、能通过样本信息去估计。只能通过样本信息去估计。怎样估计怎样估计?可以证明可以证明 的无偏估计为的无偏估计为:(:(S Se e为估计标准为估计标准误差)误差)7-16统计学统计学STATISTICS7.2.3 回归方程的显著性检验回归方程的显著性检验回归分析中的显著性检验包含两种:回归分析中的显著性检验包含两种:一一是是对对整整个个方方程程线线性性关关系系的的显显著著性性检检验验,采采用用F检验法;检验法;二是对回归系数的显著性检验,采用二是对回归系数的显著性检验,采用t检验法检验法。注注意意:对对于于一一元元线线性性回回归归来来说说,由由于于涉涉及及的的自自变变量量只只有一个,所以上述两种检
21、验是等价的。有一个,所以上述两种检验是等价的。1)方差分析)方差分析 总离差平方和总离差平方和 回归平方和回归平方和 残差平方和残差平方和 SST =SSR +SSE 7-17统计学统计学STATISTICS拟合优度的度量判定系数拟合优度的度量判定系数(1 1)判定系数判定系数判定系数判定系数:SSRSSR在在在在SSTSST中所占的比重,即中所占的比重,即中所占的比重,即中所占的比重,即说说说说明明明明:如如如如果果果果所所所所有有有有散散散散点点点点都都都都落落落落在在在在直直直直线线线线上上上上,SSESSE为为为为零零零零,r r2 2=1,=1,此此此此时时时时总总总总离离离离差差差
22、差可可可可以以以以全全全全部部部部由由由由回回回回归归归归直直直直线线线线解解解解释释释释;若若若若变变变变量量量量X X与与与与变变变变量量量量Y Y完完完完全全全全无无无无关关关关,回回回回归归归归直直直直线线线线就就就就不不不不能能能能解解解解释释释释任任任任何何何何离离离离差差差差,此此此此时时时时r r2 2=0=0。因因因因此此此此r r2 2取取取取值值值值范范范范围围围围0 0,1 1,r r2 2越越越越接接接接近近近近1 1,表表表表明明明明回回回回归归归归离离离离差差差差平平平平方方方方和和和和占占占占总总总总离离离离差差差差平平平平方方方方和和和和的的的的比比比比例例例
23、例越越越越大大大大,由由由由回回回回归归归归直直直直线线线线来来来来解解解解释释释释的的的的那那那那部部部部分分分分离离离离差差差差越越越越多多多多,回回回回归归归归直直直直线线线线离离离离各各各各观观观观察察察察点点点点也也也也越越越越近近近近,回回回回归归归归直直直直线线线线的的的的拟拟拟拟合合合合度度度度越好。越好。越好。越好。7-18统计学统计学STATISTICS拟合优度的度量估计标准误差拟合优度的度量估计标准误差(2 2)由前面我们已经知道估计标准误差的公式:)由前面我们已经知道估计标准误差的公式:)由前面我们已经知道估计标准误差的公式:)由前面我们已经知道估计标准误差的公式:说说
24、说说明明明明:此此此此公公公公式式式式代代代代表表表表观观观观察察察察值值值值与与与与估估估估计计计计值值值值的的的的平平平平均均均均离离离离差差差差。S Se e越越越越小小小小,表表表表明明明明观观观观察察察察点点点点从从从从总总总总体体体体上上上上说说说说越越越越靠靠靠靠近近近近回回回回归归归归直直直直线线线线,回回回回归归归归直直直直线线线线的的的的代代代代表表表表性性性性也也也也就就就就越越越越好好好好;反反反反之之之之,此此此此值值值值越越越越大大大大,则则则则说说说说明明明明回回回回归归归归直直直直线线线线的的的的代代代代表表表表性性性性越越越越差差差差。因因因因此此此此,S S
25、e e是是是是检检检检验回归直线拟合度的又一重要指标。验回归直线拟合度的又一重要指标。验回归直线拟合度的又一重要指标。验回归直线拟合度的又一重要指标。所所所所谓谓谓谓拟拟拟拟合合合合程程程程度度度度,是是是是指指指指样样样样本本本本观观观观测测测测值值值值聚聚聚聚集集集集在在在在样样样样本本本本回回回回归线周围的紧密程度。归线周围的紧密程度。归线周围的紧密程度。归线周围的紧密程度。7-19统计学统计学STATISTICS2)F检验法检验法 对回归方程线性关系的显著性检验,常采用对回归方程线性关系的显著性检验,常采用对回归方程线性关系的显著性检验,常采用对回归方程线性关系的显著性检验,常采用F
26、F检验,目的检验,目的检验,目的检验,目的是检验自变量与所有因变量的线性关系是否显著,步骤如是检验自变量与所有因变量的线性关系是否显著,步骤如是检验自变量与所有因变量的线性关系是否显著,步骤如是检验自变量与所有因变量的线性关系是否显著,步骤如下:下:下:下:(1)(1)提出原假设和备择假设提出原假设和备择假设提出原假设和备择假设提出原假设和备择假设 HH0 0:b=0;H:b=0;H1 1:b0:b0(2)(2)构造检验统计量构造检验统计量构造检验统计量构造检验统计量(3)(3)确定显著性水平确定显著性水平确定显著性水平确定显著性水平,并根据自由度(,并根据自由度(,并根据自由度(,并根据自由
27、度(1 1,n-2n-2),查),查),查),查F F分布分布分布分布 表,得到相应的临界值表,得到相应的临界值表,得到相应的临界值表,得到相应的临界值F F(1 1,n-2n-2)。)。)。)。(4)(4)得出检验结果:当得出检验结果:当得出检验结果:当得出检验结果:当F F F F(1 1,n-2n-2)时,拒绝原假设,反之)时,拒绝原假设,反之)时,拒绝原假设,反之)时,拒绝原假设,反之 则接受原假设。则接受原假设。则接受原假设。则接受原假设。7-20统计学统计学STATISTICS3)t检验法检验法 对对对对回回回回归归归归方方方方程程程程中中中中各各各各系系系系数数数数的的的的显显显
28、显著著著著性性性性检检检检验验验验,可可可可以以以以采采采采用用用用t t检检检检验验验验法法法法,一一一一般般般般只只只只需需需需检检检检验验验验自自自自变变变变量量量量的的的的系系系系数数数数,常常常常数数数数项项项项不不不不需需需需检验。具体步骤如下:检验。具体步骤如下:检验。具体步骤如下:检验。具体步骤如下:(1)(1)提出原假设和备择假设提出原假设和备择假设提出原假设和备择假设提出原假设和备择假设 HH0 0:b=0;H:b=0;H1 1:b0:b0(2)(2)构造检验统计量构造检验统计量构造检验统计量构造检验统计量(3)(3)确定显著性水平,由自由度确定显著性水平,由自由度确定显著
29、性水平,由自由度确定显著性水平,由自由度n-2n-2查查查查t t分布表,得到临分布表,得到临分布表,得到临分布表,得到临 界值界值界值界值t t/2/2(n-2)(n-2)。(4)(4)得出检验结果:若得出检验结果:若得出检验结果:若得出检验结果:若t t 临界值,拒绝原假设,临界值,拒绝原假设,临界值,拒绝原假设,临界值,拒绝原假设,反反反反 之则接受原假设。之则接受原假设。之则接受原假设。之则接受原假设。7-21统计学统计学STATISTICS4)相关系数检验法)相关系数检验法相关分析的工具是样本相关系数相关分析的工具是样本相关系数R,计算公式:,计算公式:R的值反映了的值反映了X与与Y
30、之间线性相关的程度,可以证明之间线性相关的程度,可以证明R与回归系数之间存在下列关系与回归系数之间存在下列关系首先确定显著性水平首先确定显著性水平,由自由度,由自由度n-2,查表(相关,查表(相关系数临界表)得到临界值系数临界表)得到临界值R,当,当R R 临界值时,临界值时,临界值时,临界值时,拒绝原假设,相关系数检验法与前面两种检验法是拒绝原假设,相关系数检验法与前面两种检验法是拒绝原假设,相关系数检验法与前面两种检验法是拒绝原假设,相关系数检验法与前面两种检验法是等价的等价的等价的等价的7-22统计学统计学STATISTICS7.2.4 预测预测 在对一元线性回归模型检验其显著性之后,就
31、可以在对一元线性回归模型检验其显著性之后,就可以在对一元线性回归模型检验其显著性之后,就可以在对一元线性回归模型检验其显著性之后,就可以利用该模型进行预测。所谓预测,就是当自变量取利用该模型进行预测。所谓预测,就是当自变量取利用该模型进行预测。所谓预测,就是当自变量取利用该模型进行预测。所谓预测,就是当自变量取一个值一个值一个值一个值X X0 0时,估计时,估计时,估计时,估计Y Y0 0的取值。一般有点预测和区间的取值。一般有点预测和区间的取值。一般有点预测和区间的取值。一般有点预测和区间预测两种,而点预测的结果往往与实际结果有偏差,预测两种,而点预测的结果往往与实际结果有偏差,预测两种,而
32、点预测的结果往往与实际结果有偏差,预测两种,而点预测的结果往往与实际结果有偏差,所以,我们通常用区间预测来估计因变量值的可能所以,我们通常用区间预测来估计因变量值的可能所以,我们通常用区间预测来估计因变量值的可能所以,我们通常用区间预测来估计因变量值的可能范围。范围。范围。范围。在小样本情况下(在小样本情况下(在小样本情况下(在小样本情况下(n30n F F F(p p,n-p-1n-p-1)时,拒绝原假设,反)时,拒绝原假设,反)时,拒绝原假设,反)时,拒绝原假设,反之则接受原假设。之则接受原假设。之则接受原假设。之则接受原假设。7-31统计学统计学STATISTICS4)回归系数的显著性检
33、验)回归系数的显著性检验 回归方程的线性关系检验后,还要对回归系回归方程的线性关系检验后,还要对回归系回归方程的线性关系检验后,还要对回归系回归方程的线性关系检验后,还要对回归系数的显著性进行检验,以便判断哪些自变量数的显著性进行检验,以便判断哪些自变量数的显著性进行检验,以便判断哪些自变量数的显著性进行检验,以便判断哪些自变量对因变量的影响是显著的,哪些是不显著的。对因变量的影响是显著的,哪些是不显著的。对因变量的影响是显著的,哪些是不显著的。对因变量的影响是显著的,哪些是不显著的。采用采用采用采用t t检验法其原理和步骤与一元线性回归相检验法其原理和步骤与一元线性回归相检验法其原理和步骤与
34、一元线性回归相检验法其原理和步骤与一元线性回归相同。同。同。同。7-32统计学统计学STATISTICS7.4 使用哑变量的回归使用哑变量的回归7.4.1 哑变量的概念哑变量的概念哑变量也叫虚拟变量,引入哑变量的目的是,哑变量也叫虚拟变量,引入哑变量的目的是,将不能够定量处理的定性变量数量化,如职将不能够定量处理的定性变量数量化,如职业、性别对收入的影响,战争、自然灾害对业、性别对收入的影响,战争、自然灾害对GDP的影响,季节对某些产品(如冷饮)销的影响,季节对某些产品(如冷饮)销售的影响等等。售的影响等等。这种这种“量化量化”通常是通过引通常是通过引入入“哑变量哑变量”来完成的。根据这些因素
35、的属来完成的。根据这些因素的属性类型,构造只取性类型,构造只取“0”或或“1”的人工变量,的人工变量,通常称为哑变量,通常记为通常称为哑变量,通常记为S。7-33统计学统计学STATISTICS7.4.2 哑变量的应用哑变量的应用 举一个例子,假设变量举一个例子,假设变量举一个例子,假设变量举一个例子,假设变量“职业职业职业职业”的取值分别为:的取值分别为:的取值分别为:的取值分别为:工人、农民、学生、企业职员、其他,工人、农民、学生、企业职员、其他,工人、农民、学生、企业职员、其他,工人、农民、学生、企业职员、其他,5 5种选种选种选种选项,我们可以增加项,我们可以增加项,我们可以增加项,我
36、们可以增加4 4个哑变量来代替个哑变量来代替个哑变量来代替个哑变量来代替“职业职业职业职业”这个变量,分别为这个变量,分别为这个变量,分别为这个变量,分别为S S1 1(1=1=工人工人工人工人/0=/0=非工人)、非工人)、非工人)、非工人)、S S2 2(1=(1=农民农民农民农民/0=/0=非农民非农民非农民非农民)、S S3 3(1=1=学生学生学生学生/0=/0=非学生)非学生)非学生)非学生)、S S4 4(1=(1=企业职员企业职员企业职员企业职员/0=/0=非企业职员非企业职员非企业职员非企业职员),最后一个选,最后一个选,最后一个选,最后一个选项项项项“其他其他其他其他”的信
37、息已经包含在这的信息已经包含在这的信息已经包含在这的信息已经包含在这4 4个变量中了,个变量中了,个变量中了,个变量中了,所以不需要再增加一个所以不需要再增加一个所以不需要再增加一个所以不需要再增加一个S S5 5(1=1=其他其他其他其他/0=/0=非其他)非其他)非其他)非其他)了。这个过程就是引入哑变量的过程。了。这个过程就是引入哑变量的过程。了。这个过程就是引入哑变量的过程。了。这个过程就是引入哑变量的过程。我们本节讨论哑变量作为自变量的情形我们本节讨论哑变量作为自变量的情形我们本节讨论哑变量作为自变量的情形我们本节讨论哑变量作为自变量的情形 见教材例见教材例见教材例见教材例7.97.
38、97-34统计学统计学STATISTICS7.5 非线性回归非线性回归 从散点图可以看出点的分布明显不呈直线趋势,从散点图可以看出点的分布明显不呈直线趋势,从散点图可以看出点的分布明显不呈直线趋势,从散点图可以看出点的分布明显不呈直线趋势,考虑用曲线来拟和。用曲线去配合一组样本点考虑用曲线来拟和。用曲线去配合一组样本点考虑用曲线来拟和。用曲线去配合一组样本点考虑用曲线来拟和。用曲线去配合一组样本点的统计方法,称为非线性回归。的统计方法,称为非线性回归。的统计方法,称为非线性回归。的统计方法,称为非线性回归。处理非线性回归的方法是将非线性问题化为线处理非线性回归的方法是将非线性问题化为线处理非线
39、性回归的方法是将非线性问题化为线处理非线性回归的方法是将非线性问题化为线性问题处理,而非线性回归的关键问题是如何性问题处理,而非线性回归的关键问题是如何性问题处理,而非线性回归的关键问题是如何性问题处理,而非线性回归的关键问题是如何选择适当的曲线形式。选择适当的曲线形式。选择适当的曲线形式。选择适当的曲线形式。选择曲线的参考原则:选择曲线的参考原则:选择曲线的参考原则:选择曲线的参考原则:1 1)当)当)当)当Y Y的值随的值随的值随的值随X X的值的增加而成比例地增加或减的值的增加而成比例地增加或减的值的增加而成比例地增加或减的值的增加而成比例地增加或减少时,宜选择直线;少时,宜选择直线;少
40、时,宜选择直线;少时,宜选择直线;7-35统计学统计学STATISTICS7.5 非线性回归(续)非线性回归(续)2 2)当)当)当)当Y Y的值随的值随的值随的值随X X的值逐渐增加而越来越急剧地增大的值逐渐增加而越来越急剧地增大的值逐渐增加而越来越急剧地增大的值逐渐增加而越来越急剧地增大时,宜选择指数曲线;时,宜选择指数曲线;时,宜选择指数曲线;时,宜选择指数曲线;3 3)当)当)当)当Y Y的值的增量,随的值的增量,随的值的增量,随的值的增量,随X X的值的增大而逐渐减少时,的值的增大而逐渐减少时,的值的增大而逐渐减少时,的值的增大而逐渐减少时,宜选择对数曲线或双曲线;宜选择对数曲线或双
41、曲线;宜选择对数曲线或双曲线;宜选择对数曲线或双曲线;4 4)当)当)当)当Y Y的值随的值随的值随的值随X X的值增大而增大,而增大的速度与的值增大而增大,而增大的速度与的值增大而增大,而增大的速度与的值增大而增大,而增大的速度与X X增加值成比例,宜选择幂函数曲线。增加值成比例,宜选择幂函数曲线。增加值成比例,宜选择幂函数曲线。增加值成比例,宜选择幂函数曲线。化非线性问题为线性问题的方法是变量代换化非线性问题为线性问题的方法是变量代换化非线性问题为线性问题的方法是变量代换化非线性问题为线性问题的方法是变量代换(1 1)双曲线函数)双曲线函数)双曲线函数)双曲线函数 令令令令y=1/yy=1
42、/y,x=1/xx=1/x,则得到线性方程为,则得到线性方程为,则得到线性方程为,则得到线性方程为 y=y=a+bxa+bx 7-36统计学统计学STATISTICS7.5 非线性回归(续)非线性回归(续)(2 2)幂函数)幂函数)幂函数)幂函数y=y=axaxb b 两边去对数,得到两边去对数,得到两边去对数,得到两边去对数,得到lgylgy=lga+blgxlga+blgx,令,令,令,令y=y=lgylgy,x=x=lgxlgx,a=a=lgalga,作代换后得线性方程:,作代换后得线性方程:,作代换后得线性方程:,作代换后得线性方程:y=y=a+bxa+bx(3 3)指数函数)指数函数
43、)指数函数)指数函数y=y=aeaebxbx 两边取对数,得到两边取对数,得到两边取对数,得到两边取对数,得到lnylny=lna+bxlna+bx,令,令,令,令y=y=lnylny a=a=lnalna,作代换得线性方程:作代换得线性方程:作代换得线性方程:作代换得线性方程:y=y=a+bxa+bx (4 4)指数函数)指数函数)指数函数)指数函数y=y=aeaeb/xb/x 两边取对数,得到两边取对数,得到两边取对数,得到两边取对数,得到lnylny=lna+b/xlna+b/x,y=y=lny,alny,a=lnalna,x=1/x x=1/x,作代换得线性方程;,作代换得线性方程;,
44、作代换得线性方程;,作代换得线性方程;y=y=a+bxa+bx(5 5)对数函数)对数函数)对数函数)对数函数y=y=a+blgxa+blgx 令令令令x=x=lgxlgx,得线性方程:,得线性方程:,得线性方程:,得线性方程:y=y=a+bxa+bx 7-37统计学统计学STATISTICS7.5 非线性回归(续)非线性回归(续)(6)S型函数型函数y=1/(a+be-x)原方程变形为原方程变形为1/y=a+be-x,令,令y=1/y,x=e-x,代入变形后的方程,得线性方程,代入变形后的方程,得线性方程 y=a+bx注意:计算中用到的数据,是作了变量注意:计算中用到的数据,是作了变量代换后的数据,而不是原始数据。代换后的数据,而不是原始数据。例题见教材例例题见教材例7.10