《一元线性回归模型的应用精.ppt》由会员分享,可在线阅读,更多相关《一元线性回归模型的应用精.ppt(32页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、一元线性回归模型的应用第1页,本讲稿共32页一、区间估计有关知识的回顾一、区间估计有关知识的回顾1、点估计、点估计根据总体参数的性质构造一个统计量,然后由样本资料计算出统计量的根据总体参数的性质构造一个统计量,然后由样本资料计算出统计量的值,并直接作为相应的总体参数值得替代。常见的点估计有最小二乘值,并直接作为相应的总体参数值得替代。常见的点估计有最小二乘估计、极大似然估计、矩估计等。估计、极大似然估计、矩估计等。2、区间估计、区间估计区间估计就是用两个估计值所构成的实轴区间作为总体参数取值的可区间估计就是用两个估计值所构成的实轴区间作为总体参数取值的可能范围。设能范围。设和和是是的两个估计量
2、,用的两个估计量,用或或直接替换直接替换就就是点估计,若用(是点估计,若用(,)估计)估计,这就是区间估计。,这就是区间估计。第2页,本讲稿共32页举例说明举例说明一大型超市为研究顾客的购买额,抽取了一大型超市为研究顾客的购买额,抽取了100个客户作样本,这些顾客平均花费水平个客户作样本,这些顾客平均花费水平为为80元,标准差是元,标准差是25元,试求总体平均购买额的变化范围(元,试求总体平均购买额的变化范围()解:根据题意,解:根据题意,n=100,=80,S=25,由统计学原理知,在原假设成立时,统计,由统计学原理知,在原假设成立时,统计量量服从自由度为服从自由度为25的的t分布,其分布图
3、象大致是分布,其分布图象大致是第3页,本讲稿共32页t统计量的值落在统计量的值落在与与之间的概率是之间的概率是,所以有下面的等式成立,所以有下面的等式成立代入有关数据,查课本代入有关数据,查课本370页的页的t分布表,找到分布表,找到=2.06,并计算得,并计算得上述区间上述区间74.85,85.15称为称为的置信度为的置信度为95%的置信区间,的置信区间,0.95称为置信水平或置信度。该区间称为置信水平或置信度。该区间表示意义是我们以表示意义是我们以95%的概率断定这个大型超市全体消费者的平均购买额落在区间的概率断定这个大型超市全体消费者的平均购买额落在区间74.85,85.15内。内。第4
4、页,本讲稿共32页二、总体条件均值与个别值的预测值二、总体条件均值与个别值的预测值1、总体条件均值总体条件均值E(Y|X)的预测值含义的预测值含义在总体回归函数为在总体回归函数为的情况下,的情况下,Y在在时,条件均值为时,条件均值为其含义是当研究的总体的自变量其含义是当研究的总体的自变量X的取值为的取值为时,该总体因变量的均值是时,该总体因变量的均值是,在例,在例2.1.1中,当中,当X=4000时,时,E(Y|X=4000)=3004.8表示当这个社区有一部分居民的月收入达到表示当这个社区有一部分居民的月收入达到4000元时,该社区这元时,该社区这一部分居民平均消费水平将达到一部分居民平均消
5、费水平将达到3004.8元。元。第5页,本讲稿共32页总体均值的区间估计含义:总体均值的区间估计含义:在例在例2.1.1中,当中,当X=4000时,时,E(Y|X)的的95%置信区间是置信区间是3004.8-1.96115.76,3004.8+1.96115.76=2777.9,3231.69,其含义是当这个其含义是当这个社区有一部分居民收入达到社区有一部分居民收入达到4000元时,我们以元时,我们以95%的概率断定的概率断定这一部分居民平均月消费额在这一部分居民平均月消费额在2777.9元至元至3231.69元之间。元之间。2、个别预测值的含义、个别预测值的含义个别预测值表示当个别预测值表示
6、当总体回归函数为总体回归函数为的的情况下,情况下,Y在在时,条件均值为时,条件均值为其含义是当研究的总体中有一个个体,其自变量其含义是当研究的总体中有一个个体,其自变量X的取值为的取值为时,该个体的因变量预测值是时,该个体的因变量预测值是第6页,本讲稿共32页在例在例2.1.1中,当总体自变量中,当总体自变量X的取值为的取值为4000时,个别值时,个别值的预测值的点估计是的预测值的点估计是3004.8元。元。表示当该社区居民中,若有一个居民其月收入达到表示当该社区居民中,若有一个居民其月收入达到4000元时,估计他(或她)的月消费额是元时,估计他(或她)的月消费额是3004.8元。元。个别值个
7、别值的区间估计含义的区间估计含义若在该社区中,有一个居民其月收入达到若在该社区中,有一个居民其月收入达到4000元时,他(或她)的月消费额的元时,他(或她)的月消费额的95%置信区间是置信区间是3004.8-1.96163.71,3004.8+1.96163.71,也就是,也就是2683.93,3325.67。表示意义是我们可以以。表示意义是我们可以以95%的概率断定他(或她)的月消费额在的概率断定他(或她)的月消费额在2683.93至至3325.67元之间。元之间。从上面的分析知道,对同一个总体,当自变量从上面的分析知道,对同一个总体,当自变量时,其总体均时,其总体均E(Y|X=)预测值和个
8、别值预测值和个别值的预测值的点估计是相同的的预测值的点估计是相同的(都是都是),但是,它们的区间估计是,但是,它们的区间估计是不同的。这是因为它们的方差不同所致。它们的方差分别是不同的。这是因为它们的方差不同所致。它们的方差分别是同时,即使它们的点估计是相同的,但是所表示的意义是不同的,请同学们注意这个问同时,即使它们的点估计是相同的,但是所表示的意义是不同的,请同学们注意这个问题。题。第7页,本讲稿共32页例例2.5.1讲解讲解从总体上考察中国居民收入与消费支出的关系。下表给出从总体上考察中国居民收入与消费支出的关系。下表给出了以年不变价测算的中国人均国内生产总值(了以年不变价测算的中国人均
9、国内生产总值()与以居民消费价格指数()与以居民消费价格指数(1990年为年为100)缩减的)缩减的人均居民消费支出(人均居民消费支出(CONSP)两组数据。这两组数据是)两组数据。这两组数据是1978-2000年的时间序列数据(年的时间序列数据(timeseriesdata),即观测即观测值是连续不同年份中的数据,该表的数据与表值是连续不同年份中的数据,该表的数据与表2.1.1中的数中的数据不同,表据不同,表2.1.1中的数据涉及的是同一年份中不同居民家中的数据涉及的是同一年份中不同居民家庭的可支配收入与消费支出,因此也称为截面数据庭的可支配收入与消费支出,因此也称为截面数据(cross-s
10、ectiondata).第8页,本讲稿共32页年份年份人均居民消费支出人均居民消费支出人均人均GDP19781979198019811982198319841985198619871988198919901991199219931994199519961997199819992000395.8437.0464.1501.9533.5572.8635.6716.0746.5788.3836.4779.7797.1861.4966.61048.61108.71213.11322.81380.91460.61564.41690.8675.1716.9763.7792.4851.1931.41059.
11、21185.21269.61393.61527.01565.91602.31727.21949.82187.92436.12663.72889.13111.93323.13529.33789.7第9页,本讲稿共32页解法解法1(手工算)(手工算)解题思路:根据一元线性回归模型参数的最小二乘估计表达式解题思路:根据一元线性回归模型参数的最小二乘估计表达式其中其中第10页,本讲稿共32页第11页,本讲稿共32页解法解法2(用(用EViews软件)软件)DependentVariable:CONSPMethod:LeastSquaresDate:10/02/07Time:23:47Sample:19
12、782000Includedobservations:23VariableCoefficientStd.Errort-StatisticProb.C201.118914.8840213.512410.0000GDPP0.3861800.00722253.474710.0000R-squared0.992710Meandependentvar905.3304AdjustedR-squared0.992363S.D.dependentvar380.6334S.E.ofregression33.26450Akaikeinfocriterion9.929800Sumsquaredresid23237.
13、06Schwarzcriterion10.02854Loglikelihood-112.1927F-statistic2859.544Durbin-Watsonstat0.550636Prob(F-statistic)0.000000第12页,本讲稿共32页DependentVariable:CONSPMethod:LeastSquaresDate:10/02/07Time:23:47Sample:19782000Includedobservations:23VariableCoefficientStd.Error t-Statistic Prob.C201.118914.8840213.51
14、2410.0000GDPP0.3861800.00722253.474710.0000R-squared0.992710Meandependentvar905.3304AdjustedR-squared0.992363S.D.dependentvar380.6334S.E.ofregression33.26450Akaikeinfocriterion9.929800Sumsquaredresid 23237.06 Schwarzcriterion10.02854Loglikelihood-112.1927F-statistic2859.544Durbin-Watsonstat0.550636
15、Prob(F-statistic)0.000000第13页,本讲稿共32页几个概念:几个概念:S.E.ofregression回归标准误差,计算方法是回归标准误差,计算方法是其中其中表示残差列向量,表示残差列向量,T为样本容量,为样本容量,k为被估计参数的为被估计参数的个数。个数。Sumsquaredresid残差平方和,残差平方和,计算方法是计算方法是第14页,本讲稿共32页Loglikelihood对数似然函数,计算方法是对数似然函数,计算方法是Meandependentvar因变量均值因变量均值Akaikeinfocriterion赤池信息准则,计算方法赤池信息准则,计算方法第15页,本
16、讲稿共32页Schwarzcriterion施瓦茨准则,计算方法施瓦茨准则,计算方法Prob(F-statistic)=pro(F),即回归方程的即回归方程的p值值第16页,本讲稿共32页解法解法3(用(用SPSS软件)软件)第17页,本讲稿共32页第18页,本讲稿共32页四、作业四、作业下表是下表是10个品牌啤酒的广告费用和销售量个品牌啤酒的广告费用和销售量的数据的数据,请你做以下工作:,请你做以下工作:(1)、用广告费用作自变量)、用广告费用作自变量x,销售额作,销售额作因变量因变量y,求出估计的回归方程。求出估计的回归方程。(2)、简要概括一下你的发现。)、简要概括一下你的发现。第19页
17、,本讲稿共32页啤酒品牌啤酒品牌广告费(万元)广告费(万元)销售量(万箱)销售量(万箱)ABCDEFGHIJ120.068.7100.176.68.71.021.51.45.31.736.320.715.913.28.17.15.64.44.44.3第20页,本讲稿共32页五、附录:有关公式的推导五、附录:有关公式的推导1、一元线性回归模型的最小二乘估计、一元线性回归模型的最小二乘估计设有一元线性回归模型设有一元线性回归模型,其其样本数据分别是样本数据分别是,i=1,2,n.根据最小根据最小二乘估计原理,使二乘估计原理,使为最小。为最小。由微积分学原理,有由微积分学原理,有(1)第21页,本讲
18、稿共32页化简(化简(1),得正规方程组),得正规方程组解正规方程组得解正规方程组得(2)第22页,本讲稿共32页化简(化简(2),得离差形式的估计),得离差形式的估计其中其中2、参数、参数和和的最小二乘估计的性质的最小二乘估计的性质(1)线性性)线性性由由和和的最小二乘估计的表达式知,的最小二乘估计的表达式知,、是是的线性函数,的线性函数,故线性性显然。故线性性显然。(2)无偏性)无偏性第23页,本讲稿共32页第24页,本讲稿共32页同理可证同理可证,因此,因此和和是是和和的无偏估计。的无偏估计。(3)有效性)有效性第25页,本讲稿共32页而而因此因此,令,令,i=1,2,n所以所以(3)第
19、26页,本讲稿共32页同样同样其中其中,i=1,2,n第27页,本讲稿共32页第28页,本讲稿共32页第29页,本讲稿共32页假设假设是其他估计方法得到的关于是其他估计方法得到的关于的线性无偏估计,令的线性无偏估计,令,由于,由于是无偏的,所以有是无偏的,所以有因此有因此有又因为又因为和和都是都是的线性估计,的线性估计,是一向量组,含有两个以上向量,是一向量组,含有两个以上向量,而而都是一维的,因此存在不全为都是一维的,因此存在不全为0的常数的常数,i=1,2,n。满足。满足,所以有,所以有第30页,本讲稿共32页而而注意上式得推导中用到了注意上式得推导中用到了第31页,本讲稿共32页所以所以同样,设同样,设是是的另一线性无偏估计量,有的另一线性无偏估计量,有第32页,本讲稿共32页