总结:线性回归分析的基本步骤(14页).doc

上传人:1595****071 文档编号:36324549 上传时间:2022-08-26 格式:DOC 页数:14 大小:553.50KB
返回 下载 相关 举报
总结:线性回归分析的基本步骤(14页).doc_第1页
第1页 / 共14页
总结:线性回归分析的基本步骤(14页).doc_第2页
第2页 / 共14页
点击查看更多>>
资源描述

《总结:线性回归分析的基本步骤(14页).doc》由会员分享,可在线阅读,更多相关《总结:线性回归分析的基本步骤(14页).doc(14页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、-线性回归分析的基本步骤步骤一、建立模型知识点:1、总体回归模型、总体回归方程、样本回归模型、样本回归方程总体回归模型:研究总体之中自变量和因变量之间某种非确定依赖关系的计量模型。特点:由于随机误差项U的存在,使得Y和X不在一条直线/平面上。例1:某镇共有60个家庭,经普查,60个家庭的每周收入(X)与每周消费(Y)数据如下:每周收入(X)每周消费支出(Y)805560657075100657074808588120798490949814080939510310811311516010210711011611812518011011512013013514020012013614014414

2、5220135137140152157160162240137145155165175189260150152175178180185191作出其散点图如下:总体回归方程(线):由于假定,因此因变量的均值与自变量总处于一条直线上,这条直线就称为总体回归线(方程)。总体回归方程的求法:以例1的数据为例1)对第一个Xi,求出E(Y|Xi)。每周收入(X)每周消费支出(Y)E(Y|Xi)805560657075651006570748085887712079849094988914080939510310811311510116010210711011611812511318011011512013

3、0135140125200120136140144145137220135137140152157160162149240137145155165175189161260150152175178180185191173由于,因此任意带入两个Xi和其对应的E(Y|Xi)值,即可求出,并进而得到总体回归方程。如将代入可得:以上求出反映了E(Y|Xi)和Xi之间的真实关系,即所求的总体回归方程为:,其图形为:样本回归模型:总体通常难以得到,因此只能通过抽样得到样本数据。如在例1中,通过抽样考察,我们得到了20个家庭的样本数据:每周收入(X)每周消费支出(Y)805510065701207984140

4、8093160102107110180110200120136220135137240137145260150152175那么描述样本数据中因变量Y和自变量X之间非确定依赖关系的模型就称为样本回归模型。样本回归方程(线):通过样本数据估计出,得到样本观测值的拟合值与解释变量之间的关系方程称为样本回归方程。如下图所示:四者之间的关系:总体回归模型建立在总体数据之上,它描述的是因变量Y和自变量X之间的真实的非确定型依赖关系;样本回归模型建立在抽样数据基础之上,它描述的是因变量Y和自变量X之间的近似于真实的非确定型依赖关系。这种近似表现在两个方面:一是结构参数是其真实值的一种近似估计;二是残差是随机

5、误差项U的一个近似估计;:总体回归方程是根据总体数据得到的,它描述的是因变量的条件均值E(Y|X)与自变量X之间的线性关系;样本回归方程是根据抽样数据得到的,它描述的是因变量Y样本预测值的拟合值与自变量X之间的线性关系。:回归分析的目的是试图通过样本数据得到真实结构参数的估计值,并要求估计结果足够接近真实值。由于抽样数据有多种可能,每一次抽样所得到的估计值都不会相同,即的估计量是一个随机变量。因此必须选择合适的参数估计方法,使其具有良好的统计性质。2、随机误差项U存在的原因:非重要解释变量的省略人的随机行为数学模型形式欠妥归并误差(如一国GDP的计算)测量误差等3、多元回归模型的基本假定随机误

6、差项的期望值为零随机误差项具有同方差性随机误差项彼此之间不相关解释就变量X1,X2,Xk为确定型变量,与随机误差项彼此不相关。解释就变量X1,X2,Xk之间不存在精确的(完全的)线性关系,即解释变量的样本观测值矩阵X为满秩矩阵:rank(X)=k+1n随机误差项服从正态分布,即:uiN(0,s2),i=1,2,n步骤二、参数估计知识点:1、最小二乘估计的基本原理:残差平方和最小化。2、参数估计量: 一元回归: 多元回归:3、最小二乘估计量的性质(Gauss-Markov定理):在满足基本假设的情况下,最小二乘估计量是的最优线性无偏估计量(BLUE估计量)步骤三、模型检验1、经济计量检验(后三章

7、内容)2、统计检验拟合优度检验知识点:拟合优度检验的作用:检验回归方程对样本点的拟合程度:拟合优度的检验方法:计算(调整的)样本可决系数,注意掌握离差平方和、回归平方和、残差平方和之间的关系以及它们的自由度。计算方法:通过方差分析表计算方差来源符号计算公式自由度(d.f.)均方值(MSS)离差平方和TSSn-1/n-1回归平方和RSSk/k残差平方和ESSn-k-1/ n-k-1例2:下表列出了三变量(二元)模型的回归结果:方差来源平方和(SS)自由度均方值离差平方和TSS6604214回归平方和RSS65965残差平方和ESS1) 样本容量为多少?解:由于TSS的自由度为n-1,由上表知n-

8、114,因此样本容量n=15。2) 求ESS解:由于TSSESSRSS,故ESSTSSRSS773) ESS和RSS的自由度各为多少?解:对三变量模型而言,k=2,故ESS的自由度为n-k-112RSS的自由度为k24) 求解:,回归方程的显著性检验(F检验)目的:检验模型中的因变量与自变量之间是否存在显著的线性关系步骤:1、提出假设:2、构造统计量:3、给定显著性水平,确定拒绝域4、计算统计量值,并判断是否拒绝原假设例3:就例2中的数据,给定显著性水平,对回归方程进行显著性检验。解:由于统计量值,又,而故拒绝原假设,即在1%的显著性水平下可以认为回归方程存在显著的线性关系。附:检验的关系:由

9、于解释变量的显著性检验(t检验)目的:检验模型中的自变量是否对因变量存在显著影响。知识点:多元回归:,其中为中位于第i+1行和i+1列的元素;一元回归:变量显著性检验的基本步骤:1、提出假设:2、构造统计量:3、给定显著性水平,确定拒绝域4、计算统计量值,并判断是否拒绝原假设例4:根据19个样本数据得到某一回归方程如下:试在5%的显著性水平下对变量的显著性进行检验。解:由于,故t检验的拒绝域为。对自变量而言,其t统计量值为,落入拒绝域,故拒绝的原假设,即在5%的显著性水平下,可以认为自变量对因变量有显著影响;对自变量而言,其t统计量值为,未落入拒绝域,故不能拒绝的原假设,即在5%的显著性水平下

10、,可以认为自变量对因变量Y的影响并不显著。回归系数的置信区间目的:给定某一置信水平,构造某一回归参数的一个置信区间,使落在该区间内的概率为基本步骤:1、构造统计量2、给定置信水平,查表求出水平的双侧分位数3、求出的置信度为的置信区间例5:根据例4的数据,求出的置信度为95%的置信区间。解:由于,故的置信度为95%的置信区间为:3、经济意义检验目的:检验回归参数的符号及数值是否与经济理论的预期相符。例6:根据26个样本数据建立了以下回归方程用于解释美国居民的个人消费支出:其中:Y为个人消费支出(亿元);X1为居民可支配收入(亿元);X2为利率(%)1) 先验估计的符号;解:由于居民可支配收入越高

11、,其个人消费水平也会越高,因此预期自变量X1回归系数的符号为正;而利率越高,居民储蓄意愿越强,消费意愿相应越低,因此个从消费支出与利率应该存在负相关关系,即应为负。2) 解释两个自变量回归系数的经济含义;解:表示,居民可支配收入每增加1亿元,其个人消费支出相应会增加0.93亿元,即居民的边际消费倾向MPC0.93;表示,利率提高1个百分点,个人消费支出将减少2.09亿元。截距项表示居民可支配收入和利率为零时的个人消费支出为-10.96亿元,它没有明确的经济含义。3) 检验是否显著不为1;()解:1)提出假设:2)构造统计量:3)给定显著性水平,查表得,故拒绝域为4)计算统计量值:由于则,落入拒

12、绝域。故拒绝的原假设。即在5%的显著性水平下,可认为边际消费倾向MPC显著不为1。4) 检验显否显著不为零;()解:1)提出假设:2)构造统计量:3)给定显著性水平,查表得,故拒绝域为4)计算统计量值:由于,落入拒绝域,故拒绝原假设。即在5%的显著性水平下,可以认为显著异于零。5) 计算值;解:由于6) 计算每个回归系数的标准差;解:由于7) 给出置信水平为95%的置信区间;解:由于,故置信水平为95%的置信区间为8) 对回归方程进行显著性检验;解:提出假设:构造统计量确定拒绝域:计算统计量并进行判断:由于故拒绝原假设,即在5%的显著性水平下认为回归方程的线性关系显著成立。步骤四:经济预测点预

13、测:可以看着是Y的条件均值和个别值的预测值,分别称为均值预测和个值预测;性质:是和的一个无偏估计量。区间预测:均值的区间预测预测步骤:1)确定统计量:其中2)给定置信水平,确定的预测区间为:个值的区间预测预测步骤:1)确定统计量:其中2)给定置信水平,确定的预测区间为:作业:为解释某地对酒的消费,根据20年的样本数据得到了如下回归方程:其中:每一成年人每年对酒的消费量(升);:酒类的平均价格(元);:个人可支配收入(元):酒类经营许可证数量(张):酒类广告投入(万元)已知,对角线上的元素分别为,回归方程的残差平方和1) 先验地,你认为各自变量回归系数的符号为什么?2) 请完成以下方差分析表:方差来源平方和(SS)自由度均方值离差平方和TSS回归平方和RSS残差平方和ESS0.03753) 计算值4) 对4个自变量进行显著性检验,并分析其经济含义;5) 给出置信水平为95%的区间估计;6) 对方程进行显著性检验;-第 14 页-

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 单元课程

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁