01一元线性回归分析lm.doc

上传人:asd****56 文档编号:69697176 上传时间:2023-01-07 格式:DOC 页数:17 大小:335.50KB
返回 下载 相关 举报
01一元线性回归分析lm.doc_第1页
第1页 / 共17页
01一元线性回归分析lm.doc_第2页
第2页 / 共17页
点击查看更多>>
资源描述

《01一元线性回归分析lm.doc》由会员分享,可在线阅读,更多相关《01一元线性回归分析lm.doc(17页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、一元线性回归分析1一元回归分析在进行回归分析时,我们必需知道或假定在两个随机之间存在着一定的关系。这种关系可以用Y的函数的形式表示出来,即Y是所谓的因变量,它仅仅依赖于自变量X,它们之间的关系可以用方程式表示。在最简单的情况下,Y与X之间的关系是线性关系。用线性函数a+bX来估计Y的数学期望的问题称为一元线性回归问题。即,上述估计问题相当于对x的每一个值,假设,而且,其中a, b, 2都是未知参数,并且不依赖于x。对y作这样的正态假设,相当于设:(3)其中,为随机误差,a, b, 2都是未知参数。这种线性关系的确定常常可以通过两类方法,一类是根据实际问题所对应的理论分析,如各种经济理论常常会揭

2、示一些基本的数量关系;另一种直观的方法是通过Y与X的散点图来初步确认。对于公式(3)中的系数a、b,需要由观察值来进行估计。如果由样本得到了a,b的估计值为,则对于给定的x,a+bx的估计为,记作,它也就是我们对y的估计。方程(4)称为y对x的线性回归方程,或回归方程,其图形称为回归直线。例1:有一种溶剂在不同的温度下其在一定量的水中的溶解度不同,现测得这种溶剂在温度x下,溶解于水中的数量y如下表所示:xi0410152129365168yi66.771.076.380.685.792.999.4113.6125.1这里x是自变量,y是随机变量,我们要求y对x的回归。其散点图如下:2.确定回归

3、系数(应用最小二乘法)在样本的容量为n的情况下,我们我们可以得到n对观察值为。现在我们要利用这n对观察值来估计参数a,b。显然,y的估计值为:在上式中a,b为待估计的参数。估计这两个参数的方法有极大似然法和最小二乘法。其中最小二乘法是求经验公式时最常用的一种方法,也最简单。现在就采用这种方法。当我们做出这一对变量观察值的散点图后,我们可以看出,我们所要求的回归直线,实际上是这样的一条直线,即,使所求的直线能够最好的拟合已有的所有点,或者说要使图上所有的点到这条直线的距离最近。因此所要求的直线实际上就是使所有的点与这条直线间的误差最小的直线。我们用表示y的样本观察值,表示根据回归方程所得到的y的

4、估计值,则估计值与实际观察值之间的误差为,(5)其总的误差,可以表示为误差的平方和的形式,(6)现在要使上式取得极小值,只需令Q对a,b的一阶偏导等于0,因此:由此可解得如下结果:其中就是参数a,b的无偏估计。此外,所谓最小二乘估计,实际上就是使误差的平方和最小的估计。估计出了回归方程的系数,我们就可以在给定的x值的情况下对y进行估计,或预测。例2:求例1中的y关于x的回归方程。解:此处,n=9,有关回归方程计算所需要的数据如下:xyx2y2xy066.704448.890471.0165041.00284.01076.31005821.69763.01580.62256496.361209.

5、02185.74417344.491799.72992.98418630.412694.13699.412969880.363578.451113.6260112904.965793.668125.1462415650.018506.8 234811.31014476218.1724628.6用Minitab求得的结果如下:因此所求的回归直线方程为:3.参数估计量的分布为了对前面所作的y与x是线性关系的假设的合理性进行检验,为了求出预测值的置信区间,我们必须知道所估计的参数的分布。1)的分布:由于按假定,相互独立,而且已知,其中为常数,所以由的表达式知为独立正态变量的线性组合,于是也是正态随机

6、变量。可以证明另外,对于任意给定的,其对应的回归值,由于,所以可以写成,也就是说,在处y所对应的估计值也是一个正态分布的随机变量,可以证明,2)方差2的估计:为了估计方差,考查各个处的与其相对应的回归值与其离差的平方和SSD:可以证明,其期望值为,因此,是的无偏估计,即,而且,其自由度为n-2,其分布为,4.线性假设的显著性检验现在来检验,这一线性假设是否合适,这也就是检验假设,由于设,并且X与Y相互独立,则随机变量服从自由度为n的t(student)分布,记为。因此从上面的结果可以得知统计量,(5)即,因为在假设,所以,在此假设下,由此可得,如果,或写成,其中则在显著水平下拒绝假设,认为回归

7、效果是显著的,也就是说y与x之间存在着线性关系;若上述不等式反号,就认为回归效果不显著,回归效果不显著的原因可能有以下几种:a) 影响y的除x外,还有其它不可忽略的因素;b) y与x的关系不是线性的,而是存在着其他的关系;c) y与x无关。因此,在这样的情况下,要查明原因,分别处理。例3:检验例2的回归效果是否显著。取=0.05。解:因为n=9所以利用前面计算的结果,代入上式,有注意,在此,所以拒绝H0,即认为线性回归的效果是显著的。在线性回归的效果显著时,由(5)式可得到b的100(1-)%的置信区间为:另一种进行检验假设,的方法是利用F分布。其公式为: 其中,k表示回归方程中的系数的个数,

8、在一元线性回归中显然只有两个系数,所以k=2,n表示样本数。统计量F的公式可以表示成: 拒绝域为:5.置信区间在利用回归分析进行预测的过程中,我们不仅需要知道预测变量的值,往往还需要了解它的变化范围,即点估计和区间估计的问题。对于任意给定的,其对应的y的观察值的取值范围可以采用以下方法确定:设,其对应的y值为y0,则,上式中,除x0外,其他参数都是未知的,我们只能使用它们的估计量,考虑随机变量,显然,而且是各yi的线性组合,且与各yi是相互独立的,都是正态变量,所以它们的差是两个相互独立的正态随机变量的差,因此,由于从而得到,也就是,由前面并且可以证明与相互独立,于是即,所以y0的100(1-

9、)%的置信区间为:从上式可以看出,对于给定的样本观察值及置信度而言,当x0越是靠近其均值,预测区间的宽度就越是窄小,预测也就越精确。若将上式记为,对于给的样本观察值,作出曲线,则这两条曲线形成一含回归直线的区域,它在处最窄。如下图所示。例4:续前例,求y的置信区间。若=0.05。解:由回归方程,及,可以求得置信度为95%的置信区间为:例如,在时,y的95%的置信区间为:6.相关分析在前面的推导过程中我们假定x是一确定的量,它与随机变量y之间存在线性关系,因此我们可以得到线性回归模型。现在,如果x,y都是随机变量,那么这两个随机变量之间究竟有没有关系,这就是相关分析所要做的工作。1)相关系数如果

10、x,y这两个随机变量之间确实有线性关系存在,则我们可以用一个所谓的相关系数衡量这种关系。是一个介于-1和+1之间的一个数,如果对一对随机变量x,y而言,其值接近+1或-1则说明它们之间存在着很强的相关关系。在两个随机变量的情况下,我们可以将其分布视为联合分布,即这时的分布在X轴上是x的分布,在Y轴上是y的分布,其联合分布则是三维空间上的一个曲面。在这样的情况下,我们可以用类似于方差的定义,来定义这两个随机变量的协方差。此外,我们知道,现在可以给出相关系数的定义,如果我们用样本的协方差来估计总体的协方差,则公式稍有不同,即例:现在需要研究人们用于公共交通的支出占其总收入的情况,为此收集到如下数据

11、:X(1000)yx2y2xy137016949009101855324302599091008110000900254062516001000361513962255401920361400380 1203002856201504720在此,我们只能利用样本的相关系数来估计总体的相关系数,由因此,对于相关系数,我们两样可以进行假设检验,也就是说检验变量x,y之间的相关程度,这对于实际工作是非常重要的,也是我们进行回归分析的前提条件。这时的假设为,拒绝域为:如果就拒绝假设H0。其中统计量:例:续前例。假定 。解:由于,所以拒绝域为,若t2.776或t-2.776则拒绝假设H0。在此例中,由于t

12、=-3.03-2.776所以拒绝原假设,接受备择假设,即认为人们的收入与用与公共交通方面的支出确实存在负相关的关系。注意,这种假设检验只能检验=0的情况,而不能检验等于不为0的某个数。2)可决系数123在进行回归分析的过程中,对于每一个样本点来说,上式表明,任何一个点的实际观察值与其均值之差等于y的估计值与均值的差与观察值与估计值之差的和(如上图所示)。观察上式的右边可以看到,第一项是利用回归方程得到的估计值与其均值之差,这一部分是Y与X之间有规律的部分,是可以预测的部分,而第二项是实际值与估计值之差,这一部分是Y与X之间没有规律的部分,是回归分析所造成的误差,也就是无法解释或预测的部分。将此

13、式对所有样本点求和,可以等到如下结果,因此,可以得到如下可决系数,此式表明,在Y与X的关系中,可以利用回归方程解释的部分所占的百分比,显然其数值越大,Y与X的关系越是确定。可决系数也可以用下式来解释,其道理同上,3)可决系数与相关系数的关系正如我们用同样的符号所表示的一样,它们实际上是一回事。现在简单证明如下,在可决系数中,所以,可决系数与相关系数的关系可以用来判断Y与X之间的关系,值得注意的是,如果可决系数或相关系数的值较小,并不能说明Y与X没有关系,只能说明它们之间没有线性关系。如果如果可决系数或相关系数的值较大,只能说明这两个量之间确实存在线性关系,但是并不一定就是因果关系,对于因果关系的认定,只能通过定性分析来解决。例如,经相关性检验发现美国的一座城市的犯罪率与该市的赌场所雇佣的员工人数有很强的相关关系,如果据此就断定是因为赌场开多了所以犯罪人数就增多是不合适的,因为实际情况可能是,由于旅游业的发展使赌场雇佣的员工才多,同时,由于流动人口的增多,使犯罪率也随之上升。因此采用关闭赌场的方式来解决问题未免过于简单。Create By Yelky

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 财经金融

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁