第8章 回归分析.ppt

上传人:hyn****60 文档编号:70381915 上传时间:2023-01-19 格式:PPT 页数:65 大小:852.50KB
返回 下载 相关 举报
第8章 回归分析.ppt_第1页
第1页 / 共65页
第8章 回归分析.ppt_第2页
第2页 / 共65页
点击查看更多>>
资源描述

《第8章 回归分析.ppt》由会员分享,可在线阅读,更多相关《第8章 回归分析.ppt(65页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、现代高等工程数学电子教案第8章 回归分析数学学院应用数学系 王国富2012年9月引例:某厂生产的圆钢,其屈服点Z受含碳量x和含锰量y的影响,现做了25次观察,测得如下数据x 16 18 19 17 20 16 16 15 19 18 y 39 38 39 39 38 48 45 48 48 48 Z 24 24.5 24.5 24 25 24.5 24 24 24.5 24.5x 18 17 17 17 18 18 20 21 16 18 y 46 48 49 46 44 45 48 48 55 55 Z 24.5 24.5 25 24.5 24.5 24.5 25 25 25 25x 19

2、19 21 19 21y 56 58 58 49 49 Z 25.5 25.5 26.5 24.5 26试通过上述数据建立起它们之间的关系?回归分析 回归分析是数理统计的一个应用分枝,它主要研究变量与变量之间的某一种相依关系,其主要内容包括线性回归与非线性回归一元回归与多元回归这一节介绍一元线性回归回归的含义 变量与变量之间的关系有两种:一种是函数关系;当一组变量取定一个值时,另一个变量也有确定的值与它对应这是一种函数关系。另一种关系不能用函数关系来描述,比如人的身高与体重之间的关系;农作物的产量与施肥量之间的关系就不能用函数关系来描述 变量可以分为可控变量与不可控变量(随机变量)在回归分析中

3、,讨论的是随机变量与可控变量之间的关系随机变量作为因变量(响应变量),可控变量作为自变量当自变量只有一个变量时的回归分析为一元回归,否则称为多元回归假设随机变量Y与x有一元回归关系.当选定x时,Y的数学期望应为x的函数,记回归分析的一般步骤:(1)求取试验数据(2)选取回归模型(3)对回归模型中的未知参数作估计(4)对模型进行检验(5)预测与控制(1)求取试验数据(2)选取回归模型当选取的是一元线性回归函数时,其回归模型可写为(3)对回归模型中的未知参数作估计 当选取回归模型为(4)对模型进行检验 我们是根据经验和散点图选定模型的,模型是否切合实际,需要对模型进行检验。(5)预测与控制一元线性

4、回归模型先假定一元线性回归模型要使L达到最大,只要等式右边的平方和的部分达到最小即可。通过求导,并令其为零,可得方程组 注意:当随机误差服从正态分布时,参数的最小二乘估计就是极大似然估计,当随机误差不服从正态分布时,参数的最小二乘估计一般与极大似然估计不同。一元线性回归模型中回归系数的最小二乘估计为 为了对模型及模型参数进行检验,我们需要知道 估计量的分布,下面对随机误差服从正态分布的情况下给出了一些统计量的分布:我们有我们仅证明(1)(2)。证明(1)证明(2)假设检验 假设检验包括参数检验和线性模型的检验。t-检验 F-检验r-检验(样本相关系数检验)预测与控制我们可以得到 由预测区间可以

5、看出:控制:控制是预测的反问题,当因变量y在某一范围内取值时,x应控制在什么范围之内。这个问题比预测要复杂。例.为研究温度对某个化学过程的生产量的影响,收集到如下数据(规范化形式):温度x -5 -4 -3 -2 -1 0 1 2 3 4 5生产量y 1 5 4 7 10 8 9 13 14 13 18(1)求Y对X的线性回归方程。(结果保留小数点后两位。)(2)对回归方程的显著性进行检验。(检验水平=0.01,)(3)对规范温度在0.5时,对其规范生产量作95%的预测区间。解(1)(2)采用T检验:选用,故回归方程显著(3),故规范温度在0.5时,其规范生产量的95%的预测区间为(6.43,

6、13.55)多元线性回归模型 记则有 因此 有了上面的结论,我们可以导出检验的检验方法.在这里就不讨论了,参见讲义预测回到引例:某厂生产的圆钢,其屈服点Z受含碳量x和含锰量y的影响,现做了25次观察,测得如下数据x 16 18 19 17 20 16 16 15 19 18 y 39 38 39 39 38 48 45 48 48 48 Z 24 24.5 24.5 24 25 24.5 24 24 24.5 24.5x 18 17 17 17 18 18 20 21 16 18 y 46 48 49 46 44 45 48 48 55 55 Z 24.5 24.5 25 24.5 24.5

7、24.5 25 25 25 25x 19 19 21 19 21y 56 58 58 49 49 Z 25.5 25.5 26.5 24.5 26试通过上述数据建立起它们之间的关系?记则解:设检验线性模型是否显著和检验假设 故因为取所以故线性模型显著又因为故显著地不成立9.2.4变量选择及多元共线性性问题 在多元线性回归模型是,由于有多个自变量,存在一些有一元线性回归模型中不会遇到的问题。本节讨论两个涉及到变量之间关系的问题。第一个问题是关于自变量与因变量之间的关系。当我们就一个实际问题建立多元线性回归模型时,可能会考虑到多个对因变量有潜在影响的自变量,但在对数据进行分析之前无法事先断定哪些变

8、量是有效的(对因变量有显著影响),哪些是无效的(对因变量没有显著影响)。有效变量应该保留在模型中,而无效变量应该从模型中去掉。因为无效变量在模型中会对分析结果产生干扰,从而产生误导。那么究竟哪些变量是有效的,哪些变量是无效的呢?这就是变量选择的问题。第二个问题是关于自变量之间的关系。在某些实际问题中(如在实验室或某些工业生产条件下),观测者(试验者)可以控制自变量的值,这是他可以在事先设计好的自变量值上观测因变量。而在另一些情况下(研究社会、地质、水文)。观测者不能控制自变量的值,或者说自变量是随机变量。这时,自变量之间会有统计相关性。当这种统计相关性很强时就产生“多元共线性”的问题。多元共线

9、性的存在对回归分析的结果产生很坏的影响。因此数据分析应该考虑多元共线性的影响,并知道用何种方法去克服这种影响。变量选择的方法变量选择的方法从原则上讲,一个好的模型应该包含所有的有效变量,而不包含任何无效变量 准则是根据的 大小在所有可能的模型中选择“最优模型”的一种方法 设备选的自变量共有K个,先假定已知有效变量的数目为r,我们来考虑恰好包含r个变量的模型,这样的模型共有 个 r个自变量对因变量的总的影响可以由它的决定系数 来度量 总的原则:越大,自变量对因变量的总影响 也越大 在计算决定系数时,由于SST为因变量的总平方和,在任何模型下是不变的,只须计算各个模型下的回归平方和SSR 一般情况

10、,有效变量的个数r未知时,在这种情况下如何确定最佳模型?考虑如下的思路,对j个有效回归变量的模型中按上述方法找到最佳模型,此时最佳模型的决定系数记为可以得出如何找出r 根据决定系数增加的快慢来确定r,当它由快变慢形成拐点时,此时的最优模型的自变量的个数就是r缺点:准则要求对所有可能的回归模型计算 ,当备选变量的数目比较小时,用这种方法可以保证对给定的有效变量的个数r找到理论上的最优模型。但当备选变量的数目比较大时,用这种方法其计算量非常地大 向后、向前向后、向前、逐步回归逐步回归(1)向后回归法 其基本思路是:先将所有可能对因变量产生影响的自变量都纳入模型,然后逐个地从中剔除认为是最没有价值的

11、变量,直至所留在模型中的变量都不能被剔除,或者模型中没有任何变量为止。在逐步的剔除过程中,每次都对当前模型中的所有变量计算评估附加影响的F统计量,并找到其中最小的。如果最小F统计量超过指定的临界值 Fout,当前模型中的所有变量都保留,将当前模型作为最终模型,程序终止。反之,如果最小F统计量达不到临界值,就将相应的变量加以剔除,得到一个较小的模型。在新的模型下重复以上作法。以上步骤不断进行,直至没有变量可以剔除,或者模型中没有任何变量为止。最终的模型就是所选定的“最优”模型。标准的统计软件通常还输出所有中间模型。(2)向前回归法其基本思路是:先将所有可能对因变量产生影响的自变量作为备选的变量集

12、,都放在模型之外,从零模型,即不包含任何自变量的模型开始,然后逐个地向模型中加入被认为是最有附加价值的变量,直至所留在模型外的变量都不能被加入,或者所有备选的变量都已加入模型为止。在逐步加入的过程中,第一步对所有变量计算当模型中只有一个变量时的F统计量,并找到其中最大的。如果最大F统计量不超过临界值Fin,则所有在模型外的变量都不能加入到模型中去,将零模型作为最终模型,程序终止。反之,如果最大F统计量超过临界值,就将相应的变量加入到模型中去。从第二步开始,每次都对当前模型外的任一变量计算;当这个变量被加入模型后,在新模型下计算它的F统计量,并找到其中最大的。如果最大F统计量不超过临界值,可以认

13、为所有在当前模型外的变量都是无效变量,因此都不能加入到当前模型中去,将当前模型作为最终模型,程序终止。反之,如果最大F统计量超过临界值,就将相应的变量加入到当前模型中去,得到一个较大的模型。以上步骤不断进行,直至没有变量可以加入,或者模型中已经包含了所有变量为止。最终的模型就是所选定的“最优”模型,标准的统计软件通常还输出所有中间模型。(3)逐步回归法逐步回归法是对向前回归的一个修正。在向前回归中,变量逐个被加入到模型中去,一个变量一旦被加入到模型中,就再也不可能被剔除。但是,原来在模型中的变量在引入新变量之后,可能会变得没有存在的价值而没有必要再留在模型中。出现这种情况是因为回归变量之间存在着相关性的缘故。因此,在逐步回归中,每当向模型中加入一个变量之后,就对原来模型中的变量在新模型下再进行一次向后剔除的检查,看是否其中有变量应该被剔除。这种“加入剔除”的步骤反复进行,直至所有已经在模型中的变量都不能剔除,而且所有在模型外的变量都不能加入,过程就终止,最终的模型就是被选定的“最优”模型,标准的统计软件通常还输出所有中间模型。例:

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 生活常识

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁