《多元回归分析优秀PPT.ppt》由会员分享,可在线阅读,更多相关《多元回归分析优秀PPT.ppt(24页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、多元回归分析第1页,本讲稿共24页第一节 多元线性回归数理统计中讨论了两个变量之间的回归问题,解释变量只与一个可控变量有关,然而在许多实际问题中,影响解释变量的因素往往不是一个,我们称这类回归问题为多元回归分析。一、回归方程的建立一、回归方程的建立设通过调查取得设通过调查取得n组观察值组观察值这些观察值可以表示为一个p元线性函数第2页,本讲稿共24页i=1,2,n为y对 的p元线性回归方程。用用矩阵形式来描述回归问题。n组数据的多元回归模型可表示为:第3页,本讲稿共24页采用最小平方法构造函数所以:第4页,本讲稿共24页整理得:用矩阵表示为:第5页,本讲稿共24页于是上式的矩阵形式就化为:例题
2、:某地区乡镇企业总产出,从业劳动者人数和固定资产原值的资料如下:配合回归直线方程。第6页,本讲稿共24页年份总产出(亿元)Y从业劳动者人数x1固定资产原值(亿元)x21997199819992000200120022003490.6543.4649.9722.3840.4999.01433.02826.52909.32999.72969.63112.93234.73848.1229.6280.2326.3375.5429.3475.7575.0回归方程为 第7页,本讲稿共24页第8页,本讲稿共24页回归方程为:例2:卫生陶瓷产量与城镇住宅建筑面积、医疗卫生机构建筑面积、办公室建筑面积有关,要求
3、根据下列资料建立回归方程。第9页,本讲稿共24页序号卫生陶瓷产量城镇住宅建筑面积医疗卫生机构建筑面积办公建筑面积1234567891011121314151617181920464357104571189101418202422269910171618109910121419212022212833501.41.11.11.01.11.40.80.40.50.91.12.22.22.42.22.32.12.32.42.62.92.83.14.15.04.51.80.60.82.12.14.04.03.64.24.64.04.34.76.0第10页,本讲稿共24页二、回归方程效果的检验二、回归方
4、程效果的检验在对一个具体问题配合出回归方程以后,需要考虑这个方程能否在一定程度上揭示诸多变量之间的内在规律,也就是要对回归方程的效果进行检验。总离差平方和可分解成两部分:即自由度为p的回归平方和 反映了可控变量 重要程度;自由度为n-p-1的剩余平方和 的变动对y的波动,其数值大小反映了可控变量的它反映了调查或实验误差以及其它未控制的因素对调查或实验结果的影响。第11页,本讲稿共24页如果总离差平方和中,回归平方和所占的比重大,线性回归效果就越显著,若剩余平方和等于0,则回归平面就通过了所有的观察点;如果剩余平方和所占比重大,线性回归效果越不好。因变量y与可控变量 的线性关系如何,主要由系数
5、表现出来,若y与所有可控变量均无关,则必然有 所以,要检验y与 之间是否存在线性关系,只要检验 是否成立即可 若在H0成立的条件下,数理统计已经证明:第12页,本讲稿共24页并且,回归平方和与剩余平方和互相独立,因而检验回归方程的统计量F为:因此,在给定置信度为1-a的前提下,在F分布表中可以查找出 将F值与临界值比较,若 则拒绝H0,说明回归方程显著.三、回归参数的显著性检验在回归方程的显著性检验中,只要有一个可控变量与y之间有线性关系,H0便不能成立,这显然不能把每个自变量 对变量y影响的大小分辨出来。不便于我们y第13页,本讲稿共24页进行预报和控制,这就需要对每个回归系数进行假设检验,
6、很明显,如果某个可控变量xi对y作用不显著,在回归模型中,它前面的系数bi就可以取0,因此,检验自变量xi是否显著,就相当于检验假设H0:i=1,2,3,p由于回归系数biN为 中主对角线中第i+1个元素。所以:在假设H0成立的前提下,第14页,本讲稿共24页就拒绝H0,说明自变量xi对y的影响是显著的。若ti未达到显著标准,可把xi从回归方程中剔除。注意,每次只能剔除一个不显著的次要变量。注意,每次只能剔除一个不显著的次要变量。例例3:检验例:检验例1回归方程和回归系数的显著性。回归方程和回归系数的显著性。方差分析表平方和自由度回归628548.0122S回/2=314274.006 剩余2
7、630.8024S剩/4=657.701总计631178.86取a=0.05 说明回归方程显著,认为乡镇企业总产出与从业人数和固定资产原值有明显的线性关系。第15页,本讲稿共24页自变量X1X2 7.232 5.555由于 所以,应拒绝F0,认为x1,x2都是回归方程的重要变量。四、相关系数与复相关系数四、相关系数与复相关系数于是,可定义多元回归分析中的复相关系数:叫相关指数或者叫可决系数。第16页,本讲稿共24页复相关系数是用来说明y与 之间相关关系密切程度的指标。例例5:计算例:计算例1中的复相关系数中的复相关系数第17页,本讲稿共24页当然,我们也可对相关系数进行检验。相关系数的显著性检
8、验和回归方程的显著性检验是一致的。建立的F统计量:在多变量的情况下,变量之间的相关关系是很复杂的,因为,任意两变量之间都可能存在相关关系。简单相关系数往往不能正确的说明变量之间的真正关系。因为,此时所有的变量都在变化。如果需要真正表明这两个变量之间的相关关系,就必须在除去其它变量影响的情况下,计算他们的相关系数,这就是偏相关系数。偏相关系数就是在多元回归分析中,其它变量被固定后的任意两个变量之间的相关关系。偏相关系数可以根据简单相关系数计算出来。第18页,本讲稿共24页如:在除去 的影响后它们之间的相关系数为 称为 对 的偏相关系数.类似的 只有偏相关系数才能反映出两个变量的本质联系。而简单相
9、关系数可能由于其他因素的影响而反映的是非本质的联系,甚至可能是假象。例例7:计算例:计算例1中除去固定资产后总产出与劳动者人数的偏相关系中除去固定资产后总产出与劳动者人数的偏相关系数数第19页,本讲稿共24页为了给出偏相关系数的表达式,简单相关系数构成的行列式为:则偏相关系数为:为上式的代数余子式。第20页,本讲稿共24页 第二节:可化为多元线性回归问题第二节:可化为多元线性回归问题变量之间的内在联系并非总是线性的,有时需要选择适当的非线性函数。函数的选择,没有标准方法,需要根据专业知识、实际经验以及数据特点作具体分析,以确定回归函数的类型,然而有些函数,经过适当的变换,可转化为多元线性回归问
10、题。用多元线性回归的方法求出参数,然后再进行还原即可。(一)多项式函数(二)多元幂函数两边取对数后令:第21页,本讲稿共24页(三)指数函数两边取对数后,令(四)多元对数函数例题;例题;某企业在15年中每年的年产量y和总成本x资料如下:根据资料建立y对x,x2,x3的多项式回归方程。第22页,本讲稿共24页序号总成本(元)产量(件)x x2 x3123456789101112131415100002860019500329005240042400629008630074100100000133900115700154800178720203100100300200400600500700900
11、800100012001100130014001500100009000040000160000360000250000490000810000640000100000014400001210000169000019600002250000100000027000000800000064000000216000000125000000343000000729000000512000000100000000017280000001331000000219700000027440000003375000000由 并且求出16442.5=FF0.05=3.59,说明多项式回归效果显著 第23页,本讲稿共24页li某地2001年到2010年农产品收购额资料如表,配合回归方程 年份序号收购额118722043229426153026349740484689540第24页,本讲稿共24页