《多元回归补充已读.ppt》由会员分享,可在线阅读,更多相关《多元回归补充已读.ppt(65页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、多元线性回归分析分析阶段/多元线性回归2Revision 1.0:All Contents October 2008 by BlueStar 目的目的p回顾一元线性回归应用场合p了解回归的几种类型p了解多元线性回归的应用场合p掌握多元线性回归的分析方法u直接利用回归u先利用逐步回归寻找合适的自变量,再进行回归u先利用最佳子集回归寻找合适的自变量,再进行回归p掌握多元共线性问题的解决办法分析阶段/多元线性回归3Revision 1.0:All Contents October 2008 by BlueStar 多元回归多元回归 一元回归的方法很容易就可以推广到多元的问题。这在实际工作中是经常出现
2、的,因为对于一个事物来说,影响它的因素是多方面的,当这些因素中每一个都很重要,或者说有几个是很重要的,而不是只有一个因素最重要,这时我们就需要用到多元回归分析的方法。如在预测销售量时,在最简单的情况下,可以认为它只与你的广告预算有关,但在实际工作中,如果要比较准确地预测销售量,可能还需要考虑其他因素,如:季节因素,库存情况,销售能力、产品质量等。多元回归又分为多元非线性回归和多元线性回归。分析阶段/多元线性回归4Revision 1.0:All Contents October 2008 by BlueStar 回归模型的类型回归模型的类型一元非线性回归多元线性回归多元非线性回归一元线性回归分
3、析阶段/多元线性回归5Revision 1.0:All Contents October 2008 by BlueStar 范例范例1 1:巴特勒运输公司:巴特勒运输公司巴特勒是美国加利福利亚州的一家独立运输公司,其主营业务地域为本地,为了建立更好的工作日程表,经理们计划为他们的驾驶员估计日常行驶时间。经理们认为日常行驶时间跟行驶距离有关,试根据所学知识,求:两者之间的关系式。打开文件:打开文件:“12_A_ 多元回归多元回归 Muliti Regression.Mpj”中:中:“运输公司运输公司.mtw”分析阶段/多元线性回归6Revision 1.0:All Contents Octobe
4、r 2008 by BlueStar 范例范例1 1:巴特勒运输公司数据:巴特勒运输公司数据运输任务行驶时间行驶距离送货次数19.3100424.850338.9100446.5100254.250266.280277.47538665497.6903106.1902分析阶段/多元线性回归7Revision 1.0:All Contents October 2008 by BlueStar 范例范例1 1:巴特勒运输公司:巴特勒运输公司分析阶段/多元线性回归8Revision 1.0:All Contents October 2008 by BlueStar 范例范例1 1:巴特勒运输公司:巴
5、特勒运输公司R2=66.4%,只能解释66.4%的变异比例。分析阶段/多元线性回归9Revision 1.0:All Contents October 2008 by BlueStar 范例范例1 1:巴特勒运输公司:巴特勒运输公司经理们这时开始考虑,也许日常行驶时间不仅跟行驶距离有关,还跟运货次数有关,试求:行驶时间与行驶距离及运货次数之间的关系式。我们可以考虑使用多元回归!分析阶段/多元线性回归10Revision 1.0:All Contents October 2008 by BlueStar 范例范例1 1:巴特勒运输公司:巴特勒运输公司分析阶段/多元线性回归11Revision 1
6、.0:All Contents October 2008 by BlueStar 范例范例1 1:巴特勒运输公司:巴特勒运输公司这时,R2由原来的66.4%上升到现在的90.4%,现在能解释90.4%的变异比例。模型拟合得更好了!分析阶段/多元线性回归12Revision 1.0:All Contents October 2008 by BlueStar 范例范例1 1:巴特勒运输公司:巴特勒运输公司分析阶段/多元线性回归13Revision 1.0:All Contents October 2008 by BlueStar 由于增加自变量的数量将会影响到因变量中的变异性被估计的回归方程解释的
7、变异比,为了避免高估这一影响,所以许多分析学家提出用自变量的数量去修正R 的值,R调整的计算公式如下:n=数据的行数;前面案例中n=10.p=项数(包含常数项,如Y=kx+b;则p=2,前面案例中p3)R 调整值越大说明通常说明该方程式越合适。R调整值调整值分析阶段/多元线性回归14Revision 1.0:All Contents October 2008 by BlueStar 范例范例1 1:巴特勒运输公司:巴特勒运输公司S越小越好,当S=0时,R2100分析阶段/多元线性回归15Revision 1.0:All Contents October 2008 by BlueStar 范例范
8、例1 1:巴特勒运输公司:巴特勒运输公司在方差分析表中的P值小于0.05,代表整个方程是统计上显著的,也就是行驶时间至少与与行驶距离或运货次数之间的一个或两个因子间的数学关系是显著的。分析阶段/多元线性回归16Revision 1.0:All Contents October 2008 by BlueStar 范例范例1 1:巴特勒运输公司:巴特勒运输公司行驶距离和送货次数的P值都小于0.05,说明两个因子都属于显著因子。分析阶段/多元线性回归17Revision 1.0:All Contents October 2008 by BlueStar 练习练习1:1:多元回归多元回归 练习 1:一
9、家广告公司的老板打算将客户的每周总营业收入作为电视广告费和报刊广告费的函数来估计,8周的历史数据见:“广告费用.mtw”,请分析回归方程式,如果电视广告费为3500美元,报刊广告费为1800美元,试估计该周总收入。打开文件:打开文件:“12_A_ 多元回归多元回归 Muliti Regression.Mpj”中:中:“广告费用广告费用.mtw”分析阶段/多元线性回归18Revision 1.0:All Contents October 2008 by BlueStar 练习练习1:多元回归多元回归分析阶段/多元线性回归19Revision 1.0:All Contents October 20
10、08 by BlueStar 练习练习1:多元回归多元回归分析阶段/多元线性回归20Revision 1.0:All Contents October 2008 by BlueStar 家电商品的需求量Y与其价格X1及居民家庭平均收入X2有关,下表给出了某市10年中某家电商品需求量与价格和家庭年平均收入水平间的数据。求该商品年需求量求该商品年需求量Y Y关于价格关于价格X1X1和家庭年平均收入和家庭年平均收入X2的回归的回归 方程。预计下一年度该商品的价方程。预计下一年度该商品的价格水平为格水平为3500元,家庭年平均收元,家庭年平均收入为入为18000元,希望预测该商品元,希望预测该商品下一
11、年的需求量下一年的需求量练习练习2:多元回归多元回归打开文件:打开文件:“12_A_ 多元回归多元回归 Muliti Regression.Mpj”中:中:“家电家电.mtw”需求量(十万台)价格(千)收入(千)3.0 4.0 6.0 5.0 4.5 6.8 6.5 3.5 8.0 7.0 3.0 10.0 8.5 3.0 16.0 7.5 3.5 20.0 10.0 2.5 22.0 9.0 3.0 24.0 11.0 2.5 26.0 12.5 2.0 28.0 分析阶段/多元线性回归21Revision 1.0:All Contents October 2008 by BlueStar
12、多元多元回归回归的使用的使用时机时机 当流程或噪音输入变量为计量型数据(连续型数据),且输出变量的类型也是计量型(连续型数据)时,而且输入变量的个数超过一个时,可用多元回归分析来研究输入变量和输出变量间的关系。分析阶段/多元线性回归22Revision 1.0:All Contents October 2008 by BlueStar 在计划经济时期,我国钢材产量Y主要与以下因素有关:原油产量X1,生铁产量X2,原煤产量X3,电力产量X4,固定资产投资X5,国民收入消费额X6,铁路运输能力X7。下表给出了我国自1975年到1986年12年间上述各项经济指标数据。试建立计划经济时期影响我国钢材产
13、量最合适的回归模型。范例范例2:2:多元回归多元回归打开文件:打开文件:“12_A_ 多元回归多元回归 Muliti Regression.Mpj”中:中:“钢材产量钢材产量.mtw”分析阶段/多元线性回归23Revision 1.0:All Contents October 2008 by BlueStar 钢材产量与其他经济变量数据钢材产量与其他经济变量数据YX1X2X3X4X5X6X71622770624494.821958544.942541889551466871622334.832031523.942424840661633936425055.52234548.3257395309
14、22081040534796.182566668.72297511011924971061536736.352820699.36335611189327161059538026.23006745.9369611127926701012234176.223093667.51390510767329201021235516.663277945.31429011353230721060737387.153514951.96477911878433721146140017.8937701185.18570112407436931249043848.7241071680.5174981307084058
15、1306950648.9444951978.58312135636分析阶段/多元线性回归24Revision 1.0:All Contents October 2008 by BlueStar 范例范例2 2:钢材产量与其他经济变量:钢材产量与其他经济变量分析阶段/多元线性回归25Revision 1.0:All Contents October 2008 by BlueStar 范例范例2 2:钢材产量与其他经济变量:钢材产量与其他经济变量在方差分析表中的P值小于0.05,代表整个方程是统计上显著的,R2=99.8%,代表方程式能够解释的变异比例很高。分析阶段/多元线性回归26Revisio
16、n 1.0:All Contents October 2008 by BlueStar 范例范例2 2:钢材产量与其他经济变量:钢材产量与其他经济变量有些X的P值大于0.05,代表该X可能对Y不显著。我们需要把P值大于0.05的一个一个进行判断和排除,先从P值最大的开始排除。再次进行回归,把X7不要考虑进回归模型,因为X7的P值=0.975,最大。分析阶段/多元线性回归27Revision 1.0:All Contents October 2008 by BlueStar 范例范例2 2:钢材产量与其他经济变量:钢材产量与其他经济变量再次进行回归,把X7不要考虑进回归模型,把X1X6放到预测变
17、量中。分析阶段/多元线性回归28Revision 1.0:All Contents October 2008 by BlueStar 范例范例2 2:钢材产量与其他经济变量:钢材产量与其他经济变量再次进行回归,把X6不要考虑进回归模型,(因为X6的P值最大);把X1X5放到预测变量中。分析阶段/多元线性回归29Revision 1.0:All Contents October 2008 by BlueStar 范例范例2 2:钢材产量与其他经济变量:钢材产量与其他经济变量依次进行回归,直到回归模型中所有的预测变量的P值小于0.05为止。分析阶段/多元线性回归30Revision 1.0:All
18、 Contents October 2008 by BlueStar 多元回归选择合适模型的其他方法多元回归选择合适模型的其他方法 u在上题中使用 Minitab 中的回归程序,来看看我们如何找到合适数量的输入变量预测Y。七个变量中哪些变量与Y的关系密切,最佳回归模型中应该包含哪些因子?显然使用回归的方法效率太低!u那是否存在更好的缩减因子,选择最佳拟合模型的方法呢?我们可以考虑如下步骤:u步骤1:我们将讨论 多元回归时选择最佳模型的两种不同的方法:u方法1:逐步逐步逐步逐步 此程序筛选所有输入,以产生“最佳”的模型 u方法2:最佳子集最佳子集最佳子集最佳子集 此程序提供最佳单变量、双变量、三
19、变量等模型,但在处理多输入变量时会耗費大量时间。u步骤2:回归回归回归回归 一旦最佳模型被选定后,回归程序将用该模型实施更详细的分析,我们同时会执行残差分析分析阶段/多元线性回归31Revision 1.0:All Contents October 2008 by BlueStar 步骤步骤1 1的方法的方法1:1:逐步回归逐步回归逐步回归分析菜单逐步回归分析菜单响应是我们需要预测的Y值,预测变量X1X7全部选入。分析阶段/多元线性回归32Revision 1.0:All Contents October 2008 by BlueStar 若大于,则从模型中删除该变量,再重复上述操作过程。如果
20、没有任何自变量可以删除,则会尝试再加入一个新的自变量,重复上述操作,直至不能再引入也不能再删除为止。逐步回归分析法就是让计算机自动进行多元回归分析中的自变量筛选工作。主要有三种方法:(1)逐步(向前或向后)逐步(向前或向后)的方法是:自变量逐个引入,边引入边检查已引入自变量中最大的p值是否已大于指定的“删除值”,逐步回归逐步回归分析阶段/多元线性回归33Revision 1.0:All Contents October 2008 by BlueStar 逐步回归逐步回归(2)前进法是前进法是:逐个引入自变量,先引入对y影响最大(p值最小者),再从其余自变量中寻找影响次大者,(p值次最小者),直
21、到无任何变量p值小于指定的“选入值”可以被引入为止,在前进法中,一旦被加进回归模型中,就不能再被删除。分析阶段/多元线性回归34Revision 1.0:All Contents October 2008 by BlueStar 逐步回归逐步回归(3)后退法后退法:一开始引入全部自变量,对于p值大于指定的“删除值”,逐个删除,直至不能再删除为止。常用的删除值使用0.1分析阶段/多元线性回归35Revision 1.0:All Contents October 2008 by BlueStar 上案例中使用的是 逐步(向前或向后)逐步(向前或向后)方法方法范例范例2 2:钢材产量与其他经济变量:
22、钢材产量与其他经济变量分析阶段/多元线性回归36Revision 1.0:All Contents October 2008 by BlueStar 逐步回归结果逐步回归结果此此处显处显示示 X1,X2,X4是最最佳佳的的模型模型中的预测变量;中的预测变量;注意:注意:回归步骤回归步骤停在停在三个三个变量的变量的模型,表示第模型,表示第四或四或更多变量对于更多变量对于提高提高预测预测度度并无帮并无帮助助此此行显行显示每示每增加增加一一个变量后,个变量后,R R-sq值的值的变变化。化。通过增加通过增加第第三个变量,三个变量,R-sq值值从从99.3199.31增至增至9 99.719.71%R
23、-sq调整值最大为值最大为99.60%99.60%分析阶段/多元线性回归37Revision 1.0:All Contents October 2008 by BlueStar Mallows Cp用来帮助在多个候选回归模型之间进行选择的一个统计量。Mallows Cp 会将整个模型的精确度和偏倚与具有最佳预测变量子集的模型进行比较。它可帮助您在模型中的预测变量数方面实现重要平衡。具有过多预测变量的模型的精确度相对较差,而预测变量过少的模型又会产生偏倚的估计。接近预测变量数加上常量数的 Mallows Cp 值表明模型在估计真实回归系数和预测未来响应时比较精确且无偏倚。Mallows Cp 入
24、选自变量个数+常量数分析阶段/多元线性回归38Revision 1.0:All Contents October 2008 by BlueStar 最佳模型的判定参考最佳模型的判定参考在有多个回归方程显著时,权衡使用哪一个?您可以参照以下参考:1.选择R-Sq(调整值)最大的模型2.选择Mallows Cp接近变量个数的模型3.工程上容易实现4.控制成本较低您可以在软件分析结果的基础上结合工程上的经验做出选择!分析阶段/多元线性回归39Revision 1.0:All Contents October 2008 by BlueStar 步骤步骤1 1的方法的方法2:2:最佳子集回归最佳子集回归
25、放入所有的因子分析阶段/多元线性回归40Revision 1.0:All Contents October 2008 by BlueStar 最佳子集最佳子集输入变量输入变量筛选出的最筛选出的最佳入选变量佳入选变量根据Mallows Cp,R2调整值,S值等判断标准,选择三个变量的回归模型作为最佳回归模型,X1,X2,X4入选分析阶段/多元线性回归41Revision 1.0:All Contents October 2008 by BlueStar 步骤步骤2:2:回归回归确定最佳模型变量后,我们接着执行回归程序得到用来Y的最终回归方程式分析阶段/多元线性回归42Revision 1.0:A
26、ll Contents October 2008 by BlueStar 回归分析结果回归分析结果此模型解此模型解释释了了Y的的99.7%的变异来源的变异来源回归模型显著回归模型显著回归方程式回归方程式P0.05,属于显著属于显著的自变量!的自变量!分析阶段/多元线性回归43Revision 1.0:All Contents October 2008 by BlueStar 残差分析残差分析接下来进行残差分析,判断模型是否存在异常情况。分析阶段/多元线性回归44Revision 1.0:All Contents October 2008 by BlueStar 残差分析残差分析选择“四合一”,
27、画残差的四张图。分析阶段/多元线性回归45Revision 1.0:All Contents October 2008 by BlueStar 残差图的判断残差图的判断残差应该符合残差应该符合正态分布正态分布残差与拟合值残差与拟合值的关系应该随机的关系应该随机残差与时间顺序残差与时间顺序的关系应该随机的关系应该随机残差应该符合残差应该符合正态分布正态分布残差图没有出现异常,所以回归模型在数学上成立,接下来您可以在实际工作中进行检验和应用。分析阶段/多元线性回归46Revision 1.0:All Contents October 2008 by BlueStar NOX1X2X3X4y1726
28、66078.52129155274.331156820104.34113184787.6575263395.961155922109.27371176102.78131224472.59254182293.1102147426115.911140233483.8121166912113.3131068812109.4范例范例3:3:多元回归多元回归打开文件:打开文件:“12_A_ 多元回归多元回归 Muliti Regression.Mpj”中:中:“逐步回归范例逐步回归范例.mtw”六西格玛小组推测了4种化学成分可能对混凝土在凝固放热过程中的散热量有影响。现在希望知道在4种化学成分中,哪个或
29、哪些是我们要寻找的关键的X。在混凝土凝固放热试验中,记录了13组数据,其中y为散热量,为混凝土中种化学成分请进行变量的筛选,得出合适的回归模型。分析阶段/多元线性回归47Revision 1.0:All Contents October 2008 by BlueStar 范例范例3:3:多元回归多元回归分析阶段/多元线性回归48Revision 1.0:All Contents October 2008 by BlueStar 在会话窗口中观察结果在会话窗口中观察结果?回归模型显著回归模型显著所有的自变量所有的自变量都不显著都不显著分析阶段/多元线性回归49Revision 1.0:All C
30、ontents October 2008 by BlueStar 对对X1X1单独进行回归分析单独进行回归分析对对X1单独回归单独回归分析阶段/多元线性回归50Revision 1.0:All Contents October 2008 by BlueStar 对对X1X1单独进行回归分析单独进行回归分析P0.05P0.05,X1X1显著!显著!分析阶段/多元线性回归51Revision 1.0:All Contents October 2008 by BlueStar 对对X2X2单独进行回归分析单独进行回归分析P0.05P0.05,X2X2显著!显著!同理对X3,X4单独进行回归,也出现了
31、P0.05,显示X3和X4是显著的。为什么出现单独的X显著,而一起放到回归模型中反而一个也不显著?分析阶段/多元线性回归52Revision 1.0:All Contents October 2008 by BlueStar 相关性检验相关性检验对X1X4进行相关性分析看看。分析阶段/多元线性回归53Revision 1.0:All Contents October 2008 by BlueStar 相关性检验相关性检验原来如此!X1与X3,X2与X4之间存在相关性!这种现象叫做X之间存在自相关对X1X4进行相关性分析看看。分析阶段/多元线性回归54Revision 1.0:All Conte
32、nts October 2008 by BlueStar 逐步回归分析逐步回归分析对于X之间存在自相关,在回归前进行逐步回归或最佳子集回归先去寻找最佳模型,再进行回归是较好的解决办法。分析阶段/多元线性回归55Revision 1.0:All Contents October 2008 by BlueStar 逐步回归分析逐步回归分析您有两种选择方案:第一种方案是模型中包含两个变量,X4和X1;第二种方案是模型中包含三个变量,X4和X1,X2分析阶段/多元线性回归56Revision 1.0:All Contents October 2008 by BlueStar 还记得吗?模型选择的依据还
33、记得吗?模型选择的依据在有多个回归方程显著时,权衡使用哪一个?您可以参照以下参考:1.选择R-Sq(调整值)最大的模型2.选择Mallows Cp接近变量个数的模型3.工程上容易实现4.控制成本较低您可以在软件分析结果的基础上结合工程上的经验做出选择!分析阶段/多元线性回归57Revision 1.0:All Contents October 2008 by BlueStar 继续回归继续回归假定我们依据实际工程经验,选择模型一:X1和X4,再进行回归,得到回归方程式。分析阶段/多元线性回归58Revision 1.0:All Contents October 2008 by BlueStar
34、 继续回归继续回归此模型解此模型解释释了了Y的的97.2%的变异来源的变异来源回归模型显著回归模型显著回归方程式回归方程式P0.05,属于显著属于显著的自变量!的自变量!分析阶段/多元线性回归59Revision 1.0:All Contents October 2008 by BlueStar 残差分析残差分析残差应该符合残差应该符合正态分布正态分布残差与拟合值残差与拟合值的关系应该随机的关系应该随机残差与时间顺序残差与时间顺序的关系应该随机的关系应该随机残差应该符合残差应该符合正态分布正态分布残差图没有出现异常,所以回归模型在数学上成立,接下来您可以在实际工作中进行检验和应用。分析阶段/多
35、元线性回归60Revision 1.0:All Contents October 2008 by BlueStar 检查自相关的另一种方法检查自相关的另一种方法在回归中选择“选项”,再选择“方差膨胀因子”分析阶段/多元线性回归61Revision 1.0:All Contents October 2008 by BlueStar 方差膨胀因子方差膨胀因子方差膨胀因子方差膨胀因子 (VIF)(VIF)表示回归分析中存在多重共线性(预测变量之间的相关性)的程度。多重共线性会产生问题,因为它可以增大回归系数的方差,从而使其不稳定或难以解释 方差膨胀因子(VIF)度量相对于预测变量不线性相关时,估计回
36、归系数的方差膨胀多大。使用以下准则解释 VIF:方差膨胀因子多重共线性的判别,预测变量为.VIF=1 不相关1 VIF 5 至 10 高度相关VIF 值大于 10 可能表明多重共线性过度影响了回归结果。在此情况下,可能要通过从模型中去除不重要的预测变量来减小多重共线性。分析阶段/多元线性回归62Revision 1.0:All Contents October 2008 by BlueStar 方差膨胀因子(VIF)给出了多重共线性(multi collinearity)的度量。若 X 之间不存在任何相关性,则 VIF=1;若 VIF 值为 5 或更高,X之间的相关性很高,所以您需要接下来使用
37、逐步回归或最佳子集回归寻找合适的自变量,再进行回归。方差膨胀因子方差膨胀因子分析阶段/多元线性回归63Revision 1.0:All Contents October 2008 by BlueStar 练习练习美国出售的每一辆汽车都需要标明油耗水平,即该车在城市路面和高速公路路面的行驶时每加仑汽油预期达到的英里数,现在美国能源部收到230辆汽车的数据,您的任务是建立一个能用来估计在城市路面时的油耗的回归方程和和能用来估计在城市路面时的油耗的回归方程自变量有:X1:发动机的排量X2:气缸数量打开文件:打开文件:“12_A_ 多元回归多元回归 Muliti Regression.Mpj”中:中:
38、“汽车汽车.mtw”分析阶段/多元线性回归64Revision 1.0:All Contents October 2008 by BlueStar 练习练习一项研究提供了与制造业失业的周数可能有关的一些变量的数据,在这些变量中,自变量有:X1:工人的年龄X2:受教育的年限X3:结婚与否,结婚则取值为“1”,否则为“0”X4:户主吗?如果是户主则“1”,否则为“0”X5:工龄X6:管理岗位吗?如果是管理岗位为“1”,否则为“0”X7:销售工作吗,如果是则为“1”,否则为“0”打开文件:打开文件:“12_A_ 多元回归多元回归 Muliti Regression.Mpj”中:中:“失业失业.mtw”分析阶段/多元线性回归65Revision 1.0:All Contents October 2008 by BlueStar 要点回顾要点回顾回顾一元线性回归应用场合了解回归的几种类型了解多元线性回归的应用场合掌握多元线性回归的分析方法直接利用回归先利用逐步回归寻找合适的自变量,再进行回归先利用最佳子集回归寻找合适的自变量,再进行回归掌握多元共线性问题的解决办法