《多元回归模型.ppt》由会员分享,可在线阅读,更多相关《多元回归模型.ppt(43页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、多元回归模型多元回归模型第七讲内容复习第七讲内容复习你认为什么类型的问题可以使用简单线你认为什么类型的问题可以使用简单线性回归模型来刻画性回归模型来刻画?请你说出一个简单线性回归模型的形式请你说出一个简单线性回归模型的形式是怎样的是怎样的?它包含哪些假定它包含哪些假定?你如何对这一模型里面的参数进行估计你如何对这一模型里面的参数进行估计和假设检验和假设检验?你如何理解估计的回归方程你如何理解估计的回归方程?如何利用如何利用它进行预测它进行预测?2001年11月 2光华管理学院 王明进 陈奇志第七讲内容复习(续)第七讲内容复习(续)判决系数的含义是什么?它和相关系数判决系数的含义是什么?它和相关
2、系数的关系是怎样的?的关系是怎样的?你如何理解对模型的假定和实际数据之你如何理解对模型的假定和实际数据之间的关系?间的关系?你会使用你会使用EXCEL进行简单回归模型的建进行简单回归模型的建立和检验吗?立和检验吗?2001年11月 3光华管理学院 王明进 陈奇志第八讲第八讲多元回归模型多元回归模型2001年11月 4光华管理学院 王明进 陈奇志更多的自变量更多的自变量2001年11月 5光华管理学院 王明进 陈奇志认识认识R R2 2总变差的分解:总变差的分解:SST=SSR+SSE;判定系数:判定系数:R2=SSR/SST;多重相关系数多重相关系数R;调整(修正)的判定系数:调整(修正)的判
3、定系数:2001年11月 6光华管理学院 王明进 陈奇志对回归方程的检验对回归方程的检验问题:因变量和所有自变量之间是否存问题:因变量和所有自变量之间是否存在显著的关系?在显著的关系?检验假设检验假设拒绝域拒绝域 2001年11月 7光华管理学院 王明进 陈奇志对回归系数的检验对回归系数的检验检验假设检验假设检验统计量检验统计量拒绝域拒绝域 2001年11月 8光华管理学院 王明进 陈奇志例子:巴特勒运输公司例子:巴特勒运输公司2001年11月 9光华管理学院 王明进 陈奇志利用你的模型进行预测利用你的模型进行预测使用计算机软件产生回归模型;使用计算机软件产生回归模型;通过检验判断你的模型;通
4、过检验判断你的模型;你可以预测什么?你可以预测什么?2001年11月 10光华管理学院 王明进 陈奇志定性的自变量定性的自变量方差分析的解决方案:因子,处理。方差分析的解决方案:因子,处理。回归分析的解决方案:引入虚拟变量回归分析的解决方案:引入虚拟变量(Dummy Variable)如何定义虚拟变量?如何定义虚拟变量?例:例:x=0(女性),女性),x=1(男性)(男性)如何解释回归模型?如何解释回归模型?2001年11月 11光华管理学院 王明进 陈奇志JohnsonJohnson过滤水股份公司过滤水股份公司 Johnson公司对遍步南弗罗里达州的公司对遍步南弗罗里达州的水过滤系统提供维修
5、服务。为了估计服水过滤系统提供维修服务。为了估计服务时间和成本,公司希望能够对顾客的务时间和成本,公司希望能够对顾客的每一次维修请求预测必要的维修时间。每一次维修请求预测必要的维修时间。他们收集的数据中包含就近一次维修至他们收集的数据中包含就近一次维修至今的时间(月数)、故障的类型(电子今的时间(月数)、故障的类型(电子和机械)以及相应的维修时间(小时)。和机械)以及相应的维修时间(小时)。你能够建立起一个预测方程吗?你能够建立起一个预测方程吗?2001年11月 12光华管理学院 王明进 陈奇志建立维修时间的回归方程建立维修时间的回归方程第一个回归方程第一个回归方程第二个回归方程第二个回归方程
6、解释你得到的回归方程!解释你得到的回归方程!2001年11月 13光华管理学院 王明进 陈奇志SPSSSPSS软件的使用软件的使用部分参考书目:阮桂海主编,SPSS实用教程,实用教程,电子工业出版社,卢纹岱等编著,SPSS For Windows从入门到精通,从入门到精通,电子工业出版社,北京大学人口所编译,SPSS BASE系统系统用户指南用户指南。2001年11月 14光华管理学院 王明进 陈奇志诊断你的模型:残差分析诊断你的模型:残差分析残差分析不仅被用于判断你对模型中误残差分析不仅被用于判断你对模型中误差项所设的假定是否符合,而且还可以差项所设的假定是否符合,而且还可以检测出异常值和有
7、影响的点。检测出异常值和有影响的点。残差分析的工具是残差图。残差分析的工具是残差图。残差图是由横轴为自变量或者因变量的残差图是由横轴为自变量或者因变量的预测值、纵轴为残差或者学生化残差组预测值、纵轴为残差或者学生化残差组成的散点图。成的散点图。2001年11月 15光华管理学院 王明进 陈奇志ReynoldsReynolds公司的销售人员公司的销售人员 Reynolds公司是一家生产工业天平和实验公司是一家生产工业天平和实验室设备的企业。公司管理人员想要对公司销售室设备的企业。公司管理人员想要对公司销售人员的工作年限和天平的销售数量之间的关系人员的工作年限和天平的销售数量之间的关系进行研究。他
8、们随机抽取了进行研究。他们随机抽取了15名销售人员,利名销售人员,利用相应的数据资料得到了他们近期的销售数量用相应的数据资料得到了他们近期的销售数量对工作年限的简单线性回归方程,对工作年限的简单线性回归方程,SALES=111 +2.38 MONTHS。观察该回归方程的残差图。观察该回归方程的残差图(见下页),你觉得哪些地方存在问题,如何(见下页),你觉得哪些地方存在问题,如何进行更改?进行更改?2001年11月 16光华管理学院 王明进 陈奇志ReynoldsReynolds公司案例残差图公司案例残差图2001年11月 17光华管理学院 王明进 陈奇志衡量广告的效果衡量广告的效果 Super
9、brands98(XX年年10月月20日)日)给出了给出了10种主要品牌的啤酒的广告费用种主要品牌的啤酒的广告费用(百万美元)和销售数量(百万桶)的(百万美元)和销售数量(百万桶)的统计资料,根据该数据可以得到销售量统计资料,根据该数据可以得到销售量对广告投入的回归方程,对广告投入的回归方程,SALES=4.089 +0.196 AD,对应的残差图见下页。你,对应的残差图见下页。你根据该残差图能够得出什么结论?根据该残差图能够得出什么结论?2001年11月 18光华管理学院 王明进 陈奇志Superbrands98案例残差图案例残差图2001年11月 19光华管理学院 王明进 陈奇志识别异常值
10、识别异常值异常值(异常值(Outlier)是指残差异常大的观测。是指残差异常大的观测。识别方法:残差项(或者学生化标准残识别方法:残差项(或者学生化标准残差)落在其两个标准差之外的观测。差)落在其两个标准差之外的观测。识别之后:识别之后:检查是否输入数据错误,如果是,检查是否输入数据错误,如果是,则改正数据;否则,也应当保留该观测,则改正数据;否则,也应当保留该观测,而不是简单地删除。而不是简单地删除。2001年11月 20光华管理学院 王明进 陈奇志一个具有异常值的散点图一个具有异常值的散点图2001年11月 21光华管理学院 王明进 陈奇志识别影响点识别影响点影响点(影响点(Influen
11、tial Observation)是指对是指对回归结果具有很大影响的观测。回归结果具有很大影响的观测。异常值不一定是影响点,反之,影响点异常值不一定是影响点,反之,影响点的残差也可以很小,不一定是异常值。的残差也可以很小,不一定是异常值。识别影响点的方法:杠杆率比较大识别影响点的方法:杠杆率比较大(大于大于 3(p+1)/n),或者,或者Cook距离距离D比较大比较大(1).识别之后:建议应该同时报告包含影响识别之后:建议应该同时报告包含影响点和除去影响点的两种回归结果。点和除去影响点的两种回归结果。2001年11月 22光华管理学院 王明进 陈奇志一个具有影响点的散点图一个具有影响点的散点图
12、2001年11月 23光华管理学院 王明进 陈奇志其它的内容其它的内容使用残差检验误差项的正态性;使用残差检验误差项的正态性;使用残差来分析误差项的独立性:使用残差来分析误差项的独立性:Durbin-Watson统计量统计量d。2001年11月 24光华管理学院 王明进 陈奇志HOT DOG!Dubuque是一家热狗生产厂家,他们最近是一家热狗生产厂家,他们最近收到信息说,收到信息说,Ball Park,一家与他们竞争的品,一家与他们竞争的品牌,将会降低他们热狗的价格。公司内部围绕牌,将会降低他们热狗的价格。公司内部围绕这是否会给他们现在的市场份额带来负面影响这是否会给他们现在的市场份额带来负
13、面影响展开了争论,有人认为应该采取相应的措施来展开了争论,有人认为应该采取相应的措施来保护已有的市场份额,也有人说保护已有的市场份额,也有人说Oscar Mayer才是他们的主要竞争对手,可以不必采取任何才是他们的主要竞争对手,可以不必采取任何措施。你觉得应该如何处理这一问题?措施。你觉得应该如何处理这一问题?2001年11月 25光华管理学院 王明进 陈奇志你需要了解的问题你需要了解的问题Dubuque的价格怎样影响到它的市场份额?的价格怎样影响到它的市场份额?Oscar Mayer的价格会影响到的价格会影响到Dubuque的市场的市场份额吗?份额吗?Ball Park的价格影响到的价格影响
14、到Dubuque的市场份额吗的市场份额吗?Oscar Mayer和和Ball Park谁是谁是Dubuque主要的主要的竞争对手?竞争对手?2001年11月 26光华管理学院 王明进 陈奇志数据说明数据说明Mktdub Dubuque热狗的市场份额;热狗的市场份额;Pdub Dubuque热狗的市场价格;热狗的市场价格;Poscar Oscar热狗的市场价格;热狗的市场价格;Pbpreg Ball Park常规热狗的市场价格常规热狗的市场价格;Pbpbeef Ball Park全牛肉热狗的市场价全牛肉热狗的市场价格格。2001年11月 27光华管理学院 王明进 陈奇志你对这样的模型满意吗?你对
15、这样的模型满意吗?Mktdub=0.04030263-0.0007598Pdub (2.8538)(-9.3896)+0.00026223Poscar+0.00034727Pbreg (3.1117)(1.0472)+0.0002929376Pbpbeef (0.3489)R2=52.63%,Adj-R2=50.88%2001年11月 28光华管理学院 王明进 陈奇志多重共线性问题多重共线性问题在多元线性回归模型中,多重共线性性多重共线性性(Multicollinearity)是指自变量之间存在线性相关的关系。多重共线性存在时会使得系数估计的标准误差增大,从而使得相应的t统计量减小和p值增加。
16、2001年11月 29光华管理学院 王明进 陈奇志识别多重共线性性识别多重共线性性自变量的相关矩阵自变量的相关矩阵;方差膨胀因子方差膨胀因子(Variance Inflation Factors,简记作VIF):刻画了相比多重共线性不存在时回归系数估计的方差增大了多少。VIF越大说明多重共线性问题越严重。经验法则:VIF 102001年11月 30光华管理学院 王明进 陈奇志需要删除哪些变量?需要删除哪些变量?H0:3=4=0;H1:3和4中至少有一个不是零。检验的思路:对比简化模型和完全模型;2001年11月 31光华管理学院 王明进 陈奇志谁是谁是DubuqueDubuque最大的竞争对手
17、?最大的竞争对手?Mktdub=0+1Pdub+2Poscar+3Pbpreg+理解理解 2 和和 3 的含义;的含义;如何检验假设如何检验假设 你的结论是什么?你的结论是什么?2001年11月 32光华管理学院 王明进 陈奇志模型的选择模型的选择逐步回归逐步回归(Stepwise)过程过程;向前选择向前选择(Forward)过程过程;向后选择向后选择(Backward)过程;过程;最佳子集的选择。最佳子集的选择。2001年11月 33光华管理学院 王明进 陈奇志总结:如何建立一个回归模型总结:如何建立一个回归模型?1、正确选择自变量和因变量(需要考虑交、正确选择自变量和因变量(需要考虑交互作
18、用吗?是否需要进行必要的变换?互作用吗?是否需要进行必要的变换?需要虚拟变量吗?);需要虚拟变量吗?);2、正确使用计算机软件建立回归模型;、正确使用计算机软件建立回归模型;3、查看残差图(线性假设成立吗?存在异、查看残差图(线性假设成立吗?存在异方差吗?有异常值或影响点存在吗?);方差吗?有异常值或影响点存在吗?);4、判断是否存在多重共线性问题;、判断是否存在多重共线性问题;2001年11月 34光华管理学院 王明进 陈奇志总结:如何建立一个回归模型总结:如何建立一个回归模型?5、小心地处理系数的、小心地处理系数的p值比较大的变量,区别那值比较大的变量,区别那些些VIF比较大和比较大和VI
19、F比较小的情况。切记:你比较小的情况。切记:你不应该马上把那些不应该马上把那些p值较大的自变量都消除!值较大的自变量都消除!6、你可以尝试使用软件提供的变量选择过程建、你可以尝试使用软件提供的变量选择过程建立模型。(但是你要明白选择出什么样的模型立模型。(但是你要明白选择出什么样的模型仍然是由你来控制的。)仍然是由你来控制的。)7、无论如何再回到第、无论如何再回到第3步都是有益的!步都是有益的!2001年11月 35光华管理学院 王明进 陈奇志总结:分析你得到的模型总结:分析你得到的模型1、你必须回到你具体问题的情景中去!你必须回到你具体问题的情景中去!1、如何对你的模型和系数进行解释?、如何
20、对你的模型和系数进行解释?2、使用你的模型进行预测。此时,你要注、使用你的模型进行预测。此时,你要注意很多问题!意很多问题!3、把具体的问题化成模型中的假设?尝试、把具体的问题化成模型中的假设?尝试着去找到检验的方法。着去找到检验的方法。4、体会使用模型辅助你进行决策!、体会使用模型辅助你进行决策!2001年11月 36光华管理学院 王明进 陈奇志课后寄语课后寄语 希望你从此会善待数据!希望当希望你从此会善待数据!希望当你在未来的某个决策中被不确定的你在未来的某个决策中被不确定的因素困扰时,会想到统计分析方法因素困扰时,会想到统计分析方法可能是一条帮助你的途径!可能是一条帮助你的途径!2001
21、年11月 37光华管理学院 王明进 陈奇志回顾与总结(回顾与总结(1)统计学的目的是整理、探索、挖掘数据统计学的目的是整理、探索、挖掘数据中的信息。认识数据是统计学的最基本中的信息。认识数据是统计学的最基本任务。任务。你面临的问题是什么?在你决策过程中你面临的问题是什么?在你决策过程中哪些不确定性因素困扰了你?你要验证哪些不确定性因素困扰了你?你要验证一个什么结论?一个什么结论?你需要收集哪些数据?如何收集?你需要收集哪些数据?如何收集?2001年11月 38光华管理学院 王明进 陈奇志回顾与总结(回顾与总结(2)处理你得到的数据之前,你要明确:处理你得到的数据之前,你要明确:你要描述一个总体
22、?你要描述一个总体?你要比较两个总体?你要比较两个总体?你想比较多个总体?你想比较多个总体?你想了解两个变量之间的关系?你想了解两个变量之间的关系?你想了解多个变量之间的关系?你想了解多个变量之间的关系?2001年11月 39光华管理学院 王明进 陈奇志回顾与总结(回顾与总结(3)你的数据的类型是什么?你的数据的类型是什么?如果是一个品质数据你可以描述它的什如果是一个品质数据你可以描述它的什么特征?如何去做?么特征?如何去做?如果是一个数量数据你如何描述它的集如果是一个数量数据你如何描述它的集中位置(代表值)?如何描述它的变异中位置(代表值)?如何描述它的变异性?性?2001年11月 40光华
23、管理学院 王明进 陈奇志回顾与总结(回顾与总结(4)对于两个品质的总体,如何进行两个总对于两个品质的总体,如何进行两个总体的比较?体的比较?对于两个数量的总体,如何比较它们的对于两个数量的总体,如何比较它们的均值?比较方差?均值?比较方差?如何比较多个正态总体的均值?如何比较多个正态总体的均值?2001年11月 41光华管理学院 王明进 陈奇志回顾与总结(回顾与总结(5)你要研究两个变量的关系时,这两个变你要研究两个变量的关系时,这两个变量的类型分别是什么?量的类型分别是什么?如果是如果是 两个品质变量你如何去做?两个品质变量你如何去做?如果是一个品质变量和一个数量变量之如果是一个品质变量和一个数量变量之间的关系你怎么去做?间的关系你怎么去做?2001年11月 42光华管理学院 王明进 陈奇志回顾与总结(回顾与总结(6)对于两个数量数据之间的关系,你怎么对于两个数量数据之间的关系,你怎么去做?去做?要研究多个变量之间的关系,你掌握了要研究多个变量之间的关系,你掌握了哪些方法?哪些方法?2001年11月 43光华管理学院 王明进 陈奇志