《多元回归模型new.doc》由会员分享,可在线阅读,更多相关《多元回归模型new.doc(9页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、【精品文档】如有侵权,请联系网站删除,仅供学习与交流多元回归模型new.精品文档.多元回归模型一、模型的设定和求解 为扰动项 Y与X之间存在着线性关系,有关扰动项u的假设和一元回归类似。若样本容量为n,则模型可以写为:模型可以用矩阵表示如下:Y=XB+U利用最小二乘法求系数的解:最小二乘的意思就是残差的平方和达到最小,也就是最小残差平方和于是注意根据矩阵的基本定理=,则,而与都是矩阵,故两者同值。对残差平方和求偏导,并令其为零。回归方程的显著性检验:回归系数的显著性检验:t检验可以证明,在回归方程中自变量的系数的分布为:是矩阵主对角线上的元素,由于无法直接得到,故以样本残差来代替:,因此可以t
2、统计量来检验假设统计量回归方程的显著性检验:运用F统计量二、多重共线性定义:回归模型中有两个或两个以上的自变量相关。问题:当变量相关时, 回归系数的解会存在问题,一是完全无解,二是系数不稳定。而且可能对参数估计的正负号产生影响。(参数估计的正负号与预期相反)多重共线性的判别:见书P363页多重共线性的处理:变量选择法三、虚拟自变量的回归解释变量的分类:定量变量:反映数量大小的变量;如收入,产量,价格,成本等。一般用X表示。定性变量:又称属性变量 ,很难直接度量其大小,如性别,种族,职业,受教育水平,季节,战争,地震,罢工等。一般用D表示。2由于定性变量常指某一“性质”或“属性”出现或不出现,因
3、此“量化”这些变量的一个方法是构造一个取值为1或0的人为变量,即:取这样的1或0值的变量叫做虚拟变量(Dummy Variables)。例:方差分析模型(ANOVA)当模型中的解释变量只有虚拟变量时,称为方差分析模型(analysis of variance models)。例:分析大学毕业生和非大学毕业生的初职年薪是否存在差异。假设设定以下回归模型:其中,Y表示初职年薪;也应是说,对于大学毕业生而言,其D1,代入模型中可得:,其期望值为:对于非大学毕业生而言,其D0,代入模型可得:, 其期望值为:也就是说,原模型是假设大学毕业生的初值年薪与非大学生的初职年薪显著不同,其平均差距为虚拟变量D的
4、系数b2。被赋予零值的那个类别被称为是基底或基准(base,benchmark),也就是说,它被用于和其它类别比较的基础。共同的截距项b1就是基底类的截距项。虚拟变量D的系数b2被称为级差截距系数(differential intercept coefficient),它告诉我们取值为1的类别的截距值和基底类的截距值相比有多少差别。虚拟变量显著性检验:t 检验显著表明虚拟变量被赋予1值的分类与基底类的差异是显著的。包含一个定量变量,一个虚拟变量的回归模型在实际分析中,很少使用前面提到的方差分析模型,更多的是用到既有定量变量,又有虚拟变量作为解释变量的回归模型,这样的回归模型称为协方差分析模型(
5、ANCOVA)。例:分析大学教师的工资的主要影响因素。设定以下回归模型:其中,Y为大学教师的年薪;X为教龄;这个模型认为,大学教师的年薪主要受两个因素的影响,一个是教龄,另一个是性别。 并且假设性别只对大学教师年薪的截距产生影响,年薪对教龄的变化率不受性别影响(即男女教师具有相同的斜率)。可以将以上模型分解为:女教师的年薪模型:D0 截距为:b1(基底类的截距)男教师的年薪模型:D1 截距为:b1+b2级差截距为:b2虚拟变量的显著性检验的意义:D的t统计量显著表明男女教师的年薪的差异是显著的,平均而言,男教师的年薪比女教师高b2个单位。虚拟变量的设置规则对于有截距项的回归模型,其虚拟变量的设
6、置规则为:某一属性变量如果有m种互斥的分类,则针对这一属性应在模型中引入m-1个虚拟变量。 例如:假设旅游支出主要受收入和教育因素的影响。其中,收入是定量变量,教育是定性变量。假设教育水平可以分为三类:大学以上水平,中学水平,和未达到中学水平。因此模型中应引入的虚拟变量的个数为312个。模型可设定如下:其中,Y表示旅游支出,X表示收入水平,所以模型中三类教育水平的截距分别为:未达到中学水平: b1 D10; D20中 学 水 平: b1+b3 D1=0 ; D21大学以上 水 平: b1+b2 D11 ;D2=0这样设置的目的是为了防止虚拟变量陷阱,即完全的多重共线性问题。例如,假设分析大学教
7、师的工资的主要影响因素。设定以下回归模型:其中,Y为大学教师的年薪;X为教龄;即按性别的二种分类设置了两个虚拟变量,则解释变量序列为: 截距 D1 D2 X即 截距(D1D2)0,也就是说,解释变量之间出现了完全的多重共线性,它将导致无法估计模型的参数。包含一个定量变量,两个定性变量的回归模型例:设大学教师的年薪Y除了受定量变量教龄X影响外,还受性别和肤色两个定性变量的影响。为了简便,假设肤色有两种分类:白种和非白种。所以模型中共应引入两个虚拟变量,一个反映男女的差别,一个反映肤色的差别。设定的回归模型如下:其中,Y年薪;X教龄;以上模型可以分解为四种不同的对象的模型:(假设斜率都相同)白种男
8、教师的年薪模型:非白种男教师的年薪模型:白种女教师的年薪模型:非白种女教师的年薪模型:虚拟变量的其它引入方式前面的模型中都假设虚拟变量的引入只改变了原模型(未加入虚拟变量的模型)的截距,但不改变原模型的斜率。但实际中,有可能会改变斜率,或同时改变斜率和截距。1 改变斜率的模型(乘法模型)的设定:例:分析大学教师的工资的主要影响因素。假定除教龄外,性别还会对模型的斜率产生影响,所以可以设定以下回归模型:其中,Y为大学教师的年薪;X为教龄;女教师的年薪模型:D0 斜率为:b3(基底类的斜率)男教师的年薪模型:D1 斜率为:b2+b3级差斜率为:b2虚拟变量显著性检验的意义: 表明性别差异是否对年薪对教龄的变化率会产生显著的影响。2 同时影响截距和斜率:设定以下回归模型:其中,Y为大学教师的年薪;X为教龄;女教师的年薪模型:D0 截距 斜率男教师的年薪模型:D1虚拟变量在季节分析中的应用:-个人消费支出, -个人收入 二季度为1,其他为0, 三季度为1,其他为0 四季度为1,其他为0一季度的方程:二季度的方程:三季度的方程:四季度的方程:如果涉及到斜率的变动,则方程变为: