《SPSS第十讲-线性回归分析.ppt》由会员分享,可在线阅读,更多相关《SPSS第十讲-线性回归分析.ppt(74页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第十讲第十讲 线性回归分析线性回归分析用变量的观测数据拟合所关注的变量和影响其变化的变量之间的线性关系式检验影响变量的显著程度比较影响变量的作用大小用一个或多个变量的变化解释和预测另一个变量的变化线性回归的作用线性回归的作用一元线性回归,针对一个影响变量(自变量)的回归分析多元线性回归,针对多个影响变量(自变量)的回归分析线性回归的类型线性回归的类型因变量:定距变量自变量:定类、定序变量或定距变量,对于分类变量需要转换成虚拟变量变量的测量尺度变量的测量尺度回归方程回归方程一元线性回归YABX多元线性回归YB0B1X1B2X2 BnXn 线性回归的位置线性回归的位置一元线性回归实例实例1 对受访
2、者的性别和月收入进行一元线性回归分析 当自变量是分类变量时,需要将原变量转换成虚拟变量,所有虚拟变量都是“1”和“0”取值的二分变量。(当原变量是二分类变量时,我们只需要设定一个“1”、“0”取值的虚拟变量,并且把取值为“0”的那个类别作为参照项)注意注意步骤1:点击“Recode”,弹出对话框注注意意通常选择Recode into Different Variable步骤2:将性别拖入中间空白框步骤3:在Name栏中填写虚拟变量名步骤4:点击“Change”按钮步骤5:点击“Old and New Values”按钮步骤6:将原变量的“1”设为新变量的“1”步骤7:将原变量的“2”设为新变量
3、的“0”步骤8:点击“Continue”,回到主对话框步骤8:点击“OK”,生成新的虚拟性别变量 在设置完虚拟变量后,我们才能正式开始回归分析。注意注意步骤9:点击“Regression”中的“Linear”,弹出对话框步骤10:选择因变量“月收入”和自变量“性别”点击“OK”,结果一:确定系数表结果一告诉我们什么?表格中的R、R Square和Adjusted R Square都是用于表示模型的解释能力通常选择Adjusted R Square作为我们的结论依据,调整后的R平方越大,说明性别和收入的线性关系越强,即性别对收入的解释力越强表中调整后的R平方,表示性别能够解释收入的变化结果二:方
4、差分析表结果二告诉我们什么?结果二是对回归方程进行显著度检验的方差分析,即判断总体回归系数中至少有一个不等于0表中显著度(Sig),表明性别与收入之间具有显著的线性关系。结果三:回归系数表结果三告诉我们什么?与结果一中的确定系数不同,回归系数是回归方程中x的斜率,表示x每变化一个单位,y的平均变化。从表中B,可以发现男性比女性的平均月收入多元(由于在设定虚拟变量时,将女性取值为“0”,因此这里以女性为参照项)。由此我们可以得到回归方程:y结果三告诉我们什么?表中的t检验是针对回归系数的显著度检验,而结果二中的方差分析是对整个回归方程的检验,在一元回归分析中,这两种检验结果是等同的。而在多元回归
5、分析中,则有可能是不同的。整体方程的显著并不意味着每个回归系数都显著,但每个系数的显著一定意味着整体方程是显著的。从表中显著度,可以发现性别对收入的影响是非常显著的。多元线性回归实例实例2 将受访者的性别、教育程度(四分类的教育程度)和年龄作为自变量,通过多元线性回归,分析其对月收入的影响。由于例题中的教育变量是个四分类的定序变量,因此我们需要设置三个“1”、“0”取值的虚拟教育变量:edu1、edu2和edu3,分别用来表示“小学”、“初中”和“高中”,将“大专及以上”教育类别作为参照项,其余三个类别分别与其进行比较。注意注意步骤1:点击“Recode”,弹出对话框步骤2:将四分类的教育变量
6、拖入中间空白框步骤3:在Name栏中填写第一个虚拟变量edu1步骤4:在Label栏中填写变量名标签小学步骤5:点击“Change”按钮步骤6:点击“Old and New Values”按钮步骤7:将原变量中表示小学的“1”设为新变量的“1”步骤8:将原变量的其余取值都设为“0”步骤9:点击“Continue”,回到主对话框步骤10:点击“OK”,生成表示小学的虚拟变量edu1步骤11:重新点击“Recode”,弹出对话框步骤12:将四分类的教育变量拖入中间空白框步骤13:在Name栏中填写第二个虚拟变量edu2步骤14:在Label栏中填写变量名标签初中步骤15:点击“Change”按钮步
7、骤16:点击“Old and New Values”按钮步骤17:将原变量中代表初中的“2”设为新变量的“1”步骤18:将原变量的其余取值都设为“0”步骤19:点击“Continue”,回到主对话框步骤20:点击“OK”,生成表示初中的虚拟变量edu2步骤21:重新点击“Recode”,弹出对话框步骤22:将四分类的教育变量拖入中间空白框步骤23:在Name栏中填写第二个虚拟变量edu3步骤24:在Label栏中填写变量名标签高中步骤25:点击“Change”按钮步骤26:点击“Old and New Values”按钮步骤27:将原变量中代表高中的“3”设为新变量的“1”步骤28:将原变量的
8、其余取值都设为“0”步骤29:点击“Continue”,回到主对话框步骤30:点击“OK”,生成表示高中的虚拟变量edu3步骤31:点击“Regression”中的“Linear”,弹出对话框步骤32:选择因变量“月收入”步骤32:选择自变量“虚拟性别”,“edu1”,“edu2”,“edu3”和年龄点击“OK”,结果一:确定系数表结果一告诉我们什么?表中调整后的R平方,表示整个方程能够解释收入变化的。与例1中的确定系数相比,提高了个百分点。结果二:方差分析表结果二告诉我们什么?表中显著度(Sig),表明整个方程是显著的,也就是说自变量与因变量之间具有显著的线性关系。但这并不意味着每个自变量与
9、因变量都具有显著的线性关系,具体的结论还需要看后面对每个自变量的回归系数的检验结果。结果三:回归系数表结果三告诉我们什么?表中B栏的非标准化回归系数表明:第一,在控制了其他变量之后,男性比女性的月收入高约137元;第二,小学、初中和高中程度的受访者的月收入,与大专及以上教育程度的受访者月收入相比,分别低了约112元、80元和66元;第三,年龄每增加一年,月收入就降低约2元结果三告诉我们什么?由此我们可以得到回归方程式:y 137.048性 别 112.371小 学 79.864初中65.704高中1.749年龄结果三告诉我们什么?表中Beta栏的标准化回归系数的绝对值可以用于比较各个自变量之间对因变量的贡献大小:性别(0.184)小学(0.117)初中(0.103)高中(0.082)年龄(0.061)结果三告诉我们什么?Sig栏中每个回归系数的显著度水平,表明各自所对应的那个自变量与因变量之间是否存在显著的线性相关关系 从结果看,所有回归系数的显著度(即P值)都小于,由此,我们可以认为性别、教育和年龄都会影响受访者的月收入。练习题练习题利用spss自带的1991的美国GSS数据,进行以下分析:用一元线性回归分析种族对职业声望的影响用一元线性回归分析教育对职业声望的影响用多元线性回归分析种族、性别、年龄和教育对职业声望的影响