《SPSS操作方法:逻辑回归.pdf》由会员分享,可在线阅读,更多相关《SPSS操作方法:逻辑回归.pdf(7页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 SPSS 操作方法:逻辑回归 例证:在一次关于公共交通的社会调查中,一个调查项目是“乘公交车上下班,还是骑 自行车上下班”因变量 丫=1 表示乘车,丫=0 表示骑车。自变量 X1 表示年龄;X2 表示表示 月收入;X3 表示性别,取 1 时为男性,取 0 时为女性。调查对象为工薪族群体。数据见下 表:试建立丫与自变量之间的 Logistic 回归。表 8-4 序号 性别 年龄 月收入 y 序号 性别 年龄 月收入 y 1 0 18 850 0 15 1 20 1000 0 2 0 21 1200 0 16 1 25 1200 0 3 0 23 850 1 17 1 27 1300 0 4 0
2、 23 950 1 18 1 28 1500 0 5 0 28 1200 1 19 1 30 950 1 6 0 31 850 0 20 1 32 1000 0 7 0 36 1500 1 21 1 33 1800 0 8 0 42 1000 1 22 1 33 1000 0 9 0 46 950 1 23 1 38 1200 0 10 0 48 1200 0 24 1 41 1500 0 11 0 55 1800 1 25 1 45 1800 1 12 0 56 2100 1 26 1 48 1000 0 13 0 58 1800 1 27 1 52 1500 1 14 1 18 850 0
3、 28 1 56 1800 1 逻辑回归 SPSS 操作方法的具体步骤:1.选择 An alyze f Regreessi n f Bin ary Logistic,打开对话框如图 1 所示:图 1 主对话框 Logistic 回归。2.选择因变量丫进入 Depe ndent 框内,将自变量选择进入 Con variates 框。也可以将不 同的自变量组放在不同的块(block)中,可以分析不同的自变量组对因变量的贡献。3.在 Mothed 框内选择自变量的筛选策略:Enter 表示强行进入法;(本例选择)Forword 和 Bacword 都表示逐步筛选策略;Forword 为自变量逐步进入
4、,Bacword 是 自变量逐步剔出。Co nditio nal;LR;Wald 分别表示不同的检验统计量,如 Forword Wald 表示自变量进入方程的依据是 Wald 统计量。中选择一个变量作为条件变量,只有满足条件的变量数据才能参与回归 5.单击Categorical 打开 Categorical 对话框如图 2 所示:对定性变量的自变量选择参 照类。常用的方法是 Indicator,即以某个特定的类为参照类,Last 表示以最大值对应的 类为参照类(系统默认),First 表示以最小值对应的类为参照类。选择后点击 Continue 按钮返回主对话框。(本例不作选择性)SPSS 操作
5、方法之五 4.在 Selection 分析。6.单击 Option 按钮,打开 Option 对话框如图 3 所示 图 3:Option 对话框(1)从 Statistics and Plots 框中选择输出图和分析结果。Classification Plots:表示绘制因变量实际值与预测分类值的关系图(本例选择)。Hosmer-lemeshow good ness-of-fit:表示拟合优度指标(本例选择)。Casewise Listi ng of residuals:表示输出各样本数据残差列表,有因变量的观察 值,预测值,相应的预测概率,残差(非标准化残差,标准化残差)等。Correlat
6、io ns of estimatio ns:表示输出估计参数的相关矩阵(本例选择)。Iteration history:表示输出估计参数迭代过程中的参数与对数似然值(本例选择)。CI for exp(B):表示输出发生比 N%勺置信区间(默认 95%。(2)从 Display 框中选择输出方式。At each step 表示输出模型建立过程中的每一步结果(系统默认),At last step 表 示只输出最终结果。(3)从 Propbability for Stepwise 框中指定自变量进入方程或剔除方程的显著性水平 a。Entry 表示回归系数 Score 检验的概率 p 值小于时相应变量
7、可进入方程;Removal 表 示回归系数 Score 检验的概率 p 值大于时相应变量应当剔除出回归方程.。(4)Classification Cutoff 设置概率分界值,预测概率大于分界值(默认)时,分类预 测值为 1,否则为预测值为 0。(本例选择系统默认项)(5)从 Maximum Iterations 框内指定极大似然估计的最大迭代次数(默认值是 20)7.单击 Save 按钮,打开 Save 对话框如图 4 所示:从中选择需要保存预测结果到数据窗 口。图 4:Save 对话框(1)从 Predieted Values 框中,Probalities 表示保存因变量取 1 的预测概率
8、值,Croup membership 表示保存分类预测值。(本例选择)(2)Residuals 和 In flue nee 表示保存残差及影响点,具体含义与线性回归相同。选择结束,后可以从输出窗口观看输出结果如下:表 1 案例处理摘要 未加权的案例a N 百分比 已选定的案例 包括在分析中 28 缺失案例 0.0 总计 28 未选定的案例 0.0 总计 28 a.如果权重有效,请参见分类表以获得案例总数。表 2 因变量编码 初始值 内部值 0 0 1 1 以上两个表是数据个数,分类,及因变量的概况 表 3 迭代历史记录a,b,c 系数 迭代 -2 对数似然值 Constant 步骤 0 1 2
9、 a.模型中包括常量。b.初始-2 对数似然值:c.因为参数估计的更改范围小于.001,所以估计 在迭代次数 2 处终止。表 4 分类表a,b 观察值 预测值 岀行方式 百分比校正 0 1 步骤 0 出行方式 0 1 总百分比 15 13 0 0.0 a.模型中包括常量。b.切割值为.500 表 5 方程中的变量 B Wald df 显著性 Exp(B)B Wald df 显著性 Exp(B)步骤 0 常量 .379.143 1.706.867 表 6 不在方程中的变量 得分 df 显著性 步骤 0 变量 x3 1.024 x1 1.014 x2 1.086 总统计量 3.015 注意:表 3
10、 至表 6 表示只有常数项的模型,没有实际意义,可以不考虑。表 7 迭代历史记录 迭代-2 对数似然值 系数 Constant x1(1)x2 x3 步骤 1 1 .056.001 2 .075.001 3 .082.001 4 .082.002 5 .082.002 a.方法:输入 b.模型中包括常量。c.初始-2 对数似然值:d.因为参数估计的更改范围小于.001,所以估计在迭代次数 5 处终止。表 7 表示的是迭代历史,表示每一次迭代中-2LL 值和系数值。表 8 模型系数的综合检验 卡方 df 显著性 步骤 1 步骤 3.005 块 3.005 模型 3.005 表 8 模型综合检验是
11、模型拟合优度检验的,用-2LL 度量。最好的模型有-2LL=0,步骤 1 中的“步骤”中的卡方值是当前-2LL 与下一步-2LL 的差值,“块”中的卡方值为当前值-2LL 与后一组变量进入模型后的-2LL 的差值,“模型”中的卡方统计量是当前模型中的-2LL 与只含常数项模型的-2LL 的差值,因所有自变量是强行进入,只有一个步骤,一个块和一个 模型,所以三者的卡方值相等。本例中假设检验的 P 值等于,小于,故模型中至少有一个 回归系数不为 0。表 9 模型摘要 步骤-2 对数似然值 Cox&Snell R 方 Nagelkerke R 方 1 25.971 a.365.487 a.因为参数估
12、计的更改范围小于.001,所以估计在迭代次数 5 处终止。从表 9 中看出-22LN 值不算太大,模型拟合程度一般。Cox&Snell R 2和 Nagelkerke R 2类似于线性模型中的拟合优度检验。其中:2 L0?Cox&Snell R 2=(1 0)n L 2 Cox&Snell R2 Nagelkerke R=表 10 Hosmer 和 Lemeshow 检验 步骤 卡方 df 显著性 1 7.118 表 11 Hosmer 和 Lemeshow 检验的随机性表 出行方式=0 出行方式=1 总计 观察值 期望值 观察值 期望值 步骤 1 1 3 0.173 3 2 2 1.336
13、3 3 3 0.527 3 4 3 0.953 3 5 1 2 3 6 2 1 3 7 0 3 3 8 0.556 3 3 9 1.172 3 4 2 1 宀 从表中得出 Cox&Snell R 2和 Nagelkerke R 2类不是太高,似合优度一般。表 10 和表 11 是逻辑方程的拟合程度的检验,由于观察值和理论频数的差异不大,检验通 过。但是理论频数都小于 5,原因是数据个数太少造成的,所以检验结果有待进一步检验 表 12 分类表 观察值 预测值 岀行方式 百分比校正 0 1 步骤 1 出行方式 0 1 总百分比 13 3 2 10 a.切割值为.500 表 12 也称错判矩阵。从表
14、 10 中看出,如出行方式为坐公交车 15 人中,预测值为 13 人,正确率为%表 13 方程中的变量 B Wald df 显著性 Exp(B)步骤 1 a x3 1.031.082 x1.082.052 1.115 x2.002.002.661 1.416 常量 1.081.026 a.在步骤 1 中输入的变量:x3,x1,x2.从表 13 中可以得到回归系数、回归系数的标准误、Wald 检验统计量、P 值、发生比等。2 其中第二个与第三个变量的回归系数没有通过检验。Wald 亠 S为回归系数i的 S.1 I 标准误。Exp()表示一个自变量的发生比,指当其它自变量不变时,该自变量每增加一
15、个单位,将引起发生比扩大Exp()。表 14 相关矩阵 Constant x3 x1 x2 步骤 1 Constant .311 x3.311 x1 x2 表 14 中表示的是回归系数的相关矩阵。Predicted The Cut Symbols:Probability is of Membership for 1 Value is.50 0-0 1-1 Each Symbol Represents.25 Cases.图 5 预测分类图 预测分类图中显示预测值的分布,横坐标表示预测概率值,大于的预测值将预测为 1,小于的预测值为 0。图中 0 表示实际观察值为 Y=0,1 表示观察值 Y=1,
16、纵向四个同样 的数字表示一个样本观察值。实验题:为研究某商品消费特点和趋势,收集以往的消费数据,数据包括:因变量 Y 为是否购买,购买取值为 1,否则丫取值为 0。自变量有性别,年龄和收入水平。数据见 表。试采用逻辑回归的方法进行分析。F R 3+E Q U E 2+1 1 0 N 1 1 0 C 1 1 0 Y 1 1 0 1+00 0 00 0 0 1 1 1 0 11 r 00 0 00 0 0 1 1 1 0 11 00 0 00 0 0 1 1 1 0 11 00 0 00 0 0 Predicted 1 1 1 1 1 0 1 11 1 1 1 r 1 Prob:0 r .1 r .2 .8 .9 1 +I I I+I I I 1+1 I 1 I 1 I 0 00 01 1 0 00 01 1 0 00 01 1 0 00 01 1 0 0 1 1 1 0 0 1 1 1 0 0 1 1 1 0 0 1 1 1.3.4.5.6.7 Group:00000000000000000000000000000000000000000000000000