《对数线性模型及SPSS操作教程文件.ppt》由会员分享,可在线阅读,更多相关《对数线性模型及SPSS操作教程文件.ppt(50页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、对数线性模型及SPSS操作高维列联表和高维列联表和多项分布多项分布对数线性模型对数线性模型 前面例子原始数据是个三维列联表,对三维列联前面例子原始数据是个三维列联表,对三维列联表的检验也类似。表的检验也类似。但高维列联表在计算机软件的选项可有所不同,但高维列联表在计算机软件的选项可有所不同,而且可以构造一个所谓而且可以构造一个所谓(多项分布多项分布)对数线性模型对数线性模型(loglinear model)来进行分析。来进行分析。利用对数线性模型的好处是不仅可以直接进行预利用对数线性模型的好处是不仅可以直接进行预测,而且可以增加测,而且可以增加定量变量作为模型的一部分。定量变量作为模型的一部分
2、。2注意,无论你对模型假定了多少种效应,注意,无论你对模型假定了多少种效应,并并不见得都有意义不见得都有意义;有些可能是多余的。本来;有些可能是多余的。本来没有交叉影响,但如果写入,也没有关系,没有交叉影响,但如果写入,也没有关系,在分析过程中一般可以知道哪些影响是显著在分析过程中一般可以知道哪些影响是显著的,而那些是不显著的。的,而那些是不显著的。6Poisson分布简介分布简介 在某些固定的条件下在某些固定的条件下,人们认为某些事件出现人们认为某些事件出现的次数服从的次数服从Poisson分布分布,比如在某一个时间段内某比如在某一个时间段内某种疾病的发生病数种疾病的发生病数,显微镜下的微生
3、物数显微镜下的微生物数,血球数血球数,门诊病人数门诊病人数,投保数投保数,商店的顾客数商店的顾客数,公共汽车到达公共汽车到达数数,电话接通数等等电话接通数等等.然而然而,条件是不断变化的条件是不断变化的.因此因此,所涉及的所涉及的Poisson分布的参数也随着变化分布的参数也随着变化.Poisson对数线性模型对数线性模型假假定定哮哮喘喘发发生生服服从从Poisson分分布布;但但是是由由于于条条件件不不同同,Poisson分分布布的的参参数数也也应应该该随随着着条条件件的的变变化化而而改改变变。这这里里的的条条件件就就是是给给出出的的性性别别、空空气气污污染染程程度度与与年年龄龄。当当然然,
4、如如何何影影响响以以及及这这些些条条件件影影响响是是否否显显著著则则是是我我们们所所关关心心的的。这个模型可以写成这个模型可以写成 这里这里为常数项,为常数项,i为性别为性别(i=1,2分别代表女性和男性分别代表女性和男性两个水平),两个水平),j为空气污染程度为空气污染程度(j=1,2,3代表低、中高代表低、中高三个污染水平),三个污染水平),x为连续变量年龄为连续变量年龄,而而为年龄前面为年龄前面的系数的系数,ij为为残差项残差项。8SPSS 中一共提供了对数线性模型的三个过程:General 过程、过程、Logit 过程过程和和Model Selection 过程过程,三者都应用对数线性
5、模型的基本原理,但在具体的拟和方法和结果输出上有些不同,分别用于不同的研究情况。General 过程适用于研究人员只对某些特定效应项某些特定效应项感兴趣的情况,属于证实证实性研究性研究。General 过程的另外一个特点是,分析中只考虑因素之间是否相关,不考虑谁是原因谁是结果,最后在结果解释时才由研究人员来做出判断。如果因变量为两分类,就可以用Logit 过程提供的Logit 模型来分析。相比之下,它比另两个模型更像方差分析,明确分出了应变量和自变量明确分出了应变量和自变量,直接服务于分类变量之间的因果关系。Model Selection 过程拟合的是分层对数线性模型分层对数线性模型(Hier
6、archical Mode)。如果在探索性分析中研究人员只是设想若干分类变量之间可能有关系,但是并无明确假设,也没有具体分出哪个是因变量、哪个是自变量,此时比较适宜采用分层对数线性模型分析。9对数线性模型-General模型一般对数线性模型是对数线性模型中最简单的一种。例:某医科大学附属医院用内科疗法治疗一般类型胃溃病患者80 例,治愈63 例,治疗特殊类型胃溃病患者99 例,治愈31 例,试通过此资料比较用内科疗法治疗两种胃溃病病人所得的治愈率是否相同。影响格子中频数大小的因素有两个:组别和治疗结果,根据前面的分析可知,要比较两种类型胃溃疡病的治愈率是否相同,就是分析组别和治疗结果两个因素对
7、单元格频数的作用是否存在交互作用。10可以认为用内科疗法治疗两种胃溃疡病人所得的治愈率是不同的。一般类型病人的治愈率高于特殊类型,或者可以说,治愈率和组别与治疗结果两个因素有关,对单元格频数的作用存在交互作用。11拟合Poisson回归模型时使用首先应当使用Weight Cases 过程,将count 指定为频数变量。结果分析:结果分析:模型迭代的基本情况:允许最大迭代次数为20 次,用于判断收敛的相对容忍度为0.001,本模型迭代4次后即成功收敛。表格下方的脚注给出了具体模型的信息:单元格内频数服从多项分布,具体的模型如下,即含交互作用项的饱含交互作用项的饱和模型和模型。17这里关心的是参数
8、6 的估计值及假设检验结果,即两个因素的交互作用是否有意义。其参数估计值为2.095,P0.05,认为胃溃疡类型和治疗结果两个因素之间存在交互作用,即不同胃溃疡类型有不同的治疗率。结合具体资料可以看出,一般类型胃溃疡治愈率高于特殊类型。输出的分别是4 个系数的协方差矩阵和相关系数矩阵。作为参照水平的参数(都赋值为0)没有列出。再次提醒:由于拟合的是饱和模型,故所有的残差均为0,因此没有输出与残差有关的图形。如果选择Custom模型,分析group和result两个因素的Main effect,不包含两者的交互效应,结果会怎样?从模型的拟和优度检验可见,无论是似然比2 还是普通的Pearson
9、2,P值都是小于0.05 的,从饱和模型中去除交互项后所用的这个模型在拟合优度上和原饱和模型有统计学差异,即被去除的交互项实际上是存在的被去除的交互项实际上是存在的。也就是两变量间有关系,即不同类型胃溃疡病人的治愈率不同。这与饱和模型的分析结果是完全一致的。224 个单元格的观察频数、期望频数和校正残差的散点图矩阵散点图矩阵。上排中间的格子是指以期望频数横坐标、实际频数为纵坐标的散点图;第二排左边的散点图是以实际频数为横坐标、期望频数为纵坐标。如果把这两个图作一定的旋转,就会发现它们是完全一样的。从观察频数和校正残差的散点图可看出,4 个散点明显存在着一定的趋势,这说明残差不服从正态分布,所拟
10、合的模型尚不能完全解释4 个格子频数的分布规律,可能还有有意义的变量未被纳入(实际上就是交互项未被纳入)。校正残差的正态Q-Q 图和去势正态Q-Q图,可见虽然只有4 个格子的残差,但明显存在着一定趋势,结论和前面相同。Poisson回归模型回归模型SPSS 中一般对数线性模型主对话框右下侧的Distribution of Cell Counts 单选框组默认为Poisson,即各单元格中频数服从Poisson 分布。在上文所讨论的模型中,单元格内频数都被假定成服从多项分布,此时拟合的是标准的对数线性模型。但是如果将频数分布设定为Poisson 分布,此时拟合的又是什么模型呢?25例:现收集了某
11、一年代英国男性医生冠心病死亡与抽烟关系的年龄分组数据。请推断英国男医生冠心病死亡与抽烟、年龄是否有关?注意由于死亡与追踪人数和追踪时间均有关,故对人数进行了校正,实际上是用经过校正的观察人数作为观察单位。由于冠心病并非传染病,且在人群中的病死率较低病死率较低,因此可以认为死亡人数服从Poisson 分布。在清楚了模型的基本结构后,本例的操作就不再困难了,唯一比较特殊的是由于各年龄组的观察人数不同,需要在各年龄组的观察人数不同,需要在Cell Structure 框中加以设定框中加以设定。27首先对死亡数died进行加权。28由模型的拟合优度可见,当前模型和饱和模型相比没有统计学差异,说明不需要
12、再纳入两个变量的交互项不需要再纳入两个变量的交互项了。模型的参数估计值,由于Poisson 回归模型都是对前瞻性研究数据进行拟合,因此可以通过对事件发生率(此处为死亡率)的比较计算出相对危险度。本例的结果:和抽烟者相比,不抽烟者的死亡风险较低,其RR为exp(-0.5)=0.6060。而随着年龄的增加,死亡的风险也在逐渐上升,和35 岁组(编码为1)相比,65 岁组(编码为4)的RR值为exp(3.338)=28.163。对数线性模型-Logit模型一般线性模型己经可以完成许多分析了,它的特色是对所有的变量不分因变量和自变量,一视同仁的分析。但有的时候,研究人员对研究变量间的因果关系已经了解,
13、研究目的是分析自变量与因变量之间的关系,此时用一般对数线性模型就无法利用该信息。在这种情况下,可以用Logit 过程提供的Logit 模型来分析。该模型明确分出因变量和自变量明确分出因变量和自变量,分析因变量和自变量之间的因果关系。模型中将自动引入自变量与因变量的交互项自动引入自变量与因变量的交互项。在拟合结果上,Logit 模型实际上和我们熟悉的Logistic 模型等价。31例:要研究两种手术后并发症的严重程度与手术类型是否有关,在甲乙两个医院各观察70、54 例子术病人。本研究分析不同手术类型和不同医院对术后并发症的影响,显然是否出现术后并发症是因变量,手术类型和医院是自变量。这一问题可
14、以用Logistic 回归来解决,也可以用对数线性模型来解决,二者是等价的。32首先应当使用Weight Cases 过程,将count 指定为频数变量。可见该不饱和模型的拟合优度与含所有交互项的饱和模型相比并无统计学差异,也就是说,用此模型己经可以用此模型己经可以充分反映三个变量间的关系了充分反映三个变量间的关系了。SPSS12之后新增的输出,用于给出反应给出反应模型的解释度模型的解释度,它类似于回归模型中的决定系数,具体以熵(Entropy)或集中度(Concentration)来计算。以熵为例,可见数据的总熵为83.613,其中被模型解释掉了2.916,因此通过熵测得的模型解释度为2.9
15、16/83.613=0.035。但是,由于这里拟合的是分类数据的模型,因此解释度指标只是近似的反映了模型的效果,就如同Logistic 模型中的伪决定系数一样。模型中所有参数的估计值,对于自变量的任意组合分别估计了常数项。其余的11 个系数中3个有效参数均给出了标准误、Z值以及参数95%可信区间,从可信区间可见第11个参数有统计学意义的,可以这样理解,在控制了在控制了hospital 这一变量的混杂作用后,因变量这一变量的混杂作用后,因变量effect与自变量与自变量trt 之间存在交互作用。之间存在交互作用。结合具体数据可知,手术1 的术后并发症发生率低于手术2。两所不同医院之间,术后并发症
16、发生情况无明显差别。对数线性模型-Model SelectioSPSS 中的LoglinearModel Selection 过程可以进行对数线性模型的选择。该过程从饱和模型入手,从高阶交互项开始逐步排除无意义的参数,直到最该过程从饱和模型入手,从高阶交互项开始逐步排除无意义的参数,直到最终形成一个最佳的简约模型。终形成一个最佳的简约模型。但是分层模型只提供饱和模型的参数估计、不能输出简略模型的参数估计分层模型只提供饱和模型的参数估计、不能输出简略模型的参数估计,在用它得到最佳简约模型后,还应当采用一般模型来得到具体的参数估计和检验结果。对广大用户来说,该过程的应用价值是最高的,因为它可以进行
17、自动筛选自动筛选,类似于多元回归中的逐步回归,这在三维以上列联表进行联合分析时可以大大降低我们的工作量。39例:某医师研究工作姿势(B)与子宫后倾(C)有无关系,随机抽查370 名劳动强度及年龄相仿的女职工的工作姿势与子宫后倾情况,请作统计分析(假定在可比性方面无问题)。本例是由三个分类变量(A、B、C)构成的三维列联表。研究者主要关心B 与C 是否有关,A是混杂因素,可考虑用Logistic 回归,也可用对数线性模型,现借助对数线性模型作分析。40饱和模型检验模型中K 维交互作用及K 维以上交互作用是否有统计学意义,方法为似然比2和Pearson 2,可见无论哪种检验均显示三维交三维交互作用
18、无统计学意义,互作用无统计学意义,二维交互和一维交互以上(即主效应)均有统计学意义。检验模型中K 维交互作用自身是否有统计学意义,方法为似然比2和Pearson 2,可见结论和上面相同。初始模型:最高阶交互效应删除最高阶后拟合优度有无意义,显然删除三阶交互对模型无影响。拟合第1步:显示当前模型的最高阶交互项,为三个二阶交互项。当前模型拟合优度与饱和模型相比的检验,无统计学意义。拟合第1步:如果将这几个最高阶交互项从模型中删除,则拟合优度的改变有无统计学意义。可见a*b、a*c的P值大于0.05,而b*c所对应P值小于0.05,可见前两个二阶交互作用可以删除,而b*c的交互作用不能删除。文本给出
19、了最终模型的信息,同样是用列出模型中具体系数的方式来表示的。文本是最终模型的拟合优度检验,可见模型拟合良好现在已经得到了最佳简略模型,但上面的分析中并未给出各项的系数,以及各项并未给出各项的系数,以及各项的详细检验结果的详细检验结果,可以继续用General过程或Logit 过程来完成这些工作。显然,在高维列联表的分析中,先采用先采用Model Selection 过程进行自动筛选的确可以大大过程进行自动筛选的确可以大大减少我们的工作量。减少我们的工作量。采用General模型计算各项的系数以及各项的详细检验结果。47对数线性模型与方差分析的关系对数线性模型与方差分析的关系相同:相同:与方差分
20、析类似,能分析各变量的主效应主效应及变量间的交互效应交互效应。不同不同:(1)方差分析方差分析的因变量是连续性变量,对其分布有特定的要求(正态性、方差齐性等),研究分析不同因素对该连续性变量的影响;对数线性模型对数线性模型主要研究多个分类变量间的统计独立与依赖性,一般的对数线性模型的特色是对所有的变量不分因变量和自变量,一视同仁的分析,模型中分析的各因素对单元格频数的影响,通常假设单元格频数服从多项式分布。(2)方差分析中,各因素对因变量的作用是相加的作用;而对数线性模型中各因素对单元格频数的作用则是相乘的作用。48对数线性模型与对数线性模型与Logistic回归的关系回归的关系联系:联系:只需要在对数线性模型中将单元格频数的理论分布改为单元格频数的理论分布改为Logit,则对数线性模型的Logit 过程和Logistic 回归的结果就是完全等价的,事实上因果关系明确的Logit 对数线性模型就是这样。区别:区别:当多个分类变量之间分不出哪个是原因那个是结果,或者说,研究者对变量之间的因果关系并不感兴趣,仅仅要分析变量之间的相互关系,此时就只能用对数线性模型,而较少用Logistic 回归了。49