《统计学列联表及对数线性模型精品文稿.ppt》由会员分享,可在线阅读,更多相关《统计学列联表及对数线性模型精品文稿.ppt(33页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、统计学列联表及对数线性模型第1页,本讲稿共33页第八章列联表、列联表、c c2检验和对数线性模型检验和对数线性模型 第2页,本讲稿共33页三维列联表三维列联表(关于某项政策调查所得结果(关于某项政策调查所得结果:table7.txt)观点:赞成观点:不赞成低收入中等收入高收入低收入中等收入高收入男201055810女25157279第3页,本讲稿共33页列联表列联表o前面就是一个所谓的三维前面就是一个所谓的三维列联表列联表(contingency table).o这些变量中这些变量中每个都有两个或更多的可能取值每个都有两个或更多的可能取值。这。这些取值也称为些取值也称为水平水平;比如收入有三个
2、水平,观点;比如收入有三个水平,观点有两个水平,性别有两个水平等。有两个水平,性别有两个水平等。该表为该表为322列联表列联表o在下面在下面SPSS数据中,表就和上面的不同,收入的数据中,表就和上面的不同,收入的“低低”、“中中”、“高高”用代码用代码1、2、3代表;代表;性别的性别的“女女”、“男男”用代码用代码0、1代表;观点代表;观点“赞成赞成”和和“不赞成不赞成”用用1、0代表。有些计算代表。有些计算机数据对于这些代码的形式不限(机数据对于这些代码的形式不限(可以是数字,可以是数字,也可以是字符串也可以是字符串)。)。第4页,本讲稿共33页第5页,本讲稿共33页列联表列联表o列联表的中
3、间各个变量不同水平的交汇列联表的中间各个变量不同水平的交汇处,就是这种水平组合出现的频数或处,就是这种水平组合出现的频数或计计数数(count)。)。o二维的列联表又称为二维的列联表又称为交叉表交叉表(cross table)。)。o列联表可以有很多维。维数多的叫做列联表可以有很多维。维数多的叫做高维高维列联表。列联表。o注意前面这个列联表的变量都是定性变量注意前面这个列联表的变量都是定性变量;但列联表也会带有但列联表也会带有定量变量作为协变量。定量变量作为协变量。第6页,本讲稿共33页二维列联表的检验二维列联表的检验 o研究列联表的一个主研究列联表的一个主要目的是看这些变量要目的是看这些变量
4、是否相关。比如是否相关。比如前面前面例子中的例子中的收入和观点收入和观点是否相关是否相关。o这需要形式上的检验这需要形式上的检验第7页,本讲稿共33页二维列联表的检验二维列联表的检验 o下面表是把该例的三维表简化成下面表是把该例的三维表简化成只有收入和观点只有收入和观点的二维表的二维表(这是这是SPSS自动转化的自动转化的:Analyze-Descriptive Statistics-Crosstabs-.).第8页,本讲稿共33页二维列联表的检验二维列联表的检验o对对于于上上面面那那样样的的二二维维表表。我我们们检检验验的的零零假假设设和备选假设为和备选假设为oH H0 0:观点和收入这两个
5、变量不相关观点和收入这两个变量不相关;H H1 1:这两这两个变量相关。个变量相关。o这里的检验统计量在零假设下有(大样本这里的检验统计量在零假设下有(大样本时)时)近似的近似的c c2 2分布。分布。o当该统计量很大时或当该统计量很大时或p p-值很小时,就可以值很小时,就可以拒绝零假设,认为两个变量相关。拒绝零假设,认为两个变量相关。第9页,本讲稿共33页二维列联表的检验二维列联表的检验o实际上有不止一个实际上有不止一个c c2 2检验统计量。包括检验统计量。包括Pearson c c2 2统计量统计量和和似然比似然比(likelihood ratio)c c2 2统计量统计量;它们;它们
6、都有渐近的都有渐近的c c2 2分布。分布。o对于我们的数据,根据计算可以得到(对对于我们的数据,根据计算可以得到(对于这两个统计量均有)于这两个统计量均有)p p-值小于值小于0.0010.001。因此可以说,收入高低的确影响观点。因此可以说,收入高低的确影响观点。第10页,本讲稿共33页Pearson c c2 2统计量统计量似然比似然比c c2 2统计量统计量第11页,本讲稿共33页二维列联表的检验二维列联表的检验o刚刚才才说说,这这些些c c2 2统统计计量量是是近近似似的的,那那么么有没有精确的统计量呢?有没有精确的统计量呢?o当当然然有有。这这个个检检验验称称为为FisherFis
7、her精精确确检检验验;它不是;它不是c c2 2分布,而是分布,而是超几何分布超几何分布。o对对本本问问题题,计计算算FisherFisher统统计计量量得得到到的的p p-值也小于值也小于0.0010.001。oFisherFisher精确检验的又一例子精确检验的又一例子第12页,本讲稿共33页二维列联表的检验二维列联表的检验o聪聪明明的的同同学学必必然然会会问问,既既然然有有精精确确检检验验为什么为什么还要用近似的还要用近似的c c2 2检验呢?检验呢?o这这是是因因为为当当数数目目很很大大时时,超超几几何何分分布布计计算算相相当当缓缓慢慢(比比近近似似计计算算会会差差很很多多倍倍的的时
8、时间间);而而且且在在计计算算机机速速度度不不快快时时,根根本本无无法法计计算算。因因此此人人们们多多用用大大样样本本近近似似的的c c2 2统统计计量量。而而列列联联表表的的有有关关检检验验也也和和c c2 2检检验联系起来了。验联系起来了。第13页,本讲稿共33页具体运算:先具体运算:先加权加权,加权之后,按照次序选,加权之后,按照次序选AnalyzeDescriptive StatisticsCrosstabs。在打开的对话框中,把在打开的对话框中,把opinion和和income分别选入分别选入Row(行)和(行)和Column(列);至于哪个放入行或哪个放入(列);至于哪个放入行或哪
9、个放入列是没有关系的。列是没有关系的。如果要如果要Fisher精确检验则可以点精确检验则可以点Exact,另外在,另外在Statistics中选择中选择Chi-square,以得到,以得到c c2检验结果。检验结果。最最后点击后点击OK之后,就得到有关之后,就得到有关Pearson c c2统计量、似然统计量、似然比比c c2统计量以及统计量以及Fisher统计量的输出了统计量的输出了(这里的这里的Sig就就是是p-值值)。第14页,本讲稿共33页下面就是下面就是SPSSSPSS计算机对于这个问题的输出计算机对于这个问题的输出第15页,本讲稿共33页高维列联表和高维列联表和(多项分布多项分布)
10、对数线性模型对数线性模型 o前面例子前面例子原始数据是个三维列联表,原始数据是个三维列联表,其检验和对两维类似。其检验和对两维类似。o但高维列联表在计算机软件的选项上但高维列联表在计算机软件的选项上有所不同,而且可以构造一个所谓有所不同,而且可以构造一个所谓(多多项分布项分布)对数线性模型对数线性模型(loglinear model)来进行分析。来进行分析。o利用对数线性模型的好处是不仅可以直接利用对数线性模型的好处是不仅可以直接进行预测,而且可以增加进行预测,而且可以增加定量变量作为定量变量作为模型自变量的一部分。模型自变量的一部分。第16页,本讲稿共33页对数线性模型对数线性模型o现在简单
11、直观地通过二维表介绍一下对数线性模型,现在简单直观地通过二维表介绍一下对数线性模型,假定不同的行代表第一个变量的不同水平,而不同假定不同的行代表第一个变量的不同水平,而不同的列代表第二个变量的不同水平。用的列代表第二个变量的不同水平。用mij代表二维代表二维列联表第列联表第i行,第行,第j列的频数。人们常假定这个频数列的频数。人们常假定这个频数可以用下面的公式来确定:可以用下面的公式来确定:这就是所谓的对数线性模型。这里这就是所谓的对数线性模型。这里a ai i为行变量的第为行变量的第i个个水平对水平对ln(mln(mijij)的影响,而的影响,而b bj j为列变量的第为列变量的第j个水平对
12、个水平对lnln(m(mijij)的影响,这两个影响称的影响,这两个影响称为主效应(为主效应(main effect);e eijij代表随机误差。代表随机误差。第17页,本讲稿共33页(多项分布多项分布)对数线性模型对数线性模型o该模型看上去和回归模型很象,但由于分该模型看上去和回归模型很象,但由于分布假设不同,不能简单地用线性回归的方布假设不同,不能简单地用线性回归的方法来套用法来套用(和和LogisticLogistic回归类似回归类似);计算过;计算过程也很不一样程也很不一样(把这个留给计算机去操心把这个留给计算机去操心)。只要利用数据来拟合这个模型就可以得到只要利用数据来拟合这个模型
13、就可以得到对于参数对于参数m m的估计的估计(没有意义没有意义),以及,以及a ai i和和b bj j的的“估计估计”。o有了估计的参数,就可以预测出任何有了估计的参数,就可以预测出任何i i,j j水平组合的频数水平组合的频数m mijij了了(通过对数通过对数)第18页,本讲稿共33页(多项分布多项分布)对数线性模型对数线性模型o注意,这里的估计之所以打引号是因为注意,这里的估计之所以打引号是因为一个变量的各个水平的影响是相对的一个变量的各个水平的影响是相对的,o只有事先固定一个参数值只有事先固定一个参数值(比如比如a a1 1=0=0),),或者设定类似于或者设定类似于SaSai i=
14、0=0这样的约这样的约束,才可能估计出各个的值。束,才可能估计出各个的值。o没有约束,这些参数是估计不出来的。没有约束,这些参数是估计不出来的。第19页,本讲稿共33页(多项分布)对数线性模型(多项分布)对数线性模型o二维列联表的更完全的对数线性模型为二维列联表的更完全的对数线性模型为这里的这里的(ab)ab)ijij代表第一个变量的第代表第一个变量的第i i个水平和第个水平和第二个变量的第二个变量的第j j个水平对个水平对ln(mln(mijij)的共同影响,的共同影响,称为称为交叉效应交叉效应。即当单独作用时,每变量的某。即当单独作用时,每变量的某水平对水平对ln(mln(mijij)的影
15、响只有的影响只有a ai i(或或b bj j)大,但如这大,但如这两个变量共同影响就不仅是两个变量共同影响就不仅是a ai i+b bj j,而且还多出,而且还多出一项。一项。这里的交叉项的诸参数的大小也是相对的,这里的交叉项的诸参数的大小也是相对的,也需要也需要约束条件约束条件来得到其来得到其“估计估计”。第20页,本讲稿共33页用用table7.txttable7.txt数据拟合对数线性模型数据拟合对数线性模型o假定(多项分布)对数线性模型为假定(多项分布)对数线性模型为 这里这里a ai为收入(为收入(i=1,2,3=1,2,3代表收入的低、中、高三个水代表收入的低、中、高三个水平),
16、平),b bj为观点(为观点(j=1,2=1,2代表不赞成和赞成两个水平),代表不赞成和赞成两个水平),g gk为性别(为性别(k=1,2=1,2代表女性和男性两个水平)代表女性和男性两个水平),mijk代表代表三维列联表对于三个变量的第三维列联表对于三个变量的第ijk水平组合的出现次数,水平组合的出现次数,e eijk为残差为残差而从相应的参数估计输出结果,可以得到对而从相应的参数估计输出结果,可以得到对a ai i的三个值的三个值的估计为的估计为0.5173,0.2549,0.0000,0.5173,0.2549,0.0000,对对b bj j的两个值的估的两个值的估计为计为-0.6931
17、,0.0000,-0.6931,0.0000,对对g gk k的两个值的估计为的两个值的估计为 0.1139,0.00000.1139,0.0000。(多项对数线性模型无常数项多项对数线性模型无常数项)第21页,本讲稿共33页对数线性模型对数线性模型o高高维维表表的的检检验验统统计计量量和和二二维维表表一一样样也也包包含含了了Pearson c c2统统计计量量和和似似然然比比c c2统统计计量量,检检验验对对数数线线性性模模型型拟拟合合的的好好坏程度的。坏程度的。o就就我我们们这这里里的的三三维维列列联联表表问问题题,如如果果只只考考虑虑各各个个变变量量单单独独的的影影响响,而而不不考考虑虑
18、变变量量组组合合的的综综合合影影响响,计计算算机机输输出出的的Pearson c c2统统计计量量和和似似然然比比c c2统统计计量量 得得 到到 的的 p-值值 分分 别别 为为0.0029和和0.0011。第22页,本讲稿共33页多项分布对数线性模型的多项分布对数线性模型的SPSS实现实现o数据数据table7.sav 假定已经加权假定已经加权(加权一次并存盘了既可加权一次并存盘了既可)o这时的选项为这时的选项为AnalyzeLoglinearGeneral,o首首先先选选择择格格子子中中频频数数的的分分布布,这这里里是是多多项项分分布布(其其默默认认值值是是Poisson对数线性模型对数
19、线性模型).o然后把三个变量然后把三个变量(sex,opinion,income)选入选入Factors(因子因子);o再再选选Model(模模型型),如如果果选选Saturated(饱饱和和模模型型),那那就就是是所所有有交交叉叉效效应应都都要要放放入入模模型型;但但如如果果不不想想这这样样,可可以以选选Custom(自自定定义义),在在Building Terms(构构造造模模型型的的项项)选选Main effect(主主效效应应),再再把把三三个个变变量量一一个个一一个个地地选选进进来来(如如果果两两个个或或三三个个一一同同选选入入,等等于选入交叉效应于选入交叉效应).o如果想要知道模型
20、参数,在如果想要知道模型参数,在Options中选择中选择Estimates。o最后最后Continue-OK即可得出结果即可得出结果.o在计算机输出的结果中可以找到我们感兴趣的结果。在计算机输出的结果中可以找到我们感兴趣的结果。o如如果果SPSS的的Viewer输输出出不不完完全全,可可以以选选中中不不完完全全的的输输出出,利利用用Edit-Copy Objects来来复复制制到到例例如如记记事事本本那那样样的的文文件件中中,就可以看到完整输出了就可以看到完整输出了第23页,本讲稿共33页注意,无论你对模型假定了多少种注意,无论你对模型假定了多少种效应,并不见得都有意义;有些可效应,并不见得
21、都有意义;有些可能是多余的。本来没有交叉影响,能是多余的。本来没有交叉影响,但如果写入,也没有关系,在分析但如果写入,也没有关系,在分析过程中一般可以知道哪些影响是显过程中一般可以知道哪些影响是显著的,而那些是不显著的。然后可著的,而那些是不显著的。然后可决定舍取变量。决定舍取变量。第24页,本讲稿共33页另一种对数线性模型另一种对数线性模型o常常用用的的对对数数线线性性模模型型主主要要是是两两种种,我我们们已已经经介介绍绍了了多多项项分分布布对对数数线线性性模模型型(格子里面的频数满足多项分布格子里面的频数满足多项分布)。o另另一一类类为为PoissonPoisson对对数数线线性性模模型型
22、.它它假假定定每每个个格格子子里里面面的的频频数数满满足足一一个个PoissonPoisson分布分布.o在在统统计计软软件件的的选选项项中中会会有有关关于于分分布布的的选选项的。项的。第25页,本讲稿共33页 Poison Poison对数线性模型对数线性模型 o有有的的时时候候,类类似似的的高高维维表表并并不不一一定定满满足足多多项项分分布布对对数数线线性性模模型型。下下面面例例子子是是关关于于哮哮喘喘病病人人个个数数和和空空气气污污染染程程度度,年年龄龄和和性性别别的的数数据据(asthma.txt)o数数据据为为某某地地在在一一段段时时间间记记录录下下来来的的60组组在在不不同同空空气
23、气污污染染状状态态的的不不同同年年龄龄及及不不同性别的人的发生哮喘的人数。同性别的人的发生哮喘的人数。第26页,本讲稿共33页 Poison Poison对数线性模型对数线性模型 o其其中中性性别别为为定定性性变变量量S(sex,1代代表表女女性性,2代代表男性),表男性),o空空气气污污染染程程度度P也也是是定定性性变变量量(polut,1、2、3分别代表轻度、中度和严重污染),分别代表轻度、中度和严重污染),o年龄年龄A(age)为定量变量,为那一组人的平均年龄;为定量变量,为那一组人的平均年龄;o数目数目C(count)为相应组的哮喘人数。为相应组的哮喘人数。o该该表表格格和和前前面面的
24、的列列联联表表的的不不同同点点在在于于每每一一格格的的计计数数并并不不简简单单是是前前面面三三个个变变量量的的组组合合的的数数目目(某某个个年年龄龄段段,某某种种性性别别及及某某种种污污染染下下的的人人数数),而而是是代代表表了了某某个个年年龄龄段段,某某种种性性别别及及某某种种污污染染下下发发生生哮喘的人数。哮喘的人数。第27页,本讲稿共33页第28页,本讲稿共33页PoissonPoisson对数线性模型对数线性模型o假假定定哮哮喘喘发发生生服服从从PoissonPoisson分分布布;但但是是由由于于条条件件不不同同,PoissonPoisson分分布布的的参参数数l l也也应应该该随随
25、着着条条件件的的变变化化而而改改变变。这这里里的的条条件件就就是是给给出出的的性性别别、空空气气污污染染程程度度与与年年龄龄。当当然然,如如何何影影响响以以及及这这些些条条件件影影响响是是否否显显著则是我们所关心的。这个模型可以写成著则是我们所关心的。这个模型可以写成 这里这里m m为常数项,为常数项,a ai i为性别(为性别(i=1,2i=1,2分别代表女分别代表女性和男性两个水平),性和男性两个水平),b bj j为空气污染程度为空气污染程度(j=1,2,3j=1,2,3代表低、中高三个污染水平),代表低、中高三个污染水平),x x为为连续变量年龄,而连续变量年龄,而g g为年龄前面的系
26、数,为年龄前面的系数,e eijij为残为残差项。差项。第29页,本讲稿共33页PoissonPoisson对数线性模型对数线性模型o从从对对于于数数据据(asthma.txt)(asthma.txt)的的PoissonPoisson对对数数线线性性模模型型的的相相应应SPSSSPSS输输出出,可可以以得得到到对对m m的的估估计计为为4.98204.9820,对对a ai i的的两两个个值值的的“估估计计”为为-0.0608-0.0608、0.00000.0000,对对b bj j的的三三个个值值的的“估估计计”为为-0.1484-0.1484,0.12230.1223、0.00000.00
27、00,对对 g g的的 估估 计计 为为 0.01260.0126。o注注意意,这这里里的的对对主主效效应应a aI I和和b bj j的的估估计计只只有有相相对对意意义义;它它们们在在一一个个参参数数为为0 0的的约束条件下得到的。约束条件下得到的。第30页,本讲稿共33页PoissonPoisson对数线性模型对数线性模型o看看来来,年年龄龄和和性性别别对对哮哮喘喘影影响响不不很很显显著著。轻轻度度污污染染显显然然比比中中度度污污染染和和严严重重污污染染哮哮喘喘要要好好。但但是是似似乎乎严严重重污污染染时时哮哮喘喘稍稍微微比中度污染少些比中度污染少些(不显著不显著)。o通通过过更更进进一一
28、步步的的分分析析(这这里里略略),可可以以发发现现,中中度度和和严严重重空空气气污污染染(无无论论单单独独还还是是一一起起)和和轻轻度度空空气气污污染染比比较较都都显显著著增增加加哮哮喘喘人人数数,而而中中度度及及严严重重污污染染时时的的哮哮喘喘人人数数并并没没有有显显著区别。著区别。第31页,本讲稿共33页Poisson对数线性模型的对数线性模型的SPSS实现实现o数据数据asthma.sav 假定已经加权假定已经加权 o这时的选项为这时的选项为AnalyzeLoglinearGeneral,o首先选择格子中频数的分布首先选择格子中频数的分布,这里是这里是Poisson分布。分布。o然然后后
29、把把两两个个变变量量(sex,polut)选选入入Factors(因因子子),把把age选入选入Cell Covariate(s)。o再再 选选Model(模模 型型),这这 里里 以以 选选Custom(自自 定定 义义),在在Building Terms(构构造造模模型型的的项项)选选Main effect(主主效效应应),再把三个变量一个一个地选进来。,再把三个变量一个一个地选进来。o如如果果想想要要知知道道模模型型参参数数,在在Options中中选选择择Estimates。最最后后Continue-OK即可得出结果。即可得出结果。o在在结结果果中中可可以以找找到到有有关关Pearson
30、 c c2统统计计量量和和似似然然比比c c2统统计计量量的的检检验验结结果果及及参参数数的的估估计计(如如果果SPSS的的Viewer输输出出不不完完全全,可可以以选选中中不不完完全全的的输输出出,利利用用Edit-Copy Objects来来复复制制到到例如记事本那样的文件中,就可以看到完整输出了)。例如记事本那样的文件中,就可以看到完整输出了)。第32页,本讲稿共33页table7.txt 其中有变量性别其中有变量性别(sex)、观点、观点(opinion)和和收入收入(income);每一列相应于其代表的变量的水平每一列相应于其代表的变量的水平;每一每一行为一种水平的组合行为一种水平的
31、组合(共有共有23212种组合种组合(12行行),),而每种组合的数目而每种组合的数目(也就是列联表中的频数也就是列联表中的频数)在在number那一列上面,这就是每种组合的权重那一列上面,这就是每种组合的权重(weight),),需要把这个数目考虑进去需要把这个数目考虑进去,称为加权称为加权(weight).).如果不如果不加权,最后结果按照所有组合只出现一次来算加权,最后结果按照所有组合只出现一次来算(也就是也就是说,按照列联表每一格的频数为说,按照列联表每一格的频数为1).).由于在后面的选项中由于在后面的选项中没有加权的机会没有加权的机会,因此在一开始就要加权因此在一开始就要加权.方法是点击方法是点击图标中的小天平图标中的小天平(“权权”就是天平的意思就是天平的意思),),出现对话框之出现对话框之后点击后点击Weught cases,然后把,然后把“number”选入即可。选入即可。返返回回第33页,本讲稿共33页