《多水平模型简介ppt课件.ppt》由会员分享,可在线阅读,更多相关《多水平模型简介ppt课件.ppt(91页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、多水平模型简介公共卫生与家庭医学学院公共卫生与家庭医学学院 郭秀花郭秀花2011.4.25 传统的统计学分析是建立在个体测量值相传统的统计学分析是建立在个体测量值相互独立的假设上。如:多元回归模型的估互独立的假设上。如:多元回归模型的估计方法是建立在个体测量值要相互独立,计方法是建立在个体测量值要相互独立,当假设不成立时,回归模型中的各参数估当假设不成立时,回归模型中的各参数估计值的有效性和统计特征均会受到影响,计值的有效性和统计特征均会受到影响,从而最终的统计推断结论将可能偏倚。估从而最终的统计推断结论将可能偏倚。估计值的标准误会有偏差。计值的标准误会有偏差。 。多元回归数据结构多元回归数据
2、结构 Data and ExamplesChildren within families: Children with same biological parents tend to be more alike than children chosen at random from the general population. They are more alike because Genetics Environment Both实验研究:如致畸试验 层次结构:层次结构:孕鼠1子鼠m子鼠1 子鼠2。孕鼠2子鼠m子鼠1 子鼠2。子鼠m子鼠1 子鼠2。孕鼠p窝别效应窝别效应Observatio
3、nal Studies Multi-stage sampling is cost effective.1. Take random sample from population (e.g. schools).2. Take random sample from sub-population (e.g. classes).3. Take random sample from sub-population (e.g. students). 某省调查其农村居民的卫生服务某省调查其农村居民的卫生服务 随机抽取随机抽取30个乡镇,每个乡镇分别抽取个乡镇,每个乡镇分别抽取2个个行政村,每个村再随机抽取行政
4、村,每个村再随机抽取33户(家庭),对户(家庭),对每个家庭前半年内的常住人口进行问卷调查。每个家庭前半年内的常住人口进行问卷调查。 调查研究 具有明显的层次结构(乡镇具有明显的层次结构(乡镇行政村行政村户户个体);个体); 在经济水平、生活方式、生活习惯上都在经济水平、生活方式、生活习惯上都具有某种程度上的相似性或聚集性;个具有某种程度上的相似性或聚集性;个体的数据是非独立的体的数据是非独立的 。Examples of HierarchiesLongitudinal DataSame individuals measured on multiple occasions. Strong hie
5、rarchies. Much more variations between individuals than between occasions within individuals.A Hypothetical Example - Two measurement occasions 多水平模型(多水平模型(Multilevel ModelsMultilevel Models)又称随)又称随机效应模型(机效应模型(Random Effect ModelsRandom Effect Models),它是在),它是在二十世纪八十年代,由英美教育统计学家基于方二十世纪八十年代,由英美教育统计学家基
6、于方差成分分析而提出的统计模型。差成分分析而提出的统计模型。 多水平模型理论是国外近些年发展起来的处多水平模型理论是国外近些年发展起来的处理系统结构数据的多元统计方法,是将理系统结构数据的多元统计方法,是将型方差型方差分析理论与多元统计分析相结合的新技术。分析理论与多元统计分析相结合的新技术。多水平统计模型概念多水平统计模型概念Definition of Multilevel AnalysisSnijders & Bosker (1999):Multilevel analysis is a methodology forthe analysis of data with complexpatt
7、erns of variability, with a focus onnested sources of variability.多水平模型的不同称谓:多水平模型的不同称谓: 层次线性模型(层次线性模型(hierarchical linear model) 混合效应模型(混合效应模型(mixed-effects model) 混合模型(混合模型(mixed model) 这些模型或许在算法或应用领域的普及这些模型或许在算法或应用领域的普及程度上有差别,但是都是处理具有层次结构程度上有差别,但是都是处理具有层次结构的数据或非独立数据的。的数据或非独立数据的。常规数据的特征常规数据的特征: :相
8、互独立相互独立,等方差等方差由由y yi i构成的观测向量服从正态分布构成的观测向量服从正态分布具有这种结构的数据叫独立结构数据具有这种结构的数据叫独立结构数据 当应变量的协方差阵不满足对称条件(当应变量的协方差阵不满足对称条件(2 2 )时)时, ,大多为系统结构数据(大多为系统结构数据(hierarchical structure data)。)。 多水平统计模型用于研究具有层次结构或嵌套式多水平统计模型用于研究具有层次结构或嵌套式结构的数据结构的数据, ,此类数据的主要特征是反应变量的此类数据的主要特征是反应变量的分布在个体间不具备独立性分布在个体间不具备独立性, ,但存在某些范围内但存
9、在某些范围内的聚集性的聚集性, , 如分层抽样或整群抽样的数据。如分层抽样或整群抽样的数据。多水平模型主要种类多水平模型主要种类 重复测量资料的多水平模型重复测量资料的多水平模型 二分类资料的多水平模型二分类资料的多水平模型 PoissonPoisson分布资料的多水平模型分布资料的多水平模型 多水平多水平MetaMeta分析模型分析模型 多水平生存时间的统计模型多水平生存时间的统计模型 多元重复测量资料的多水平模型实例新药临床试验资料数据库变量编码新药临床试验资料数据库变量编码 指标变量变量取值医院编号hosp115患者编号no1456观察时间time13周组别group试验组1,对照组0患
10、者年龄age1875岁患者性别gender女性0,男性1疗前ESS评分ess04080 (评分高病情轻)疗前ADL评分adl0095 (评分高病情轻)疗后ESS评分ess0100疗后ADL评分adl0100新药临床试验原始资料格式新药临床试验原始资料格式医院编号患者编号组别 年龄 性别疗前疗后1周疗后2周疗后3周ESS0 ADL0 ESS1 ADL1 ESS2 ADL2 ESS3 ADL311160069 50 73 50 86 90 85 10012043176 75 82 75 84 100 90 10013161140 30 42 35 55 35 72 4514171178 80 90
11、 95 92 100 93 10015071172 75 75 75 82 82 16167180 80 93 85 100 95 二分类多水平模型实例二分类多水平模型实例 某省进行了农村贫困居民的家庭卫生服务调查。先随机抽取乡镇,每个乡镇分别抽取2个行政村,每个村再随机抽取一定数量的家庭进行调查。共调查了30个乡镇,832户贫困家庭户,共计2369名15岁及以上的居民。 现拟探讨该省农村贫困居民卫生服务需要的影响因素。 以两周是否患病作为应变量。结以两周是否患病作为应变量。结合资料的层次结构特点,采用二分合资料的层次结构特点,采用二分类多水平类多水平logistic回归模型探讨农回归模型探讨
12、农村贫困居民两周是否患病的影响因村贫困居民两周是否患病的影响因素。素。 变量赋值表(1)变量名称定义及赋值应变量两周患病 uncomfor0 否 1 是人口学特征性别 gender0 男 1 女民族 ethnic0 汉族 1 其他年龄(岁) agegroup0 15 1 45 2 65 婚姻状况 marriage0 未婚 1 已婚 2 离婚 3 丧偶文化程度 edu0 文盲半文盲 1 小学 2 初中及以上职业 occupy0 非农业劳动者 1 农业劳动者 2 学生 3 离退休 4 无业、失业、半失业者医疗保险 insure0 无 1 有变量赋值表(2)健康相关因素健康相关因素自身健康状况评价自
13、身健康状况评价 self_assess hea_stat0 好好 1 中中 2 差差吸烟吸烟 smoke0 否否 1 吸吸饮酒饮酒 drink0 否、少量否、少量 1 经常饮经常饮家庭一般情况家庭一般情况家庭饮水类型家庭饮水类型 water0 自来水自来水 1 非自来水非自来水家庭户厕类型家庭户厕类型 bathroom0 卫生厕所卫生厕所 1 非卫生厕所非卫生厕所易得的最快方式去最近医疗点易得的最快方式去最近医疗点时间时间(分钟分钟) tim_hosp年人均收入年人均收入(元元) income0 637 1 6381000变量赋值表(变量赋值表(3)乡镇特征乡镇特征乡镇地理地貌乡镇地理地貌 g
14、eography0 山区山区 1 非山区非山区个体水平个体水平id户水平户水平family乡镇水平乡镇水平rural家庭人均居住面积和乡镇人均可耕地面积以连续性变量形式中心家庭人均居住面积和乡镇人均可耕地面积以连续性变量形式中心化之后纳入模型;化之后纳入模型;无序多分类变量婚姻状况和职业以哑元形式纳入;无序多分类变量婚姻状况和职业以哑元形式纳入;有序多分类变量年龄、文化程度和自身健康状况评价,是以分组有序多分类变量年龄、文化程度和自身健康状况评价,是以分组线性变量或哑元的形式纳入,依据似然比检验结果加以判断。线性变量或哑元的形式纳入,依据似然比检验结果加以判断。 哑变量名定义哑变量名定义 ag
15、e1:45,age2:65 ; marriage1:已婚,marriage2:离婚, marriage3:丧偶; education1:小学,education2:初中及以上; occupation1:农业劳动者,occupation2:学生, occupation3:离退休 occupation4:无业、失业、半失业 多水平多水平Poisson回归模型实例回归模型实例Poisson回归(Poisson regression) 单位时间、面积、空间内某事件发生数(count)的影响因素的分析 对于以人群为基础的稀有疾病发病率、卫生事件资料的分析例 收集英格兰和威尔士收集英格兰和威尔士15个地区
16、个地区1959至至1991年按年龄、性别分组的逐年人口年按年龄、性别分组的逐年人口数和肺癌死亡人数。数和肺癌死亡人数。 肺癌死亡资料数据库变量肺癌死亡资料数据库变量编码编码指标变量变量取值年份Year year=年份年份1959-1991地区region115年龄ageage=0,年龄,年龄50岁;岁;age=1,年龄,年龄50岁岁性别gendergender=0,女性;,女性; gender=1,男性,男性年观察人口数 population年肺癌死亡数death资料特点 两水平层次结构 地区(水平2单位) 15 各地区内逐年重复观察(水平1单位) 1980 资料按性别、年龄分组 反应变量是肺
17、癌死亡人数 定性反应变量的多水平模型定性反应变量的多水平模型重点:二分类反应变量的两水平模型重点:二分类反应变量的两水平模型 某省调查其农村居民的卫生服务某省调查其农村居民的卫生服务 随机抽取30个乡镇,每个乡镇分别抽取2个行政村,每个村再随机抽取33户(家庭),对每个家庭前半年内的常住人口进行问卷调查。 具有明显的层次结构层次结构(乡镇 行政村 户 个体) ; 在经济水平、生活方式、生活习惯上都具有某种程度上的相似性或聚集性 ;个体的数据是非独非独立立的 。固定效应和随机效应固定效应和随机效应 固定效应:某研究中有多个不同的处理因素,固定效应:某研究中有多个不同的处理因素,若研究者感兴趣的各
18、种处理因素都设计在研若研究者感兴趣的各种处理因素都设计在研究当中,则认为这一因素具有固定效应。究当中,则认为这一因素具有固定效应。 随机效应:若处理包含的各个组别是从更大随机效应:若处理包含的各个组别是从更大的总体中得到的随机样本,则认为该处理因的总体中得到的随机样本,则认为该处理因素具有随机效应。素具有随机效应。二分类反应变量两水平模型二分类反应变量两水平模型 优势优势 处理具有层次结构特征的数据资料,可将处理具有层次结构特征的数据资料,可将传统模型中的随机误差项分解到与数据层次结传统模型中的随机误差项分解到与数据层次结构相应的水平上,使得个体的随机误差更纯构相应的水平上,使得个体的随机误差
19、更纯 。普通Logistic回归模型l 令:令: y=1 发病(阳性、死亡、治愈等)发病(阳性、死亡、治愈等)l y=0 未发病(阴性、生存、未治愈等)未发病(阴性、生存、未治愈等)l 将发病的概率记为将发病的概率记为P,它与自变量,它与自变量x1, x2,xp之之间的间的Logistic回归模型为:回归模型为:l可知,不发病的概率为:可知,不发病的概率为:l )exp(1)exp(110110ppppXXXXp )exp(111110ppXXp )1/(ln)(logpppitppXXpLogit 110)(两水平logit模型 001logit()()ijjijPux000jju020(0
20、,)()(1)/juijijijijuNVar Pn, 为处理因素的效应参数,又称固定效应为处理因素的效应参数,又称固定效应(fixed effectfixed effect)参数)参数 为水平为水平2 2单位的单位的logitlogit均值均值 与总均值与总均值 之差,又称为随机效应(之差,又称为随机效应(random effectrandom effect)或高水平的残差。或高水平的残差。10 ju0 j0 的 方 差的 方 差 又 称 为 随 机 参 数 (又 称 为 随 机 参 数 ( r a n d o m r a n d o m coefficientcoefficient),反映
21、了高水平单位间的比数),反映了高水平单位间的比数( (率率) )的差别。的差别。 越大说明数据在高水平单位内的聚集性越强。越大说明数据在高水平单位内的聚集性越强。 为为0 0时,该模型演变为一般的时,该模型演变为一般的logisticlogistic回归模回归模型。型。0 ju20u20u20u判断是否存在高水平效应判断是否存在高水平效应 密切结合专业知识和具体情况进行判断密切结合专业知识和具体情况进行判断 对随机参数对随机参数 的估计值做检验的估计值做检验02u例:探讨高血压的影响因素例:探讨高血压的影响因素 在全市共抽取在全市共抽取159个社区(个社区(53个生活社区和个生活社区和106个
22、功能社区)作为调查社区,每个社区个功能社区)作为调查社区,每个社区抽取抽取100人左右,共抽取人左右,共抽取16000例社区常住例社区常住居民作为调查对象。居民作为调查对象。 分别调查其性别、年龄、文化程度、职业、分别调查其性别、年龄、文化程度、职业、吸烟、饮酒、体育锻炼及饮食情况等。吸烟、饮酒、体育锻炼及饮食情况等。由于该资料具有明显的层次结构,每个由于该资料具有明显的层次结构,每个群体在经济水平、生活方式、饮食习惯上都群体在经济水平、生活方式、饮食习惯上都具有某种程度上的相似性或聚集性,每个个具有某种程度上的相似性或聚集性,每个个体的数据是非独立的,因此我们选用社区和体的数据是非独立的,因
23、此我们选用社区和居民构成两个水平,居民是基本水平,即水居民构成两个水平,居民是基本水平,即水平平1单位,社区是水平单位,社区是水平2单位,来拟合两水平模单位,来拟合两水平模型。型。 以调查对象是否患有高血压为应变量,将可能影以调查对象是否患有高血压为应变量,将可能影响血压的居民个人特征参量的若干因素作为自变响血压的居民个人特征参量的若干因素作为自变量,采用二水平量,采用二水平logistic模型探讨对血压可能具有模型探讨对血压可能具有影响作用的因素以及因素作用的大小。影响作用的因素以及因素作用的大小。 资料的统计分析过程均在资料的统计分析过程均在SAS9.0SAS9.0中完成,两水平中完成,两
24、水平模型采用模型采用SAS MIXED COVTESTSAS MIXED COVTEST过程进行拟合。变量过程进行拟合。变量的赋值方法见表的赋值方法见表1 1。 logisticlogistic模型的结果中得到代表居民差异的常数模型的结果中得到代表居民差异的常数项估计值为项估计值为0.32480.3248,P0.0001P0.0001,说明居民的差异,说明居民的差异在社区水平上的确存在聚集性,其层次结构不能在社区水平上的确存在聚集性,其层次结构不能忽 略 , 故 进 一 步 引 入 解 释 变 量 拟 合 两 水 平忽 略 , 故 进 一 步 引 入 解 释 变 量 拟 合 两 水 平logi
25、sticlogistic模型。模型。 由表由表2 2可知,影响血压组分异常的主要因素包括:可知,影响血压组分异常的主要因素包括:性别、年龄、文化程度、职业、吸烟、饮酒、中性别、年龄、文化程度、职业、吸烟、饮酒、中心型肥胖、零食、食用油摄入、食盐摄入。心型肥胖、零食、食用油摄入、食盐摄入。 在控制其他因素不变的情况下,女性患病率低于在控制其他因素不变的情况下,女性患病率低于男性。年龄在男性。年龄在40405959岁组和岁组和6060岁及以上组患病率岁及以上组患病率均高于均高于18183939岁人群。文化程度为初中、高中或岁人群。文化程度为初中、高中或中专、大专及大专以上的患病率均低于小学及小中专
26、、大专及大专以上的患病率均低于小学及小学以下者。农民、居民的患病率均高于工人、商学以下者。农民、居民的患病率均高于工人、商服单位及其他企业,机关事业、卫生事业、教师服单位及其他企业,机关事业、卫生事业、教师及公安警察与工人、商服单位及其他企业比较差及公安警察与工人、商服单位及其他企业比较差异无统计学意义。异无统计学意义。经常吸烟的患病率低于不吸烟或偶尔经常吸烟的患病率低于不吸烟或偶尔吸烟者。经常饮酒的患病率高于不饮酒者,吸烟者。经常饮酒的患病率高于不饮酒者,偶尔饮酒与不饮酒者比较差异无统计学意偶尔饮酒与不饮酒者比较差异无统计学意义。中心型肥胖的患病率高于非中心型肥义。中心型肥胖的患病率高于非中
27、心型肥胖者。经常吃零食的患病率低于不吃或很胖者。经常吃零食的患病率低于不吃或很少吃零食者。摄入食用油少的患病率低于少吃零食者。摄入食用油少的患病率低于摄入食用油适量者,摄入食用油过量与摄摄入食用油适量者,摄入食用油过量与摄入食用油适量者比较差异无统计学意义。入食用油适量者比较差异无统计学意义。摄入食盐过量的患病率高于摄入食盐少或摄入食盐过量的患病率高于摄入食盐少或适量者。适量者。 研究对象研究对象 肺小结节患者的肺小结节患者的CT图像。图像。 肺小结节的分割肺小结节的分割肺小结节纹理特征的提取肺小结节纹理特征的提取多水平统计模型的建立和分析多水平统计模型的建立和分析研究方法研究方法肺小结节纹理
28、特征的提取肺小结节纹理特征的提取 纹理特征是从纹理图像中计算出来的一个值纹理特征是从纹理图像中计算出来的一个值,它对纹理内部灰度级变化的特征进行量化。它对纹理内部灰度级变化的特征进行量化。 灰度共生矩阵纹理特征参量有:灰度共生矩阵纹理特征参量有:能量(角二阶距,能量(角二阶距,Angular Second Moment) , 惯性距惯性距(inertia moment),相关性相关性(correlation) 熵(熵(entropy),),局部平稳性(局部平稳性(local equability),),逆差矩逆差矩(Inverse Diffence Moment),和的均值和的均值(Sum A
29、verage) ,差的均值差的均值(Difference Average),等等。等等。多水平模型的建立多水平模型的建立 选取的研究对象是分属于肺小结节患者选取的研究对象是分属于肺小结节患者的的CT图像,每一位患者具有多张图像,每一位患者具有多张CT图像,图像,即图像之间不具有完全的独立性即图像之间不具有完全的独立性 ,但是,但是分属于某一患者的分属于某一患者的CT图像具有聚集性。图像具有聚集性。 即本次研究中的肺小结节患者和即本次研究中的肺小结节患者和CT图像就构成两水平模型中的两个水平图像就构成两水平模型中的两个水平: CT图像是基本水平,即水平图像是基本水平,即水平1单位单位; 肺小结节
30、患者是水平肺小结节患者是水平2单位。单位。 故根据数据特点:故根据数据特点: 1)首先拟和)首先拟和最简单的多水平模型最简单的多水平模型,即方差即方差成成分分模型模型(零模型,零模型,不含任何协变量不含任何协变量) : Yij = 0 j+ 1 jX0 ij + eoij 其中其中0 j= 0+u0j,u0j(0, 2u0 ), eoij (0, 2e0 ) 0为平均截距,即当所有的解释变量为为平均截距,即当所有的解释变量为0时,时,所有的所有的yij的总平均估计值的总平均估计值;1表示解释变量表示解释变量X的固定效应估计值,它表明的固定效应估计值,它表明每个肺小结节患者间每个肺小结节患者间Y
31、的变异与解释变量的变异与解释变量X的变化无关的变化无关;u0j为随机变量,相当于水平为随机变量,相当于水平2单位(患者水平)的单位(患者水平)的残差项,反映了第残差项,反映了第j个患者对个患者对y的随机效应的随机效应;eoij为随机误差项,即为水平为随机误差项,即为水平1单位(单位(CT图像水平)图像水平)的残差的残差。即该模型也可表示为:即该模型也可表示为: Yij = (0 + 1 jX0 ij )+ (u0j eoij )0 + 1 jX0 ij为固定部分,回归系数为固定部分,回归系数0 和和1描述模型的描述模型的固定效应;固定效应;u0j eoij为随机部分,其方差为随机部分,其方差2
32、u0 和和2e0 描述模型的描述模型的随机效应。随机效应。 2)由于协变量,即)由于协变量,即CT图像本身的纹图像本身的纹理特征对反应变量的效应在患者水理特征对反应变量的效应在患者水平平2间是固定不变的,且因变量是二间是固定不变的,且因变量是二值变量,故在上述拟和零模型的基值变量,故在上述拟和零模型的基础上,础上,逐步引入逐步引入协协变量变量,进一步进一步拟合拟合二分类反应变量的方差成分模型二分类反应变量的方差成分模型 。实例分析实例分析例: 研究调查研究调查2型糖尿病患者对社区医型糖尿病患者对社区医疗服务的满意程度,采用两阶段随机抽样,疗服务的满意程度,采用两阶段随机抽样,先在某地区随机抽取
33、先在某地区随机抽取69名社区医生,然后名社区医生,然后在每名医生所在的诊所抽取若干在每名医生所在的诊所抽取若干2型糖尿病型糖尿病患者,共计纳入患者,共计纳入1482名患者,每名入选医生名患者,每名入选医生需填写个人相关资料,包括个人背景、从需填写个人相关资料,包括个人背景、从业时间等。每名入选患者除提供基本资料业时间等。每名入选患者除提供基本资料外,需完成一份满意度调查问卷。该问卷外,需完成一份满意度调查问卷。该问卷总分为总分为100分,分数代表了患者对医疗的满分,分数代表了患者对医疗的满意程度。意程度。分析:分析: 这里这里69名社区医生是某地随机选择的名社区医生是某地随机选择的样本,研究目
34、的不是估计患者对这样本,研究目的不是估计患者对这69名医名医生的满意程度,而是估计这生的满意程度,而是估计这69名社区医生名社区医生代表的该地区所有社区医生的情况。因代表的该地区所有社区医生的情况。因此,对该地区所有的医生而言,这此,对该地区所有的医生而言,这69名医名医生的调查结果是随机的,若分析患者对生的调查结果是随机的,若分析患者对不同医生医疗服务的满意程度有无差别不同医生医疗服务的满意程度有无差别时,社区医生(为相应总体的随机样本)时,社区医生(为相应总体的随机样本)和患者构成了两个水平。和患者构成了两个水平。MLwiN软件简介软件简介MLwiN Multilevel modelling of N-level data for Windows (Bristol University, UK) ML2 (1988-1990) ML3 (1990-1992) ML3E (1992-1995) MLn (1995-1998) MLwiN (1998- present)http:/www.cmm.bristol.ac.uk/系统界面系统界面