《二分类资料的多水平模型精品资料课件.ppt》由会员分享,可在线阅读,更多相关《二分类资料的多水平模型精品资料课件.ppt(126页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、二分类资料的多水平分析二分类资料的多水平分析张菊英张菊英 教授教授l数据的层次结构(hierarchical structure)现象是广泛存在的,这种结构可以是自然的,亦可以是人为形成的。 试验研究试验研究 l致畸试验致畸试验 常用孕鼠作试验 ,观察每个孕鼠所产子代中发生畸形的情况 。l层次结构:孕鼠1子鼠m1子鼠1 子鼠2。孕鼠2子鼠mp子鼠1 子鼠2。子鼠m2子鼠1 子鼠2。孕鼠p窝别效应窝别效应l某省调查其农村居民的卫生服务某省调查其农村居民的卫生服务 随机抽取30个乡镇,每个乡镇分别抽取2个行政村,每个村再随机抽取33户(家庭),对每个家庭前半年内的常住人口进行问卷调查。 l具有明显
2、的层次结构层次结构(乡镇 行政村 户 个体) ; l在经济水平、生活方式、生活习惯上都具有某种程度上的相似性或聚集性 ;个体的数据是非独立非独立的 。通常处理方式通常处理方式l结果变量为连续性或定量结果变量为连续性或定量 如研究某药物对仔鼠体重的影响,可用方差分析分离出区组间效应(如窝别效应),然后比较试验组与对照组仔鼠体重的差异 通常处理方式通常处理方式u两组的畸形发生率,用两个率的差别的Z检验或 检验进行比较u 如需要控制混杂因素,采用多因素的logistic回归等方法 。 2通常处理方式通常处理方式 二分类反应变量的单水平模型二分类反应变量的单水平模型 l例例5.1 某公共卫生学院营养与
3、食品卫生学教研室用孕鼠进行口服花粉的致畸实验,将26 只孕鼠随机分为甲、乙两组,甲组在孕早期每天给予辐射花粉2000mg/kg , 乙组每天给予500mg/kg 。待孕鼠分娩后,观察其子鼠骨骼畸形的发生情况。不同处理的孕鼠所产仔鼠骨骼畸形发生结果不同处理的孕鼠所产仔鼠骨骼畸形发生结果注:分母表示该窝仔鼠总数,分子表示仔鼠中骨骼畸形发生数l忽略窝别效应,直接进行两组仔鼠畸形发生率的比较,可采用单水平的logistic回归模型模型01 logit( )iiiyPx B()( )(1)iiiiiiiyin nVar Pn,为应变量:1 表示发生畸形 0 表示未发生畸形为处理因素 :1 表示高剂量花粉
4、(甲组) 0 表示低剂量花粉(乙组) ixiy各软件对例各软件对例5.15.1拟合单水平拟合单水平logisticlogistic回归模型结果回归模型结果结果解释结果解释l甲组相对于乙组,仔鼠发生畸形的比数比的对数值(ln OR)为0.773,P0.043。l由结果可见,忽略窝别效应,处理因素(甲、乙两种喂养方式)对结果的影响有统计学意义,高剂量花粉比低剂量花粉更容易发生仔鼠畸形。讨论讨论l对于例5.1,单水平logistic回归分析处理效应的检验结果P值接近检验水准0.05,这一结果可靠程度值得怀疑讨论讨论l试验中仔鼠畸形在窝别间存在聚集性聚集性,仔鼠发生畸形的概率不是完全独立的,数据不再服
5、从二项分布l若仍用单水平logistic回归处理这类资料,则会低估两个率差别的标准误,从而增大犯型错误型错误的概率,即将本来无差别的两个率判为有差别广义线性模型广义线性模型l实际上logistic回归模型只是广义线性模型(generalized linear model,GLM)的一种l广义线性模型是一般线性模型的直接推广l很多模型属于非线性模型,如指数模型、logistic回归模型等,它们通过一定的变量变换,可以转化成线性模型,并满足或近似满足线性模型分析的要求广义线性模型的一般形式广义线性模型的一般形式1()piijijgX1,2,in 是已知的设计矩阵 是待估的未知参数 是连接函数()i
6、jn pXx1(,)Tp)(g广义线性模型表示为以下三部分广义线性模型表示为以下三部分随机部分:随机部分: 结果变量Y,服从指数族概率分布, ( )E Y系统部分系统部分l通过协变量 产生线性预测值 , 1pjjX1,.,pXX连接函数连接函数随机部分和系统部分由下式联系在一起 其中 被称为连接函数。( )g)(gl连接函数有多种,应根据应变量的特点加以选择。l应变量与不同的连接函数就构成了不同的回归模型应变量为二项分布时常用的连接函数应变量为二项分布时常用的连接函数probitprobit模型模型lprobit模型在教育领域应用较多lprobit模型中,与 相应的是正态分布的下侧累计概率函数
7、。因此系数 的解释是当其它自变量不变时,自变量改变一个单位时,所导致的“概率单位”的改变。iprobitprobit模型模型l概率单位在数学上的意义是很明确的,但在生物学上没有合适的解释,因此probit回归在流行病学应用上尚未普及的原因l对多数资料来说,logistic回归模型与probit模型的估计概率相近各软件对例各软件对例5.15.1拟合单水平拟合单水平probitprobit回归结回归结果果 优势优势 处理具有层次结构特征的数据资料,可将传处理具有层次结构特征的数据资料,可将传统模型中的随机误差项分解到与数据层次结构统模型中的随机误差项分解到与数据层次结构相应的水平上,使得个体的随机
8、误差更纯相应的水平上,使得个体的随机误差更纯 。二项分布二项分布 当反应变量为比数(率),一般采用二项分布。 标准二项分布假定的比数(率): Bin(,)ijijijyni指示水平1单位,j指示水平2单位, 为比数(率)的分母,在未分组数据的情况下, 。ijn1ijn 两水平两水平logitlogit模型模型 001logit()()ijjijPux000jju020(0,)()(1)/juijijijijuNVar Pn,两水平两水平logitlogit模型模型l 为处理因素的效应参数,又称固定效应(fixed effect)参数 l 为水平2单位的logit均值 与总均值 之差,又称为随机
9、效应(random effect)或高水平的残差。10 ju0 j0两水平两水平logitlogit模型模型l 的方差 又称为随机参数(random coefficient),反映了高水平单位间的比数(率)的差别。 l 越大说明数据在高水平单位内的聚集性越强。 l 为0时,该模型演变为一般的logistic回归模型。0 ju20u20u20u两水平两水平logitlogit模型模型l 为尺度参数。当反应变量确定服从二项分布,则尺度参数应该为1或接近1。即当模型的固定效应参数和随机效应参数的估计值确定后,反应变量的方差估计值为 (1)/ijijijn两水平两水平logitlogit模型模型l拟合
10、模型时,若假设二项方差成立,则设置尺度参数 为1l可允许 为待估参数,对水平1方差是否“超二项变异” 进行检验,即考察水平1方差是否满足二项分布的假定,可根据估计的尺度参数值和1.0的差值与的估计标准误之比作正态性Z检验而得。判断是否存在高水平效应判断是否存在高水平效应l密切结合专业知识和具体情况进行判断l对随机参数 的估计值做检验 l用VPC(variance partition coefficient)来进行度量 02uVPC l当应变量为连续型变量时,VPC等价于组内相关系数(intra-class correlation)l在两水平的方差成分模型中, VPC表示了水平2的方差占总方差的
11、比例)/(202020euuVPCl当应变量为离散型变量时,VPC与ICC不等价l以二项分布的资料为例,水平1的方差依赖于模型中解释变量的值,因此没有一个简单的方法来计算VPC l假设lm个水平2方差 的样本l在已知的固定效应 估计下,m个水平2单位的方差均值的经验估计为:020(0,)juuN12var()var exp1 expmmmxx 1var exp1expmmLLxl水平1误差的经验值 11/mmmm221VPC/()操作过程l1. 产生m个正态分布的随机数,记为r,例如m5 000,通常大样本为佳l2. 确定变量的值,根据已拟合的模型计算模型中的线性部分(L指示的部分),由此获得
12、m个所估计模型的样本 方差成分模型,L为随机斜率模型,L为2220011012uucuccrxxx001ucrxl3. 计算m个模型样本的估计反应率 1exp1 expmmmLLl4. 对m个计算经验方差获得22/mmmEml5.计算m个的水平1的二项分布误差,然后取其平均值得到水平1误差的经验值, 11/mmmml6.计算VPC221VPC/()两水平模型的应用两水平模型的应用l对例5.1,在进一步考虑了“窝别效应”后,该资料可看作具有两个水平的层次结构,即:孕鼠水平(水平2 单位)与仔鼠水平(水平1 单位) ;甲、乙两种喂养方式是解释变量;仔鼠是否发生畸形是反应变量。各软件对例各软件对例5
13、.15.1拟合方差成分模型结果拟合方差成分模型结果l以MLwiN的拟合结果为例,水平2 单位(不同孕鼠之间)的随机效应残差(即窝别效应)方差为3.423,标准误为1.554, Wald检验结果为4.852,P0.028。可以认为不同窝别的仔鼠骨骼畸形的发生概率是不同的,“窝别效应”存在l在考虑了“窝别效应”后,处理因素的系数为1.078,标准误为0.993, OR 2.939,由于P0.05,因此,尚不能认为给孕鼠喂养大剂量的辐射花粉会引起仔鼠骨骼畸形发生增加078. 1e进一步分析窝别效应的强度进一步分析窝别效应的强度l 当处理因素取值为0时,VPC0.293,因此在乙组中,有29.3的残差
14、方差归因于窝别效应l当处理因素取值为1时,VPC0.344,说明在甲组中,有34.4的残差方差归因于窝别效应l 由此例分析可见,当数据存在随机效应时,忽略此效应拟合的单水平模型增大了处理效应的I型误差,使得本来无统计学意义的因素误认为有统计学意义。l通过解释变量(本例为甲、乙两个处理组)的各种组合,可以得到VPC的取值范围。本例VPC为0.2930.344之间。因此大概有30的残差变异归因于窝别效应。 例例5.2 某省进行了农村贫困居民的家庭卫生服务调查。先随机抽取乡镇,每个乡镇分别抽取2个行政村,每个村再随机抽取一定数量的家庭进行调查。共调查了30个乡镇,832户贫困家庭户,共计2369名1
15、5岁及以上的居民。 现拟探讨该省农村贫困居民卫生服务需要的影响因素。 以两周是否患病作为应变量。结合资料的层次结构特点,采用二分类多水平logit回归模型探讨农村贫困居民两周是否患病的影响因素。 变量赋值表(1)变量名称变量名称应变量应变量两周患病 uncomfor人口学特征人口学特征性别 gender民族 ethnic年龄(岁) agegroup婚姻状况 marriage文化程度 edu职业 occupy医疗保险 insure定义及赋值定义及赋值0 否 1 是0 男 1 女0 汉族 1 其他0 15 1 45 2 65 0 未婚 1 已婚 2 离婚 3 丧偶0 文盲半文盲 1 小学 2 初中
16、及以上0 非农业劳动者 1 农业劳动者 2 学生 3 离退休 4 无业、失业、半失业者0 无 1 有变量赋值表(2)健康相关因素健康相关因素自身健康状况评价 self_assess hea_stat吸烟 smoke饮酒 drink家庭一般情况家庭一般情况家庭饮水类型 water家庭户厕类型 bathroom易得的最快方式去最近医疗点时间(分钟) tim_hosp年人均收入(元) income0 好 1 中 2 差0 否 1 吸0 否、少量 1 经常饮0 自来水 1 非自来水0 卫生厕所 1 非卫生厕所0 637 1 6381000变量赋值表(3)乡镇特征乡镇特征乡镇地理地貌 geography
17、个体水平户水平乡镇水平0 山区 1 非山区idfamilyrural家庭人均居住面积和乡镇人均可耕地面积以连续性变量形式中心化之后纳入模型;无序多分类变量婚姻状况和职业以哑元形式纳入;有序多分类变量年龄、文化程度和自身健康状况评价,是以分组线性变量或哑元的形式纳入,依据似然比检验结果加以判断。 有序多分类变量纳入模型方式检验结果有序多分类变量纳入模型方式检验结果P 变量变量年龄文化程度自我健康状况评价模型模型2552.0792643.1932073.270模型模型2543.9982628.6932073.078G 8.08114.500 0.1921110.00450.00010.6613 年
18、龄和文化程度以哑元形式纳入;自我健康状况评价以分组线性变量形式纳入模型。 哑变量名定义哑变量名定义 lage1:45,age2:65 ;lmarriage1:已婚,marriage2:离婚, marriage3:丧偶;leducation1:小学,education2:初中及以上;loccupation1:农业劳动者,occupation2:学生, occupation3:离退休 occupation4:无业、失业、半失业 以户作为高水平即水平2,个体作为低水平即水平1,采用2阶 PQL算法(后面具体讲解)拟合二水平不含任何解释变量的零模型,固定尺度参数为1。 两周是否患病两水平零模型102u
19、02e参数参数 固定部分(截距)随机部分水平2水平1估计值估计值-1.2460.8951标准误标准误0.0620.1490.000404.80835.919P0.00000.0000 零模型的水平2方差具有统计学意义,结合专业知识,数据在高水平上具有聚集性,其层次结构不能忽略。故进一步引入解释变量拟合二水平方差成分模型。2两周患病两水平方差成分模型(1)结果解释l在控制其他因素不变的情况下,年龄在4564岁组和65岁及以上组,两周患病率均高于1544岁人群。l女性两周患病率高于男性。l半年内患有慢性病的居民两周患病率高于未患慢性病者。结果解释l 经常饮酒的居民两周患病率高于不饮酒或偶尔饮酒者l
20、 已婚、离异的居民两周患病率高于未婚者,丧偶者的患病率与未婚者相比未见统计学差异l随着家庭人均住房面积增大,两周患病率降低结果解释l小学文化的居民两周患病率高于文盲半文盲者,初中及以上文化程度居民的患病率与文盲比较差异无统计学意义l结合例5.2资料尚具有更高层次结构(即乡镇水平)的特点,可构造三水平零模型(3-level model)三水平零模型三水平零模型000logitijkkjkPu0),(), 0(), 0(00200200jkkujkkuCovNuN三水平零模型三水平零模型两周患病3水平方差成分模型10202u02e参数参数 固定部分(截距)随机部分水平3水平2水平1估计值估计值-1
21、.1610.3470.5221.000标准误标准误0.1320.1280.1290.00044.63716.345P0.00000.0001 虽然高水平方差具有统计学意义,但是否在模型中保留乡镇水平应根据研究者实际关注的重点来加以取舍。 2 以上模型估计的协变量的系数均为固定的,若在考虑这些协变量系数的固定效应的同时考虑其随机效应,即协变量对反应变量的效应在不同的高水平单位间是不同的,此时的模型即为随机系数模型(random coefficient model)001101logit()()()ijjjijjjijPuuxx00112021(0)ujuujuuuNu ,两水平随机系数模型两水平
22、随机系数模型 随机系数模型与方差成分模型的区别在于,方差成分模型中 的系数固定为 。随机成分模型中假定 的效应在水平2单位间随机变化,且服从均数为 ,方差为 的边际正态分布。 的随机效应与截距的随机效应存在协变异时,用 来衡量。 121u01u11ijxijx注意注意 模型随机部分的解释变量可以是固定部分的一个子集,也可以不是,即可以在模型的固定部分或随机部分纳入任何水平上测量的解释变量。 参数估计方法参数估计方法 多水平模型中的参数估计采用“迭代广义最小二乘法”(Iterative Generalized Least Squares,IGLS)或者“限制性迭代广义最小二乘法”(Restric
23、ted Iterative Generalized Least Squares,RIGLS,Goldstein)。 参数估计方法参数估计方法 当模型的随机变量在每个水平上均服从多变量正态分布,则IGLS等价于最大似然估计,RIGLS等价于限制性极大似然估计(Restricted Maximum Likelihood,REML)。 其它的参数估计方法其它的参数估计方法 lLongford 1987年提出的基于“费歇尔得分”的算法 ; Raudenbush 1994年证明它等价于IGLS 。lLiang和Zeger 1984年提出的广义估计方程(Generalized Estimating Equ
24、ations,GEE) ;l“马尔科夫链蒙特卡罗”(Markov Chain Monte Carlo,MCMC)方法,尤其是吉布斯抽样(Gibbs Sampling)的发展,使完全贝叶斯技术在计算上变得更为可行,进而完善了小样本的参数估计方法。 参数估计方法参数估计方法 由于不知道 的真实值,于是利用每次迭代中参数的当前估计值 来预测 ,再计算的 值 ,由于迭代中仅用到二项分布的均值和方差进行估计,所以这种估计方法称为“拟似然法”(quasi-likelihood)。ij(1)/ijijijnij参数估计方法参数估计方法建立线性化模型,形成泰勒级数展开时建立线性化模型,形成泰勒级数展开时 l一
25、种算法是将当时的水平2残差估计值加到非线性函数的新型成份中,即“预测性拟似然法”(predictive quasi-likelihood,PQL); l一种算法则不纳入这些估计值,称为“边际拟似然法”(marginal quasi-likelihood,MQL)。 参数估计方法参数估计方法lMQL方法计算速度较快,但只考虑了固定效应,当高水平单位具有较大方差且其低水平单位数较小的时候,趋向于低估固定和随机参数的值; lPQL方法同时利用了水平二的残差,计算具有较小的偏性,但PQL算法不稳定,在某些情况下不容易收敛,且如果水平2内包含的水平1单位数偏少时,PQL估计的固定效应虽然无误,但水平2变
26、异的估计值却可能是有偏的。 三种不同的随机效应回归模型三种不同的随机效应回归模型 它们都用来描述随机效应的大小它们都用来描述随机效应的大小lBeta二项回归模型。Crowder 1978提出此线性模型。该模型假定同一处理组不同区组发生某事件的概率服从beta分布,则第j组中第i个区组事件发生数的边缘分别服从beta二项分布。 llogistic正态回归模型。Pierce和Sands 1975年提出此线性模型。该模型假定随机效应与固定效应一样,与logit p 呈线性关系,且服从与标准正态分布。三种不同的随机效应回归模型三种不同的随机效应回归模型 llogistic二项回归模型。Mauritse
27、n1984年提出此线性模型。该模型假定随机效应与logit p呈线性关系,且服从二项分布。 与多水平模型的区别与多水平模型的区别 这些模型只关注于用一个参数反映随机效应的综合效这些模型只关注于用一个参数反映随机效应的综合效应,以便得到较好的固定效应估计值及其方差。它们应,以便得到较好的固定效应估计值及其方差。它们不能有效地分析方差成分,也不能对各水平上的随机不能有效地分析方差成分,也不能对各水平上的随机效应或参数估计做出有意义的解释。效应或参数估计做出有意义的解释。 l对例5.2的资料拟合了多水平的logistic回归模型,了解农村贫困居民两周患病与否的影响因素,发现女性、年龄在45岁以上、经
28、常饮酒者的患病率高于其对照组居民,而且半年内患有慢性病的居民其两周患病率显著高于未患慢性病者。l半年内患慢性病为医生诊断的患慢性病现状,两周患病为自己报告的近期急性病或身体不适的反映,两者均为反应变量。我们可进一步探讨两者的关系及其影响因素。例如,与两周患病率有关的因素,即性别、年龄和饮酒等是否也与半年内患有慢性病有关?其相关的程度是否相似?自报告两周患病与半年内患慢性病诊断的相关性自报告两周患病与半年内患慢性病诊断的相关性两周患病率为24.7(590/2 388),半年内慢性病患病率 为18.8(449/2 388)。用Kappa系数和Pearsons列联系数来测量两反应变量 的相关性分别为
29、0.468和0.475,表明两者间有相关性。两个二分类变量的比例关系两个二分类变量的比例关系 l则可知两变量均为阳性时的概率l两周患病为阳性的概率l半年内患慢性病为阳性的概率1211(1,1)rP YYP111) 1(PYPr212) 1(PYPrl双变量的二项分布可总结为有两个参数 和 及一个协变异参数的联合分布,其协变异参数表达为:1211121122()(1)(1)P 其值的大小反映两反应变量间相关性的强弱,理论上与Pearsons相关系数等同l对这两个有相关性的反应变量拟合多水平模型的基本思想是它们的数据具有基本的两水平结构:重复测量值(水平1)嵌套于个体内(水平2)l最简单的两个二分
30、类反应变量的模型可由最简单的两个二分类反应变量的模型可由以下两水平模型表达:以下两水平模型表达:1122logit()ijijjjyPZZjjjjnPVar11111)1 ()(jjjjnPVar22222)1 ()(jjPCov2111(式5.7)l上述模型可以直接推广到以下几种数据的模型分析(1 1)研究同一协变量对不同反应变量相应的)研究同一协变量对不同反应变量相应的影响效应及其效应间的差别影响效应及其效应间的差别l对于例5.2的资料,前面的分析发现女性报告的两周患病率高于男性。问题:问题: 1.是否女性的半年内慢性病的患病率也高于男性呢? 2.由于女性可能普遍较男性对身体发生不适 更敏
31、感,这是否会导致自报的两周患病率对女性的影响更大于对半年内慢性病的影响?即女性两周患病的OR值大于女性半年内患慢性病的OR值呢? 构造扩展模型构造扩展模型101202111121212201111logit()()()ijijjjjjjjiijiijjiiyPZZZ XZXZZ Xl性别两周患病的OR由 估计l半年内患慢性病的OR由 估计l性别效应在两个反应变量间的差别则可用广义的Wald检验:)exp(11)exp(2122112111211121() (df=1) ()()(,)WaldVVCovl如果已知性别效应在两反应变量间无差别,尚可在上述扩展的模型中限定(constraint)令
32、。l多个协变量可直接加到模型中2111用用MLwiNMLwiN拟合的双反应变量拟合的双反应变量logisticlogistic回归模型估计值回归模型估计值l由模型(5.7)的估计值可见,个体内两反应变量的协方差估计值即为Pearsons相关系数值,对截距估计值分别进行反logit变换则获得原始的人群患病率24.7(两周患病)和18.8(半年内患慢性病)l模型(5.8)的估计值提示女性和经常饮酒居民的两周患病的危险性大于对照组(男性,很少饮酒,年龄小于45岁),而这种危险性并不存在于半年内患慢性病的情况。年龄效应对两种患病测量则相似。l对性别与饮酒效应在两种患病指标间的差别做假设检验获得Wald
33、值分别为7.42(P0.006 5)和17.96(P0.000 1)。可以认为女性和经常饮酒者对近期身体不适较之于慢性病对身体的影响更为敏感(2) (2) 数据具有更高水平的层次结构数据具有更高水平的层次结构l本章前面的单反应变量模型已显示个体两周患病在家庭内有聚集性,进而在乡镇内有聚集性。这里的家庭和乡镇是在个体水平上的高层水平单位,使得两反应变量在本例的数据有四个层次的结构:个体内重复测量单位 个体 家庭 乡镇l模型(5.7)可直接扩展到两水平之上的结构数据,只是对截距系数加上相应的随机变量来反应相应水平的随机效应。如将家庭随机效应( )加入式(5.7)KVkkjkkjkZPit11111
34、1,)(logkkjkkjkZPit222222,)(log11222122(0,),kkN 1110.512222()() ()()jkjkjkjkjkjkjkjkgyCovgggy( )(1)/gn注:本章将上面5个表达式标为(式5.10)l不论是个体水平或家庭水平的协变量可以直接引入式(5.10)的固定效应部分以估计它们的参数或者与各反应变量的效应。l如要拟合更高水平(如乡镇)的随机效应(f1),只需要在截距系数上增加此效应,并估计它们的方差协方差阵中的随机参数,其余(5.10)中的部分不变。lklklf1111lklklf222211222122(0)flfflfffNf ,双反应变量
35、三水平双反应变量三水平logisticlogistic回归模型估计值回归模型估计值( (标准误标准误) )对家庭水平的随机参数做假设检验得到对家庭水平的随机参数做假设检验得到l两周患病 ,P0.0001l半年内患慢性病 , P0.0676l协变异 , P0.251 68.302)1(dfWald2(1)3.34Wald df2(1)1.32Wald dfl可认为两周患病率在家庭内有明显的聚集性,而半年内患慢性病不存在家庭聚集现象,两患病指标在家庭内并不存在相关性。l两周患病率主要包括常见急性病如感冒、消化道疾病等,而家庭成员常常暴露于这些疾病的相同危险因素,故存在家庭聚集性是符合逻辑的。(3)
36、 (3) 两个以上的二分类反应变量两个以上的二分类反应变量l在不同季节对同一个个体了解其两周患病率,可以获得两个以上的二分类反应变量;l追踪调查某个队列人群的健康状况或健康知识也可能会获得多个二分类反应变量。 这些反应变量通常有明显相关性,而且呈现随时间变化而改变的趋势。显而易见,前面描述的模型可直接推广到两个以上的二分类变量。当重复测量的数据过多,而且它们在时间上的相关是研究关注的重点,这时可考虑拟合离散变量的时间序列模型。(4) (4) 多个成组的二项分布的反应变量多个成组的二项分布的反应变量l在医学动物试验或生物学试验中,其结果变量可能是某一试验现象的发生率,或某相同群体里发生某现象的个数(如例5.1),与二分类变量的区别仅在于其测量值的分母大于1l如果典型的二项分布的一般表达为:l则在二分类变量时, ,而成组的二项分布变量时 大于或等于1。二分类变量只是后者的一个特例。l前面所描述的模型可直接用于这里典型的多个二项分布反应变量的数据。 Bin()iiiyn,1inin