《混杂效应和随机效应模型资料讲解.ppt》由会员分享,可在线阅读,更多相关《混杂效应和随机效应模型资料讲解.ppt(37页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、混杂效应和随机效应模型一一.统计模型的概念统计模型的概念统计模型是对资料结构的一种数学表述.数量关系的概念化结构.包含两个元素1.函数表达式函数表达式:描述结果变量与解释变量之间的关系(固定效应).2.误差表达式误差表达式:描述结果变量观察值随机变异的概率分布(随机变异).例如:2种药物(A、B)治疗某种疾病的疗效分析。用均衡设计,每种药物治疗的病人数相等,都为n.反应变量:Yij表示生化测定值,i=1,为病例编号,J=1,2为药物编号 自变量:药物种类(A,B),令Xj=第j种药物,传统的统计分析方法(固定效应模型,效应为常数)为:(1)用单向方差分析模型表示为:Yij=j+eij=+j+e
2、ij,eij N(0,e2),YijN(i,e2),j=j-,H0:j=0,限制条件:j=0 (2)用线形回归模型表示为:Yij=0+iXij+eij,,YijN(0+iXij,e2),H0:i=0,限制条件:B=0 含随机效应的混合效应模型为:Yij=(0+i)+iXij+eij,,i N(0,2),eij N(0,e2)这时 YijN(0+iXij,i2+e2),Var(Yij)=Var(i)+Var(eij)=i+e2,23Patient(i)yijDifference(yi1 yi2)i(Patient Mean)A(j=1)B(j=2)12012816.022624225.03161
3、7-116.542921825.052221121.562417720.5Mean22.8318.674.1720.75例1:A.B两种治疗药物在同一病人体内实验,采用区组随机化设计方案(即用药先后顺序是随机化的),对每种药物处理后的反应变量进行测定.用6例病人.结果如下表.构造三种模型:1.完全随机设计模型:不考虑区组(病人)效应:Yij=+j+eij,j 为药物效应2.随机化区组设计模型:考虑区组(病人)效应:Yij=+j+i+eij 3.随机效应模型:病人是从病人总体中随机的,也存在随机误差,统计学中用病人间的方差来衡量这种随机误差.。Yij=+j+(i)+eij=(+j+(j+eij)
4、,jN(0,2),eij N(0,e2),Var(Yij)=(2+e2)在此简单情况下,(3)与(2)等价,但解释不同。在有缺失值情况下的结果不同。4模型一:完全随机设计模型模型一:完全随机设计模型:J:第J种药物效应从上表估计模型参数:=20.75,A=22.83-20.75=2.08,B=18.67-20.75=-2.08差值(difference)=22.83-18.67=4.17(或AB=2.08-(-2.08)PatientTreatmentDifference (A B)Patient MeanAB12012816.022624225.031617-116.542921825.05
5、2221121.562417720.5Mean22.8318.674.1720.755完全随机设计模型的完全随机设计模型的PROC ANOVA 计算结果计算结果:SumofSourceDFSquaresMeanSquareFValuePrFModel152.083333352.08333332.680.1325Error10194.166666719.4166667CorrectedTotal11246.250000Meanswiththesameletterarenotsignificantlydifferent.SNKGroupingMeanNdrugA22.8336AAA18.6676B
6、PROC ANOVA DATA=example_1;CLASSdrug;MODELy=drug;MEANSdrug/SNKALPHA=0.05;run;6 6完全随机设计模型的完全随机设计模型的 PROC GLM 计算结果计算结果:SumofSourceDFSquaresMeanSquareFValuePrFModel152.083333352.08333332.680.1325Error10194.166666719.4166667CorrectedTotal11246.2500000StandardParameterEstimateErrortValuePr|t|Intercept18.6
7、6666667B1.7989194310.38FModel6206.833333334.47222224.370.0634Error539.41666677.8833333CorrectedTotal11246.2500000SourceDFTypeIIISSMeanSquareFValuePrFdrug152.083333352.08333336.610.0500patient5154.750000030.95000003.930.0798(与模型一比较,残差均方(MeanSquare(Error,2)由19.4166667降到7.88)8模型三模型三:病人为随机效应的模型病人为随机效应的模
8、型:因此,对同一病人的不同观察之间是相关的,具有协方差2,包含在总方差Var(yij)=e2+2内,2和e2都称为方差分量.但特别指2。9PROC MIXED DATA=example_1;/*Model 3:RandomeffectsmodelbyusingPROCMIXED*/CLASS drugpatient;MODELy=drug;RANDOMpatient/S;RUN;用用SAS中的中的 PROC MIXED 计算结果计算结果:CovParmEstimatepatient11.5333(用PROCGLM的RANDOM语句得不到此方差分量)Residual7.8833(组内相关系数IC
9、C=11.53/(11.53+7.88)=0.59)Type3TestsofFixedEffectsNumDenEffectDFDFFValuePrFdrug156.610.0500在本例中,对drug的检验,用PROCMIXED的计算结果与用PROCGLM(2)的计算结果同(F=6.61),即规定病人是固定效应,还是随机效应,对处理效应的检验结果没有影响(这是由于方差的性质决定的,即观察值的方差与中心化值的方差相等).但如果有缺失值时,其结果不同.在本例的模型三中,假定病人具有随机效应.病人来自一个具有均值为0,方差为2的正态分布总体.因此它们的期望值为0,但每个病人彼此不同。每个病人都具有
10、相同期望值的假定与直观不符.须根据每例病人的观察值,确定其在正态分布中的一个位点.这一预报值的可信区间较固定效应的可信区间要窄,在统计学上称为收缩”shrunken”估计.10在本例的模型三中,假定病人具有随机效应.即规定病人来自一个具有均值为0,方差为2的正态分布总体.因此它们的期望值为0。但每个病人彼此不同。每个病人都具有同一期望值的假定与直观不符.须根据每例病人的观察值,确定其在正态分布中的一个位点.这一预报值的可信区间较固定效应的可信区间要窄,在统计学上称为收缩”shrunken”估计.这一收缩的幅度与病人方差分量和残差方差分量有关。当病人方差分量为0时,所有病人的预报值相等。对每个病
11、人的观察值越少时,收缩的幅度相对越大。随机效应模型的反应变量估计或预报随机效应模型的反应变量估计或预报观察值与完全随机设计固定效应模型预报值及随机效应模型预报值的观察值与完全随机设计固定效应模型预报值及随机效应模型预报值的 比较比较病人号123456drugAB均值AB均值AB均值AB均值AB均值AB均值观察值201216.0262425.0161716.5292125.0222121.5241720.5固定效应预报22.818.720.822.818.720.822.818.720.822.818.720.822.818.720.822.818.620.8随机效应预报19.315.117.2
12、26.021.823.919.715.517.626.021.823.923.419.221.322.718.520.6从上表可见,随机效应模型的预报值更接近观察值。随机效应随机效应:在一项研究中,如果进入研究的因子的水平数只是其总体中的所有水平数的一个随机代表时,该因子的效应为随机效应。对应于该因子的总体中各水平的效应就构成了一个概率分布总体。样本中的各水平是来自总体中更多水平的一个随机样本.如:一个城市有很多学校,为了解学生体质,抽查了部分学校的学生体质,则所抽查的学校就是一个随机效应因子.一个城市有很多医院,为了解医疗质量,抽查了若干医院的出院病人记录进行医疗质量分析。则所抽查的医院就是
13、一个随机效应因子.一条大河有许多支流的入口,为评价河水的亚硝酸盐浓度,只能抽查一小部分支流入口处的水样作检验,所抽查的支流入口处的水样就是一个随机效应因子.一个县市有很多村镇,为了解村民健康状况,随机抽查了若干村镇的村民,记录了他们的健康状况。则所抽查的这些村镇就是一个随机效应因子.研究随机效应的目的:1.估计随机效应的协方差参数。2.对总体参数作假设检验3.构造总体参数的可信区间。11二二.随机效应的概念与识别随机效应的概念与识别12固定效应与随机效应的识别方法固定效应与随机效应的识别方法:当一个因子(预测变量)对反应变量的效应不易区别是固定效应还是随机效应时,可用可互换性或唯一性规则可互换
14、性或唯一性规则来作判断.(1)可互换性可互换性(exchangeability)判别。一个随机效应因子的水平是随机地或非系统地选自具有更多水平的总体.观察样本中的水平只是总体中包含的更多水平中的一个随机样本.一个随机效应因子的水平是随机的,在不改变实验的基本性质情况下,当重复实验时,其水平可能发生改变.固定效应因子固定效应因子:特意选择水平的因子.在不改变实验基本性质的情况下,当重复实验时,其水平不发生改变.(2)从模型理论上区别从模型理论上区别:如果一个效应水平能够合理地假定为代表一种概率分布的话,则该效应就是随机效应;如果不代表一种概率分布的话,则该效应就是固定效应.药物疗效试验中的药物品
15、种是特选的,是不能互换互换的,故为固定效应。而在药品价格调查中,每类药品选一种作为代表,这时调查的药品名称是可互换可互换的,故为随机效应。世界上没有固定效应因子和随机效应因子之分,而是研究者在设计一个实验时强加的一种不同结构的模型.以便更好地解释客观存在。1213三、三、混合效应模型混合效应模型(Mixed effects Models)混合效应模型是一种线性模型,包含有固定效应和随机效应,用于处理非独立观察资料。又称:重复测量模型(Repeatedmeasuresmodels),多水平模型(Multilevelmodels),层次结构模型(Hierarchicalmodels)从统计学归类,
16、混合效应模型包含三种类型的模型:1.随机效应模型(Randomeffectsmodels)。假定除测量误差导致的变异外,还来自具有某种概率分布的随机效应带来的变异,称随机变异。如分析临床多中心试验中的不同中心之间的变异。2.协方差类型模型(Covariancepatternmodels),直接对重复测量之间的相关结构进行分析,分析效应随时间衰减的特点。3.随机系数模型(Randomcoefficientmodels),直接分析反应变量在时间轴上的变化率,但容许协变量的效应具有随机性,协变量对反应变量效应的变化率随观察对象而不同,即具有随机变化的特点。以上三种类型的模型可以联合应用。14 混合效
17、应模型的方差协方差结构混合效应模型的方差协方差结构其中:Y,为反应变量向量,X为固定效应因子的设计矩阵,为固定效应参数向量Z为随机效应因子的设计矩阵,为随机效应参数向量,iN(0,2),e为残差向量.eijN(0,e2),cov(i,e)=0 混合效应模型的参数估计混合效应模型的参数估计:1515 例子:两种药物治疗效果的随机区组设计模型的矩阵表达例子:两种药物治疗效果的随机区组设计模型的矩阵表达其中:Yij,为反应变量,j=1,2代表药物号;,2,。,6代表病例号X为(12行,3列)固定效应因子的设计矩阵,=(,1,2),为(3行1列)固定效应参数向量Z为(12x6)的随机效应因子的设计矩阵
18、,i为(6x1)维随机效应参数向量e为(12x!)维残差向量.Patient(i)YijA(j=1)B(j=2)120122262431617429215222162417Mean22.8318.67Treatment:为固定效应,离散化为:为固定效应,离散化为X矩阵矩阵Patient:为随机效应:为随机效应,离散化为,离散化为Z矩阵矩阵/*-Model 3_2:PROC MIXED-*/PROC MIXED DATA=intro;CLASSdrugpatient;MODELy=drug;RANDOMpatient;RUN;16Patientdrug反应变量反应变量12123456ijYX0
19、x1x2z1z2z3z4z5z6参数向量11220121110011100000000002122624111001001100000000123121617111001000011000000124122921111001000000110000345122221111001000000001100566122417111001000000000011=(,j,2),=(1,2,3,4,5,6),i(0,2),Var(yij)=(2+e2)17例2:一项治疗高血压的多中心临床药物试验:三种药物(A,B,C),共有29所医疗中心参与,观察病人总数n=288人.(filenameofdatase
20、t=hypertension)研究目的:在控制治疗前舒张压条件下,分析三种药物的降压效果.29所医所医疗疗中心的每种中心的每种药药物治物治疗疗病人数及病人数及总总病人数病人数MedicalCenter TreatAllMedicalCenter TreatAllABCABC113141239231.2323431024.1133328253227444412263431054521127.11262125291.237666183012258222631121212369.1132211411444123521141243411369682313112437312614888244011.21
21、544311412114182226All1009395288四四.混合效应模型分析的例子混合效应模型分析的例子18变量名:记录号:patient,n=288,反应变量:dbp:治疗后舒张期血压,处理因素:treat:三种药物:A=Carvedilol,B=Nifedipine,C=Atenolol;控制因素:1.医疗中心:centre,29所医院.2.治疗前舒张期血压:dbp1,连续变量.Obspatientcentretreatdbpdbp11129C86972229C72109335B109117445A871005529A85105673A100114783B80105893B9010
22、09103A10010210113C94105VariableNMeanMinimumMaximum-dbp28890.246527870.0000000140.0000000dbp1288102.854166792.0000000120.0000000数据集中的前数据集中的前10例病人的记录例病人的记录19模型模型A:简单药物效应treatk:k=A,B,C.(固定效应)PROC MIXED DATA=hypertension;/*MODELA*/CLASS centre treat;MODELdbp=treat/SOLUTION;RUN;CovarianceParameterEstimat
23、esCovParmEstimateResidual81.5660FitStatistics-2ResLogLikelihood2076.9AIC(smallerisbetter)2078.9AICC(smallerisbetter)2078.9BIC(smallerisbetter)2082.5 Solution for Fixed Effects StandardEffect treat Estimate Error DF t Value Pr|t|Intercept 88.6211 0.9266 285 95.64 Ftreat22852.730.06702020模型模型B:在模型A的基础
24、上加入基础血压dbp1.(固定效应)PROC MIXED data=hypertension;/*modelB/CLASS centre treat;MODEL dbp=treatdbp1/SOLUTION;RUN;Solution for Fixed Effects StandardEffect treat Estimate Error DF t Value Pr|t|Intercept58.149011.36662845.12 Ftreat 2 284 2.92 0.0558dbp1 1 284 7.23 0.0076CovarianceParameterEstimatesCovParmE
25、stimateResidual79.8201FitStatistics-2ResLogLikelihood2072.3AIC(smallerisbetter)2074.3AICC(smallerisbetter)2074.3BIC(smallerisbetter)2078.0CovarianceParameterEstimatesCovParmEstimateResidual81.5660(modelA)FitStatistics-2ResLogLikelihood2076.9AIC(smallerisbetter)2078.9AICC(smallerisbetter)2078.9BIC(sm
26、allerisbetter)2082.521CovarianceParameterEstimatesCovParmEstimateResidual71.9213FitStatistics-2ResLogLikelihood1892.6AIC(smallerisbetter)1894.6AICC(smallerisbetter)1894.6BIC(smallerisbetter)1898.2Type3TestsofFixedEffectsNumDenEffectDFDFFValuePrFdbp112563.870.0501treat22562.960.0535centre282562.110.0
27、013PROC MIXED DATA=hypertension;/*modelC*/CLASS centre treat;MODELdbp=dbp1treatcentre/SOLUTION;RUN;模型模型C:在模型B的基础上加入医疗中心centre.(固定效应)CovarianceParameterEstimatesCovParmEstimateResidual79.8201(modelB)FitStatistics-2ResLogLikelihood2072.3AIC(smallerisbetter)2074.3AICC(smallerisbetter)2074.3BIC(smalleri
28、sbetter)2078.022SolutionforFixedEffectsStandardEffecttreatcentreEstimateErrorDFtValuePr|t|Intercept65.579612.94012565.07Fdbp112080.990.3198treat22081.240.2905centre282081.980.0038centre*treat482081.200.1884交互效应centre*treat作用项不显著CovarianceParameterEstimatesCovParmEstimateResidual71.9213(modelC)FitSta
29、tistics-2ResLogLikelihood1892.6AIC(smallerisbetter)1894.6AICC(smallerisbetter)1894.6BIC(smallerisbetter)1898.22424模型模型E:在模型B的基础上,将医疗中心centre作为随机效应.(与固定效应比较)Type3TestsofFixedEffectsNumDenEffectDFDFFValuePrFdbp112566.840.0095treat22563.100.0466PROC MIXED DATA=hypertension;/*modelE*/CLASS centretreat;M
30、ODEL dbp=dbp1treat/SOLUTION;RANDOMcentre/SOLUTION;RUN;CovarianceParameterEstimatesCovParmEstimatecentre7.8248Residual70.9263FitStatistics-2ResLogLikelihood2056.5CovarianceParameterEstimatesCovParmEstimateResidual79.8201(modelB)FitStatistics-2ResLogLikelihood2072.3CovarianceParameterEstimatesCovParmE
31、stimate(modelD)Residual69.2614FitStatistics-2ResLogLikelihood1558.1ModelFixedeffectsRandomeffectsLogLikelihoodAIC(smallerisbetter)CovparmResparmATreat*2076.92078.981.56BTreat*dbp1*2072.32074.379.82Ctreat?dbp1?centre*1892.61894.671.92DtreatXdbp1Xcentre*centre*treatX1558.11560.169.26ETreat*dbp1*centre
32、2056.52060.57.824870.93五种模型的配合结果比较:五种模型的配合结果比较:注:X-无统计学意义,?-接近=0.05水平,*-在=0.05水平上有统计学意义26ODS GRAPHICS ON;PROC MIXED DATA=hypertension;CLASS centretreat;TITLEResidualPlotofModelE;MODELdbp=treatdbp1/DDFM=KRRESIDUAL;RANDOM centre/SOLUTION;LSMEANS treat/DIFF PDIFF CL;ID patientcentretreat;RUN;ODS GRAPHI
33、CS OFF;模型模型E的残差分析的残差分析:27例3:三水平混合效应模型的例子。一个制药厂为了解生产的稳定性,进行了抽样研究。两种原料,从原料(1)中抽取4批产品,从原料(2)中抽取4批产品,每批产品中随机抽取3分样品,再从每份样品中随机取出3分检验样品。总检验数为:2x4x3x3=72个检验品。抽样过程为:原料(source,i=1,2)每种原料抽取4批产品(lot,j=1,2,3,4)每批产品中抽取3分样品(samp,k=1,2,3)再从每份样品中取出3分检验品(lab,m=1,2,3)检验项目:有效物质含量(y)。检验目的:分析产品不稳定当来源。29nosrs lot samp lab
34、ynosrs lot samp lab Yno srslotsamp lab y111112006 211121999 311132007411211980 511221988 611231982711312000 811321998 91133200710 12111991 11 12121990 12 1213198813 12211987 14 12221989 15 1223198816 12311985 17 12321983 18 1233198919 13112000 20 13122004 21 1313200422 13212001 23 13221996 24 132320
35、0425 13311999 26 13322000 27 1333200228 14111997 29 14121994 30 1413199631 14211996 32 14222000 33 1423200234 14311987 35 14321990 36 1433199537 25112013 38 25122004 39 2513200940 25212023 41 25222018 42 2523201043 25312020 44 25322023 45 2533201546 26112032 47 26122036 48 2613203049 26212018 50 262
36、22022 51 2623202652 26312009 53 26322010 54 2633201155 27111984 56 27121993 57 2713199358 27211992 59 27221992 60 2723199061 27311996 62 27321993 63 2733198764 28111996 65 28121989 66 2813199667 28211997 68 28221993 69 2823199670 28311990 71 28321989 72 28331992资料表:30proc mixed data=semiconductor me
37、thod=reml;classsourcelotsample;modelcontent_y=source/ddfm=kr;randomlot(source)sample(sourcelot);lsmeanssource/diff;run;原料(source,i=1,2)为固定效应每种原料抽取4批次的产品(lot,j=1,2,3,4)为随机效应(_嵌套于原料)每批产品中抽取3分样品(samp,k=1,2,3)为随机效应(_嵌套于原料和批次)再从每份样品中取出3分检验品(lab,m=1,2,3)的化验结果为content_y(反应变量)CovarianceParameterEstimatesCov
38、ParmEstimatelot(source)119.89sample(source*lot)35.8657Residual12.5694结论1:批次之间的变异性最大,为样品变异的20倍(=119.89/35.8657),为样品内变异的46倍(=119.86/12.5694)品(lab,m=1,2,3)的化验结果为content_y(反应变量)31LeastSquaresMeansStandardEffectsourceEstimateErrorDFtValuePr|t|source11995.115.77166345.68.0001source22005.195.77166347.43|t|
39、source12-10.08338.16226-1.240.2629结论2:原料之间对产品的质量变异的影响不大Pr|t|=0.2629)324:配对病例对照的例子。婴儿卒死综合症(suddeninfantdeathsyndrome,SID)的母亲与同期同一所医院内相同年龄组事件前分娩相同年龄组母亲和事件后分娩相同年龄组母亲各一人作1:2配对调查。研究指标为deprivationscore(depcat,1-7分,分值越高者越严重)。由于各种原因,配对不是完整的。资料的配对情况为:TheFREQProcedureCumulativeCumulativetotFrequencyPercentFre
40、quencyPercent-A4522.394522.39AB3617.918140.30ABB12059.70201100.00注:A:病例,B:对照33Obsidgroupgrpdepcat11A1722A1733A1544A1755A1566A1276B0286B0297A14107B04117B0.128A14138B05148B06159A111610A171711A161811B041911B042012A17前20组匹配资料:1-5组只有病例,没有对照。第7匹配组中有一例对照的资料缺失。34PROC MIXED DATA=exsample_3 NOCLPRINT;CLASSgro
41、upid;MODELdepcat=group/DDFM=SATTERTHoutp=opoutpm=opm;RANDOMID;*/SOLUTION;ESTIMATEA-Bgroup1-1;IDidgroup;titleModel1;run;DimensionsCovarianceParameters2ColumnsinX3ColumnsinZPerSubject1Subjects201MaxObsPerSubject3ObservationsUsed461ObservationsNotUsed16TotalObservations477CovarianceParameterEstimatesCo
42、vParmSubjectEstimateInterceptid0.9576Residual1.8602组内相关系数:0.9576/(1.8602+0.9576)=0.3435Type3TestsofFixedEffectsNumDenEffectDFDFFValuePrFgroup131540.19|t|A-B0.84460.13323156.34.0001统计学结论:婴儿卒死综合症(suddeninfantdeathsyndrome,SID)与母亲deprivationscore有关。病例的母亲平均记分高于对照母亲。36谢谢大家谢谢大家此课件下载可自行编辑修改,仅供参考!此课件下载可自行编辑修改,仅供参考!感谢您的支持,我们努力做得更好!谢谢感谢您的支持,我们努力做得更好!谢谢