《一般线性模型的几种常见形式及应用.doc》由会员分享,可在线阅读,更多相关《一般线性模型的几种常见形式及应用.doc(23页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、Four short words sum up what has lifted most successful individuals above the crowd: a little bit more.-author-date一般线性模型的几种常见形式及应用一般线性模型的几种常见形式及应用一般线性模型的几种常见形式及其合理选用中国卫生统计 1999年第5期第16卷 论著作者:胡良平单位:军事医学科学院医学统计教研室(100850)关键词:一般线性模型;设计矩阵;协方差矩阵;多水平模型【提要】目的展示一般线性模型(GLM)的常见形式及其特点,便于人们合理选用。方法通过改变设计矩阵X和误差的协
2、方差矩阵的结构以及分析设计矩阵X的变量性质,将GLM演绎成一个个简单明了的具体表达式。结果将GLM简化成适用于回归分析、方差和协方差分析、多水平模型等具体的统计模型。结论合理选用统计模型的关键在于弄清资料所取自的设计类型,影响因素和反应变量的性质,有无协变量以及各种统计模型的适用范围。Common Patterns and Rational Applications of the General Linear ModelHu Liangping,Department of Medical Statistics,Academy of Military Medical Sciences(10085
3、0),Beijng【Abstract】ObjectivePresenting the common patterns and their characteristics of the general linear model(GLM)for the convenient and rational application.MethodsBy changing the structures of design matrix(X)and covariance matrix of error() and analyzing the characters of variables in the desi
4、gn matrix(X),some concise and concrete expressions are deduced from GLM respectively.ResultsTo simplify GLM into several particular statistical models which are suitable for regression analysis,analysis of variance and covariance,and multilevel modelling.ConclusionThe key to the rational selection o
5、f statistical models lies in clarifying the design types of data,the characters of affecting factors and response variables,the availability of covariates,and the applicability of various statistical models.【Key words】General linear modelDesign matrixCovariate matrixMultilevel model一般线性模型概述统计分析的对象是统
6、计资料,如果资料中包含着自变量X和连续变化的反应变量Y时,为了用最简便的方式描述反应变量与自变量之间的依存关系,人们首选一般线性模型(GLM),见式(1)。Y=X+e(1)模型(1)中,Y为反应变量的观测值向量,X为由自变量构造的设计矩阵,为回归参数向量,e为正态独立随机误差向量,并假定其均值E(e)=0,协方差矩阵为=Cov(e)。当由模型(1)定义的GLM具有各种不同结构的设计矩阵X和误差的协方差矩阵时,GLM就会有各种不同的变形。例如:当=2In时,模型(1)被称为经典(或标准)线性回归模型;如果可将X剖分成X=(X1,X2),其中X1与固定效应有关,X2与随机效应有关,同时,具有式(2
7、)的形式:=X2VX2+(2)式(2)中V和是协方差矩阵,则模型(1)就变成一般线性混合模型(GLMM);如果对X与作其他一些假定,模型(1)可分别转变成MANOVA模型(即多元方差分析模型)和GMANOVA模型(即广义多元方差分析模型)等模型1。从构成设计矩阵X的变量性质来分类,模型(1)又有许多不同的变形。例如:当X分别由固定效应、随机效应和固定与随机两种效应的定性影响因素构造而成时,模型(1)就分别简化为固定效应、随机效应和混合效应的方差分析模型;当X全部由定量的影响因素(包括哑变量)构造而成时,模型(1)就简化为回归分析模型;当X同时由定性和定量两种影响因素构造而成时,需分以下三种情形
8、来讨论:情形一,当定性的影响因素是固定效应时,模型(1)就变成了协方差分析模型;情形二,当定性的影响因素是随机效应时,模型(1)就变成了多水平回归模型(亦称随机系数模型或分层模型)13;情形三,当定性的影响因素包括固定和随机两种效应时,若固定效应的定性变量未用哑变量技术处理,模型(1)就变成了具有协方差分析结构的多水平模型;反之,模型(1)仍旧是多水平回归模型。GLM常见的简化形式1.方差分析模型(1)固定效应方差分析模型及F统计量由于多因素实验设计类型很多,今以两因素析因设计为例(下同)。设固定效应因素A、B分别有a、b个水平,共有ab种水平组合,各组合下均重复k(k2)次实验,Y为定量的反
9、应变量,则与这个两因素析因设计对应的方差分析模型由式(3)给出:yijk=+i+j+( )ij+eijk(3)i=1,2,a;j=1,2,b;k=1,2,n。模型(3)中,是总平均效应,i是因素A第i个水平的效应(即i=Ai-),j是因素B第j个水平的效应(即j=Bj-,()ij是A与B分别在第i水平与第j水平组合条件下的交互作用的效应,eijk是随机误差分量,且进行方差分析时,需要构造出F统计量,其方法是推导出因素A、B及交互作用AB的期望均方,详见文献4。依据三个期望均方的表达式,构造出检验“H0:i=0,H0:j=0,H0:()ij=0对一切i,j”的三个F统计量,见式(4)。FA=MS
10、A/MSE、FB=MSB/MSE、FAB=MSAB/MSE(4)式(4)中,FAFa-1,ab(n-1)分布,FBFb-1,ab(n-1)分布,FABF(a-1)(b-1),ab(n-1)分布。(2)随机效应方差分析模型及F统计量如果某因素的水平是从较大的总体中随机选取的,那么,关于该因素的推断将会对所研究的总体的全部水平都有效,称这种因素为随机效应因素。现仍以两因素析因设计为例,来研究随机效应方差分析模型。在上述关于模型(3)的“假设条件”中,将固定效应因素A、B改为随机效应因素,其他条件不变,此时,处理资料的模型见式(5)。yijk=+i+j+( )ij+eijk(5)i=1,2,,a;j
11、=1,2,b;k=1,2,n。模型(5)中,是总平均效应,i,j,( )ij以及eijk都是随机变量。特别地,假定iNID(0,2),jNID(0,2)、( )ijNID(0,2)、eijkNID(0,2)。于是,任一观察值的方差是:V(yijk)=2+222(6)式(6)中等号右边四项叫做方差分量,故模型(5)又称为方差分量模型。对于方差分量模型,构造F统计量的方法仍是推导出A、B及AB的期望均方,详见文献4。依据三个期望均方的表达式,构造出检验“H02=0;H02=0;H02=0”的三个F统计量(因为对随机效应因素来说,检验关于各个处理效应的假设是没有意义的),见式(7)。FA=MSA/M
12、SABFB=MSB/MSABFAB=MSAB/MSE(7)式(7)中,FAFa-1,(a-1)(b-1)分布,FBFb-1,(a-1)(b-1)分布,FABF(a-1)(b-1),ab(n-1)分布。(3)混合效应方差分析模型及F统计量当因素A为固定效应、因素B为随机效应因素时,分析这种两因素析因设计资料的模型称为混合效应方差分析模型,见式(8)yijk=+i+j+( )ij+eijk(8)i=1,2,a;j=1,2,b;k=1,2,n。模型(8)中,i是固定效应,j是随机效应,并且假定( )ij也是随机效应,而eijk是随机误差。还假定i使得ai=1i=0、jNID(NULL,2)、()?i
13、jN(0,2)、eijkNID(NULL,2)。( )ij的独立性并不总能成立,因为ai=1( )ij=().j=0,j=1,2,,b。这意味着,固定因素的不同水平上的某些交互作用元素不是独立的。且基于模型(8)的方差分析,仍需借助期望均方来导出F统计量,关于A、B、AB期望均方表达式,详见文献4。对于固定效应的检验假设为H0i=0,对于随机效应的检验假设为H02=0;H02=0。此时,恰当的F统计量如式(9)所示。FA=MSA/MSABFB=MSB/MSEFAB=MSAB/MSE(9)式(9)中,FAFa-1,(a-1)(b-1)分布,FBFb-1,ab(n-1)分布,FABF(a-1)(b
14、-1),ab(n-1)分布。2.回归分析模型当模型(1)中设计矩阵X全由定量的影响因素(允许有哑变量)构造而成时,它就简化成单纯的回归分析模型(10)。yi=0+1X1+2X2+mXm+ei(10)i=1,2,n。模型(10)的参数估计、假设检验等内容在普通统计学教科书中都写得很详细,此处不再赘述。3.单因素协方差分析模型与二水平模型(1)单因素协方差分析模型4在评价饲料营养价值的试验中,如果饲料的种类(设为因素A)是有限的a种,每个受试对象的平均进食量(X)对其平均体重增加量(Y)必有影响。这里A是固定效应的影响因素,X是定量的影响因素,Y是定量的观测结果,当全部受试对象被完全随机地分配进入
15、a种饲料组中去接受试验后,所收集到的资料可用下面的含一个协变量的单因素协方差分析模型(11)来处理。yij=+i+(xij-x.)+eij(11)i=1,2,,a;j=1,2,n。模型(11)中yij是第i种饲料组取得的反应变量的第j个观察值,xij是对应于yij的平均进食量,x.是全部xij的样本均值,是与yij对应的总平均值,i是第i种饲料的效应,是回归系数,eijNID(NULL,2)是随机误差分量。于是,检验H0i=0的F统计量见式(12)。FA=(SSE-SSE)/(a-1)/SSE/a(n-1)-1(12)式(12)中,FAFa-1,a(n-1)-1分布,SSE=1yy-(1xy)
16、2/1xx,SSE=Eyy-(Exy)2/Exx,此外,1xx,1yy,1xy分别为x,y,x与y的总离均差平方和及离均差积之和;Exx,Eyy,Exy分别为x,y,x与y的组内离均差平方和及离均差积之和。(2)二水平模型23在前述评价饲料营养价值的试验中,如果可供选用的饲料有成百上千种,今从此总体中随机地选取a种来做前述的试验研究,其他情况不变。此时,研究的目的是由a种饲料的试验信息去推测上千种饲料所构成的总体中y随x变化的依存关系。如果忽略饲料间变异对结果的影响,模型(1)一下简化成简单直线回归模型,但当模型在饲料间的变异是不可忽略的情况下,用简单的直线回归模型来描述是很不妥当的。此时,引入一个被称为二水平的(或随机系数)模型(13)是很合适的。yij=ai+bixij+eij(13)i=1,2,a;j=1,2,n。此处,截距ai、斜率bi都是随机系数,、分别为总体截距和斜率,为随机系数ai、bi的协方差矩阵,eij是正态独立随机误差。若令ai=+ai、bi=+bi,其中,ai、bi分别为截距和斜率的随机部分,则模型(13)变成模型(14)yij=+ai+(+bi)xij+eij=+xij+(ai+bixij)+eij-