《6第六讲 计量资料统计(4)方差分析.pdf》由会员分享,可在线阅读,更多相关《6第六讲 计量资料统计(4)方差分析.pdf(28页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 第第六讲六讲 方差分析方差分析 方差分析(方差分析(analysis of variance,analysis of variance,analysis of variance,analysis of variance,简写为简写为ANOVAANOVAANOVAANOVA)可用于两个或多个样本均)可用于两个或多个样本均数的比较;两个或多个研究因素的交互作用数的比较;两个或多个研究因素的交互作用分析;回归方程的线性假设检验;以及方差分析;回归方程的线性假设检验;以及方差齐性检验等。齐性检验等。方差分析的应用条件是:各样本是方差分析的应用条件是:各样本是互互相独立相独立的随机样本;各样本的随机样
2、本;各样本来自正态总体来自正态总体;各处理组各处理组总体方差相等总体方差相等,即方差齐。,即方差齐。2009.10一、方差分析的基本思想 方差分析是一种变异数分析,它是方差分析是一种变异数分析,它是将变量值中的总变异分解成若干部分,将变量值中的总变异分解成若干部分,通过各部分变异间关系的比较分析,判通过各部分变异间关系的比较分析,判断比较组间差异的性质。断比较组间差异的性质。从例从例6 6 6 6.1.1.1.1看方差分析的基本思想。看方差分析的基本思想。例6.1 某职业病防治院对31名石棉矿工中的石棉肺患者、可疑患者及非患者进行了用力肺活量(L)测定,结果见表6.1,问三组石棉矿工的用力肺活
3、量有无差别?表6.1 三组石棉矿工的用力肺活量基本思想返回成组设计返回两两比较 石 棉 肺 患 者 可 疑 患 者 非 患 者 1.8 2.3 2.9 1.4 2.1 3.2 1.5 2.1 2.7 2.1 2.1 2.8 1.9 2.6 2.7 Xij 1.7 2.5 3.0 1.8 2.3 3.4 1.9 2.4 3.0 1.8 2.4 3.4 1.8 3.3 2.0 3.5 合 计jijX 1 9.7 2 0.8 3 3.9 7 4.4(X)ni 1 1 9 1 1 3 1(N)均 数X 1.7 9 2.3 1 3.0 8 2.4 (X)jijX 3 5.6 9 4 8.3 4 1 0
4、5.3 3 1 8 9.3 6(X2)2 从上表可以看出三种不同的变异:从上表可以看出三种不同的变异:从上表可以看出三种不同的变异:从上表可以看出三种不同的变异:此外总变异还与总例数此外总变异还与总例数NN NN的多少有关,确切地说与总的自由度的多少有关,确切地说与总的自由度总总(总总 =N-1=N-1=N-1=N-1)有关。)有关。()2=ijijXXSS总()2 ijiijXXXX例6.1例4.1例4.1同样,组间变异还与组间自由度同样,组间变异还与组间自由度组间组间=k-1=k-1=k-1=k-1 有关,组间均方有关,组间均方MSMSMSMS组间组间=SS=SS=SS=SS组间组间/(k
5、-1k-1k-1k-1)。)。三种变异的关系三种变异的关系 SS SS SS SS总总=SS=SS=SS=SS组间组间 +SS+SS+SS+SS组内组内 ,且,且总总=组间组间+组内组内 SSSSSSSS组内组内的大小还与各样本例数的大小还与各样本例数n n n ni i i i的多少有关,其自由度的多少有关,其自由度组内组内=N-k=N-k=N-k=N-k,(其中(其中N=N=N=N=n n n ni i i i,k k k k为组数)。因此组内均方为组数)。因此组内均方MSMSMSMS组内组内=SS=SS=SS=SS组内组内/(N-kN-kN-kN-k)。)。例6.1例6.11 1 1 1
6、、总变异、总变异 表示为表示为2 2 2 2、组内变异、组内变异 可认为是单纯由随机误差造成的可认为是单纯由随机误差造成的 表示为表示为 SSSSSSSS组内组内=3 3 3 3、组间变异、组间变异 是处理因素和随机误差造成的是处理因素和随机误差造成的 表示为表示为 SS SS SS SS组间组间=n n n ni i i i(i i i i -)2 2 2 22009.10 假设三样本均来自同一总体,即石棉尘对工人肺活量没有影响,患者、可疑患者、非患者的用力肺活量相同,则三组人肺活量的组间变异应该等于组内变异,两者均为随机误差。此时若计算检验统计量F值 F=MS组间/MS组内则其在理论上应等
7、于1。即 实际中由于抽样误差的影响,F 值不会正好为1,但应在1左右。反之,若各组均数不是来自同一总体,即石棉尘对工人肺活量有影响,组间变异便会增大,F值将明显大于1。当F值大到特定界值时,处理组间的差别就具有了统计意义了。()()误差误差处理因素组内组间MS+=MSF二、成组设计的多个样本均数比较二、成组设计的多个样本均数比较 成组设计的多个样本均数比较可用单因素方差分析(one-way ANOVA)。该分析中仅涉及一个研究因素一个研究因素一个研究因素一个研究因素,如多个均数比较的RCT,受试对象被随机分配到一个处理因素的多个水平组,然后追踪观察实验效应;观察性研究中,按一个研究因素的不同水
8、平分组,追踪观察某指标,比较其差别。例6.1资料属于后一类,对石棉矿工的石棉肺因素按三个水平(患者、可疑患者、非患者)分组,其观察变量为用力肺活量。2009.101 1 1 1.成组设计方差分析中变成组设计方差分析中变异异的分解的分解 以例6.1、表6.1为例 如表6.1所示,三个组31名矿工的用力肺活量值大小不等,这是总变异总变异,其可分为两部分:组内变异组内变异 ,反映矿工用力肺活量测定值,反映矿工用力肺活量测定值的随机误差;的随机误差;组间变异,反映随机误差和石棉肺对用组间变异,反映随机误差和石棉肺对用力肺活量的影响。力肺活量的影响。2 2 2 2.分析计算步骤分析计算步骤 (1 1 1
9、 1)建立假设和确定检验水准)建立假设和确定检验水准 H0:各总体均数相等,1=2=3=m H1:各总体均数不相等或不全相等 =0.05 (2 2 2 2)计算检验统计量)计算检验统计量F F F F值值 表6.2 单因素方差分析计算公式 *C=(X)2/N (3 3 3 3)确定)确定P P P P值和作出推断结论值和作出推断结论 以自由度组间(1)和组内(2)查 F 界值表作出推断结论。变异来源 离均差平方和 SS 自由度 均方 MS F 总 X2-C*N-1 组 间(处理组间)*2CnXiijij k-1 SS组间/组间 MS组间/MS组内 组内(误差)SS总 -SS组间 N-k SS组
10、内/组内 石棉肺患者 可疑患者 非患者 合计 ni 均数i 19.7 11 1.79 35.69 20.8 9 2.31 48.34 33.9 11 3.08 105.33 74.4(X)31(N)2.4()189.36(X2)本例(1 1 1 1)建立假设和确定检验水准)建立假设和确定检验水准 H H H H0 0 0 0:三组矿工用力肺活量的总体均数相等,:三组矿工用力肺活量的总体均数相等,1 1 1 1=2 2 2 2=3 3 3 3 H H H H1 1 1 1:三组总体均数不相等或不全相等:三组总体均数不相等或不全相等 :0.050.050.050.05(2 2 2 2)计算检验统计
11、量)计算检验统计量 F F F F 值值 根据表6.2中公式计算,例例例例6 6 6 6 6 6 6 6.1.1.1.1.1.1.1.1 C=(C=(C=(C=(X)X)X)X)2 2 2 2/N=/N=/N=/N=(74.474.474.474.4)2 2 2 2/31=178.560/31=178.560/31=178.560/31=178.560 SS SS SS SS总总=X X X X2 2 2 2 C=189.36 C=189.36 C=189.36 C=189.36 178.56=10.800178.56=10.800178.56=10.800178.56=10.800 总总=N
12、 =N =N =N 1=31 1=31 1=31 1=31 1=30 1=30 1=30 1=30 SS SS SS SS组间组间=(19.719.719.719.7)2 2 2 2/11+/11+/11+/11+(20.820.820.820.8)2 2 2 2/9+/9+/9+/9+(33.933.933.933.9)2 2 2 2/11/11/11/11 178.56 178.56 178.56 178.56 =9.266 =9.266 =9.266 =9.266 组间组间=k =k =k =k 1=3 1=3 1=3 1=3 1=2 1=2 1=2 1=2 MS MS MS MS组间组
13、间=SS=SS=SS=SS组间组间/组间组间=9.266/2=4.633=9.266/2=4.633=9.266/2=4.633=9.266/2=4.633CnXiiji j2 SS SS SS SS组内组内=SS=SS=SS=SS总总 -SS-SS-SS-SS组间组间=10.8 =10.8 =10.8 =10.8 9.266=1.534 9.266=1.534 9.266=1.534 9.266=1.534 组内组内=N =N =N =N k=3 1 k=3 1 k=3 1 k=3 1 3=28 3=28 3=28 3=28 MS MS MS MS组内组内 =SS=SS=SS=SS组内组内/
14、组内组内 =1.534/28=0.0548=1.534/28=0.0548=1.534/28=0.0548=1.534/28=0.0548 F=MS F=MS F=MS F=MS组间组间 /MS/MS/MS/MS组内组内=4.633/0.0548=84.544=4.633/0.0548=84.544=4.633/0.0548=84.544=4.633/0.0548=84.544 将上述结果列于表将上述结果列于表6 6 6 6.3.3.3.3。表6.3 例6.1的方差分析结果方差分析结果 (3 3 3 3)确定)确定P P P P值和作出推断结论值和作出推断结论 以自由度以自由度组间组间(1 1
15、 1 1)=2=2=2=2,组内组内(2 2 2 2)=28=28=28=28,查,查 F F F F 界值表得界值表得F F F F0.010.010.010.01(2 2 2 2,28282828)=5.45=5.45=5.45=5.45,则,则P P P P 0.010.010.010.01,按,按=0.05=0.05=0.05=0.05水准,拒绝水准,拒绝H H H H0 0 0 0,接受,接受H H H H1 1 1 1,可以认为三组矿工用力肺活量不同。,可以认为三组矿工用力肺活量不同。以上结论表明,总的说来三组矿工用力肺活量有差别,但并不表明任何两组矿工的用力肺以上结论表明,总的说
16、来三组矿工用力肺活量有差别,但并不表明任何两组矿工的用力肺活量均有差别,只能说可能至少有两组矿工用力肺活量有差别,可能有的组间没有差别。要了活量均有差别,只能说可能至少有两组矿工用力肺活量有差别,可能有的组间没有差别。要了解哪些组均数间有差别,哪些组均数间没有差别,需要进一步作两两比较。解哪些组均数间有差别,哪些组均数间没有差别,需要进一步作两两比较。变异来源 SS MS F P 总 10.800 30 组间 9.266 2 4.633 84.544 0.01 组内 1.534 28 0.0548 三、配伍组设计的多个样本均数比较三、配伍组设计的多个样本均数比较 配伍组设计(或称随机区组设计)
17、的多个样本均配伍组设计(或称随机区组设计)的多个样本均配伍组设计(或称随机区组设计)的多个样本均配伍组设计(或称随机区组设计)的多个样本均数比较可用无重复数据的两因素方差分析(数比较可用无重复数据的两因素方差分析(数比较可用无重复数据的两因素方差分析(数比较可用无重复数据的两因素方差分析(two-way two-way two-way two-way ANOVAANOVAANOVAANOVA)。两个因素是指主要的)。两个因素是指主要的)。两个因素是指主要的)。两个因素是指主要的研究因素研究因素研究因素研究因素和和和和配伍组配伍组配伍组配伍组因素因素因素因素。按这两个因素纵横排列数据时,每个格子
18、中仅。按这两个因素纵横排列数据时,每个格子中仅。按这两个因素纵横排列数据时,每个格子中仅。按这两个因素纵横排列数据时,每个格子中仅有一个数据,故称无重复数据。有一个数据,故称无重复数据。有一个数据,故称无重复数据。有一个数据,故称无重复数据。配伍组设计在医学科研中较常见,如在实验研究配伍组设计在医学科研中较常见,如在实验研究配伍组设计在医学科研中较常见,如在实验研究配伍组设计在医学科研中较常见,如在实验研究中,将动物按窝别配伍,再随机分配到各个处理组;中,将动物按窝别配伍,再随机分配到各个处理组;中,将动物按窝别配伍,再随机分配到各个处理组;中,将动物按窝别配伍,再随机分配到各个处理组;在观察
19、性研究中,按年龄、性别或地区配伍来抽取和在观察性研究中,按年龄、性别或地区配伍来抽取和在观察性研究中,按年龄、性别或地区配伍来抽取和在观察性研究中,按年龄、性别或地区配伍来抽取和组成研究因素的各个水平组等。组成研究因素的各个水平组等。组成研究因素的各个水平组等。组成研究因素的各个水平组等。2009.101 1 1 1.配伍组设计方差分析中变异的分解配伍组设计方差分析中变异的分解 在配伍组方差分析中,可将总变异分为三部分即:SS总=SS处理+SS配伍+SS误差且 总=处理+配伍+误差 以例6.2资料表6.4为例:例例6 6 6 6.2 .2 .2 .2 某研究者把某研究者把24242424名贫血
20、患儿贫血程度分成名贫血患儿贫血程度分成8 8 8 8个配伍组(个配伍组(b b b b),每个配伍),每个配伍组中的三名儿童用随机的方式分配给组中的三名儿童用随机的方式分配给A A A A、B B B B和和C C C C三种不同的治疗方法(处理组)。三种不同的治疗方法(处理组)。治疗后血红蛋白含量的增加量(治疗后血红蛋白含量的增加量(g/Lg/Lg/Lg/L)见表)见表6 6 6 6.4.4.4.4,问三种治疗方法有无差别?,问三种治疗方法有无差别?表表6 6 6 6.4 .4 .4 .4 三种方法治疗后血红蛋白增加量三种方法治疗后血红蛋白增加量配 伍 组 A 疗 法 B 疗 法 C 疗 法
21、 合 计iijX 1 16 18 18 52 2 15 16 20 51 3 19 27 35 81 4 13 13 23 49 5 11 14 17 42 6 10 8 12 30 7 5 3 8 16 8-2-2 3-1 jijX 87 97 136 320(X)2jijX 1261 1751 2984 5996(X2)IX 10.875 12.125 17.000 13.3339(X)返回 从从表表6 6 6 6.4.4.4.4可以看出,血红蛋白结果的变异除了可以看出,血红蛋白结果的变异除了总变异总变异、不同疗法不同疗法(处理组)间的变异(处理组)间的变异和和随机误差随机误差外,还存在着
22、贫血外,还存在着贫血程度的变异,即程度的变异,即配伍组间变异配伍组间变异,这是由于贫血程度不同所致。,这是由于贫血程度不同所致。其大小可用各配伍组均数与总均数的离均差平方和来表示,其大小可用各配伍组均数与总均数的离均差平方和来表示,即即 。其自由度为配伍组数。其自由度为配伍组数b-1b-1b-1b-1,配伍组,配伍组均方均方MSMSMSMS配伍配伍=SS=SS=SS=SS配伍配伍/(b-1b-1b-1b-1)。在配伍组方差分析中,可将总变异分为三部分即:在配伍组方差分析中,可将总变异分为三部分即:SS SS SS SS总总=SS=SS=SS=SS处理处理+SS+SS+SS+SS配伍配伍+SS+
23、SS+SS+SS误差误差 且且总总=处理处理+配伍配伍+误差误差 由于从总变异中多分离出配伍组变异,排除了贫血程由于从总变异中多分离出配伍组变异,排除了贫血程度不同对组内变异的影响,使组内变异(误差)更能反映随度不同对组内变异的影响,使组内变异(误差)更能反映随机误差的大小,因而提高了研究的效率。机误差的大小,因而提高了研究的效率。2)(XXnSSJjj=配伍2 2 2 2.分析计算步骤分析计算步骤(1 1 1 1)建立假设和确定检验水准)建立假设和确定检验水准 H H H H0 0 0 0:三种方法治疗后血红蛋白增加量总体均数相:三种方法治疗后血红蛋白增加量总体均数相等即:等即:1 1 1
24、1=2 2 2 2=3 3 3 3 H H H H1 1 1 1:三种方法治疗后血红蛋白增加量总体均数不:三种方法治疗后血红蛋白增加量总体均数不等或不全相等等或不全相等 =0.05=0.05=0.05=0.05如需检验配伍组的差别可作如下假设检验配伍组的差别可作如下假设 H H H H0 0 0 0:各配伍组血红蛋白增加量总体均数相等:各配伍组血红蛋白增加量总体均数相等 H H H H1 1 1 1:各配伍组血红蛋白增加量总体均数不等或不:各配伍组血红蛋白增加量总体均数不等或不全相等全相等 =0.05=0.05=0.05=0.05(2 2 2 2)计算检验统计量)计算检验统计量F F F F值
25、值 可按表可按表6 6 6 6.5.5.5.5中公式进行中公式进行表6.5 配伍组方差分析的计算公式用表6.4内初步分析数据计算统计量F值计算结果见表6.6配伍组 A 疗法 B 疗法 C 疗法 合计 87 97 136 320(X)1261 1751 2984 5996(X2)10.875 12.125 17.000 13.3339(X)变异来源变异来源离均差平方和离均差平方和SSSSSSSS自由度自由度均方均方MSMSMSMSF F F F总X2-C处理间k-1SS处理/处理MS处理/MS误差配伍间b-1SS配伍/配伍MS配伍MS误差误差SS总-SS处理-SS配伍总-处理-配伍SS误差/误差
26、CbXijij2CkXjiij22009.10表表6 6 6 6.6 .6 .6 .6 例例6 6 6 6.2.2.2.2的方差分析结果的方差分析结果(3 3 3 3)确定)确定P P P P值和作出推断结论值和作出推断结论 以处理(1)=2,误差(2)=14 和配伍(1)=7,误差(2)=14 查F界值表得两结果均为P 0.01。按=0.05水准拒绝H0,接受H1,可以认为三种方法治疗后,血红蛋白增加量的总体均数不等或不全相等,各配伍组即贫血程度总体均数亦不等或不全相等。变异来源 SS MS F P 总 1729.33 23 处理间 167.58 2 83.79 11.83 P 0.01 配
27、伍间 1462.66 7 208.95 29.51 P 0.01 误差 99.09 14 7.08 四、多个样本均数间的两两比较四、多个样本均数间的两两比较 多个样本均数间的两两比较又称多重比较。由于涉及的对多个样本均数间的两两比较又称多重比较。由于涉及的对比组数大于比组数大于2 2 2 2,若仍用,若仍用t t t t检验,对每两个对比组作比较,犯第检验,对每两个对比组作比较,犯第一类错误的概率增大,即可能把本来无差别的两个总体均数一类错误的概率增大,即可能把本来无差别的两个总体均数判为有差别。因此,多重比较不宜直接用判为有差别。因此,多重比较不宜直接用t t t t检验分别作两两比检验分别
28、作两两比较。较。多个样本均数间两两比较的统计处理方法有多种,如多个样本均数间两两比较的统计处理方法有多种,如 SNKSNKSNKSNK检验(检验(q q q q检验)检验)、最小显著差法(、最小显著差法(LSDLSDLSDLSD法)法)、新复极差、新复极差法(法(DuncanDuncanDuncanDuncan新法)新法)、TukeyTukeyTukeyTukey检验、检验、ScheffeScheffeScheffeScheffe s s s s 检验、检验、BonferroniBonferroniBonferroniBonferroni校正检验、校正检验、Dunnett tDunnett t
29、Dunnett tDunnett t检验等等。目前,多个样检验等等。目前,多个样本均数间的两两比较常用本均数间的两两比较常用SNKSNKSNKSNK检验;当仅做多个处理组与一检验;当仅做多个处理组与一个对照组的比较,而不需对各处理组均进行比较时,多用个对照组的比较,而不需对各处理组均进行比较时,多用Dunnett tDunnett tDunnett tDunnett t检验或最小显著差法(检验或最小显著差法(LSDLSDLSDLSD法)。法)。2009.101 1 1 1.多个样本均数的两两比较多个样本均数的两两比较 常用的统计方法是常用的统计方法是q q q q检验(又称检验(又称Newma
30、n-KeulsNewman-KeulsNewman-KeulsNewman-Keuls法或法或SNKSNKSNKSNK检验),通常当方差分析结果为差异显著检验),通常当方差分析结果为差异显著时采用本法。本方法侧重于减少第一类错误。检验时采用本法。本方法侧重于减少第一类错误。检验统计量统计量q q q q值的计算公式为值的计算公式为:式中式中,、为两个对比组的样本均数,而为两个对比组的样本均数,而MSMSMSMS误差误差为为方差分析中算得的误差均方(或组内均方),方差分析中算得的误差均方(或组内均方),n n n nA A A A、n n n nB B B B分别为两对比组的样本例数。分别为两对
31、比组的样本例数。()+=BABAnnMSXXq112/误差AXBX例6.3 对例6.1(表6.1资料)作两两比较1)H0:任意对比组的总体均数相等,即A=B H1:AB =0.052)将三个样本均数从大到小顺序排列,并编上组次:组次 1 2 3 均数 3.08 2.31 1.79 组别 非患者 可疑患者 患者 3)列出两两比较计算表(表6.7)表6.7 三个样本均数两两比较的q检验 按=0.05水准两两对比组均拒绝H0,接受H1,说明三组石棉矿工的用力肺活量两两之间均不同。对比组 A与B(1)两均数之差-(2)组数 a(3)q值(4)q界值 P=0.05 P=0.01(5)(6)P(7)1 与
32、3 1.29 3 18.28 3.61 4.70 0.05 1 与2 0.77 2 10.35 2.97 4.07 0.05 2 与3 0.52 2 6.99 2.97 4.07 0.05 2.Bonferroni校正检验 在实际工作中,对于多个样本均数间的比较,由于t检验较为简便,不少研究者仍坚持使用t检验,但在进行统计推断时,会使第一类错误的概率增大,因此,应对原来设定的经验水准进行校正。这种校正方法称为Bonferroni校正检验。假如原来设定的经验水准为假如原来设定的经验水准为,需要进行两两比较的,需要进行两两比较的次数为次数为m m m m,则进行两两比较的,则进行两两比较的检验水准
33、应校正为检验水准应校正为/m/m/m/m 。例如,三组均数间的比较,原来的检验水准为=0.05,现在需要进行3次t检验,则每次t检验的检验水准为 0.05/3=0.01670.05/3=0.01670.05/3=0.01670.05/3=0.0167,而不是,而不是0.050.050.050.05。Bonferroni校正不仅适用于多个样本均数的比较,也可适用于其他多组指标间的两两比较。需要指出的是,该校正方法在检验的次数不多时效果较好,一般不超过5次。检验次数较多时,不宜使用。为研究血清唾液酸含量对慢性胃部疾患的诊断价值,测定了正常人、慢性胃炎、溃疡病和胃癌患者的血清唾液酸含量(mg/dl),结果如下:不同人血清唾液酸含量及初步分析 经方差分析,F=311.90,p 0.05 误 差 W 30.6115 15 2.0408 练习练习练习练习 P286P286P286P286习题习题 题题2.11 2.11 2.11 2.11 完全随机设计的方差分析完全随机设计的方差分析题题2.14 2.14 2.14 2.14 随机区组设计的方差分析随机区组设计的方差分析