《第九章_方差分析.ppt》由会员分享,可在线阅读,更多相关《第九章_方差分析.ppt(70页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第九章第九章 方差分析方差分析(analysisofvariance,ANOVA)中山大学医学统计与流行病学系中山大学医学统计与流行病学系张张晋晋昕昕1多个均数比较时为什么不能直多个均数比较时为什么不能直接两两之间作接两两之间作t检验?检验?以五以五个个样本均数的比较为例:样本均数的比较为例:进行进行t 检验时,检验时,=0.05,则,则5个均数的两两比个均数的两两比较将发生较将发生10次,这时,次,这时,10次比较都不犯次比较都不犯(类)错误的概率为类)错误的概率为0.9510=0.599,有(,有(类)类)错误发生的概率则为错误发生的概率则为1-0.599=0.401。远大于设定的检验水准
2、远大于设定的检验水准(=0.05)!2应用方差分析的条件应用方差分析的条件:1.各样本是相互独立的随机样本;各样本是相互独立的随机样本;2.各样本都来自正态总体;各样本都来自正态总体;3.各个总体方差相等。各个总体方差相等。3一、方差分析的基本思想一、方差分析的基本思想第一节完全随机设计资料的方差分析第一节完全随机设计资料的方差分析4方差分析的基本思想是首先将总方差分析的基本思想是首先将总变异分解为组间变异和误差变异,然变异分解为组间变异和误差变异,然后比较平均变异后比较平均变异MSB和和MSE,比较时比较时采用两者的比值采用两者的比值F值,即值,即51.1m30位跳高的位跳高的“苗苗苗苗”2
3、000年年9月月1日进入广东省体校日进入广东省体校62 2年后年后A A组的跳高成绩组的跳高成绩A72002年年9月月1日,三组各自的情形日,三组各自的情形ABC8广西的情形广西的情形9单因素方差分析的变异分解单因素方差分析的变异分解12变异分解变异分解总变异总变异N个观察值与总均数的差异,个观察值与总均数的差异,由组内变异和组间变异构成;由组内变异和组间变异构成;组内变异(误差变异)组内变异(误差变异)每组内每组内ni个观察个观察值与该组均数的差异,由随机误差所值与该组均数的差异,由随机误差所致;致;组间变异组间变异各组的样本均数与总均数的各组的样本均数与总均数的差异,除随机误差影响外,差异
4、,除随机误差影响外,可能可能存在存在处理因素的作用。处理因素的作用。13组间变异组内变异总变异14单因素方差分析单因素方差分析15单因素方差分析单因素方差分析检验统计量检验统计量F:16表表9-5成组设计方差分析的计算公式成组设计方差分析的计算公式变异来源变异来源SSMSF总总组间组间组内组内N-1K-1N-KSS组间组间/组组间间SS组内组内/组组内内MS组间组间MS组内组内SS总总-SS组间组间17二、完全随机设计资料方差分析的基本步骤二、完全随机设计资料方差分析的基本步骤18(1)建立假设并确定检验水准建立假设并确定检验水准 H0:三个总体均数相等,三个总体均数相等,即即1=2=3H1:
5、三个总体均数不等或不全相等三个总体均数不等或不全相等=0.05(2)计算检验统计量计算检验统计量F值值19表表9-6例例9-1的方差分析表的方差分析表变异来源变异来源SSdfMSFP组组间(处理组间)间(处理组间)176.7612288.38065.5370.01组组内(误差)内(误差)909.87235715.9627总总1086.633559213)确定)确定P值并作出推断结论值并作出推断结论以分子的自由度以分子的自由度组间组间=2为为1,分母的自由度分母的自由度组内组内=57为为2,查附表查附表3.1,方差分析用,方差分析用F界界值表值表,F0.05(2,60)=3.15F0.01(2,
6、60)=4.98,F=5.537F0.01(2,60)=4.98,P0.01。在在=0.05水准上拒绝水准上拒绝H0,接受接受 H1可以认为可以认为三种人的血糖下降值的总体水平不同。三种人的血糖下降值的总体水平不同。22 注意:注意:以上结论表明,以上结论表明,总的说三种人的血糖总的说三种人的血糖下降水平不同,但并不能说明任何两种人间下降水平不同,但并不能说明任何两种人间均不同。均不同。只能说可能至少有两组人的血糖下只能说可能至少有两组人的血糖下降水平不同,可能有的组间相同。要了解那降水平不同,可能有的组间相同。要了解那些组均数间不同,那些组均数间却水平相同,些组均数间不同,那些组均数间却水平
7、相同,需要进一步做两两比较。需要进一步做两两比较。当当k=2=2时,对同一资料,单因素方差分析时,对同一资料,单因素方差分析等价于成组设计等价于成组设计的的t检验检验,且,且F=t2 2。23第二节第二节 随机区组设计资料的方差分析随机区组设计资料的方差分析一、基本思想一、基本思想242526例例9.2为探索丹参对肢体缺血再灌注损伤的影响,将为探索丹参对肢体缺血再灌注损伤的影响,将30只纯种新西兰实验用大白兔,按窝别相同、体重相只纯种新西兰实验用大白兔,按窝别相同、体重相近划分为近划分为10个区组。每个区组间个区组。每个区组间3只大白兔随机采用只大白兔随机采用A、B、C三种处理方案即在松止血带
8、前分别给予丹参三种处理方案即在松止血带前分别给予丹参2ml/kg、1ml/kg、生理盐水生理盐水2ml/kg在松止血带前及松在松止血带前及松后后1小时分别测定血中白蛋白含量(小时分别测定血中白蛋白含量(g/L),算出白蛋白算出白蛋白减少量如下表减少量如下表97,问,问A、B两方案分别与两方案分别与C方案的处方案的处理效果是否不同?理效果是否不同?27表表9 97 A.B.C7 A.B.C三种方案处理后大白兔血中白蛋白减少量三种方案处理后大白兔血中白蛋白减少量(g/L)(g/L)区组号区组号A方案方案B方案方案C方案方案123456789102.212.323.151.862.561.982.3
9、72.883.053.422.912.643.673.292.452.743.153.442.612.864.254.564.333.893.784.624.713.563.774.233.12333.17333.71673.01332.93003.11333.41003.29333.14333.5033102.58000.2743102.97600.1581104.17000.160530(N)3.24200.6565(S2)28总变异总变异误差变异:误差变异:个体差异及血白蛋白的随机测定误差。个体差异及血白蛋白的随机测定误差。处理组间变异:处理组间变异:A、B、C不同方案的影响及机测量误差
10、。不同方案的影响及机测量误差。区组间区组间变异:变异:既反映了十个区组不同的影响既反映了十个区组不同的影响同时又包括同时又包括了随机测量误差。了随机测量误差。29表表9-10随机区组设计方差分析的计算公式随机区组设计方差分析的计算公式变异来源变异来源SSvMS F处理间处理间区组间区组间k-1n-1v总总-v处理处理-v配伍配伍SS处理处理/v处处理理SS区组区组/v区区组组SS误差误差/v误误差差MS处理处理/MS误差误差MS区组区组/MS误误差差总总N1误误差差SS总总-SS处理处理-SS配伍配伍30表表9-9例例9-2的方差分析表的方差分析表变异来源变异来源SSdfMSFP组组间(处理组
11、间)间(处理组间)13.708026.850932.6390.05误误差差3.7790180.2099总总19.03852931二二 分析计算步骤分析计算步骤(1 1)建立假设并设定检验水准)建立假设并设定检验水准对于处理组:对于处理组:H0:三个总体均数全相等,即三个总体均数全相等,即1 1=2 2=3 3 H1:三个总体均数不等或不全相等三个总体均数不等或不全相等对于区组:对于区组:H0:十个总体均数全相等十个总体均数全相等 H1:十个总体均数不等或不全相等十个总体均数不等或不全相等 =0.05=0.05(2 2)计算检验统计量)计算检验统计量F F 值值32(3)确定确定P P 值并作出
12、推断结论值并作出推断结论以分子的自由度以分子的自由度处理处理 =2=2为为1 1,分母的自由度分母的自由度误差误差 =18=18为为2 2,查附表查附表3 3,方差分析用,方差分析用F F 界值表界值表,F F0.05(2,18)0.05(2,18)=2.62=2.62,F F处理处理=32.639=32.639 F F0.05(2,18)0.05(2,18)=2.62=2.62,P P 0.050.05。在。在=0.05=0.05水准上拒绝水准上拒绝H0,认为认为三种方案的处三种方案的处理不同。理不同。以分子的自由度以分子的自由度区组区组 =9=9为为1 1,分母的自由度分母的自由度误差误差
13、 =18=18为为2 2,查附表查附表3 3,方差分析用,方差分析用F F 界值表界值表,F F0.05(90.05(9,18)18)=2.00=2.00,F F处理处理=0.825=0.8250.05 0.05。在。在=0.05=0.05水准上不拒绝水准上不拒绝H0,还还不能认为十个区组间平均不能认为十个区组间平均水平不同。水平不同。33第三节第三节析因设计资料的方差分析析因设计资料的方差分析方差分析中,影响观察指标的因素称为因方差分析中,影响观察指标的因素称为因子子(factor);因子所处的状态称为因子的一个水因子所处的状态称为因子的一个水平平(leveloffactor);各因子水平的
14、组合称为处各因子水平的组合称为处理理(treatment)。例例9-39-3 某研究人员为了解升白细胞药物某研究人员为了解升白细胞药物(A)(A)和纯苯和纯苯(B)(B)对大鼠对大鼠吞噬指数吞噬指数的影响,以及两者同时使用作用。将的影响,以及两者同时使用作用。将2020只性别相同、体重相近的大只性别相同、体重相近的大鼠,按鼠,按A、B两因素有两因素有无分为四个处理组,无分为四个处理组,A因素有两个水平即用升白细胞因素有两个水平即用升白细胞药物和不用升白细胞药物,药物和不用升白细胞药物,B因素也分为两个水平即因素也分为两个水平即用用0.3ml/kg0.3ml/kg纯苯给大鼠皮下注射染毒和未用纯苯
15、染毒。纯苯给大鼠皮下注射染毒和未用纯苯染毒。测得其吞噬指数结果见表测得其吞噬指数结果见表9-119-11。34表表9-1120只大鼠的吞噬指数只大鼠的吞噬指数用用升升白细胞药物白细胞药物(ai,i=1)不用升白细胞药物不用升白细胞药物(ai,i=2)合计合计用用纯苯纯苯不用纯苯不用纯苯用纯苯用纯苯不用纯苯不用纯苯(bi,j=1)(bi,j=2)(bi,j=1)(bi,j=2)1.943.801.853.882.254.902.013.842.034.062.103.962.103.851.923.922.083.842.043.805555202.08003.89001.98401.98402
16、.95850.01290.01030.00980.00980.9126101010102.98502.73202.03202.032035一、单独效应、主效应和交互效应一、单独效应、主效应和交互效应表表9-12例例9-3大鼠的吞噬指数均数的差别大鼠的吞噬指数均数的差别B因素因素A因素因素平均平均a1-a2用用(a1)不用不用(a2)用用(b1)2.08001.98402.03200.0960不用不用(b2)3.89003.88003.88500.0100平均平均2.98502.93202.95850.0530 b1-b2-1.8100-1.8960-1.8530单独效应单独效应主效应主效应二者
17、差值为交互效应二者差值为交互效应36二、离均差平方和与自由度的分解:二、离均差平方和与自由度的分解:析因设计是将两个或多个实验因素的各析因设计是将两个或多个实验因素的各水平进行排列组合、交叉分组进行实验,因水平进行排列组合、交叉分组进行实验,因此其方差分析的总变异可以分为处理和误差此其方差分析的总变异可以分为处理和误差两部分。两部分。22析因设计处理变异包含了析因设计处理变异包含了A因素、因素、B因素的主效应及因素的主效应及A、B两因素间的交互效应。两因素间的交互效应。37383940表表914两因素两因素ab析因设计方差分析的计算公式析因设计方差分析的计算公式变异来源变异来源SSdfMSF处
18、处理理ABAB误误差差总总41三、析因设计资料方差分析的基本步骤三、析因设计资料方差分析的基本步骤(略)(略)42第四节第四节 重复测量资料的方差分析重复测量资料的方差分析重复测量资料重复测量资料(repeatedmeasurementdata)是同一对象的同一观察指标在不同时间点上进行是同一对象的同一观察指标在不同时间点上进行多次测量所得的资料,常用来分析该指标在不同多次测量所得的资料,常用来分析该指标在不同时间时间点上的变化特点。这类资料在临床试验和流点上的变化特点。这类资料在临床试验和流行病学研究中常见。行病学研究中常见。43例例9-4为研究减肥新药盐酸西布曲明片和盐酸为研究减肥新药盐酸
19、西布曲明片和盐酸西布曲明胶囊的减肥效果是否不同,以及肥胖患西布曲明胶囊的减肥效果是否不同,以及肥胖患者服药后不同时间的体重随时间的变化情况。分者服药后不同时间的体重随时间的变化情况。分别于平衡期别于平衡期(0周周)、服药后的、服药后的8周、周、16周、周、24周测周测定肥胖患者的体重定肥胖患者的体重(kg)见表见表9-1344受试受试对象对象j剂型剂型k服药后测定时间服药后测定时间(周周)0816241184.482.882.283.021105.0100.897.496.63163.862.061.660.44186.285.583.081.85175.673.474.073.06161.2
20、60.460.860.27167.866.063.463.68177.273.672.672.09173.272.272.274.610165.463.662.660.811180.077.072.469.412174.477.075.277.413182.680.481.279.614168.665.063.263.415179.077.073.872.516169.466.864.460.817172.671.068.270.218172.472.672.872.619175.673.473.472.24520180.078.076.474.821264.461.461.862.02229
21、1.088.487.489.623276.076.272.871.624271.072.069.868.425269.466.662.860.826289.987.492.695.527266.863.662.661.628263.461.262.662.029270.067.669.869.430286.684.081.478.031290.484.477.471.032274.873.672.876.633267.464.461.058.234284.482.280.275.435279.076.076.578.536287.483.281.277.237268.765.863.066.4
22、38283.081.878.478.439266.564.463.465.440264.662.664.262.046随机区组与重复测量资料的区别主要有二随机区组与重复测量资料的区别主要有二:1)1)重复测量资料中同一受试对象的数据高度相关重复测量资料中同一受试对象的数据高度相关2)表表9-14 9-14 表表9-139-13数据的简单相关系数数据的简单相关系数r(n=20)=20)3)2)重复测量资料中的处理因素在受试对象间为随机分配,重复测量资料中的处理因素在受试对象间为随机分配,但受试对象内的各时间点往往是固定的,不能随机分配;但受试对象内的各时间点往往是固定的,不能随机分配;随机区组设
23、计资料中每个区组内的受试对象彼此独立,处随机区组设计资料中每个区组内的受试对象彼此独立,处理只在区组内随机分配,同一区组内的受试对象接受处理理只在区组内随机分配,同一区组内的受试对象接受处理各不相同各不相同(k=1)服药后服药后测定时间测定时间i服药后测定时间服药后测定时间i(周周)(k=2)服药后服药后测定时间测定时间i服药后测定时间服药后测定时间i(周周)816248162400.9890.9710.93900.9890.9440.85080.9860.96680.9610.880160.985160.95847一、离均差平方和与自由度的分解:一、离均差平方和与自由度的分解:全部受试对象用
24、全部受试对象用Xijk表示表示 ,其中,其中i表示时间点表示时间点,j表示受试对象表示受试对象,k表示受试对象的处理因素。表示受试对象的处理因素。48二、重复测量资料方差分析的基本步骤二、重复测量资料方差分析的基本步骤(1 1)建立假设并建立检验水准建立假设并建立检验水准对于因素对于因素k:H0 0:不同剂型不同剂型的减肥总体均数相等,即的减肥总体均数相等,即1 1=2 2 H1 1:不同剂型不同剂型的减肥的总体均数不等或不全相等的减肥的总体均数不等或不全相等对于时间因素对于时间因素i:H0 0:服用减肥药前后服用减肥药前后不同时间不同时间体重的总体均数相等体重的总体均数相等 H1 1:服用减
25、肥药前后服用减肥药前后不同时间不同时间体重的总体均数不等或体重的总体均数不等或不全相等不全相等49对于交互作用对于交互作用ki:H0:服药剂型服药剂型k和时间和时间i间无交互效应,即间无交互效应,即k因素与因素与i因素因素无交互作用无交互作用H1:服药剂型服药剂型k和时间和时间i间有交互效应,即间有交互效应,即k因素与因素与i因素有因素有交互作用交互作用=0.05(2)计算检验统计量计算检验统计量F值:值:变异来源变异来源SSdfMSFP(受试受试对象间对象间)(13163.9810)(39)处理处理k5.929015.92900.0170.897个体间误差个体间误差13158.0520383
26、46.2645(受试受试对象内对象内)(904.6500)(120)时间时间i384.53003128.176728.2130.000交互作用交互作用ki2.194030.73130.1610.922个体内误差个体内误差517.92601144.5432总总14068.631015988.482050(3)确定)确定P 值,做出推断结论值,做出推断结论本例,按本例,按 =0.05的水准,减肥药剂型的水准,减肥药剂型K、剂剂型型K与与时间时间I的交互应的交互应KI均不拒绝均不拒绝H0,无统无统计学意义,还不能认为盐酸西布曲明不同剂计学意义,还不能认为盐酸西布曲明不同剂型的减肥效果不同,也不能认为
27、盐酸西布曲型的减肥效果不同,也不能认为盐酸西布曲明不同剂型和不同时间的交互作用的减肥效明不同剂型和不同时间的交互作用的减肥效果不同。果不同。而时间因素而时间因素I拒绝拒绝H0,接受,接受H1,有统计学意,有统计学意义,可认为服用减肥药盐酸西布曲明前后不义,可认为服用减肥药盐酸西布曲明前后不同时间的平均体重不全相等。同时间的平均体重不全相等。51三、重复测量资料方差分析的前提条件三、重复测量资料方差分析的前提条件进行重复测量资料的方差分析,除需满足一般方差分析进行重复测量资料的方差分析,除需满足一般方差分析的条件外,还需要特别满足协方差的条件外,还需要特别满足协方差阵(阵(covariancem
28、atrix)的球形性(的球形性(sphericity/circularity)或复合对称性(或复合对称性(compoundsymmetry)。若球形不对称性质不能满足,则方差分析的若球形不对称性质不能满足,则方差分析的F值是有偏的,对处理因素而言值是有偏的,对处理因素而言,它增大了第一类错误的概它增大了第一类错误的概率。球形对称性通常率。球形对称性通常采采Mauchly检验(检验(Mauchlystest)来来判断。判断。表表9-16例例9-4资料的资料的Mauchly检验和球对称系数检验和球对称系数 MauchlysW检验检验 2dfP球对称系数球对称系数 Greenhousw-Geisse
29、rHuynh-Feldt0.098585.13350.0000.43610.457352 若按规定的检验水准若按规定的检验水准 =0.10,拒绝,拒绝H0,接受接受H1,则理论上讲应对受试对象内所有变异的自由则理论上讲应对受试对象内所有变异的自由度进行校正,包括时间效应、处理和时间的交互效度进行校正,包括时间效应、处理和时间的交互效应以及个体误差三者的自由度均进行校正。应以及个体误差三者的自由度均进行校正。表表9-17 9-17 例例9-49-4资料经球对称系数资料经球对称系数 计算机结果计算机结果变异来源变异来源dfFP校正校正df校正校正PG-GH-FG-GH-F(受试受试对象内对象内)(
30、120)时间时间I I328.2130.0001.311.370.0000.000交互作用交互作用KIKI30.1610.9221.311.370.7570.768个体内误差个体内误差11449.7252.135354第四节第四节 多个样本均数间的两两比较多个样本均数间的两两比较2.检验全部检验全部k个总体均数是否相等个总体均数是否相等,在研究设计阶段对实验结果知之不多的在研究设计阶段对实验结果知之不多的探索性研究探索性研究,或经数据结果的提示后,才决定的多个均数间的两两或经数据结果的提示后,才决定的多个均数间的两两比较,这类情况往往涉及到每两个均数的两两比较。比较,这类情况往往涉及到每两个均
31、数的两两比较。1.检验某几个特定的总体均数是否相等检验某几个特定的总体均数是否相等在设计阶段就根据研究目的或专业知识决定了某在设计阶段就根据研究目的或专业知识决定了某些均数间的两两比较,常见于事先有明确假设的些均数间的两两比较,常见于事先有明确假设的证证实性实验研究实性实验研究。55一、多个样本均数间每两个均数的比较:一、多个样本均数间每两个均数的比较:即即SNK-q检验。检验。为两个对比组的样本均数为两个对比组的样本均数为比较两组差值的标准误,当各处理组例数相等时,为比较两组差值的标准误,当各处理组例数相等时,也相等,也相等,MS误差误差为方差分析中算得的误差均方(组内均方),为方差分析中算
32、得的误差均方(组内均方),nA和和nB分分别为两对比组的样本例数。别为两对比组的样本例数。56计算的检验统计量计算的检验统计量为为q值,值,q的分布与两比较组之的分布与两比较组之间的组间间的组间跨度跨度a及及自由度自由度有关。有关。组间跨度组间跨度a是指是指之间涵盖的均数个数(包括之间涵盖的均数个数(包括自身在内)自身在内)每个对比组所包含的组数(组间跨度)每个对比组所包含的组数(组间跨度)a=2,3,K。根据检验统计量根据检验统计量q值,组间跨度值,组间跨度a,误差自由度误差自由度误差误差及检验水准及检验水准,查,查q界值表,确定界值表,确定P值。值。例例9-5 对例对例9-1资料做两两比较
33、资料做两两比较H0:任:任两两对比组的总体均数相等,即对比组的总体均数相等,即A=BH1:任两任两对比组的总体均数不等,即对比组的总体均数不等,即AB=0.0557将三个样本均数从小到大排列,并编上组次:将三个样本均数从小到大排列,并编上组次:组次组次 1 2 31 2 3均数均数 9.1952 5.8000 5.43009.1952 5.8000 5.4300组别组别 高剂量组高剂量组 低剂量组低剂量组 对照组对照组 表表9-18 9-18 例例9-19-1的的SNK检验计算表检验计算表对比组对比组两均数之差两均数之差差值的差值的q对比组内对比组内q临界值临界值PA与与B标准误标准误包含组数
34、包含组数a0.050.01(!)(2)4=(2)/(3)(5)(6)(7)(8)1与33.76520.88274.26633.404.280.010.051与23.39520.89453.79622.833.760.0558二、二、Dunnett-t检验:检验:它适用于多个实验组它适用于多个实验组与一个对照组的比较与一个对照组的比较根据算得的根据算得的t值、误差的自由度、试验组数(值、误差的自由度、试验组数(K-1)及检验水准查及检验水准查Dunnett-t界值界值表,作出统计推断结论。表,作出统计推断结论。例例9-6分析例分析例9-2比较比较A、B两方案(均为实验组)与方两方案(均为实验组)
35、与方案案C(对照组)的总体均数是否不同?(对照组)的总体均数是否不同?591)A方案与方案与C方案相比方案相比H0:任一实验组与任一实验组与C方案的总体均数方案的总体均数相等相等H1:任一实验组与任一实验组与C方案的总体均数方案的总体均数不等不等=0.052)计算检验统计量计算检验统计量表表9-19例例9-2的的Dunnett-t检验计算表检验计算表3)确定确定P值,作出统计推断结论值,作出统计推断结论查查Dunnett-t界值表,得双侧界值表,得双侧t0.05=2.04,t0.01=2.84,P0.01,在在=0.05水准上,拒绝水准上,拒绝H0,接受接受H1。故认为故认为A方案方案与与C方
36、案方案及及B方案与方案与C方案的总体均数均不同。方案的总体均数均不同。对比组对比组T与与C(1)两两均数之差均数之差tDP(4)A与与C-1.5900-7.7600.01B与与C-1.1940-5.8270.0160三、三、Bonfferoni法法设设共进行共进行m次比较,则每次比较的检验水准次比较,则每次比较的检验水准=0.05/m可以保证总的一类错误水平被控制在可以保证总的一类错误水平被控制在0.05内。内。例如例如m=6时,实际的一类错误水平为时,实际的一类错误水平为1-(1-0.05/6)6=0.048970.05实质上实质上Bonfferoni法是对法是对检验水准检验水准进行调整,故
37、又进行调整,故又称称Bonfferoni调整调整(Bonfferoniadjustment)法。法。该法的思想适用于所有的两两比较,无论是本章介该法的思想适用于所有的两两比较,无论是本章介绍的多个均数比较,还是前面的多个频率比较。绍的多个均数比较,还是前面的多个频率比较。61第六节第六节 方差分析的前提条件和变量变换方差分析的前提条件和变量变换方差分析的前提条件方差分析的前提条件为各样本是相互独立的随机为各样本是相互独立的随机样本,均服从正态分布且各样本的总体方差相等样本,均服从正态分布且各样本的总体方差相等。在进行方差分析时,实际资料有时不能完全满足在进行方差分析时,实际资料有时不能完全满足
38、任何观察值都独立地来自具有等方差正态总体的假定,任何观察值都独立地来自具有等方差正态总体的假定,此时进行方差分析时,可能此时进行方差分析时,可能导致导致F值偏大,从而有增大值偏大,从而有增大第一类错误的危险。第一类错误的危险。在在样本例数较多样本例数较多的情况下,样本均数可看成近似的情况下,样本均数可看成近似正态分布,此时,方差分析对总体的非正态性并不苛正态分布,此时,方差分析对总体的非正态性并不苛求。求。当每组样本例数相等时,方差分析对于方差的齐当每组样本例数相等时,方差分析对于方差的齐性并不苛求,故在方差分析时,最好采用每组例数相性并不苛求,故在方差分析时,最好采用每组例数相等的等的平衡设
39、计方案平衡设计方案。62变量变换的目的变量变换的目的:1)使各组达到方差齐性。)使各组达到方差齐性。2)使资料转换为正态分布,以满足方差分析和)使资料转换为正态分布,以满足方差分析和t检检验的应用条件。验的应用条件。通常情况下,一种适当的函数转换可使上述两个目通常情况下,一种适当的函数转换可使上述两个目的同时达到。的同时达到。3)直线化。常用于曲线拟合。)直线化。常用于曲线拟合。63对数变换对数变换即将原始数据即将原始数据X的对数值作为新的分析数据。的对数值作为新的分析数据。常用于:常用于:1)使使服服从从对对数数正正态态分分布布的的数数据据正正态态化化。可可用用对对数数变换改善其正态性。变换
40、改善其正态性。2)使使资资料料达达到到方方差差齐齐性性的的要要求求,特特别别是是各各样样本本的的标标准准差差与与均均数数成成比比例例或或变变异异系系数数CV接接近近一一个个常常数数时。时。642.平方根变换平方根变换即将原始数据即将原始数据X的平方根作为新的分的平方根作为新的分析。析。数据常用于:数据常用于:1)使服从)使服从Poisson分布的计数资料或轻分布的计数资料或轻度偏态资料正态化,可用平方根变换使其正态化。度偏态资料正态化,可用平方根变换使其正态化。2)当各样本的方差与均数呈正相关时,可使资料达)当各样本的方差与均数呈正相关时,可使资料达到方差齐性。到方差齐性。3.倒数变换倒数变换
41、即将原始数据即将原始数据X的倒数作为新的分析数的倒数作为新的分析数据。据。常用于资料两端波动较大的资料,可使极端值的常用于资料两端波动较大的资料,可使极端值的影响减小。影响减小。654.平方根反正弦变换平方根反正弦变换即将原始数据即将原始数据X的平方根反正的平方根反正弦值做为新的分析数据。弦值做为新的分析数据。常用于服从二项分布的率或百分比的资料。一常用于服从二项分布的率或百分比的资料。一般认为等总体率较小如般认为等总体率较小如30%时或较大(如时或较大(如70%时),偏离正态较为明显,通过样本率的平方根正时),偏离正态较为明显,通过样本率的平方根正弦变换,可使资料接近正态分布,达到方差齐性的
42、弦变换,可使资料接近正态分布,达到方差齐性的要求。要求。66小结小结1、方差分析的基本思想方差分析的基本思想是把分部观察值总的是把分部观察值总的离均差平方和分解为至少两部分,其自由度也分解离均差平方和分解为至少两部分,其自由度也分解为相应几个部分。每一部分有一定意义,其中至少为相应几个部分。每一部分有一定意义,其中至少有一部分表示各组均数间的变异,另一部分表示误有一部分表示各组均数间的变异,另一部分表示误差。离均差平方和除以自由度得均方,组间均方与差。离均差平方和除以自由度得均方,组间均方与误差均方之比为误差均方之比为F值。值。F值远大于值远大于1,表示各组均数,表示各组均数间有显著性;间有显
43、著性;F值近于值近于1,则表示差别无统计学意,则表示差别无统计学意义,其界点查义,其界点查F界值表(方差分析用)。界值表(方差分析用)。2、方差分析的用途方差分析的用途很广,本章介绍了多个样很广,本章介绍了多个样本均数比较中的成组设计单因素方差分析、随机区本均数比较中的成组设计单因素方差分析、随机区组设计的两因素方差分析、析因设计及重复测量设组设计的两因素方差分析、析因设计及重复测量设计,其目的在于推断各总体均数是否相等。计,其目的在于推断各总体均数是否相等。673、若方差分析发现各总体均数有差别,必要、若方差分析发现各总体均数有差别,必要时可进一步作时可进一步作两两比较两两比较。4、作方差分
44、析前要、作方差分析前要满足其应用条件满足其应用条件,必须来,必须来自正态总体和方差齐。若不来自正态总体应采用非自正态总体和方差齐。若不来自正态总体应采用非参数检验和变量变换;若方差不齐应采用变量变换、参数检验和变量变换;若方差不齐应采用变量变换、非参检验和近似非参检验和近似F。5、变量变换的目的是使方差齐,使资料正态变量变换的目的是使方差齐,使资料正态化,还可用于曲线直线化。应根据的性质选用化,还可用于曲线直线化。应根据的性质选用适当适当的变量变换的方法的变量变换的方法。6、方差分析的用途,步骤和应用条件可概、方差分析的用途,步骤和应用条件可概括为如下的括为如下的流程图流程图。68多个样本均数比较多个样本均数比较方差齐与正态性方差齐与正态性不齐不齐齐齐近似检验:近似检验:F 检验检验变量变换变量变换秩和检验秩和检验成组成组设计设计区组设计区组设计单因素方差分析单因素方差分析无交互作用无交互作用两因素设计且有交互作用两因素设计且有交互作用同一受试对象的同一受试对象的同一观察指标在不同同一观察指标在不同时间点上进行多次测量时间点上进行多次测量差别有意义?差别有意义?给出结论给出结论无无Bonfferoni法法q检验法检验法Dunnett-t检验法检验法有有两因素析因设计两因素析因设计重复测量重复测量6970