《研究生统计学讲义第4讲第4章正态性检验和方差齐性检验.pptx》由会员分享,可在线阅读,更多相关《研究生统计学讲义第4讲第4章正态性检验和方差齐性检验.pptx(52页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、会计学1研究生统计学讲义第研究生统计学讲义第4讲第讲第4章正态性检章正态性检验和方差齐性检验验和方差齐性检验分布的峰度如图4-5中的两条实线所示,一条“高、瘦”,峰态尖峭而尾部伸展,为尖峭峰;另一条“矮、胖”,峰顶平阔且尾部短促,为平阔峰。尖峭峰与平阔峰都不同于正态峰。第1页/共52页描述对称的统计量常用偏度系数(coefficientofskewness),描述正态峰的统计量常用峰度系数(coefficientofkurtosis),计算公式为:Skewness=Kurtosis=第2页/共52页偏度s=0表示正态;偏度系数s0,表示数据分布有长尾拖在右边为正偏态;偏度系数s0表示数据分布有
2、长尾拖在左边为负偏态。偏度系数的绝对值愈大,表示数据分布形态的偏斜程度愈大。峰度系数k=0,表示数据分布与正态分布的陡缓峭程度相同;峰度系数k0,表示比正态分布峰高,为尖峭峰;峰度系数k0表示比正态分布峰低为平阔峰。H0:总体服从正态分布;H1:总体不服从正态分布。用统计软件不方便时,否定正态性的方法最简单的是将均数与中位数及标准差进行比较,均数与中位数两者不等且相差较大时,分布不对称;标准差大于均数时,表示数据分散,曲线“矮、胖”,峰平阔,与正态峰度不同,可以判定不符合正态分布。第3页/共52页t 检验或方差分析对正态性的要求:(1)当变量x 值有正有负时,一般用 3S+3S范围内是否包括了
3、该批数据的最小值与最大值作出判断,当最小值与最大值均在此范围之间时,可采用 t检验或方差分析作统计推断。(2)医药指标的测定值通常为正值,反映数据分布情况的频数曲线左侧50%的数据只可能在0,范围内变化,而标准差S是频数分布曲线上拐点到均数的距离,故S,由于存在抽样误差,S可能大于 ,也可能略小于2S,但一般不会小于2S很多。若 2S或略小于2S时,可用 t检验或方差分析法;若 远小于2S时,则不用 t检验或方差分析法作统计推断。第4页/共52页例4.4判断例3.1资料的数据文件血糖的正态性。H0:总体服从正态分布,H1:总体不服从正态分布。使用SPSS打开数据文件L1101.sav 以后,可
4、用1-SampleK-STest法(柯尔莫哥诺夫-斯米尔诺夫检验)二、方差齐性检验 总体方差相等(即差异无统计学意义),称为方差齐性(homogeneityofvariance).方差齐性检验(testforhomogeneityofvariance)是利用理论上来自正态分布的总体的各样本信息,来推断它们的总体方差是否相等。第5页/共52页方差齐性检验主要用于:两组或多组间变异度的比较;两个或多个样本均数间比较时,须先进行方差齐性检验,若方差齐,可用t 检验或方差分析,否则可用变量变换的方法,使之方差齐后再用t 检验或方差分析,或用对方差没有特别要求的t检验或其他非参数的统计方法。二、预备知识
5、F分布与2分布 总体方差相等(即差异无统计学意义),称为方差齐性(homogeneityofvariance)。方差齐性检验(testforhomogeneityofvariance)是利用理论上来自正态总体的各样本信息,来推断它们的总体方差是否相等。我们先介绍两个检验统计量的分布-F分布和2分布。第6页/共52页(1)F分布数理统计中定义:如果随机变量X1、X2分别服从自由度为df1,df2的2分布,则称随机变量F=服从自由度为df1,df2的F分布(F-distribution)。F分布(F-distribution)有两个自由度,第一自由度为分子自由度df1;第二自由度为分母自由度df2
6、,且位置不能更换。F分布曲线偏向左边,随着自由度df1,df2的同时增大,F分布曲线趋向于对称。第7页/共52页不同配对自由度的F 分布F分布曲线偏向左边,随着自由度df1,df2的同时增大,F分布曲线趋向于对称。我们用F(df1,df2)表示自由度为df1,df2时,检验水准的F界值,第8页/共52页本书附表6录用了按P(FF(df1,df2)=编制的F界值表,表中横标目为分母的自由度df2,纵标目为分子的自由度df1,表中数字表示F的界值F(df1,df2);附表6右上角插图中阴影部分,表示 F分布曲线下,界值F(df1,df2)右侧面积占总面积的百分数,意义是:从正态总体作随机抽样,得到
7、统计量F值大于界值 F(df1,df2)的概率P(FF(df1,df2)=。例如:查附表6,界值F0.05(5,10)=3.33,它表示自由度df1=5,df2=10时,F 值大于3.33的概率为0.05,即P(F 3.33)=0.05;显然P(F12.1)=0.01,P(F12.1)=0.99。因一般都按组成统计量F的分子大于分母计算 F值。所以附表4中F界值都大于1。从附表6最后一列看的出来,随机变量取值的单侧 P界值(即单侧时的界值)与同侧的双侧2P界值(即双侧时的界值)相等,F 分布具有倒数性质:F(1),(df2,df1)第10页/共52页 利用 F分布的倒数性质可以求得单侧 F界值
8、表中没有列出的 F界值,也可以求得按组成统计量 F的分子小于分母时F分布的界值。例如,查附表6,F0.05(2,5)=5.786,F界值表中没有列出F0.95(5,2),利用 F分布的倒数性质可得F0.95(5,2)=1/F0.05(2,5)=1/5.79=0.173F分布用于方差分析和两样本比较时的方差齐性检验的重要依据是下面的性质:如果分别从两个正态总体N(1,1)和N(2,2)中,随机抽取样本含量为n1,n2的两个样本,算出样本均数和方差分别为1,S和2,S,则统计量第11页/共52页F=服从自由度为df1=n1-1,df2=n2-1的F分布。F分子的自由度df1=1时,单侧F界值=双侧
9、t界值的平方,即单侧F(1,df)=双侧t2(df)。(2).2分布数理统计中定义:如果u1,u2,.,un是n个独立的标准正态变量,则称随机变量2=u12+u22+.+un2(4-25)服从自由度为df=n的2分布(2-distribution)。第12页/共52页卡方分布的均数是n1或自由度df,卡方总体方差等于2(n1)或df2分布曲线偏向左边,随自由度df的不同而不同,自由度越小越偏,自由度相当大时,2分布曲线接近正态分布曲线。第13页/共52页附表4列出自由度从1到500的卡方分布一些重要累积分布函数值范围从0.995到0.005,表的左边列出的自由度确定不同的分布例如下图中,自由度
10、df=3,=3,并且Var()=6Var=variance第14页/共52页2分布的规律可从附表4得到。附表4为单侧2界值表,表中横标目为自由度df,纵标目为概率P,表中数字表示自由度为df时,水准下的2界值2(df);附表右上角插图中阴影部分,表示2分布曲线下,界值2(df)右侧面积占总面积的百分数,表示从正态总体作随机抽样,得到统计量2值大于界值2(df)的概率为。单侧的界值2(df)可由附表4直接查出;求双侧的2界值时:需用/2值查附表4,得出右侧的2界值,由于2分布不对称,另一侧的2界值,需用(1-/2)查附表4得出。例如,直接查附表2,得单侧2界值20.05(5)=11.07,它表示
11、自由度df=5时,2值大于11.07的概率为0.05,P(23时,可认为不满足方差齐性的条件。四.样本方差与已知总体方差比较记已知的(或规定的)总体方差为20。按(式4-28)计算检验统计量2(2分布见第十章),可检验H0:2=20是否成立,若由样本算得的22(n1)界值,则P,按水准拒绝H0;否则不能拒绝H0。2=(n-1)s2/2=(n-1)s2/20,df=n-1(4-28)第21页/共52页【例4.6】某剂型药物正常生产过程中,含碳量(%))服从均数为1.408,方差为0.0482的正态分布。今从某班产品中随机抽取5件,测得其含碳量(%)为1.32,1.55,1.36,1.40和1.4
12、4,判断该班生产该剂型药物含碳量的波动性是否超标?解:样本方差S2=0.0882。20=0.0482H0:20.0482;H1:20.0482。=0.05。检验统计量2=(n-1)s2/20=(5-1)0.0882/0.0482=13.5;以自由度df=n-1=4查2界值表(附表4),得20.01(51)=13.28,Pt0.018),P0.01,拒绝H0,可认为人工培植人参中M物质的含量与野生人参不同。也可用可信区间推断,本例,差值的95%可信区间为(-22.2129,-20.0538),不包含0(如果H0成立,则差值的均数应为0),所以,按=0.05水准,可认为人工培植人参中M物质含量与野
13、生人参不同。B.SPSS软件计算第29页/共52页操作过程:AnalyzeCompareMeansOne-SampleTTest,将M物质的含量x选入Testvariables(检验变量)框中,在TestValue(检验值)对话框中改原系统默认值0为检验值63.5(如图5-5),OK。输出结果:One-SampleStatisticsNMeanStd.DeviationStd.ErrorMeanM物质含量942.36671.40446.46815如图,n=9,差别的均数=42.3667,标准差S=1.40446,标准误=s/=0.46815;第30页/共52页One-SampleTestTes
14、tValue=63.5tdfSig.(2-tailed)MeanDifference95%ConfidenceIntervaloftheDifferenceLowerUpperX-45.1428.000-21.1333-22.2129-20.0538 t 检验统计量=45.142,自由度df=8,双侧P=0.0000.05,可认为人工培植人参中M物质的含量与野生人参不同。同时,由95%ConfidenceIntervaloftheDifference(差别的95%可信区间)为(-22.2129,-20.0538),不包含63.5,也可以认为人工培植人参中物质的含量与野生人参不同。第31页/共5
15、2页配对设计实验均数比较统计方法的选择见图4-10。三、配对设计的均数比较(配对t 检验)第32页/共52页配对设计实验的均数比较,满足正态性时,可用配对t 检验;不满足正态性时,可用非参数检验,也可以作变量转换使达到正态性后,用t 检验。本节介绍配对t 检验法。假设配对差值d 的总体均数d为0,推断配对差值的样本均数与0之间的差异有无显著性而作出判断。检验统计量为:自由度df=n1P64例4.8为研究三棱莪术液的抑瘤效果,将20只小白鼠配成10对,然后将每对中的两只小白鼠随机分到实验组和对照组中,两组动物都接种肿瘤,实验组在第33页/共52页对子号对照组x实验组yd=xy1234567891
16、03.64.54.24.43.75.67.04.15.04.53.02.32.41.14.03.72.71.92.61.30.62.21.83.3-0.31.94.32.22.43.2合计n=10,d=21.6(1)建立假设和确定检验水准H0:d=0,H1:d0.=0.05(2)计算检验统计量t值:(3)确定P 值和作出结论:据自由度df=n1=9查t 界值表(附表5),双侧t0.001(9)=4.78,tt0.001(9),P0.001,拒绝H0,接受H1。可认为三棱莪术液有抑瘤效果。第34页/共52页如使用统计软件,在数据编辑窗的变量窗口分别以实验组和对照组为变量名,在数据窗口键入实验组和
17、对照组数据,建立数据文件如图,采用Paired-SampleTTest(配对样本t检验)过程,操作过程:输出结果:如图,差值=2.1600,标准差S1.321,标准误=0.41772,统计量t=5.171,自由度df=9,双侧P=0.001,拒绝H0,接受H1。第35页/共52页四、完全随机设计资料的两均数比较(成组t检验)(一)、正态分布资料的两小样本均数比较 第36页/共52页满足正态性的两小样本资料均数比较,满足方差齐性时,可用t检验(参数检验),常称成组t检验;不满足时,可用t检验,也可以用非参数检验(见第十一章),或者作变量转换使达到正态性后,用t检验。有的学者提出,t检验在方差不齐
18、的情况下,只要具备正态性和两样本含量相等的条件,仍不失为效能较优的检验方法。1.H0:12=0;H1:120,=0.05第37页/共52页t(n1+n22)当两样本含量相等n1=n2=n时,上式可化简为:其中第38页/共52页2.方差不齐的两小样本均数比较,可采用t检验,检验统计量为t值:校正t值不服从自由度df=n-1的t分布,自由度df为:第39页/共52页例4.9某医师研究转铁蛋白测定对病毒性肝炎诊断的临床意义,测得12名正常人和15名病毒性肝炎患者血清转铁蛋白含量的结果如下,已检验两组方差相等,问患者和健康人转铁蛋白含量是否有差异。正常人(x1,n1=12):265.4,271.5,2
19、84.6,291.3,254.8,275.9,281.7,268.6,264.1,273.2,270.8,260.5病毒性肝炎患者(x2,n2=15):256.9,235.9,215.4,251.8,224.7,228.3,231.1,253.0,221.7,218.8,233.8,230.9,240.7,260.7,224.4解:H0:1=2,即正常人与病毒性肝炎患者的转铁蛋白含量相等;H1:12,=0.05第40页/共52页据自由度dfn1n221215225查t界值表(附表5),得t0.001(125)=3.725,P0.001,按所取=0.05水准拒绝H0,可认为病毒性肝炎患者的转铁蛋
20、白量较低。如使用SPSS11.5 统计软件,在数据编辑窗口中,分别以观察对象和x 为变量名,在观察对象的Value(值标签)中标签1为正常人,2为病毒性肝炎患者;在x的Label(变量标签)标签x 为转铁蛋白量,键入相应的转铁蛋白量x数据,建立如如图5-11的数据文件以后,采用Two-SampleTTest(两样本t检验)过程分析,操作过程分两步:第41页/共52页1.先做探索性分析,检验正态性和方差齐性。第42页/共52页TestsofNormality转铁蛋白含量正常人.11612.200(*).98612.998观察对象Kolmogorov-Smirnov(a)Shapiro-WilkS
21、tatisticdfSig.StatisticdfSig.患者.14715.200(*).92715.245正态性检验结果,因样本含量50,宜看正常人的Shapiro-Wilk统计量=0.986,P值=0.998;患者的Shapiro-Wilk统计量=0.927,P值=0.245,均满足正态性。第43页/共52页转铁蛋白含量BasedonMean1.877125.183BasedonMedian1.127125.299BasedonMedianandwithadjusteddf1.127122.304.300LeveneStatisticdf1df2Sig.Basedontrimmedmean
22、1.798125.192TestofHomogeneityofVariance 第44页/共52页四种方差齐性检验结果P值都大于0.05,可认为满足方差齐性。2.再做成组t检验,采用Independent-SampleTTest过程,操作过程:第45页/共52页(二)、非正态分布的两均数比较 当资料与正态分布偏倚较大时,可用采用非参数检验(见第9章),也可用适当的变量变换,使不满足正态性的资料,达到参数检验的要求,再用t 检验。例4.10为了研究补益法对预防注射的效果有无增强作用,将观察值对象分两组,甲组24人,用补益法加预防注射;乙组22人,只用预防注射。免疫后采血,分别测定抗体滴度,结果用
23、滴度倒数表示如下,问两组免疫效果有无差别?抗体滴度倒数x:48163264128256甲组人数f1:4428132乙组人数f2:3437221第46页/共52页本例变量x的观察值呈倍数关系,不满足正态性,可用对数变换,使使达到正态性的要求,再用t 检验。正态性检验输出结果:在TestsofNormality中,输出了甲组抗体滴度倒数的Shapiro-Wilk统计量=0.670,P=0.000;乙组Shapiro-Wilk=0.650,P值=0.000,均不满足正态性。因不满足正态性,考虑本例变量值x为等比数列的数据,所以,先将原变量作对数变换,使服从正态分布。2.再用变换后的新变量做成组t检验
24、操作过程同例4.9。输出结果:第47页/共52页统计量F=0.306,单侧P=0.583。故不能认为两组的总体方差不齐;检验统计量t=0.151,双侧P=0.881;双侧检验不拒绝H0,不能认为两组免疫效果有差别。(三)构成比不同的两样本均数比较(加权均数法)两样本均数比较,如果资料不满足齐同可比性时,应设法在统计分析时尽量消除影响因素的干扰。这里介绍构成比不同时两样本均数比较的加权均值法。【例4.11】将90名慢性胆管炎病例用完全随机方法分配到甲、乙两种疗法组治疗,以血清中某酶降低值作为疗效判断的指标,90名病例中病情轻的有46例,病情重的有44例在两组分配有不同,检验资料满足正态性和方差齐
25、性,整理资料如表4-7。第48页/共52页轻病人(46例)重病人(44例)合计(90例)病例数降低值S病例数降低值S病例数降低值S甲疗法1224.05.93612.54.54815.44.9乙疗法3423.56.0813.54.64221.65.8 若不考虑两组病情构成比不同,用不分病情的合计数据比较两样本均数,得t5.497,P0.01,可认为乙疗法降低某酶的疗效优于甲疗法。这样的结论是不正确的。实际上,仔细分析上表4-7可发现,疗效反应病情轻的患者较好,病情重的患者相对较差。第49页/共52页 若要消除病情因素构成比不同的影响,综合比较两疗法降低某酶的疗效,或者要在综合回答两种疗法差异有无
26、统计学意义外,同时还了解病情因素的影响大小,可采用两因素设计试验的方差分析或协方差分析。若仅仅为了删除病情因素的影响,则可用加权均值法来进行分析。下面结合本例介绍加权均值法的步骤:(1)按wini/N分别计算不同构成的权重系数wi。本例50岁与50岁的权重系数为:w5046/90=0.511,w504490=0.489(2)按(式4-37)分别计算两比较组的加权均值w与标准差sw。第50页/共52页加权均值w=wii,加权均数标准差SwWiSi(式4-37)本例:甲疗法:w甲=0.51123.5+0.48913.5=18.6,Sw甲0.5116.0+0.4894.6=5.3;乙疗法:w乙0.51124.0+0.48912.5 18.4,SwB乙0.5115.9+0.4894.5=5.2。(3)对加权均值进行检验。本例满足正态性和方差齐性,用t检验得t0.181,P0.5,不能认为甲、乙两种疗法的疗效有差别。第51页/共52页