《适用于以百分数或成数表示试验的结果分析.ppt》由会员分享,可在线阅读,更多相关《适用于以百分数或成数表示试验的结果分析.ppt(49页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、适用于以百分数或成数表示试验的结果分析。如病株率、有虫株率、杀虫率、发芽率等。理论上讲,这类资料应按照二项分布进行,但当样本容量n较大,p不过小,np、nq又均不小于5时,(p+q)n的分布趋近于正态分布,因而,可将百分数的资料作正态分布处理。第四节第四节 二项资料的百分数假设检验二项资料的百分数假设检验 Test of percent hypothesis第四节第四节 二项资料的百分数假设检验二项资料的百分数假设检验 Test of percent hypothesis二项资料在以下情况可以用U 测验进行分析。适合于用正态离差测验的二项样本的np和n值表样本百分数较小组次数样本容量 n0.5
2、015300.4020500.3024800.20402000.10606000.05701400注意表中 、以及 n 的关系第四节第四节 二项资料的百分数假设检验二项资料的百分数假设检验 Test of percent hypothesis1、单个样本百分数的假设测验2、两个样本百分数相比较的假设测验3、二项样本假设测验时的连续矫正二项总体抽样的分布二项总体的平均数二项总体的平均数p,方差2 p(1-p)=p q标准差为样本平均数抽样分布样本平均数抽样分布 平均数,平均数,方差,方差,标准误,标准误,Test of percent hypothesis二项总体的分布参数二项总体的分布参数例:
3、一个总体内有5个个体,分别为0、1、0、1、1。则:(01 0 1 1)50.6所以 p2(0-0.6)2+(1-0.6)2+(0-0.6)250.24(每次取一个样,即:n=1)1 1、单个样本百分数的假设测验、单个样本百分数的假设测验测试百分数所属总体百分数与某一理论值或期望值p0的差异显著性。样本百分数的标准误为:故由例:紫花与白花大豆杂交,在F2代共得到289株,其中紫花208株,白花81株。如果花色受一对等位基因控制,根据遗传学原理,F2代紫花与白花分离的比例应为3:1,即紫花理论数为p=0.75,白花为q=1-p=0.25。问该试验是否符合一对等位基因的的遗传规律?Test of
4、percent hypothesis假设:假设:H0:p=0.75;HA:p0.75。=0.05,作两尾测验u.05=1.96。计算:计算:因为:u.05=1.96,u(1.19)0.05。推断:推断:接受H0:p=0.75,即该试验中大豆花色符合一对等位基因的遗传规律。试验中的p=0.7197与p=0.75的差别属于随机误差。单个样本百分数的假设测验2 2、两个样本百分数相比较的假设测验、两个样本百分数相比较的假设测验测验两个样本百分数 和 所属总体百分数p1和p2的差异显著性。一般假设两个样本总体方差是相等的,即两个样本总体的个体百分数不同为p1和p2。两个样本百分数的差数标准误为:如果两
5、总体的百分数相同,即p1=p2=p,q1=q2=q,则:Test of percent hypothesis2 2、两个样本百分数相比较的假设测验、两个样本百分数相比较的假设测验在两个总体百分数p1和p2未知时,在两个总体方差相等的前提下(),可用两样本百分数的加权平均值作为p1和p2的估计。即:故有:两个样本百分数的差数标准误为:即可对H0:p1=p2作出假设测验。Test of percent hypothesis例题例题:调查一低洼地,小麦378株,其中有锈病355株,病株率93.92,一高地调查396株,有346株发病,病株率为87.37。问两块田发病情况有无差异?n1=378,x1=
6、355,n2=396,x2=346假设假设:H0:p1=p2;HA:p1 p2;=0.05,作两尾测验u.05=1.96。两个样本百分数相比较的假设测验计算:计算:因为:u.05=1.96,u(3.12)u0.05,所以p0.05。推断:推断:否定H0:p1=p2,接受HA:p1p2,即该试验中两块麦田锈病的发生程度有显著差异。两个样本百分数相比较的假设测验3 3、二项样本假设测验时的连续矫正、二项样本假设测验时的连续矫正以上所分析的事例在性质上属于间断性变易,其分布是间断性的二项分布。将其按照连续性的正态分布或 t 分布,一般容易发生第一类错误。补救的办法是假设测验时进行连续矫正。这种矫正工
7、作当当n n3030,npnp55时必须进行时必须进行。若符合下表的情况,可不作矫正,用u测验处理。样本百分数较小组次数样本容量 n 0.50 15 30 0.40 20 50 0.30 24 80 0.20 40 200 0.10 60 600 0.05 70 1400Test of percent hypothesis3.1 单个样本百分数假设测验的连续矫正单个样本百分数连续校正的计算公式为:式中 tc 为校正后的 t 值。是 估计值。例题:用基因纯合的糯玉米合非糯玉米杂交,预期F1植株上糯性花粉粒的p0=0.5,现在一个视野中检测20粒花粉,得糯性花粉8粒,问此结果与理论百分数p0=0.
8、5是否相符?假设 p=p0=0.5,=8/20=0.4为以随机样本。即:H0:p=0.5,HA 0.5,=0.05,作两尾测验。计算:查附表4:v=20-1=19,t0.05=2.093,计算得t0.05,推断:实得百分数0.4与理论值0.5没有显著差异。单个样本百分数假设测验的连续矫正3.2两个样本百分数相比较假设测验的连续矫正设两个样本百分数中,较大得值为:有x1和n1;较小得值为:有x2和n2。经校正得 tc公式为:具有V=n1+n2-2。其中 为 中 的校正值。单个样本百分数假设测验的连续矫正例题:用新农药处理25头棉铃虫,死亡17头,存活8头;用乐果处理24头,死亡9头,存活15头。
9、问两种农药处理结果是否相同?假设:假设:H0:p1=p2:HA:p1 p2。=0.05,作两尾测验。计算:计算:查 t 表:V=242524745,t0.05=2.014计算得t=1.85 0.05,推断推断:接受H0,即,两种农药处理结果没有显著差异。单个样本百分数假设测验的连续矫正上例若不进行连续校正,p1=17/25=0.68,p2=9/24=0.375 t=(0.68-0.375)0.1426=0.3050.1426=2.142.14 t 0.05(2.014),否定H0,接受了HA。这就将本来错误的东西接受了,即犯了纳伪错误,增加了发生第一类错误的可能性。单个样本百分数假设测验的连续
10、矫正第五节第五节 参数的区间估计参数的区间估计 Estimate of confidence interval对统一总体进行多次调查时,会出现不同的平均数值,为说明不同平均数的代表性,需要估计出一个范围或一个区间能够覆盖参数,这个区间称作置信区间置信区间(confidence interval)。区间的上限和下限,称作置信限(confidence limit)。保证该区间能够覆盖参数的概率以p=(1-)表示,称为置信系数置信系数或置信度置信度。点估计:以样本均数()估计总体均数()。第五节第五节 参数的区间估计参数的区间估计经过转换可得到在置信度p=1-时,对的置信区间为:以上置信区间的含义为
11、:如果从总体中抽出容量为n的所有样本,并且每一个样本都算出L1、L2,则在所有的L1、L2区间中,将有95能覆盖参数。区间估计的精度要求决定于 值。或称在(1-)概率下:若有95(1-,0.05)的样本落在(-1.96)至(+1.96)的范围内,即:Estimate of confidence intervalEstimate of confidence interval1、总体平均数的置信限2、两总体平均数差数的置信限3、二项总体百分数的置信限4、两个二项总体百分数差数的置信限5、区间估计与假设测验 1 1、总体平均数、总体平均数的置信限的置信限1.1 在总体方差为已知时在总体方差为已知时的
12、置信区间为:的置信区间为:例题:例题:棉花株行圃中,36个单行的皮棉平均产量x=4.1kg,已知=0.3kg,求99置信度下该株行圃单行皮棉产量的置信区间。故90的置信区间为(4.1-2.580.05)(4.1+2.580.05),即4.0 4.2 u推断推断:估计单行皮棉产量在4.04.2之间,可靠度为99。u为正态分布下的置信度p=1-的 u 临界值。在置信度p=1-=99%时,由附表3查得u0.01=2.5758;计算计算得Estimate of confidence interval1.2 1.2 在总体方差为未知时在总体方差为未知时2需要由样本均方S2估计,于是置信区间为:t为置信度
13、p=1-时 t 分布的 t 临界值。例:某自外地引入一新品种,在8个小区种植,得其千粒重为:35.6、37.6、33.4、35.1、32.7、36.8、35.9、34.6,问在95概率保证下新引入品种的千粒重的范围?计算:计算:千粒重的平均数为35.2g,标准差为0.58g。查附表查附表4,v=7时 t0.05=2.365,故:35.22.3650.58 35.22.3650.58即:33.836.6,置信度为95。总体平均数总体平均数的置信限的置信限35.22.3650.58 35.22.3650.58即:33.836.6,置信度为95。写材料时的表达方式为:含义是:35.2(2.3650.
14、58)=35.2 1.37g 总体平均数总体平均数的置信限的置信限t与总体方差已知情况相比:与总体方差已知情况相比:2 2、两总体平均数差数、两总体平均数差数(1-2)的置信限的置信限2.1 两总体方差已知或为大样本2.2 两总体方差未知2.3 成对数据总体差数d的置信区间 在一定置信度条件下,估计两个总体平均数的差别,其方法依据两总体方差是否已知或是否相等可分为三种情况。Estimate of confidence interval2.1 两总体方差已知或为大样本大样本时对1-2的的1-置信区间应为:上式中 为平均数差数标准误,为正态分布下置信度为1-时的临界值。两总体平均数差数两总体平均数
15、差数(1-2)的置信限的置信限与一个样本总体置信区间的区别。例题:测得甘薯1号332株的单株平均产量,甘薯2号282株的单株平均产量,试估计在95概率保证下,两品种单株平均产量相差的置信区间。两总体平均数差数两总体平均数差数(1-2)的置信限的置信限计算平均数差数标准误因而,95的置信限为:L1=(750-600)1.9618114.7(g)L2=(750-600)1.9618185.3(g)结果表明:1号甘薯品种较2号品种的产量多114.7185.7(g),此估计结果有95的把握。两总体平均数差数两总体平均数差数(1-2)的置信限的置信限2.2 2.2 两总体方差未知两总体方差未知两总体方差
16、未知时还有两种情况:A、两总体方差相等两总体方差相等,即 的1-置信区间为:B、两总体方差不相等两总体方差不相等,即置信限为:置信限为:两总体平均数差数两总体平均数差数(1-2)的置信限的置信限置信度1时自由度 的t分布临界值。A、两总体方差未知,但可以相等:、两总体方差未知,但可以相等:例:调查某生产队每亩30万苗和35万苗的稻田各5块,得亩产量(kg)X1(30):400 420 435 460 425X2(35):450 440 445 445 420试测验两种密度亩产量在99的置信区间。查表查表4得=8,t0.013.355,L1=(428440)(3.35511.136)-49.4
17、L2=(428440)(3.35511.136)25.4结果表明:每亩30万苗较35万苗少收49.4kg或多收25.4kg,波动很大,所以接受H0:1=2。两总体平均数差数两总体平均数差数(1-2)的置信限的置信限分析分析:平均数X1(30)428,X2(35)440。计算计算:以上结果说明两个总体平均数相等,因此可用两总体的加权平均数作为对的估计:或因此,对的置信区间为:依据:所以:两总体平均数差数两总体平均数差数(1-2)的置信限的置信限依据:计算12:的1-的置信区间。B、两总体方差未知,但不会相等:、两总体方差未知,但不会相等:由于两总体方差未知,且不相等,故由样本方差S作为的估计值,
18、此时的计算的t已不是v=v1+v2的 t 值。而是其自由度近似于v的 t 值,因此:两总体平均数差数两总体平均数差数(1-2)的置信限的置信限例题:测定冬小麦品种东方红3号的蛋白质含量()10次,得其平均数为14.3,方差为1.621;测农大139号的蛋白质含量5次,其平均数为11.7,方差为0.135。试测验两品种蛋白质含量相差的95置信区间。计算计算:平均数、方差。查附表查附表4得:=11,t0.052.201,故有:因此,东方红小麦的蛋白质含量可比农大139高1.63.6,该估计的可靠度为95。两总体平均数差数两总体平均数差数(1-2)的置信限的置信限2.3 2.3 成对数据总体差数成对
19、数据总体差数d d的置信区间的置信区间依据:两个样本平均数相比较的假设测验中成对数据比较的计算公式:(5.15A)可以得到d的1-的置信区间,两个置信限分别为:Sd的计算公式为:(5.14)t为置信度为1,v=n1 时 t 分布的临界 t 值。两总体平均数差数两总体平均数差数(1-2)的置信限的置信限组别X1(A法)X2(B法)d=(x1x2)11025-152131213814-64315-125512-762027-77618-12平均-8.3表 两种处理方法产生的病毒病斑数目例题:试求表中资料利用两种处理方法产生病毒病斑数目d的99置信区间。两总体平均数差数两总体平均数差数(1-2)的置
20、信限的置信限H0:d=0即:查附表4,V=6时,t0.01=3.707。依据得:或写作:-15.7d-0.9。负值表明说明A法比B法处理减少病斑0.915.7个,此置信度为99。总体平均数总体平均数的置信限的置信限3.3.二项总体百分数二项总体百分数p p 的置信限的置信限样本百分数较小组次数样本容量 n0.5015300.4020500.3024800.20402000.10606000.05701400适合于用正态离差测验的二项样本的np和n值表 二项总体百分数p置信区间的估计方法有两种即按、二项分布;、正态分布估计。前者准确方便,但附表范围小。后者较粗,但范围广。例题例题:调查100株玉
21、米,受玉米螟危害的20株,即p=0.2,np=20,计算95置信度的玉米螟危害率置信区间。Estimate of confidence interval、按二项分布估计附表9 二项分布95的置信区间(部分数据)f样本容量(n)f/n样本容量(n)510152030501002501 00010198112629496353222130.05394715781005191316918449240.151020131720831004783275513290.215261823256594366417350.25203122283088100457321400.324362733355682264
22、50.352941323840669030500.434463743509310040600.544564753二项总体百分数二项总体百分数p 的置信限的置信限表中:f 为观察次数,f/n为观察分数。条件:n=100,p=0.2,np=20。结果表明:玉米螟危害率置信区间为0.130.29,置信度为95。样本百分数较小组次数样本容量 n0.5015300.4020500.3024800.20402000.10606000.05701400、按照正态分布估计二项总体百分数二项总体百分数p 的置信限的置信限条件:n=100,p=0.2,np=20。计算公式:计算:0.05=1.96结果表明:玉米螟
23、危害率置信区间为0.120.278,置信度为95。适合于用正态离差测验的二项样本np和n值表二项分布结果:危害率置信区间为0.130.29。4.4.两个二项总体百分数差数两个二项总体百分数差数p p1 1-p p2 2的置信限的置信限 这种估计只有在已经明确两个百分数间有显著差异时才有意义。在1-置信度下,p1-p2的置信区间为:式中两样本百分数差数标准误的计算公式为:(5.18)Estimate of confidence interval低地锈病的发病率为93.92(n1=378),高地为87.31(n2=396)。按95置信区间估计两地发病率相差的置信区间。已知0.05=1.96 在1-
24、置信度下,p1p2的置信区间为:两地发病率相差的置信区间为2.5410.68,置信度为95。两个二项总体百分数差数两个二项总体百分数差数p p1 1-p p2 2的置信限的置信限5.5.区间估计与假设测验区间估计与假设测验区间估计也可用于假设测验。因为置信区间是一定置信度下总体参数的所在范围。若对参数所作的假设落在该范围内,则可接受H0,否则接受HA。例5.1:某春小麦良种的千粒重034g,现自外地引入一高产品种,在8个小区种植,得其千粒重为:35.6、37.6、33.4、35.1、32.7、36.8、35.9、34.6,求其95置信区间?因为原品种034g,新品种千粒重的平均数落在落在33.
25、833.836.636.6范范围之内围之内,所以推断新引进的品种与原品种无显著差异无显著差异。Estimate of confidence intervalt0.05(7)计算千粒重的平均数:L1=35.2(2.3650.58)=33.8(g)L2=35.2(2.3650.58)=36.6(g)例:低地锈病的发病率为93.92(n1=378),高地为87.31(n2=396)。按95置信区间估计两地发病率相差的置信区间。已知0.05=1.96 在1-置信度下,p1p2的置信区间为:两地发病率相差的置信区间为2.5410.68,置信度为95。6.61因为原假设:H0:P1=P2,即P1P2=0。
26、该假设超出计算结果,所以接受HA。区间估计与假设测验组别X1(A法)X2(B法)d=(x1x2)11025-152131213814-64315-125512-762027-77618-12平均-8.3表 两种处理方法产生的病毒病斑数目例题:试求表中资料利用两种处理方法产生病毒病斑数目d的99置信区间。两总体平均数差数两总体平均数差数(1-2)的置信限的置信限H0:d=0查附表4,V=6时,已求得:即:-15.7d-0.9。负值表明说明A法比B法处理减少病斑0.915.7个,若假设d=0,则该区间不包括0,所以接受HA,两种方法处理结果不同。总体平均数总体平均数的置信限的置信限t0.01=3.
27、707。例:调查某生产队每亩30万苗和35万苗的稻田各5块,得亩产量(斤)X1(30):800 840 870 920 850 n=5X2(35):900 880 890 890 840查表查表,t0.05,82.306 因为|t|=1.080.05推断:推断:接受H0,即两种密度的亩产量没有显著差异没有显著差异。原计算结果:按照置信区间计算:X1(30):800 840 870 920 850 n=5X2(35):900 880 890 890 840X1-X2 -100 -40 -20 30 10 -120 平均:24假设:假设:H0:1 2;HA:1 2 显著水平:显著水平:0.05SS
28、d=10120 Sd=SSdn(n-1)1/2=22.5 t=24/22.5=1.07V=5-1=4 查表得 t0.05=2.776 因为1.072.776,所以差异不显著,接受HA。依据:依据:L1=24-1.0422.5-0.075;L2241.0422.548.075。置信区间不仅提供一定概率保证的总体参数范围,而且可以获得假设测验的信息。在1-的置信度下,其间关系可归纳为以下两点:1.若两个置信限为同号两个置信限为同号(正号或负号),则否定否定H0:,接受接受HA A:。如否定:H0:-00、H0:d=0、H0:p1-p2=0等。其中:其中:、若两个置信限皆为正号正号,则有一个参数大于另一个参数成立,如:H0:12或p1p2等,如例415、417、420等。、若两个置信限皆为负号负号,则有一个参数小于另一个参数成立,如:12或p1p2等,如例418(p45)。2.两个置信限为异号两个置信限为异号(一正一负),即其区间包括零值,则H H0 0:被接受被接受。如:。如:H0:-0=0、H0:1-2=0、H0:d=0,H0:p1-p2=0等。如例416。区间估计与假设测验