《第8章卡方检验ppt课件.ppt》由会员分享,可在线阅读,更多相关《第8章卡方检验ppt课件.ppt(57页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、(卡方)检验(卡方)检验第八章第八章2问题一问题一:一对因子遗传实验一对因子遗传实验,白猪和黑猪杂交白猪和黑猪杂交F2代代260头,头,181头白猪,请问毛色分离头白猪,请问毛色分离是否受一对等位基因控制?是否受一对等位基因控制?问题二:某村近问题二:某村近5年来出生年来出生112名男孩,名男孩,88名女孩,名女孩,请问该村近请问该村近5年出生的男女比例是否失年出生的男女比例是否失调?调?问题三问题三:猪场为检验某种疫苗是否有预防效果猪场为检验某种疫苗是否有预防效果,注射疫苗的猪注射疫苗的猪44头,有头,有12头发病;未头发病;未注射疫苗猪有注射疫苗猪有36头其中发病的有头其中发病的有22头头
2、,请问该疫苗是否有预防效果请问该疫苗是否有预防效果?第一节第一节 2检验的原理检验的原理2检验是通过提出某种假定的理论值与实际值进行检验是通过提出某种假定的理论值与实际值进行比较,从而确定两者的符合程度比较,从而确定两者的符合程度。适合性检验(适合性检验(test for goodness-of -it)通常用通常用于实际次数与理论次数之间的比较。于实际次数与理论次数之间的比较。独立性检验(独立性检验(test for independence)是研究两是研究两类实验因子之间相互独立还是相互影响。类实验因子之间相互独立还是相互影响。 ,.,uiN(0,1)n连续性数据的连续性数据的2定义定义n
3、uuu.2,12222212.inuuuu2)(212)(nniix,11xu,22xu,nnxu一、一、 2检验的原理检验的原理分分布布形形状状;其其平平均均数数为为取取值值范范围围为为分分布布特特征征:)3()2(; ), 0)1(22v 不同自由度的概率密度的曲线不同自由度的概率密度的曲线223值,即右尾率下的给出了不同自由度及概附表)()()概率为:其右尾(22i22F-1P)(202222)d()()(2ifFPi次数资料的次数资料的2定义定义其中:其中:O 观测次数观测次数 E 理论次数理论次数 EEO22)( 例例 青豆、黄豆(仅颜色不同)各青豆、黄豆(仅颜色不同)各1000粒混
4、于粒混于小罐中,每次抽取小罐中,每次抽取100粒。第一次抽样得青豆粒。第一次抽样得青豆53粒,黄豆粒,黄豆47粒;第二次抽样得青豆粒;第二次抽样得青豆42粒,粒,黄豆黄豆58粒,分别求粒,分别求2值并比较两次实验值与理值并比较两次实验值与理论值的符合程度。论值的符合程度。56. 250505850504236. 050505350504722222221卡方测验为单尾测验卡方测验为单尾测验,对于一定的自由对于一定的自由度度,df=3若若 205.02205.02近似服从近似服从2分布分布 2分布是连续性随机变量的概率分布,而次数资分布是连续性随机变量的概率分布,而次数资料是间断型的。料是间断型
5、的。2检验是右侧检验检验是右侧检验 观察频数与理论频数相差越大,观察频数与理论频数相差越大,2值越大,只有值越大,只有大的大的2值才可能否定原假设,所以卡方检验始终值才可能否定原假设,所以卡方检验始终是右侧检验。是右侧检验。 连续性矫正连续性矫正 当资料的当资料的df=1和小样本尤其是理论次数小和小样本尤其是理论次数小于于5的情况下,由连续型的的情况下,由连续型的x2分布推得的概分布推得的概率与真正概率差异较大,必须进行矫正。率与真正概率差异较大,必须进行矫正。 矫正后的矫正后的x2值:值:EEOc2221二、二、2检验的一般步骤检验的一般步骤 例例1 一对因子遗传实验,观察白猪和黑猪杂交仔二
6、代一对因子遗传实验,观察白猪和黑猪杂交仔二代260头;其中有白猪头;其中有白猪181头,黑猪头,黑猪79头。问毛色分离头。问毛色分离是否受一对等位基因控制?是否受一对等位基因控制?1、H0:猪毛色猪毛色F2分离符合分离符合3:1比率比率 HA:不符合不符合3、列计算表:、列计算表:2c739. 36521796519521195181212222EEOc5、查、查 表:表:df=n-1=2-1=1(计算理论次数时受一个总数的限制计算理论次数时受一个总数的限制)查表得,查表得, 差异不显著,差异不显著,表明实际次数与理论次数是符合的。表明实际次数与理论次数是符合的。本例如果不矫正,其结果:本例如
7、果不矫正,其结果:2,05.0,841.3205.02205.0P020. 46565791951951812222EEO,05. 0,205. 02P1df性性 状状黑色无角黑色无角黑色有角黑色有角红色无角红色无角红色有角红色有角总数总数观察次数观察次数(O)15239536250理论次数理论次数(E)140.62546.87546.87515.625250O-E11.375-7.8756.125-9.625不符合的比率代分离符合所研究性状解::H1:3:3:9:1)H(A20F计算理论次数)2(计算卡方值计算理论次数列次数表例例2 两对因子遗传实验,用黑色无角牛和红色有角牛杂交两对因子遗传
8、实验,用黑色无角牛和红色有角牛杂交仔二代出现黑色无角牛仔二代出现黑色无角牛152头头,黑色有角牛黑色有角牛39头头,红色无角红色无角53头头,红色有角红色有角6头头,共共250头。问两对性状分离是否符合头。问两对性状分离是否符合9:3:3:1的遗传比例?的遗传比例?观测次数和对应比率类的留余下的分量最大的观测次数保剔出12k9724.8625.25)625.9(.875.46)875.27(625.140375.1122227.81531420.05查df7.81520.052结论与解释(3)个比率的符合程度方检验的再分割确定各需用卡:传的分离比例代的分离不符合独立遗表明 1,:3:39F2A
9、0HH,05. 0,接受否定P性性 状状黑色无角黑色无角黑色有角黑色有角红色无角红色无角总数总数观察次数观察次数(O)1523953244理论次数理论次数(E)146.448.848.8244O-E5.6-9.84.2544.28 .48)8 .4853(8 .48)8 .4839(4 .146)4 .146152(222299.5213205.0查df99.5544.2205.0284. 3324. 605. 022,05. 0,205. 02P3243. 6625.15)625.156(375.234)375.234244(222性性 状状合并组合并组 红色有角红色有角总数总数观察次数观察
10、次数(O)2446250理论次数理论次数(E) 234.37515.625250O-E9.625-9.625二、实际资料与理论分布相符合程度的适合性检验二、实际资料与理论分布相符合程度的适合性检验4 03 32 7 1 200 130.2543 4p 平均死亡率平均死亡率为平均死亡率为p=0.25 n=4, 每窝死亡的概率为:每窝死亡的概率为:0469. 075. 025. 0) 3(1334CXP小白鼠死亡小白鼠死亡n+1种类型的概率:种类型的概率:kkkppCkXP441)(3164. 075. 0)0(404CXP2109. 075. 025. 0)2(2224CXP4219. 075.
11、 025. 0) 1(4114CXP0039. 075. 025. 0)4(0444CXP死亡数死亡数观察窝数观察窝数理论概率理论概率观察窝数观察窝数0130.316413.6051200.421918.141270.21099.068330.04692.016400.00390.167总4343 df=3-2=1(5组合并成组合并成3组组,计算理论次数时受一个总数和平均计算理论次数时受一个总数和平均数的限制数的限制) 校正公式计算:校正公式计算: 0.05, 2 0.05, 接受接受H0,射线照射后小白鼠的死亡数,射线照射后小白鼠的死亡数服从二项分布服从二项分布1529. 00504. 01
12、017. 00008. 0)5 . 0(22EEoc 当实际次数分布以二项分布或波松分布配合当实际次数分布以二项分布或波松分布配合时时,由于每一理论次数受总次数和平均数由于每一理论次数受总次数和平均数np的限制的限制,所以所以df=k-1-1注意将每一理论次数注意将每一理论次数5的组的组,上上述计算的述计算的df的的k指合并后的组数指合并后的组数根据处理及考察指标的多少分为不同的两向列联表根据处理及考察指标的多少分为不同的两向列联表独立性测验又叫次数资料的相依性检验。它是检独立性测验又叫次数资料的相依性检验。它是检验两个方向上的数据资料的表现是相互独立的还是相验两个方向上的数据资料的表现是相互
13、独立的还是相互影响的一种统计分析方法互影响的一种统计分析方法。第三节第三节 独立性检验独立性检验 列联表列联表 自由度自由度总自由度总自由度(rk-1)减去减去 行自由度行自由度(r-1)减去减去 列自由列自由度度(k-1)一、一、22列联表的检验列联表的检验 1、 提出无效假设与备择假设提出无效假设与备择假设 H0:发病与否和注射疫苗无关,即二因:发病与否和注射疫苗无关,即二因子相互独立。子相互独立。 HA:发病与否和注射疫苗有关,即二因:发病与否和注射疫苗有关,即二因子彼此相关。子彼此相关。 2、 计算理论次数计算理论次数 根据二因子相互独立的假设,注射疫苗根据二因子相互独立的假设,注射疫
14、苗与否不影响发病率。也就是说注射组与与否不影响发病率。也就是说注射组与未注射组的理论发病率应当相同,均应未注射组的理论发病率应当相同,均应等于总发病率等于总发病率34/80=0.425=42.5%。 未注射组的理论发病数:未注射组的理论发病数: T21=3634/80=15.3, 或或 T21=34-18.7=15.3; 未注射组的理论未发病数:未注射组的理论未发病数: T22=3646/80=20.7, 或或 T22=36-15.3=20.7。 从上述各理论次数从上述各理论次数Tij的计算可以看到,的计算可以看到,理论次数的计算利用了行、列总和,总理论次数的计算利用了行、列总和,总总和,总和
15、,4个理论次数仅有一个是独立的。个理论次数仅有一个是独立的。 自由度为自由度为1,应选择矫正的统计量。,应选择矫正的统计量。3 .15) 5 . 0| 3 .1522(|3 .25) 5 . 0| 3 .2532(|7 .18) 5 . 0| 7 .1812(|2222c944. 77 .20) 5 . 0|7 .2014(|22c4、查自由度、查自由度df=1的的 2临界值,作出统计推断临界值,作出统计推断 因为因为 20.01(1) =6.63, =7.944 20.01(1),P0.01, 否定否定H0,接受,接受HA, 表明发病率与是否注射疫苗极显著相关,这里表明发病率与是否注射疫苗极
16、显著相关,这里表现为注射组发病率极显著低于未注射组,说表现为注射组发病率极显著低于未注射组,说明该疫苗是有预防效果的。明该疫苗是有预防效果的。 2c2*2列联表计算卡方值的简化形式列联表计算卡方值的简化形式(N40):dbcadcbaNNbcaddbcadcbaNbcadc22222/944. 74436463480)280|22321412(|22c 例例2:在甲、乙两地区进行水牛体型调查,将牛:在甲、乙两地区进行水牛体型调查,将牛的体型按优、良、中、劣四个等级分类,其结的体型按优、良、中、劣四个等级分类,其结果见下表,试问两地区间水牛体型有无差异?果见下表,试问两地区间水牛体型有无差异?1
17、. 提出无效假设与备择假设提出无效假设与备择假设 H0:水牛体型构成比与地区无关,即两:水牛体型构成比与地区无关,即两地水牛体型构成比相同。地水牛体型构成比相同。 HA:水牛体型构成比与地区有关,即两:水牛体型构成比与地区有关,即两地水牛体型构成比不同。地水牛体型构成比不同。582. 76 . 6) 6 . 610(7 .26) 7 .2620(10)1010(3 .13) 3 .1310(22222 2. 计算各个理论次数计算各个理论次数 4. 查自由度查自由度df=3的的 2临界值,作出统计推断临界值,作出统计推断 因为因为 20.05(3) = 7.81 2=7.5820.05, 不能否
18、定不能否定H0,可以认为甲、乙两地水牛体型可以认为甲、乙两地水牛体型构成比相同。构成比相同。 或或.22222122TTTATTTjj.21212122TTTATTTjj利用第利用第2个简化式计算个简化式计算 2值:值: 502. 71354520108020155201045901352222222【例】【例】 分别统计了分别统计了A、B 两个品种各两个品种各67头经产母头经产母猪的产仔情况,结果见下表,问猪的产仔情况,结果见下表,问A、B 两品种的两品种的产仔构成比是否相同?产仔构成比是否相同? H0:A、B 两个品种产仔数分级构成比相同。两个品种产仔数分级构成比相同。 HA:A、B 两个
19、品种产仔数分级构成比不同。两个品种产仔数分级构成比不同。 2、计算、计算 2值值 用简化公式计算得:用简化公式计算得:23.2313467356774422176767134222222 3、自由度、自由度df =(2-1)(3-1)=2,查临界,查临界 2值,作出值,作出统计推断统计推断 因为因为 20.05(2)=9.21, 2 20.01, P0.01,所,所以否定以否定H0,接受,接受HA 。 表明表明A、B 两品种产仔数构成比差异极显著。两品种产仔数构成比差异极显著。需要应用需要应用 2检验的再分割法来具体确定分级构检验的再分割法来具体确定分级构成比差异在那样的等级。成比差异在那样的
20、等级。 表表715 21计算表计算表 利用简化公式计算利用简化公式计算 21值为:值为: 由由df1=2-1=1,查,查 2值表得:值表得: 20.05(1)=3.841,因为,因为 210.05,表明这两个品种的产仔数在表明这两个品种的产仔数在9头以下和头以下和1012头头这两个级别内的比率差异不显著。这两个级别内的比率差异不显著。 930. 2996177442217386199222221 利用简化公式计算利用简化公式计算 22值为:值为:458.201346735699616767134222222 由由df2=2-1=1,查,查 2值表得:值表得: 20.05(1)=3.84, 20
21、.01(1)=6.63, 21 20.01(1),P0.01, 表明这两个品种的产仔数在合并表明这两个品种的产仔数在合并组与组与13头以上组的比率差异极显著。头以上组的比率差异极显著。B品种产仔数在品种产仔数在13 头以上的比率(头以上的比率(29/67=42.38%)极显著高于极显著高于A品种产仔数在品种产仔数在13头以上的比率(头以上的比率(6/67=8.96%)。)。 【例【例3】 对三组奶牛(每组对三组奶牛(每组39头)分别喂给不头)分别喂给不同的饲料,各组发病次数统计如下表,问发病同的饲料,各组发病次数统计如下表,问发病次数的构成比与所喂饲料是否有关?次数的构成比与所喂饲料是否有关?
22、 H0:发病次数的构成比与饲料种类无关,:发病次数的构成比与饲料种类无关,即二者相互独立。即二者相互独立。 HA:发病次数的构成比与饲料种类有关,:发病次数的构成比与饲料种类有关,即二者彼此不独立。即二者彼此不独立。 对于理论次数小于对于理论次数小于5者,将相邻几个组加以合并见下者,将相邻几个组加以合并见下表,合并后的各组的理论次数均大于表,合并后的各组的理论次数均大于5。61.10 1193991939552391652391911722222 自由度自由度df=(4-1)(3-1)=6,查临界,查临界 2值得:值得: 20.05(6)=12.59 因为计算所得的因为计算所得的 20.05,
23、不能否,不能否定定HO , 可以认为奶牛的发病次数的构成比与饲可以认为奶牛的发病次数的构成比与饲料种类相互独立,即用三种不同的饲料饲喂奶牛,料种类相互独立,即用三种不同的饲料饲喂奶牛,各组奶牛发病次数的构成比相同。各组奶牛发病次数的构成比相同。 计算概率的法则独立事件的乘法独立事件的乘法 假定假定P(A)和和P(B)是两个独立事件是两个独立事件A与与B各自出现的概各自出现的概率,则事件率,则事件A与与B同时出现的概率等于两独立事件出同时出现的概率等于两独立事件出现概率现概率P(A)与与P(B)的乘积,即的乘积,即P(AB)=P(A)P(B)事件的独立性:即两事件各自发生的可能性彼事件的独立性:即两事件各自发生的可能性彼此不受对方影响此不受对方影响 独立性的假设是事件独立性的假设是事件A与与B 相互独立相互独立,各理论次数各理论次数:nRCnCnRnEnRCnCnRnEnRCnCnRnEnRCnCnRnE222222211221121212111111nCnRBPAPABP11)()()(nCnRBPAPBAP21)()()(nCnRBPAPABP22)()()(nCnRBPAPBAP12)()()(