《卡方检验 优秀PPT.ppt》由会员分享,可在线阅读,更多相关《卡方检验 优秀PPT.ppt(19页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、卡方检验 第1页,本讲稿共19页卡方检验卡方检验:利用卡方分布进行的检验。:利用卡方分布进行的检验。多用于离散型数量性状总体的抽样资料的检验多用于离散型数量性状总体的抽样资料的检验适合性检验适合性检验:利用样本:利用样本结果实测频数与理论频结果实测频数与理论频数(数(按概率分配的频数按概率分配的频数)的差别量服从一定的卡的差别量服从一定的卡方分布,来统计推断样方分布,来统计推断样本所在总体的概论分布本所在总体的概论分布是否与假定的概率分布是否与假定的概率分布模型相吻合。模型相吻合。独立性检验独立性检验:利用两种随机现象同时:利用两种随机现象同时发生时的样本结果实测频数与理论频发生时的样本结果实
2、测频数与理论频数(数(按假设两种随机现象相互独立且按假设两种随机现象相互独立且同时发生时的结果概率进行分配的频同时发生时的结果概率进行分配的频数数)的差别量服从一定的卡方分布来)的差别量服从一定的卡方分布来统计推断,两种随机现象是否相互独统计推断,两种随机现象是否相互独立。立。独立性检验独立性检验又称又称列联表卡方检验列联表卡方检验。第2页,本讲稿共19页连续型随机变量,或结果数连续型随机变量,或结果数量较多的离散型随机变量量较多的离散型随机变量结果数量较少的离结果数量较少的离散型随机变量散型随机变量随机抽样随机抽样随机抽样随机抽样将抽样的观测数据按人为分组将抽样的观测数据按人为分组归类归类并
3、统计各组观测值的频数并统计各组观测值的频数将抽样的观测数据按自然结果将抽样的观测数据按自然结果归类归类并统计各结果观测值的频数并统计各结果观测值的频数确定各分组的概率确定各分组的概率并计算各组按概率进行分并计算各组按概率进行分配时的观测值频数配时的观测值频数确定各自然结果的概率确定各自然结果的概率并计算各结果按概率进行分并计算各结果按概率进行分配时的观测值频数配时的观测值频数 利用公式利用公式 构造一个抽样结果的统计量,构造一个抽样结果的统计量,一个描一个描述抽样结果中述抽样结果中 实测频数与理论频数(概率频数)差别实测频数与理论频数(概率频数)差别大小的统计量。这样一个统计量恰巧服从卡方分布
4、。大小的统计量。这样一个统计量恰巧服从卡方分布。适合性检验适合性检验第3页,本讲稿共19页举例(分布类型的适合性检验举例(分布类型的适合性检验【课本例课本例13.1013.10】现有现有200200头母猪所产仔猪头母猪所产仔猪1 1月龄窝重(月龄窝重(kgkg)的分组资料如下表,试检验该仔猪的分组资料如下表,试检验该仔猪1 1月龄窝重是否服从正态分月龄窝重是否服从正态分布。试判断该小麦的株高表现是否遵从正态分布。布。试判断该小麦的株高表现是否遵从正态分布。组别组别120组中值组中值68768492100108116组频数组频数352821168430第4页,本讲稿共19页解:解:H H0 0:
5、x xN N()H HA A:x x 不服从正太分布不服从正太分布由于总体由于总体、未知,故由样本去估计(采用点估计):未知,故由样本去估计(采用点估计):首先算出各组的理论频率:首先算出各组的理论频率:式中:式中:xi+1、xi表示第表示第i组的上下限(组的上下限(i=1,2,k)。)。本例中:本例中:k=9再算出各组的理论频数:再算出各组的理论频数:E(fi)=Npi=100pi第5页,本讲稿共19页本例中的自由度本例中的自由度df=k-1-p=12-1-2=9,查,查x2 值表值表可知,可知,x2 0.05,差异不显著,差异不显著。因因 P0.50说明拟合的程度不是太高。只有小于说明拟合
6、的程度不是太高。只有小于50%的置信水的置信水平,认为仔猪平,认为仔猪1月龄窝重服从正态分布这一假设。月龄窝重服从正态分布这一假设。组频数组频数046910131726理论频数理论频数1.0161.704 3.72 6.92 12.0618.1223.1827.70 x21.9680.6252 0.3519 1.4467 1.6476 0.1043组频数组频数352821168430理论频数理论频数28.4024.96 20.48 14.04 8.98 4.88 2.88 1.55x21.5838 0.3703 0.0132 0.2736 0.10690.3393第6页,本讲稿共19页【例】【
7、例】有有100棵某品种小麦株高的样本分组资料如下表表,并且已经算得棵某品种小麦株高的样本分组资料如下表表,并且已经算得试判断该小麦的株高表现是否遵从正态分布。试判断该小麦的株高表现是否遵从正态分布。正态分布是连续分布,没有自然的类别,为了利用卡方检验,可先正态分布是连续分布,没有自然的类别,为了利用卡方检验,可先用第用第2章介绍的方法将数据进行分组,然后以每组作为一个类别,再用卡章介绍的方法将数据进行分组,然后以每组作为一个类别,再用卡方检验进行正态分布的适合性检验。方检验进行正态分布的适合性检验。解:解:H0:xN()HA:xN()由于总体由于总体、未知,故由样本去估计(采用点估计):未知,
8、故由样本去估计(采用点估计):组中值组中值838689929598101104107组分点值组分点值84.5 87.5 90.5 93.5 96.5 99.5 102.5 105.5组频数组频数36122023191052理论频数理论频数 2.38 5.64 12.4 19.7222.6818.8811.37 4.951.98偏差量偏差量0.62 0.36-0.4 0.29 0.32 0.12-1.370.050.02第7页,本讲稿共19页解:解:首先算出各组的理论频率:首先算出各组的理论频率:式中:式中:xi+1、xi表示第表示第i组的上下限(组的上下限(i=1,2,k)。)。本例中:本例中
9、:k=9。再算出各组的理论频数:再算出各组的理论频数:E(fi)=Npi=100pi 本例中各组的已计算出并列于表本例中各组的已计算出并列于表6-2中。中。继而便可算出继而便可算出x2统计量值:统计量值:本例中的自由度本例中的自由度df=k-1-p=9-1-2=6,查查x2 值表可知,值表可知,x2 0.75。说明拟合的程度还是很高的。有。说明拟合的程度还是很高的。有75%的置信水平认为杨麦的置信水平认为杨麦1号的株高遵从正态分布。号的株高遵从正态分布。第8页,本讲稿共19页通常用于对离散型数量资料的检验通常用于对离散型数量资料的检验将两种随机现象分列于列联表中将两种随机现象分列于列联表中随机
10、抽样随机抽样将样本所有观测值统计归类于列联表各相应组合中将样本所有观测值统计归类于列联表各相应组合中 利用公式利用公式 构造一个抽样结果的统计量,构造一个抽样结果的统计量,一个描述抽样一个描述抽样 结果中实测频数与理论频数(概率频数)差别大小的统计量。这样一个统计量恰巧服从结果中实测频数与理论频数(概率频数)差别大小的统计量。这样一个统计量恰巧服从卡方分布。卡方分布。独立性检验独立性检验 在假设两种随机现象相互独立的情况下,确定各组合的概率,并计算在假设两种随机现象相互独立的情况下,确定各组合的概率,并计算各组合按概率进行分配时的观测值频数各组合按概率进行分配时的观测值频数第9页,本讲稿共19
11、页【例】【例】考察不同灌溉方式对水稻叶子衰老是否有影响。几种灌溉考察不同灌溉方式对水稻叶子衰老是否有影响。几种灌溉方式下的叶态表现调查结果方式下的叶态表现调查结果先将水稻分为先将水稻分为3组,第一组用采用深水灌溉,第二组采用浅水灌组,第一组用采用深水灌溉,第二组采用浅水灌溉,第三组采用湿润灌溉,然后统计每种灌溉方式下,水稻三溉,第三组采用湿润灌溉,然后统计每种灌溉方式下,水稻三种叶子(绿叶、黄叶、枯叶)出现的频数。种叶子(绿叶、黄叶、枯叶)出现的频数。叶态叶态 频数频数灌溉方式灌溉方式绿叶绿叶黄叶黄叶枯叶枯叶总数总数深水深水146141.5778.83810.596161浅水浅水183179.
12、39911.1881213.426204湿润湿润152160.04149.981611.978182总数总数4813036547第10页,本讲稿共19页这时需要分析灌溉方式与叶态表现是否相关,若两者彼此相关,表这时需要分析灌溉方式与叶态表现是否相关,若两者彼此相关,表明叶态表现因灌溉方式不同而异,即三种灌溉方式对叶态表现的影明叶态表现因灌溉方式不同而异,即三种灌溉方式对叶态表现的影响不相同;若两者相互独立,表明三种灌溉方式对叶态表现的影响响不相同;若两者相互独立,表明三种灌溉方式对叶态表现的影响相同。相同。这种这种根据频数资料判断两类因子彼此相关或相互独立的根据频数资料判断两类因子彼此相关或相
13、互独立的假设检验就是独立性检验。独立性检验假设检验就是独立性检验。独立性检验实际上是基于频数资实际上是基于频数资料对因子间相关性的研究。料对因子间相关性的研究。根据根据概率乘法法则概率乘法法则,若,若事件事件A A和和事件事件A A是是独立的独立的,或者说它,或者说它们之间们之间无关联无关联,这时,这时事件事件A A和和事件事件B B同时出现的概率等于它们同时出现的概率等于它们分别出现时概率的乘积。分别出现时概率的乘积。第11页,本讲稿共19页反过来反过来,若事件,若事件A A和事件和事件B B同时出现的概率等于它们分别同时出现的概率等于它们分别出现时概率的乘积,那么事件出现时概率的乘积,那么
14、事件A A和事件和事件B B是独立的,两者是独立的,两者无关联;若事件无关联;若事件A A和事件和事件B B同时出现的概率不等于它们分同时出现的概率不等于它们分别出现时概率的乘积,则这两个事件是有关联的。别出现时概率的乘积,则这两个事件是有关联的。本例中本例中,设,设灌溉方式灌溉方式与与与与叶态表现叶态表现无关联,则无关联,则深水灌深水灌溉溉与与绿叶绿叶同时出现的同时出现的理论频率理论频率应为三种灌溉方式中深水灌应为三种灌溉方式中深水灌溉的频率与三种叶态中绿叶的频率的乘积,溉的频率与三种叶态中绿叶的频率的乘积,第12页,本讲稿共19页其理论数其理论数T T1 1由理论频率乘以总数得出,由理论频
15、率乘以总数得出,同样可以计算出另外的同样可以计算出另外的8 8种情况的理论频数。种情况的理论频数。由此推出理论频数的计算公式:由此推出理论频数的计算公式:第13页,本讲稿共19页如拟合优度检验那样计算如拟合优度检验那样计算x2值值。若。若x2 x2,则观测数与理论数不一致,说明则观测数与理论数不一致,说明灌溉方式与叶态表现间是有关联的,不同的灌溉方式影响着灌溉方式与叶态表现间是有关联的,不同的灌溉方式影响着水稻叶子的衰老。水稻叶子的衰老。第14页,本讲稿共19页确定自由度确定自由度,33列联表的自由度是列联表的自由度是(r-1)(c-1)或者写为或者写为(行行-1)(列列-1)。因为每一行的各
16、理论数受该行总数的约束,所以因为每一行的各理论数受该行总数的约束,所以总的总的自由度自由度只有只有(行行-1)(列列-1)。本例中:。本例中:结果推断结果推断:统计量值没有超过临界值,即没有落入否定域,于:统计量值没有超过临界值,即没有落入否定域,于是我们不能否定叶态表现与灌溉方式无相关的假设,即我们应是我们不能否定叶态表现与灌溉方式无相关的假设,即我们应该接受:灌溉方式对水稻叶子的衰老并没有明显影响。该接受:灌溉方式对水稻叶子的衰老并没有明显影响。第15页,本讲稿共19页卡方检验中的特化公式卡方检验中的特化公式(自由度(自由度=1)独立性检验独立性检验适合性检验适合性检验第16页,本讲稿共19页适合性检验中的特化公式适合性检验中的特化公式(自由度(自由度=1)第17页,本讲稿共19页独立性检验中的特化公式独立性检验中的特化公式(自由度(自由度=1)第18页,本讲稿共19页考考你某养猪场第一年养猪225头,死亡23头;第二年养猪368头,死亡28头。试检验这两年猪的死亡率是否有显著差异?第19页,本讲稿共19页