《分类数据的检验讲稿.ppt》由会员分享,可在线阅读,更多相关《分类数据的检验讲稿.ppt(32页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、分类数据的检验第一页,讲稿共三十二页哦在描述分析基础上,进行推断统计分析参数估计假设检验统计推断要求知道统计量的抽样分布什么是统计量什么是抽样分布属性数据的两种重要分布:二项分布多项分布第二页,讲稿共三十二页哦二项分布属性数据常常来源于每次试验仅有两种试验结果的n次独立重复试验,如成功与失败、合格与不合格、男与女、等等假设 代表一次试验成功的概率,代表n次试验中成功的次数,这时 服从指标n以及参数 的二项分布,即YY()(1)yyn ynP YyC(,)YB n!0,1,2,!()!ynnCyny ny其中,第三页,讲稿共三十二页哦二项分布二项分布的期望和方差分别为:当n=1时,二项分布简化为
2、:即:0-1分布是二项分布的特殊情况()()(1)E YnD Yn1()(1)yyP Yy0,1y 其中,第四页,讲稿共三十二页哦二项分布【例】假设一次考试有10道选择题,每题有五个选项。一位完全没有准备的学生随机猜测每道题的答案。试问可能回答正确的题数及其概率如何。【解】结果见表2.1可以看出,仅当=0.5时,二项分布才是对称的。对于固定的n,随着趋近0或1,二项分布表现越加偏斜。对于固定的,随着n增加,二项分布更趋近钟形。第五页,讲稿共三十二页哦二项分布当n很大时,二项分布趋近于均值 ,的正态分布(近似分布)。原则上,要使二项分布趋近正态分布,要求期望 和 都不小于5。当较大时(如0.5)
3、,n相对较小(如10)就可以满足要求;当较小时(如0.1或0.9),则要求n取较大的值(如50),即大样本要求。2(1)nnn(1)n第六页,讲稿共三十二页哦多项分布多项分布是二项分布的推广,其试验结果的类别多于两种,记为 。令c代表结果的类别数,用 表示每种结果出现的概率,且对于n次独立试验,具有 次观测落入第1类,次观测落入第2类的概率为:1n2n12,c 1j12121212!(,)!cnnncccjnP n nnn nnnn 其中,12(,)cM n 第七页,讲稿共三十二页哦多项分布显然,当c=2时多项分布简化为二项分布。通常不需要使用以上多项分布概率公式,只需掌握基于多项分布律的统计
4、量即可。大部分针对属性数据的方法都假设:单类别的计数服从二项分布多类别的计数服从多项分布任何一个确定类别 计数 具有均值 ,标准差 。jjnjn(1)jjn第八页,讲稿共三十二页哦其他分布超几何分布设N件产品中有M件次品,从中无放回取n件时所含次品数X是一个随机变量,其概率为:泊松分布描述指定时间内,或面积、体积内某一事件出现的个数的分布,其概率为:()mn mMN MnNC CP XmC()!xeP Xxx,其中 为出现的平均次数第九页,讲稿共三十二页哦二项分布的统计推断实际中,二项分布和多项分布的参数值未知,需要通过样本数据估计总体参数。在统计学原理中,可以根据样本比例的抽样分布,用样本比
5、例估计总体比例的区间,或用样本比例的差估计总体比例差。/2(1)(1)/pzppn12/2111222(2)()(1)/(1)/ppzppnppn第十页,讲稿共三十二页哦二项分布的统计推断需要强调的是,以上方法使用的前提是样本量n要足够大,或者二项比例接近0.5;否则区间估计的效果将非常差,特别是在二项比例趋近1或0时;这时,可以采用假设检验(得分检验)的方法来进行参数估计,其效果要优于一般直接采用区间估计的方法。原因在于:计算样本比例的标准误时,不需要用样本比例作为总体比例的点估计。第十一页,讲稿共三十二页哦二项分布的统计推断【例】一项新治疗手段在10次试验中有9次成功,试对总体比例进行区间
6、估计(=0.05)。【解1】基于直接区间估计方法的结果为:【解2】运用检验统计量构造区间:对于给定的p和n,使检验统计量值 的 是下面方程的解.0.90 1.96(0.90)(0.10)/10(0.714,1.086)1.96z 00001.96(1)/pn(0.596 0.982)pn代入 和 求解得,第十二页,讲稿共三十二页哦二项分布的统计推断对二项参数的假设检验:Wald检验(最简单的方法)是利用 极大似然(ML)估计值代替真实标准误表达式中的未知参数而构造的统计量近似服从标准正态分布,近似服从df=1的卡方分布称为Wald统计量0()/(1)/zpppn2z第十三页,讲稿共三十二页哦二
7、项分布的统计推断似然比检验利用似然函数构造似然比统计量,其中分子是原假设成立时似然函数的极大值,分母是不限定参数时似然函数的极大值,形式为:在原假设成立条件下,该统计量服从df=1的大样本卡方分布可以利用统计软件计算似然函数的极大值012ln(/)ll第十四页,讲稿共三十二页哦几种方法的比较【例】试对前例进行假设检验,其原假设与备择假设分别为Wald检验的统计量:得分检验的统计量:似然比检验统计量:01:0.5:0.5HH,(0.90.5)/0.9(0.1)/104.22z(0.90.5)/0.5(0.5)/102.53z 012ln(/)2ln(0.00977/0.3874)7.36ll 第
8、十五页,讲稿共三十二页哦几种方法的比较其中,当以上统计推断方法结果不一致时,说明ML估计量的分布远离了正态分布,在这种情况下,使用小样本方法将更准确。对小样本时,直接使用二项分布,而不是使用正态近似来计算P-值,将更加安全准确。91091110!/9!1!(0.5)(0.5)0.0097710!/9!1!(0.9)(0.1)0.3874ll第十六页,讲稿共三十二页哦分类数据的检验当分类超过两类时,形成多项分布;多项分布属性数据的假设检验一般提法:按照某项指标总体被分为r类,分别为:提出原假设:假设对该总体进行n次观测,其中Ai类的观测次数为ni,以此为基础对原假设进行检验。1,rAA01:00
9、10riiHAppiiippi类所占比例其中,已知,第十七页,讲稿共三十二页哦分类数据的2检验在原假设成立时,n次观测中属于Ai类的期望频数为 ,则实际频数与期望频数应接近,从而有Pearson卡方统计量:该统计量的值越小,说明原假设成立;若该值较大,说明实际频数与期望频数差异较大,故拒绝原假设。0inp222010()(1)riiiinnprnp第十八页,讲稿共三十二页哦Mendel 的豌豆实验第十九页,讲稿共三十二页哦分类数据的2检验对得到的卡方统计量的值,可以直接与相应的显著性水平和自由度下的卡方值比较,若大于则拒绝原假设,若小于则不拒绝原假设;查表得:,故不拒绝原假设。也可以利用P-值
10、进行判断:需要注意的是:卡方统计量的使用要求样本量要大,且期望频数不能太小,见附录3。通常要求样本量50,期望频数5。0.052(4 1)7.812(3)0.47)PP第二十页,讲稿共三十二页哦分类数据的2检验对于小期望频数的问题,有人采用合并类别的方法。但会导致:会丢失信息;随机性受到影响;不同的类别合并方式会产生不同的结论对于前面讨论的二项分布的检验而言,同样可以采用卡方统计量进行检验。只不过只有两类而已(卡方的df=1)。第二十一页,讲稿共三十二页哦分类数据的2检验以上所进行的多项分布数据检验称为拟合优度检验,或一致性检验;类似的例子如:为提高市场占用率,两个主要竞争对手展开了公告战。已
11、知之前A公司占用率45%,B公司为40%,其他15%。为了解广告之后是否有变化调查了200个消费者,有102人购买A公司产品,82人购买B公司产品,16人购买其他公司产品。问前后是否有差异。第二十二页,讲稿共三十二页哦分类数据的似然比检验分类数据的似然函数取决于多项分布的分布律:似然函数就是观测数据出现的概率,被看作参数的函数。似然比统计量确定了在原假设下和不限定参数时似然函数极大值的比值。则多项分布的似然比统计量记为:1111!(,)!rnnrrirnp nnppnnnn,202ln()2ln()iiinpGnn 第二十三页,讲稿共三十二页哦分类数据的似然比检验似然比统计量说明,当期望频数等
12、于实际频数时,G2等于0;越大的G2则提供了拒绝H0越充分的证据。G2与皮尔逊卡方统计量类似,当原假设成立且期望频数很大时,都服从相同的卡方分布。G2渐近卡方分布自由度的确定方法:自由度df=完全参数空间要估计的参数个数-原假设成立时要估计的参数个数第二十四页,讲稿共三十二页哦Mendel 的豌豆实验前例同样可以利用似然比统计量进行检验与皮尔逊卡方统计量的值相近。检验的判断准则同卡方检验。293153108315ln()108ln()16556165562ln()20.483101132101ln()32ln()1655616556G 第二十五页,讲稿共三十二页哦带参数的分类数据的检验前面的分
13、类数据检验中,假设总体比例都是已知的,进而通过计算检验统计量的值进行判断原假设是否成立。而实际中并不完全是这样的。这就需要在原假设成立时先对未知的参数进行估计,然后再进行检验。原假设为:011:(,),iimmHppm,其中为 个未知参数第二十六页,讲稿共三十二页哦带参数的分类数据的检验根据多项分布律构造似然函数,从而得到对数似然方程,可以求得未知参数的估计值,再来计算皮尔逊卡方统计量和似然比统计量:222()(1)iiinnprmnp22ln()2lniiinpGnn 第二十七页,讲稿共三十二页哦带参数的分类数据的检验【例】按性别和是否色盲将随机调查1000人进行分类,结果为:男性正常、女性
14、正常、男性色盲、女性色盲各有442人、514人、38人、6人。根据遗传学理论,男性正常、女性正常、男性色盲、女性色盲的概率分别为:其中,未知,。问调查与模型相符吗?22/2/2)/2/2pppqqq,(,p1qp 第二十八页,讲稿共三十二页哦带参数的分类数据的检验可见,上例中参数是未知的,需要先求p的极大似然估计值。似然函数为:得到对数似然方程:于是求得:51464423822()2222ppqqL ppqln()95651450021L ppppp0.91p 第二十九页,讲稿共三十二页哦第三十页,讲稿共三十二页哦数值迭代算法求参数在对数似然方程无显式解时,可以使用excel,用数值迭代算法求得参数的极大似然估计值。具体方法有五个步骤,可以参见教材P26。第三十一页,讲稿共三十二页哦本章小结主要的定性数据的分布类型二项分布的统计推断分类数据的检验带参数的分类数据的检验第三十二页,讲稿共三十二页哦