第十六章卡方检验精选文档.ppt

上传人:石*** 文档编号:70747376 上传时间:2023-01-27 格式:PPT 页数:35 大小:1.64MB
返回 下载 相关 举报
第十六章卡方检验精选文档.ppt_第1页
第1页 / 共35页
第十六章卡方检验精选文档.ppt_第2页
第2页 / 共35页
点击查看更多>>
资源描述

《第十六章卡方检验精选文档.ppt》由会员分享,可在线阅读,更多相关《第十六章卡方检验精选文档.ppt(35页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第十六章 卡方检验本讲稿第一页,共三十五页数据的类型与列联分析数数 据据定量数据定量数据(数值型数据数值型数据)定性数据定性数据(品质数据或称品质数据或称次数计数数据次数计数数据)离散数据离散数据连续数据连续数据列联表分析列联表分析本讲稿第二页,共三十五页检验的别称检验又叫列联表分析或交叉表分析、表中的单元格内可以是计数的次数也可以是百分比,所以又可以称为百分比检验。检验分析计数数据的时候,对计数数据的分布形态不作任何假设,因此视为非参数检验的一种。本讲稿第三页,共三十五页卡方分布2分布是由正态总体随机抽样得来的一种连续型随机变量的分布。设有一平均数为、方差为的正态总体。现从此总体中独立随机抽

2、取n个随机变量:x1、x2、xn,并求出其标准分数:本讲稿第四页,共三十五页记这n个相互独立的标准分数的平方和为 2,它们服从卡方分布。若用样本平均数代替总体平均数,则随机变量本讲稿第五页,共三十五页卡方分布的特点几个自由度的概率分布密度曲线本讲稿第六页,共三十五页2分布是由正态总体随机抽样得来的一种连续型随机变量的分布。1、显然,2 0,即的取值范围是0,+;分布密度曲线是随自由度不同而改变的一组曲线。2、如果df2,这时候卡方分布的平均数:u 2 df,方差22 2df3、随自由度的增大,曲线由偏斜渐趋于对称;df30时,接近平均数为 的正态分布。4、2 分布是连续分布,但有些离散型分布也

3、近似2 分布。本讲稿第七页,共三十五页一、检验的假设1、分类相互排斥2、观测值相互独立(可能会常常违背)3、期望次数的大小每一个单元格中的期望次数至少在5个以上。如果自由度较大,简单处理方法是每个类别的理论次数不能小于1、20的类别理论次数不小于5本讲稿第八页,共三十五页检验某个样本的性别比例和理论比例是否一致性别实际观察次数理论次数f0-fe(f0-fe)2/fe 男428 438-100.2283 女448 438 100.2283合计 87687600.4566本讲稿第九页,共三十五页 这个差异是属于抽样误差、还是比例发生了实质性的变化?要回答这个问题,首先需要确定一个统计量用以表示实际

4、观察次数与理论次数偏离的程度;然后判断这一偏离程度是否属于抽样误差,即进行显著性检验。为了度量实际观察次数与理论次数偏离的程度,最简单的办法是求出实际观察次数与理论次数的差数。显然不能用这两个差数之和来表示实际观察次数与理论次数的偏离程度。为了避免正、负抵消,可将差数平方后再相加,即计算(f0-fe)2,其值越大,实际观察次数与理论次数相差亦越大,反之则越小。但利用(f0-fe)2表示实际观察次数与理论次数的偏离程度尚有不足。本讲稿第十页,共三十五页例如某一组实际观察次数为505、理论次数为500,相差5;而另一组实际观察次数为26、理论次数为21,相差亦为5。显然这两组实际观察次数与理论次数

5、的偏离程度是不同的。因为前者是相对于理论次数500相差5,后者是相对于理论次数21相差5。为了弥补这一不足,可先将各差数平方除以相应的理论次数后再相加,并记之为,即 本讲稿第十一页,共三十五页检验的公式基本公式本讲稿第十二页,共三十五页第二节 配合度检验又称拟和检验,一般是单向表的卡方检验。一、配合度检验的一般问题(一)统计假设H0:fo-fe=0H1:fo-fe 0本讲稿第十三页,共三十五页(二)自由度的确定一般为资料分类或分组的数目,减去计算理论次数时候所用统计量的个数(三)理论次数的计算,一般将理论概率乘以总数本讲稿第十四页,共三十五页二、配合度检验的应用(一)、检验无差假说(二)、检验

6、假设分布的概率本讲稿第十五页,共三十五页三、连续变量分布的吻合性检验本讲稿第十六页,共三十五页(五)连续性校正(不考)当df1,其中只要有一个组的期望次数小于5,用检验计算出来的得出的概率偏小,要有耶茨连续性校正法校正,将实计数和理论次数的差的绝对值减去0.5再计算因为卡方分布实际上是平滑曲线,在每个小于理论次数的实际次数上加0.5,在大于理论次数的实际次数上减去0.5,本讲稿第十七页,共三十五页当自由度大于1时,直接计算的结果的分布与连续型随机变量分布相近似,这时,可不作连续性矫正,但要求各组内的理论次数不小于5。若某组的理论次数小于5,则应把它与其相邻的一组或几组合并,直到理论次数大于5为

7、止。本讲稿第十八页,共三十五页第三节 独立性检验主要用于两个或者两个以上因素多项分类的计数资料的分析,研究两个变量之间的相关性或称独立性的问题本讲稿第十九页,共三十五页配合度检验和独立性检验的区别(一)独立性检验的次数资料是按两因子属性类别进行归组。根据两因子属性类别数的不同而构成22、2c、rc列联表(r为行因子的属性类别数,c为列因子的属性类别数)。而配合度检验只按某一因子的属性类别将如性别、表现型等次数资料归组(二)配合度检验按已知的属性分类理论或学说计算理论次数。独立性检验在计算理论次数时没有现成的理论或学说可资利用,理论次数是在两因子相互独立的假设下进行计算。本讲稿第二十页,共三十五

8、页独立性检验(要点)1.检验列联表中的行变量与列变量之间是否独立2.检验的步骤为提出假设H0:行变量与列变量独立H1:行变量与列变量不独立计算检验的统计量n n进行决策进行决策l l根据显著性水平根据显著性水平 和自由度和自由度(r r-1)(-1)(c c-1)-1)查出临界值查出临界值 2 2l l若若 2 2 2 2,拒绝,拒绝H H0 0;若若 2 2 2),列因子的属性类别数为c(c2)的列联表。本讲稿第二十八页,共三十五页第六节 列联表中的相关系数计算一一 相关系数相关系数二二.列联相关系数列联相关系数本讲稿第二十九页,共三十五页列联表中的相关测量(一般问题)1.品质相关对品质数据

9、(定类和定序数据)之间相关程度的测度2.列联表变量的相关属于品质相关3.列联表相关测量的指标主要有 相关系数列联相关系数本讲稿第三十页,共三十五页 相关系数(要点)1.测度 22列联表中数据相关程度的一个量2.对于22 列联表,系数的值在01之间3.相关系数计算公式为本讲稿第三十一页,共三十五页 相关系数(原理分析)一个简化的一个简化的 2 2 列联表列联表因素因素Y因素因素 X合计合计x1x2y1aba+by2cdc+d合合计计a+cb+dn本讲稿第三十二页,共三十五页 相关系数(原理分析)(不考)1.列联表中每个单元格的期望频数分别为2.2.将各期望频数代入将各期望频数代入 的计算公式得的

10、计算公式得本讲稿第三十三页,共三十五页 相关系数(原理分析)3.将入 相关系数的计算公式得 ad ad 等于等于 bc bc,=0=0,表明变量表明变量X X 与与 Y Y 之间独立之间独立 若若 b b=0=0 ,c c=0=0,或或a a=0=0 ,d d=0=0,意意味味着着各各观观察察频频数数全全部部落落在在对对角角线线上上,此此时时|=1=1,表表明明变变量量X X 与与 Y Y 之之间完全相关间完全相关4.4.列列联联表表中中变变量量的的位位置置可可以以互互换换,的的符符号号没没有有实实际际意义,故取绝对值即可意义,故取绝对值即可本讲稿第三十四页,共三十五页列联相关系数(要点)1.用于测度大于22列联表中数据的相关程度2.计算公式为 C C 的取值范围是的取值范围是 0 0 C C11 C C=0=0表明列联表中的两个变量独立表明列联表中的两个变量独立 C C 的的数数值值大大小小取取决决于于列列联联表表的的行行数数和和列列数数,并并随随行行数和列数的增大而增大数和列数的增大而增大 根根据据不不同同行行和和列列的的列列联联表表计计算算的的列列联联系系数数不不便便于于比比较较本讲稿第三十五页,共三十五页

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁