《《列联分析》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《列联分析》PPT课件.ppt(44页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第 10 章 列联分析10.1 分类数据与列联表分类数据与列联表 10.2 2 检验检验10.3 列联表中的相关测量列联表中的相关测量分类数据1.分类变量的结果表现为类别例如:性别(男,女)2.各类别用符号或数字代码来测度3.使用分类或顺序尺度你吸烟吗?1.是;2.否你赞成还是反对这一改革方案?1.赞成;2.反对4.对分类数据的描述和分析通常使用列联表5.可使用检验 分类数据与列联表10.1.1 分类数据分类数据10.1.2 列联表的构造列联表的构造10.1.3 列联表的分布列联表的分布列联表(contingency table)1.由两个以上的变量交叉分类的频数分布表由两个以上的变量交叉分类
2、的频数分布表2.行变量的类别用行变量的类别用 r 表示,表示,ri 表示第表示第 i 个类别个类别3.列变量的类别用列变量的类别用 c 表示,表示,cj 表示第表示第 j 个类别个类别4.每种组合的观察频数用每种组合的观察频数用 fij 表示表示5.表表中中列列出出了了行行变变量量和和列列变变量量的的所所有有可可能能的的组组合,所以称为列联表合,所以称为列联表6.一个一个 r 行行 c 列的列联表称为列的列联表称为 r c 列联表列联表列联表的结构(2 2 列联表)列列(cj)合计合计j=1j=1i=1f11f12f11+f12i=2f21f22f21+f22合合计计f11+f21f12+f2
3、2n列列列列(c cj j)行行行行 (r ri i)列联表的结构(r c 列联表的一般表示)列列(cj)合计合计j=1j=2i=1f11f12r1i=2f21f22r2:合合计计c1c2n列列列列(c cj j)行行行行(r ri i)f fij ij 表示第表示第表示第表示第 i i 行第行第行第行第 j j 列的观察频数列的观察频数列的观察频数列的观察频数列联表(例题分析)一分公司二分公司三分公司四分公司合计合计赞赞成成该该方案方案68755779279反反对该对该方案方案32753331141合合计计10012090110420【例例例例】一一一一个个个个集集集集团团团团公公公公司司司
4、司在在在在四四四四个个个个不不不不同同同同的的的的地地地地区区区区设设设设有有有有分分分分公公公公司司司司,现现现现该该该该集集集集团团团团公公公公司司司司欲欲欲欲进进进进行行行行一一一一项项项项改改改改革革革革,此此此此项项项项改改改改革革革革可可可可能能能能涉涉涉涉及及及及到到到到各各各各分分分分公公公公司司司司的的的的利利利利益益益益,故故故故采采采采用用用用抽抽抽抽样样样样调调调调查查查查方方方方式式式式,从从从从四四四四个个个个分分分分公公公公司司司司共共共共抽抽抽抽取取取取420420个个个个样样样样本本本本单单单单位位位位(人人人人),了解职工对此项改革的看法,调查结果如下表,了
5、解职工对此项改革的看法,调查结果如下表,了解职工对此项改革的看法,调查结果如下表,了解职工对此项改革的看法,调查结果如下表列联表的分布观察值的分布1.边缘分布边缘分布行边缘分布行边缘分布行观察值的合计数的分布行观察值的合计数的分布例如,赞成改革方案的共有例如,赞成改革方案的共有279人,反对改革方案的人,反对改革方案的141人人列边缘分布列边缘分布列观察值的合计数的分布列观察值的合计数的分布例例如如,四四个个分分公公司司接接受受调调查查的的人人数数分分别别为为100人人,120人人,90人,人,110人人2.条条件分布与条件频数件分布与条件频数变变量量 X 条条件件下下变变量量 Y 的的分分布
6、布,或或在在变变量量 Y 条条件件下下变变量量 X 的分布的分布每个具体的观察值称为条件频数每个具体的观察值称为条件频数观察值的分布(图示)一分公司一分公司二分公司二分公司三分公司三分公司四分公司四分公司合计合计赞赞成成该该方案方案68755779279反反对该对该方案方案32453331141合合计计10012090110420行边缘分布行边缘分布行边缘分布行边缘分布列边缘分布列边缘分布列边缘分布列边缘分布条件频数条件频数条件频数条件频数百分比分布(概念要点)1.条件频数反映了数据的分布,但不适合对比条件频数反映了数据的分布,但不适合对比2.为为在在相相同同的的基基数数上上进进行行比比较较,
7、可可以以计计算算相相应应的百分比,称为的百分比,称为百分比分布百分比分布行行百百分分比比:行行的的每每一一个个观观察察频频数数除除以以相相应应的的行行合计数合计数(fij/ri)列列百百分分比比:列列的的每每一一个个观观察察频频数数除除以以相相应应的的列列合计数合计数(fij/cj)总总百百分分比比:每每一一个个观观察察值值除除以以观观察察值值的的总总个个数数(fij/n)百分比分布(图示)一分公司二分公司三分公司四分公司合计合计赞赞成成该该方案方案24.4%26.9%20.4%28.3%66.4%68.0%62.5%63.3571.8%16.2%17.8%13.6%18.8%反反对该对该方案
8、方案22.7%31.9%23.4%22.0%33.6%32.0%37.5%36.7%28.2%7.6%10.7%7.9%7.4%合合计计23.8%28.6%21.4%26.2%100%总百分比总百分比总百分比总百分比列百分比列百分比列百分比列百分比行百分比行百分比行百分比行百分比期望频数的分布什么是期望分布?什么是期望分布?以前例以前例为例。我例。我们已已经知道在全部知道在全部420420个个样本中,本中,赞成成改革方案的有改革方案的有279279人,占人,占总数的数的66.4%66.4%,即从,即从总体上看有体上看有2/32/3的的调查对象象对改革方案表示改革方案表示赞同。但我同。但我们希望
9、希望进一步一步了解各分公司了解各分公司对这项改革方案的看法是否存在着差异。改革方案的看法是否存在着差异。从从逻辑上上讲,如果个分公司,如果个分公司对这项改革方案的看法相同,改革方案的看法相同,那么第一分公司那么第一分公司赞成成该方案的人数方案的人数应当当为:10066.4%=6610066.4%=66人人第二分公司第二分公司赞成成该方案的人数方案的人数应当当为:12066.4%=8012066.4%=80人人这6666人和人和8080人就是本例中的期望人就是本例中的期望值。由此可以由此可以计算出期望分布算出期望分布.期望频数的分布(例题分析)一分公司一分公司二分公司二分公司三分公司三分公司四分
10、公司四分公司赞赞成成该该方案方案实际频实际频数数68755779期望期望频频数数66806073反反对该对该方案方案实际频实际频数数32753331期望期望频频数数34403037利用利用观察察值得有关信息得有关信息计算期望算期望值的分的分布是布是进行行 检验的第一步。的第一步。2检验10.2.1 统计量统计量10.2.2 拟合优度检验拟合优度检验10.2.2 独立性检验独立性检验 统计量 统计量1.用于检验列联表中变量间拟合优度和独立性2.用于测定两个分类变量之间的相关程度 3.计算公式为 统计量(例题分析)实际频数实际频数(fo)期望频数期望频数(fe)fo-fe(fo-fe)2(fo-f
11、e)2fe687557793245333166806073344030372-5-36-253-64259364259360.06060.31250.15000.49320.11760.62500.30000.9730合计:合计:合计:合计:统计量的特征:量的特征:值的大小与的大小与观察察值与期望与期望值的配的配对数有关,因数有关,因此此统计量的分布与自由度有关。量的分布与自由度有关。最后最后值描述了描述了观察察值与期望与期望值的接近程度。的接近程度。分布的自由度分布的自由度自由度(行数)自由度(行数)(列数)(列数)()()()()拟合优度检验(goodness of fit test)1.
12、对不不同同总体体中中某某些些性性质具具有有相相同同比比例例这一一假假设进行行检验;检验多个比例是否相等多个比例是否相等2.检验的步的步骤提出假提出假设H0:1=2=j;H1:1,2,j 不全相等不全相等 计算算检验的的统计量量3 3、进行决策行决策l 根据根据显著性水平著性水平 和自由度和自由度(r r-1)(-1)(c c-1)-1)查出出临界界值 2 2l 若若 2 2 2 2,拒,拒绝H H0 0;若若 2 2 2 2,拒,拒绝H H0 0;若若 2 2 2 2,接受,接受H H0 0独立性检验独立性检验(例题分析例题分析)【例例】一一种种原原料料来来自自三三个个不不同同地地区区,原原料
13、料质质量量被被分分成成三三个个不不同同等等级级。从从这这批批原原料料中中随随机机抽抽取取500件件进进行行检检验验,结结果果如如下下表。要求检验各个地区和原料质量之间是否存在依赖关系?表。要求检验各个地区和原料质量之间是否存在依赖关系?地区地区一级一级二级二级三级三级合计合计甲地区甲地区526424140乙地区乙地区605952171丙地区丙地区506574189合合计计162188150500 若两个事件相互独立,若两个事件相互独立,若两个事件相互独立,若两个事件相互独立,则这则这两个事件同两个事件同两个事件同两个事件同时发时发生的概率等于它生的概率等于它生的概率等于它生的概率等于它们们各自
14、各自各自各自发发生的概率之生的概率之生的概率之生的概率之积积,即,即,即,即 P P(ABAB)=)=P P(A A)P P(B B)解:解:解:解:H H0 0:地区和原料等地区和原料等地区和原料等地区和原料等级级之之之之间间是独立的是独立的是独立的是独立的 H H1 1:地区和原料等地区和原料等地区和原料等地区和原料等级级之之之之间间不独立不独立不独立不独立 这这里的关里的关里的关里的关键问题键问题是是是是计计算期望算期望算期望算期望值值 令令令令A=A=样样本本本本单单位来自甲地区的事件位来自甲地区的事件位来自甲地区的事件位来自甲地区的事件 B=B=样样本本本本单单位属于一位属于一位属于
15、一位属于一级级原料的事件原料的事件原料的事件原料的事件 P(P(第一第一第一第一单单元元元元)=P(AB)=P(A)P(B)=P(AB)=P(A)P(B)=(140/500)(162/500)=(140/500)(162/500)第一第一第一第一单单元相元相元相元相应应的期望的期望的期望的期望频频数数数数为为:一般地,可以采用下式一般地,可以采用下式一般地,可以采用下式一般地,可以采用下式计计算任何一个算任何一个算任何一个算任何一个单单元中元中元中元中频频数数数数的期望的期望的期望的期望值值:地区地区一级一级二级二级三级三级合计合计甲地区甲地区观观察察值值526424140期望期望值值45.3
16、652.6442.00乙地区乙地区观观察察值值605952171期望期望值值55.4064.3051.30丙地区丙地区观观察察值值506574189期望期望值值61.2471.0656.70合合计计162188150500、计算算检验的的统计量量3 3、进行决策行决策l 根据根据显著性水平著性水平 和自由度和自由度(r r-1)(-1)(c c-1)-1)查出出临界界值 2 2因此:拒因此:拒绝原假原假设,即地区和原料等,即地区和原料等级之之间存在依存在依赖关系关系10.3 列联表中的相关测量10.3.1 相关系数相关系数10.3.2 列联相关系数列联相关系数10.3.3 V 相关系数相关系数
17、列联表中的相关测量列联表中的相关测量1.品质相关品质相关对品质数据对品质数据(分分类和顺序数据类和顺序数据)之间相关程之间相关程度的测度度的测度2.列联表变量的相关属于品质相关列联表变量的相关属于品质相关3.列联表相关测量的统计量主要有列联表相关测量的统计量主要有 相关系数相关系数列联相关系数列联相关系数V 相关系数相关系数 相关系数(correlation coefficient)1.测度测度2 2列联表中数据相关程度列联表中数据相关程度2.对于对于2 2 列联表,列联表,系数的值在系数的值在01之间之间3.相关系数相关系数计算公式为计算公式为其中:其中:N为列列联表中的表中的总频数数 相关
18、系数(原理分析)一个简化的一个简化的 2 2 列联表列联表因素因素Y因素因素 X合计合计x1x2y1aba+by2cdc+d合合计计a+cb+dn 相关系数(原理分析)列联表中每个单元格的期望频数分别为将各期望频数代入将各期望频数代入 的计算公式得的计算公式得 相关系数(原理分析)将将 代入代入 相关系数的计算公式得相关系数的计算公式得ad 等于等于 bc,=0,表明变量表明变量X 与与 Y 之间独立之间独立若若 b=0,c=0,或或a=0,d=0,意意味味着着各各观观察察频频数数全全部部落落在在对对角角线线上上,此此时时|=1,表表明明变变量量X 与与 Y 之间完全相关之间完全相关列列列列联
19、联联联表表表表中中中中变变变变量量量量的的的的位位位位置置置置可可可可以以以以互互互互换换换换,的的的的符符符符号号号号没没没没有有有有实际意义,故取绝对值即可实际意义,故取绝对值即可实际意义,故取绝对值即可实际意义,故取绝对值即可列联相关系数(coefficient of contingency)1.用于测度大于用于测度大于2 2列联表中数据的相关程度列联表中数据的相关程度2.计算公式为计算公式为 C C 的取值范围是的取值范围是的取值范围是的取值范围是 0 0 C C11 C C=0=0表明列联表中的两个变量独立表明列联表中的两个变量独立表明列联表中的两个变量独立表明列联表中的两个变量独立
20、 C C 的的的的数数数数值值值值大大大大小小小小取取取取决决决决于于于于列列列列联联联联表表表表的的的的行行行行数数数数和和和和列列列列数数数数,并随行数和列数的增大而增大并随行数和列数的增大而增大并随行数和列数的增大而增大并随行数和列数的增大而增大 根根根根据据据据不不不不同同同同行行行行和和和和列列列列的的的的列列列列联联联联表表表表计计计计算算算算的的的的列列列列联联联联系系系系数数数数不不不不便于比较便于比较便于比较便于比较V 相关系数(V correlation coefficient)1.计算公式为计算公式为2.V 的取值范围是的取值范围是 0 V 13.V=0表明列联表中的两个
21、变量独立表明列联表中的两个变量独立4.V=1表明列联表中的两个变量完全相关表明列联表中的两个变量完全相关5.不同行和列的列联表计算的列联系数不便于比较不同行和列的列联表计算的列联系数不便于比较6.当当列列联联表表中中有有一一维维为为2,min(r-1),(c-1)=1,此此时时V=、C、V 的比较1.同一个列联表,同一个列联表,、C、V 的的结果会不同结果会不同2.不同的列联表,不同的列联表,、C、V 的结果也不同的结果也不同3.在在对对不不同同列列联联表表变变量量之之间间的的相相关关程程度度进进行行比比较较时时,不不同同列列联联表表中中的的行行与与行行、列列与与列列的个数要相同,并且采用同一
22、种系数的个数要相同,并且采用同一种系数列联表中的相关测量(例题分析)【例例】一一种种原原料料来来自自三三个个不不同同地地区区,原原料料质质量量被被分分成成三三个个不不同同等等级级。从从这这批批原原料料中中随随机机抽抽取取500件件进进行行检检验验,结结果果如如下表。分别计算下表。分别计算 系数、系数、C系数和系数和V系数,并分析相关程度系数,并分析相关程度地区地区一级一级二级二级三级三级合计合计甲地区甲地区526424140乙地区乙地区605952171丙地区丙地区506574189合合计计162188150500列联表中的相关测量(例题分析)解:解:解:解:已知已知n n=500=500,列联表为,列联表为3 3 3 3结论:三个系数均不高,表明产地和原料等级之结论:三个系数均不高,表明产地和原料等级之 间的相关程度不高间的相关程度不高