《第九列联分析课件.ppt》由会员分享,可在线阅读,更多相关《第九列联分析课件.ppt(43页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第九列联分析第1页,此课件共43页哦第九章 列联分析第一节 列联表 第二节 分布与 检验第三节 列联表中的相关测量第2页,此课件共43页哦学习目标1.解释列联表解释列联表2.进行进行 2 检验检验一致性检验一致性检验独立性检验独立性检验3.测度列联表中的相关性测度列联表中的相关性第3页,此课件共43页哦数据的类型与列联分析数数 据据定量数据定量数据(数值型数据数值型数据)定性数据定性数据(品质数据品质数据)离散数据离散数据连续数据连续数据列联分析列联分析第4页,此课件共43页哦品质数据1.品质随机变量的结果表现为类别例如:性别(男,女)2.各类别用符号或数字代码来测度3.使用定类或定序尺度你吸
2、烟吗?1.是;2.否你赞成还是反对这一改革方案?1.赞成;2.反对4.对品质数据的描述和分析通常使用列联表n可使用检验第5页,此课件共43页哦第一节 列联表一一.列联表的构造列联表的构造二二.列联表的分布列联表的分布第6页,此课件共43页哦列联表的构造第7页,此课件共43页哦列联表(概念要点)1.由两个以上的变量进行交叉分类的频数分布表2.行变量的类别用 r 表示,ri 表示第 i 个类别3.列变量的类别用 c 表示,cj 表示第 j 个类别4.每种组合的观察频数用 fij 表示5.表中列出了行变量和列变量的所有可能的组合,所以称为列联表6.一个 r 行 c 列的列联表称为 r c 列联表第8
3、页,此课件共43页哦列联表的结构(2 列联表)列列(cj)合计合计j=1j=1i=1f11f12f11+f12i=2f21f22f21+f22合合计计f11+f21f12+f22n列列列列(c cj j)行行行行 (r ri i)一个一个2 列联表列联表第9页,此课件共43页哦列联表的结构(r c 列联表的一般表示)列列(cj)合计合计j=1j=2i=1f11f12r1i=2f21f22r2:合合计计c1c2n列列列列(c cj j)行行行行(r ri i)r r 行行行行 c c 列的列联表列的列联表列的列联表列的列联表f fij ij 表示第表示第表示第表示第 i i 行第行第行第行第 j
4、 j 列的观察频数列的观察频数列的观察频数列的观察频数第10页,此课件共43页哦列联表(一个实际例子)一分公司二分公司三分公司四分公司合计合计赞成该方案68755779279反对该方案32753331141合合计计10012090110420【例例例例】一一个个集集团团公公司司在在四四个个不不同同的的地地区区设设有有分分公公司司,现现该该集集团团公公司司欲欲进进行行一一项项改改革革,此此项项改改革革可可能能涉涉及及到到各各分分公公司司的的利利益益,故故采采用用抽抽样样调调查查方方式式,从从四四个个分分公公司司共共抽抽取取420420个个样样本本单单位位(人人),了了解解职工对此项改革的看法,调
5、查结果如下表职工对此项改革的看法,调查结果如下表第11页,此课件共43页哦列联表的分布第12页,此课件共43页哦观察值的分布(概念要点)1.边缘分布行边缘分布行观察值的合计数的分布例如,赞成改革方案的共有279人,反对改革方案的141人列边缘分布列观察值的合计数的分布例如,四个分公司接受调查的人数分别为100人,120人,90人,110人2.条件分布与条件频数变量 X 条件下变量 Y 的分布,或在变量 Y 条件下变量 X 的分布每个具体的观察值称为条件频数第13页,此课件共43页哦观察值的分布(图示)一分公司二分公司三分公司四分公司合计合计赞成该方案68755779279反对该方案327533
6、31141合合计计10012090110420行边缘分布行边缘分布行边缘分布行边缘分布列边缘分布列边缘分布列边缘分布列边缘分布条件频数条件频数条件频数条件频数第14页,此课件共43页哦百分比分布(概念要点)1.条件频数反映了数据的分布,但不适合进行对比2.为在相同的基数上进行比较,可以计算相应的百分比,称为百分比分布行百分比:行的每一个观察频数除以相应的行合计数(fij/ri)列百分比:列的每一个观察频数除以相应的列合计数(fij/cj)总百分比:每一个观察值除以观察值的总个数(fij/n)第15页,此课件共43页哦百分比分布(图示)一分公司二分公司三分公司四分公司合计合计赞成该方案24.4%
7、26.9%20.4%28.3%66.4%68.0%62.5%63.3571.8%16.2%17.8%13.6%18.8%反对该方案22.7%31.9%23.4%22.0%33.6%32.0%37.5%36.7%28.2%7.6%10.7%7.9%7.4%合合计计23.8%28.6%21.4%26.2%100%总百分比总百分比总百分比总百分比列百分比列百分比列百分比列百分比行百分比行百分比行百分比行百分比第16页,此课件共43页哦期望频数的分布(概念要点)1.假定行变量和列变量是独立的2.一个实际频数 fij 的期望频数 eij,是总频数的个数 n 乘以该实际频数 fij 落入第 i 行 和第j
8、列的概率,即第17页,此课件共43页哦期望频数的分布(算例)由于观察频数的总数为由于观察频数的总数为n n ,所以,所以f f1111 的期望频数的期望频数 e e11 11 应为应为 例例如如,第第1 1行行和和第第1 1列列的的实实际际频频数数为为 f f1111 ,它它落落在在第第1 1行行的的概概率率估估计计值值为为该该行行的的频频数数之之和和r r1 1除除以以总总频频数数的的个个数数 n n ,即即:r r1 1/n n;它它落落在在第第1 1列列的的概概率率的的估估计计值值为为该该列列的的频频数数之之和和c c1 1除除以以总总频频数数的的个个数数 n n ,即即:c c1 1/
9、n n。根根据据概概率率的的乘乘法法公公式式,该该频频数数落落在在第第1 1行和第行和第1 1列的概率应为列的概率应为第18页,此课件共43页哦期望频数的分布(算例)根据上述公式计算的前例的期望频数一分公司一分公司二分公司二分公司三分公司三分公司四分公司四分公司赞赞成成该该方案方案实际频实际频数数68755779期望期望频频数数66806073反反对该对该方案方案实际频实际频数数32753331期望期望频频数数34403037第19页,此课件共43页哦第二节 分布与 检验一一.统计量统计量二二.检验检验第20页,此课件共43页哦 统计量第21页,此课件共43页哦 统计量(要点)1.用于检验列联
10、表中变量之间是否存在显著性差异,或者用于检验变量之间是否独立2.计算公式为第22页,此课件共43页哦 统计量(算例)实际频数实际频数(fij)期望频数期望频数(eij)fij-eij(fij-eij)2(fij-eij)2f687557793245333166806073344030372-5-36-253-64259364259360.06060.31250.15000.49320.11760.62500.30000.9730合计:合计:合计:合计:3.03193.0319第23页,此课件共43页哦 检验第24页,此课件共43页哦品质数据的假设检验品质数据品质数据比例检验比例检验独立性检验独
11、立性检验Z 检验检验一个总体一个总体 检验检验Z 检验检验 检验检验两个以上总体两个以上总体两个总体两个总体第25页,此课件共43页哦一致性检验(要点)1.检验列联表中目标变量之间是否存在显著性差异2.检验的步骤为提出假设H0:P1=P2=Pj (目标变量的各个比例一致)H1:P1,P2,Pj 不全相等 (各个比例不一致)计算检验的统计量 进行决策进行决策 根据显著性水平根据显著性水平 和自由度和自由度(r r-1)(-1)(c c-1)-1)查出临界值查出临界值 2 2 若若 2 2 2 2,拒绝,拒绝H H0 0;若;若 2 2 2 2,接受,接受H H0 0第26页,此课件共43页哦一致
12、性检验(实例)1.提出假设H0:P1=P2=P2 =P4 (赞成比例一致)H1:P1,P2,P3,P4不全相等 (赞成比例不一致)2.计算检验的统计量【例例例例】续续前前例例,检检验验职职工工的的态态度度是是否否与与所所在在单单位位有有关关?(0.10.1)3.3.根根据据显显著著性性水水平平 0.10.1和和自自由由度度(2-1)(4-1)=3(2-1)(4-1)=3查查出出相相应应的的临临界界值值 2 2=6.251=6.251。由由于于 2 2=3.0319=3.0319 2 2=6.251=6.251,接接受受H H0 0第27页,此课件共43页哦独立性检验(要点)1.检验列联表中的行
13、变量与列变量之间是否独立2.检验的步骤为提出假设H0:行变量与列变量独立H1:行变量与列变量不独立计算检验的统计量 进行决策进行决策 根据显著性水平根据显著性水平 和自由度和自由度(r r-1)(-1)(c c-1)-1)查出临界值查出临界值 2 2 若若 2 2 2 2,拒绝,拒绝H H0 0;若;若 2 2 2 29.4489.448,拒绝,拒绝H H0 0第30页,此课件共43页哦第三节 列联表中的相关测量一一.相关系数相关系数二二.列联相关系数列联相关系数三三.V 相关系数相关系数第31页,此课件共43页哦列联表中的相关测量(一般问题)1.品质相关对品质数据(定类和定序数据)之间相关程
14、度的测度2.列联表变量的相关属于品质相关3.列联表相关测量的指标主要有 相关系数列联相关系数V 相关系数第32页,此课件共43页哦 相关系数(要点)1.测度 22列联表中数据相关程度的一个量2.对于22 列联表,系数的值在01之间3.相关系数计算公式为第33页,此课件共43页哦 相关系数(原理分析)一个简化的一个简化的 2 2 列联表列联表因素因素Y因素因素 X合计合计x1x2y1aba+by2cdc+d合合计计a+cb+dn第34页,此课件共43页哦 相关系数(原理分析)1.列联表中每个单元格的期望频数分别为2.2.将各期望频数代入将各期望频数代入 的计算公式得的计算公式得第35页,此课件共
15、43页哦 相关系数(原理分析)3.将入 相关系数的计算公式得 ad ad 等于等于 bc bc,=0=0,表明变量,表明变量X X 与与 Y Y 之间独立之间独立 若若 b b=0=0 ,c c=0=0,或或a a=0=0 ,d d=0=0,意意味味着着各各观观察察频频数数全全部部落落在在对对角角线线上上,此此时时|=1=1,表表明明变变量量X X 与与 Y Y 之之间间完全相关完全相关4.4.列列联联表表中中变变量量的的位位置置可可以以互互换换,的的符符号号没没有有实实际际意义,故取绝对值即可意义,故取绝对值即可第36页,此课件共43页哦列联相关系数(要点)1.用于测度大于22列联表中数据的
16、相关程度2.计算公式为 C C 的取值范围是的取值范围是 0 0 C C11 C C=0=0表明列联表中的两个变量独立表明列联表中的两个变量独立 C C 的的数数值值大大小小取取决决于于列列联联表表的的行行数数和和列列数数,并并随随行数和列数的增大而增大行数和列数的增大而增大 根根据据不不同同行行和和列列的的列列联联表表计计算算的的列列联联系系数数不不便便于比较于比较第37页,此课件共43页哦V 相关系数(要点)1.计算公式为2.2.V V 的取值范围是的取值范围是 0 0 V V 1 13.3.V V=0=0表明列联表中的两个变量独立表明列联表中的两个变量独立4.4.V V=1=1表明列联表
17、中的两个变量完全相关表明列联表中的两个变量完全相关5.5.不同行和列的列联表计算的列联系数不便于比较不同行和列的列联表计算的列联系数不便于比较6.6.当列联表中有一维为当列联表中有一维为2 2,min(min(r r-1),(-1),(c c-1)=1,-1)=1,此时此时V V=第38页,此课件共43页哦、C、V 的比较1.同一个列联表,、C、V 的结果会不同2.不同的列联表,、C、V 的结果也不同3.在对不同列联表变量之间的相关程度进行比较时,不同列联表中的行与行、列与列的个数要相同,并且采用同一种系数第39页,此课件共43页哦列联表中的相关测量(一个实例)【例例例例】一一种种原原料料来来
18、自自三三个个不不同同地地区区,原原料料质质量量被被分分成成三三个个不不同同等等级级。从从这这批批原原料料中中随随机机抽抽取取500500件件进进行行检检验验,结结果果如如下下表表。分分别别计计算算 系系数数、C C系系数数和和V V系系数数,并并分分析析相相关关程程度度地区地区一级一级二级二级三级三级合计合计甲地区甲地区526424140乙地区乙地区605952171丙地区丙地区506574189合合计计162188150500第40页,此课件共43页哦列联表中的相关测量(一个实例)解:解:解:解:已知已知n n=500=500,根据,根据前面的计算前面的计算 19.8219.82,列联表为,列联表为3 3 3 3结论:结论:结论:结论:三个系数均不高,表明产地和原料等级之三个系数均不高,表明产地和原料等级之 间的相关程度不高间的相关程度不高第41页,此课件共43页哦本章小结1.解释列联表解释列联表2.计算期望频数计算期望频数3.进行进行 2 检验检验一致性检验一致性检验独立性检验独立性检验4.对列联表进行相关分析对列联表进行相关分析1.用用Excel进行进行 2 检验检验第42页,此课件共43页哦结结 束束第43页,此课件共43页哦