《列联分析.ppt》由会员分享,可在线阅读,更多相关《列联分析.ppt(45页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、关于列联分析现在学习的是第1页,共45页背 景统计分析中,我们常常会遇到一些定性的数据性别(男、女)态度(喜欢、不喜欢)性别对态度是否有影响1.可使用列联表分析技术2.可运用对数线性模型与 Logistic模型分析技术2022/9/252现在学习的是第2页,共45页主要内容2022/9/253现在学习的是第3页,共45页第一节 分类数据与列联表2022/9/254现在学习的是第4页,共45页l分类变量的结果表现为类别分类变量的结果表现为类别l例如:性别例如:性别 (男男,女女)l各类别用符号或数字代码来测度各类别用符号或数字代码来测度l使用分类或顺序尺度使用分类或顺序尺度l你吸烟吗你吸烟吗?1
2、.1.是;是;2.2.否否l你赞成还是反对这一改革方案你赞成还是反对这一改革方案?1.1.赞成;赞成;2.2.反对反对l对分类数据的描述和分析通常使用列联表对分类数据的描述和分析通常使用列联表l可使用可使用 检验检验l数值型数据也可以转化为分类数据数值型数据也可以转化为分类数据一、分类数据2022/9/255现在学习的是第5页,共45页1.1.由两个以上的变量交叉分类的频数分布表由两个以上的变量交叉分类的频数分布表2.2.行变量的类别用行变量的类别用 r r 表示,表示,r ri i 表示第表示第 i i 个类别个类别3.3.列变量的类别用列变量的类别用 c c 表示,表示,c cj j 表示
3、第表示第 j j 个类别个类别4.4.每种组合的观察频数用每种组合的观察频数用 f fijij 表示表示5.5.表表中中列列出出了了行行变变量量和和列列变变量量的的所所有有可可能能的的组组合,所以称为列联表合,所以称为列联表6.6.一个一个 r r 行行 c c 列的列联表称为列的列联表称为 r r c c 列联表列联表二、列联表的构造-列联表(contingency table)2022/9/256现在学习的是第6页,共45页列联表的结构(2 2 列联表)列列(cj)合计合计j=1j=1i=1f11f12f11+f12i=2f21f22f21+f22合计合计f11+f21f12+f22n列列
4、列列(c c c cj j j j)行行行行 (r r r ri i i i)2022/9/257现在学习的是第7页,共45页列联表的结构(r c 列联表的一般表示)列列(cj)合合计j=1j=2i=1f11f12r1i=2f21f22r2:合合计计c1c2n列列(c cj j)行行(r ri i)fij 表示第表示第 i 行第行第 j 列的观察频数列的观察频数2022/9/258现在学习的是第8页,共45页例题分析例题分析一分公司二分公司三分公司四分公司合计合计赞赞成成该该方案方案6868757557577979279279反反对该对该方案方案3232757533333131141141合合
5、计计1001001201209090110110420420【例例】一一个个集集团团公公司司在在四四个个不不同同的的地地区区设设有有分分公公司司,现现该该集集团团公公司司欲欲进进行行一一项项改改革革,此此项项改改革革可可能能涉涉及及到到各各分分公公司司的的利利益益,故故采采用用抽抽样样调调查查方方式式,从从四四个个分分公公司司共共抽抽取取420420个个样样本本单单位位(人人),了了解解职职工工对对此项改革的看法,调查结果如下表此项改革的看法,调查结果如下表2022/9/259现在学习的是第9页,共45页1.边缘分布分布行行边缘分布分布行行观察察值的合的合计数的分布数的分布例如,例如,赞成改革
6、方案的共有成改革方案的共有279人,反人,反对改革方案的改革方案的141人人列列边缘分布分布列列观察察值的合的合计数的分布数的分布例例如如,四四个个分分公公司司接接受受调查的的人人数数分分别为100人人,120人人,90人人,110人人2.条件分布与条件条件分布与条件频数数变量量 X 条条件件下下变量量Y 的的分分布布,或或在在变量量Y 条条件件下下变量量 X 的分布的分布每个具体的每个具体的观察察值称称为条件条件频数数2022/9/2510现在学习的是第10页,共45页一分公司一分公司二分公司二分公司三分公司三分公司四分公司四分公司合计合计赞赞成成该该方案方案6868757557577979
7、279279反反对该对该方案方案3232454533333131141141合合计计1001001201209090110110420420行边缘分布行边缘分布列边缘分布列边缘分布条件频数条件频数2022/9/2511现在学习的是第11页,共45页1.1.条件频数反映了数据的分布,但不适合对比条件频数反映了数据的分布,但不适合对比2.2.为为在在相相同同的的基基数数上上进进行行比比较较,可可以以计计算算相相应应的的百百分分比,称为比,称为百分比分布百分比分布l行行百百分分比比:行行的的每每一一个个观观察察频频数数除除以以相相应应的的行行合合计计数数(f fijij /r ri i)l列列百百分
8、分比比:列列的的每每一一个个观观察察频频数数除除以以相相应应的的列列合合计计数数(f fijij /c cj j)l总总百百分分比比:每每一一个个观观察察值值除除以以观观察察值值的的总总个个数数(f fijij /n n)2022/9/2512现在学习的是第12页,共45页一分公司一分公司二分公司二分公司三分公司三分公司四分公司四分公司合计合计赞成该方案赞成该方案24.4%24.4%26.9%26.9%20.4%20.4%28.3%28.3%66.4%66.4%68.0%68.0%62.5%62.5%63.3563.3571.8%71.8%16.2%16.2%17.8%17.8%13.6%13
9、.6%18.8%18.8%反对该方案反对该方案22.7%22.7%31.9%31.9%23.4%23.4%22.0%22.0%33.6%33.6%32.0%32.0%37.5%37.5%36.7%36.7%28.2%28.2%7.6%7.6%10.7%10.7%7.9%7.9%7.4%7.4%合计合计23.8%23.8%28.6%28.6%21.4%21.4%26.2%26.2%100%100%总百分比总百分比列百分比列百分比行百分比行百分比2022/9/2513现在学习的是第13页,共45页1.假定行假定行变量和列量和列变量是独立的量是独立的2.一一个个实际频数数 fij 的的期期望望频数数
10、 eij,是是总频数数的的个个数数 n 乘乘以以该实际频数数 fij 落落入入第第 i 行行 和和第第j列的概率,即列的概率,即2022/9/2514现在学习的是第14页,共45页由于观察频数的总数为由于观察频数的总数为n,所以,所以f11 的期望频数的期望频数 e11 应为应为例例如如,第第1行行和和第第1列列的的实实际际频频数数为为 f11,它它落落在在第第1行行的的概概率率估估计计值值为为该该行行的的频频数数之之和和r1除除以以总总频频数数的的个个数数 n,即即:r1/n;它它落落在在第第1列列的的概概率率的的估估计计值值为为该该列列的的频频数数之之和和c1除除以以总总频频数数的的个个数
11、数 n,即即:c1/n。根根据据概概率率的的乘乘法法公公式式,该该频频数数落落在在第第1行和第行和第1列的概率应为列的概率应为2022/9/2515现在学习的是第15页,共45页一分公司一分公司二分公司二分公司三分公司三分公司四分公司四分公司赞赞成成该该方方 案案实际频实际频数数6868757557577979期望期望频频数数6666808060607373反反对该对该方方 案案实际频实际频数数3232757533333131期望期望频频数数34344040303037372022/9/2516现在学习的是第16页,共45页第二节第二节 检验检验 一、一、统计量统计量 二、拟合优度检验二、拟合
12、优度检验2022/9/2517现在学习的是第17页,共45页1.用于用于检验列列联表中表中变量量间拟合合优度和独立性度和独立性2.用于用于测定两个分定两个分类变量之量之间的相关程度的相关程度 3.计算公式算公式为 其自由度其自由度为 式中式中 -列列联表中第表中第i行第行第j列列类别的的实际频数数 -列列联表中第表中第i行第行第j列列类别的期望的期望频数数一、一、统计量量2022/9/2518现在学习的是第18页,共45页实际频数数(fij)期望期望频数数(eij)fij-eij(fij-eij)2(fij-eij)2eij687557793245333166806073344030372-5
13、-36-253-64259364259360.06060.31250.15000.49320.11760.62500.30000.9730合计:合计:3.03192022/9/2519现在学习的是第19页,共45页二、拟合优度二、拟合优度检验检验(品质数据的假设检验品质数据的假设检验)品质数据品质数据比例检验比例检验独立性检验独立性检验Z Z 检验检验一个总体 检验检验Z Z 检验检验 检验检验两个以上总体两个总体2022/9/2520现在学习的是第20页,共45页1.检验多个比例是否相等多个比例是否相等2.检验的步的步骤提出假提出假设H0:1=2=j;H1:1,2,j 不全相等不全相等 计算
14、算检验的的统计量量拟合合优度度检验(goodness of fit test)进行决策进行决策l 根据显著性水平根据显著性水平 和自由度和自由度(r-1)(c-1)查出临界值查出临界值 2l 若若 2 2,拒绝,拒绝H0;若;若 2 2,接受,接受H02022/9/2521现在学习的是第21页,共45页H0:1=2=3=4 H1:1,2,3,4 不全相等不全相等=0.1df=(2-1)(4-1)=3临界界值(s):拟合合优度度检验(例例题分析分析)统计量统计量:在在 =0.1的水平上不能拒绝的水平上不能拒绝H0可以认为四个分公司对改革方案的赞成比例可以认为四个分公司对改革方案的赞成比例是一致的
15、是一致的 决策决策:结论结论:6.2513.0319 =0.10现在学习的是第22页,共45页 【例例】为了了提提高高市市场占占有有率率,A公公司司和和B公公司司同同时开开展展了了广广告告宣宣传。在在广广告告宣宣传战之之前前,A公公司司的的市市场占占有有率率为45%,B公公司司的的市市场占占有有率率为40%,其其他他公公司司的的市市场占占有有率率为15%。为了了了了解解广广告告战之之后后A、B和和其其他他公公司司的的市市场占占有有率率是是否否发生生变化化,随随机机抽抽取取了了200名名消消费者者,其其中中102人人表表示示准准备购买A公公司司产品品,82人人表表示示准准备购买B公公司司产品品,
16、另另外外16人人表表示示准准备购买其其他他公公司司产品品。检验广广告告战前前后后各各公公司司的的市市场占占有有率率是是否否发生生了了变化化(0.05)拟合优度检验拟合优度检验(例题分析例题分析)2022/9/2523现在学习的是第23页,共45页H H0 0:1 1=0.45=0.45 2 2=0.4=0.4 3 3=0.150.15 H H1 1:原假设中至少有一个不成立原假设中至少有一个不成立 =0.05=0.05df=(2-1)(3-1)=2df=(2-1)(3-1)=2临界值临界值(s):(s):拟合优度检验拟合优度检验(例题分析例题分析)统计量统计量:在在 =0.05的水平上拒绝的水
17、平上拒绝H0可以认为广告后各公司产品市场占有率发可以认为广告后各公司产品市场占有率发生显著变化生显著变化 决策决策:结论结论:0 008.185.99 =0.05 24现在学习的是第24页,共45页第第1步:将步:将观察察值输入一列,将期望入一列,将期望值输入一列入一列第第2步:步:选择“函数函数”选项第第3步:在函数分步:在函数分类中中选“统计”,在函数名中,在函数名中选 “CHITEST”,点,点击“确定确定”第第4步:在步:在对话框框“Actual_range”输入入观察数据区域察数据区域 在在对话框框“Expected_range”输入期望数据区入期望数据区 域得到域得到P值为0.01
18、6711,所以拒,所以拒绝原假原假设 拟合合优度度检验(例例题分析分析用用P值检验)25现在学习的是第25页,共45页第三节第三节 列联表中的相关测量列联表中的相关测量一一、相关系数相关系数二、列联相关系数二、列联相关系数三三、V V 相关系数相关系数2022/9/2526现在学习的是第26页,共45页1.品品质相关相关对品品质数据数据(分分类和和顺序数据序数据)之之间相关程度的相关程度的测度度2.列列联表表变量的相关属于品量的相关属于品质相关相关3.列列联表相关表相关测量的量的统计量主要有量主要有 相关系数相关系数列列联相关系数相关系数V 相关系数相关系数2022/9/2527现在学习的是第
19、27页,共45页1.测度度2 2列列联表中数据相关程度表中数据相关程度2.对于于2 2 列列联表,表,系数的系数的值在在01之之间3.相关系数相关系数计算公式算公式为 式中式中n为列列联表的表的总频数,即数,即样本量本量一、一、相关系数相关系数(correlation coefficient)2022/9/2528现在学习的是第28页,共45页一个简化的一个简化的 2 2 2 2 列联表列联表 相关系数相关系数(原理分析原理分析)因素因素Y因素因素 X合计合计x1x2y1aba+by2cdc+d合计合计a+cb+dn2022/9/2529现在学习的是第29页,共45页la、b、c、d均均为条件
20、条件频数数l当当变量量X,Y相互独立,不存在相关关系相互独立,不存在相关关系时,频数数间应有下面的关系:有下面的关系:l化化简后有:后有:l差差值 的大小可以反映的大小可以反映变量之量之间相关程度的高低。差相关程度的高低。差值越大,越大,说明两个明两个变量的相关程度越高。量的相关程度越高。系数就是以差系数就是以差值为基基础,实现对两个两个变量相关程度的量相关程度的测量。量。2022/9/2530现在学习的是第30页,共45页列列联表中每个表中每个单元格的期望元格的期望频数分数分别为 相关系数相关系数(原理分析原理分析)将各期望频数代入将各期望频数代入 的计算公式得的计算公式得2022/9/25
21、31现在学习的是第31页,共45页将将 代入代入 相关系数的相关系数的计算公式得算公式得 相关系数相关系数(原理分析原理分析)lad 等于等于 bc,=0,表明变量,表明变量X 与与 Y 之间独立之间独立l若若 b=0,c=0,或或a=0,d=0,意意味味着着各各观观察察频频数数全全部部落落在对角线上,此时在对角线上,此时|=1,表明变量表明变量X 与与 Y 之间完全相关之间完全相关列列联联表表中中变变量量的的位位置置可可以以互互换换,的的符符号号没没有有实实际际意义,故取绝对值即可意义,故取绝对值即可2022/9/2532现在学习的是第32页,共45页1.用于用于测度大于度大于2 2列列联表
22、中数据的相关程度表中数据的相关程度2.计算公式算公式为二、列二、列联相关系数相关系数(coefficient ofcontingency)lC 的取值范围是的取值范围是 0 C1lC=0表明列联表中的两个变量独立表明列联表中的两个变量独立lC 的的数数值值大大小小取取决决于于列列联联表表的的行行数数和和列列数数,并并随行数和列数的增大而增大随行数和列数的增大而增大l根根据据不不同同行行和和列列的的列列联联表表计计算算的的列列联联系系数数不不便便于于比比较较2022/9/2533现在学习的是第33页,共45页1.计算公式算公式为三三、V 相关系数相关系数(V correlation coeffi
23、cient)2.V 的取值范围是的取值范围是 0 V 13.V=0表明列联表中的两个变量独立表明列联表中的两个变量独立4.V=1表明列联表中的两个变量完全相关表明列联表中的两个变量完全相关5.不同行和列的列联表计算的列联系数不便于比较不同行和列的列联表计算的列联系数不便于比较6.当列联表中有一维为当列联表中有一维为2,min(r-1),(c-1)=1,此时此时 V=2022/9/2534现在学习的是第34页,共45页1.同一个列同一个列联表,表,、C、V 的的结果会不同果会不同2.不同的列不同的列联表,表,、C、V 的的结果也不同果也不同3.在在对不不同同列列联表表变量量之之间的的相相关关程程
24、度度进行行比比较时,不不同同列列联表表中中的的行行与与行行、列列与与列列的的个个数数要要相同,并且采用同一种系数相同,并且采用同一种系数四四、C、V 的比的比较2022/9/2535现在学习的是第35页,共45页列列联表中的相关表中的相关测量量(例例题分析分析)【例例】一一种种原原料料来来自自三三个个不不同同地地区区,原原料料质质量量被被分分成成三三个个不不同同等等级级。从从这这批批原原料料中中随随机机抽抽取取500件件进进行行检检验验,结结果果如如下下表表。分分别别计计算算 系系数数、C系数和系数和V系数,并分析相关程度系数,并分析相关程度地区地区一级一级二级二级三级三级合计合计甲地区甲地区
25、525264642424140140乙地区乙地区606059595252171171丙地区丙地区505065657474189189合合计计1621621881881501505005002022/9/2536现在学习的是第36页,共45页解:已知解:已知n=500,19.82,列联表为,列联表为3 3结论:三个系数均不高,表明产地和原料等级之结论:三个系数均不高,表明产地和原料等级之 间的相关程度不高间的相关程度不高2022/9/2537现在学习的是第37页,共45页第四第四节 列列联分析中分析中应注意的注意的问题一、条件百分表的方向一、条件百分表的方向二、二、分布的期望准分布的期望准则20
26、22/9/2538现在学习的是第38页,共45页对于具有因果关系的两个品质变量对于具有因果关系的两个品质变量X X与与Y Y,在列联表中的位置,在列联表中的位置有习惯的处理,即将自变量有习惯的处理,即将自变量(X)(X)置于列的位置,将因变量置于列的位置,将因变量(Y)(Y)置于行的位置,这样可以更好地表现原因对结果的影响。置于行的位置,这样可以更好地表现原因对结果的影响。价价值取向取向Y职业X制造制造业服服务业物物质报酬酬(%)105724556人情关系人情关系(%)40283544合合计(%)145100801002022/9/2539现在学习的是第39页,共45页如果因变量在样本内的分布
27、不能代表其在总体内的分布,例如果因变量在样本内的分布不能代表其在总体内的分布,例如,为了满足分析的需要,抽样时扩大了因变量某项内容的如,为了满足分析的需要,抽样时扩大了因变量某项内容的样本量,这时若仍以自变量的方向计算百分表就会歪曲事实。样本量,这时若仍以自变量的方向计算百分表就会歪曲事实。例如,社会学家欲研究家庭状况(自变量)对青少年犯罪例如,社会学家欲研究家庭状况(自变量)对青少年犯罪(因变量)的影响。该地区有未犯罪记录的青少年(因变量)的影响。该地区有未犯罪记录的青少年1000010000名,名,犯罪记录的青少年犯罪记录的青少年150150名。如果从未犯罪青少年中抽取名。如果从未犯罪青少
28、年中抽取1%1%,即即100100名进行研究,按相同比例从犯罪青少年中抽取的样本名进行研究,按相同比例从犯罪青少年中抽取的样本量仅为量仅为1.51.5人。显然,这样少的样本量无法满足研究的需要。人。显然,这样少的样本量无法满足研究的需要。故要扩大犯罪青少年的样本量,如扩大到故要扩大犯罪青少年的样本量,如扩大到50%50%。调查结果:。调查结果:2022/9/2540现在学习的是第40页,共45页青少年行青少年行为家庭状况家庭状况合合计完整家庭完整家庭离异家庭离异家庭犯罪犯罪383775未犯罪未犯罪928100合合计13045175观察数据观察数据青少年行青少年行为家庭状况家庭状况完整家庭完整家
29、庭离异家庭离异家庭犯罪(犯罪(%)2982未犯罪(未犯罪(%)7118合合计(人)(人)13045条件百分表条件百分表2022/9/2541现在学习的是第41页,共45页从条件百分表可知,完整家庭犯罪青少年所占比重为从条件百分表可知,完整家庭犯罪青少年所占比重为29%29%,离异家庭犯罪青少年所占比重为离异家庭犯罪青少年所占比重为82%82%,两者过高的比重令人,两者过高的比重令人怀疑。其原因是扩大了犯罪青少年的抽取数量。如果此时按怀疑。其原因是扩大了犯罪青少年的抽取数量。如果此时按因变量方向编制条件百分表,则得如下结果:因变量方向编制条件百分表,则得如下结果:上述结果更能令人相信。上述结果更
30、能令人相信。家庭状况家庭状况青少年行青少年行为犯罪(犯罪(%)未犯罪(未犯罪(%)完整家庭完整家庭5192离异家庭离异家庭498合合计(人)(人)751002022/9/2542现在学习的是第42页,共45页利用利用 分布进行独立性检验,要求样本量足够大,特别是分布进行独立性检验,要求样本量足够大,特别是每个单元中的期望频数不能过小,否则每个单元中的期望频数不能过小,否则 检验失效。检验失效。准则一:准则一:如果只有两个单元,每个单元的期望频数必须是如果只有两个单元,每个单元的期望频数必须是5 5或或5 5以上。以上。准则一:准则一:如果有两个以上单元,如果如果有两个以上单元,如果20%20%的单元期望频数小于的单元期望频数小于5 5,则不,则不能运用能运用 检验检验 2022/9/2543现在学习的是第43页,共45页以往病史以往病史未患未患过肝炎肝炎532531患患过肝炎肝炎45数据表(数据表(1 1)数据表(数据表(2 2)类别A3032B110113C8687D2324E52F54G41合合计2632632022/9/2544现在学习的是第44页,共45页感谢大家观看2022/9/25现在学习的是第45页,共45页