《统计学第二章列联分析课件.ppt》由会员分享,可在线阅读,更多相关《统计学第二章列联分析课件.ppt(43页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、统计学第二章列联分析第1页,此课件共43页哦背 景统计分析中,我们常常会遇到一些定性的数据性别(男、女)态度(喜欢、不喜欢)性别对态度是否有影响1.可使用列联表分析技术2.可运用对数线性模型与 Logistic模型分析技术第2页,此课件共43页哦主要内容第3页,此课件共43页哦第一节 分类数据与列联表 一、分类数据一、分类数据二、列联表的构造二、列联表的构造三、列联表的分布三、列联表的分布第4页,此课件共43页哦l分类变量的结果表现为类别分类变量的结果表现为类别l例如:性别例如:性别 (男男,女女)l各类别用符号或数字代码来测度各类别用符号或数字代码来测度l使用分类或顺序尺度使用分类或顺序尺度
2、l你吸烟吗你吸烟吗?1.1.是;是;2.2.否否l你赞成还是反对这一改革方案你赞成还是反对这一改革方案?1.1.赞成;赞成;2.2.反对反对l对分类数据的描述和分析通常使用列联表对分类数据的描述和分析通常使用列联表l可使用可使用 检验检验l数值型数据也可以转化为分类数据数值型数据也可以转化为分类数据一、分类数据第5页,此课件共43页哦1.1.由两个以上的变量交叉分类的频数分布表由两个以上的变量交叉分类的频数分布表2.2.行变量的类别用行变量的类别用 r 表示,表示,ri 表示第表示第 i 个类别个类别3.3.列变量的类别用列变量的类别用 c 表示,表示,cj 表示第表示第 j 个类别个类别4.
3、4.每种组合的观察频数用每种组合的观察频数用 fij 表示表示5.5.表表中中列列出出了了行行变变量量和和列列变变量量的的所所有有可可能能的的组组合合,所所以称为列联表以称为列联表6.6.一个一个 r 行行 c 列的列联表称为列的列联表称为 r c 列联表列联表二、列联表的构造-列联表(contingency table)第6页,此课件共43页哦列联表的结构(2 2 列联表)列列(cj)合计合计j=1j=1i=1f11f12f11+f12i=2f21f22f21+f22合计合计f11+f21f12+f22n列列列列(c c c cj j j j)行行行行 (r r r ri i i i)第7页
4、,此课件共43页哦列联表的结构(r c 列联表的一般表示)列列(cj)合计合计j=1j=2i=1f11f12r1i=2f21f22r2:合计合计c1c2n列列(c cj j)行行(r ri i)fij 表示第表示第 i 行第行第 j 列的观察频数列的观察频数第8页,此课件共43页哦例题分析例题分析一分公司二分公司三分公司四分公司合计合计赞成该方案赞成该方案6868757557577979279279反对该方案反对该方案3232757533333131141141合计合计1001001201209090110110420420【例例】一一个个集集团团公公司司在在四四个个不不同同的的地地区区设设有
5、有分分公公司司,现现该该集集团团公公司司欲欲进进行行一一项项改改革革,此此项项改改革革可可能能涉涉及及到到各各分分公公司司的的利利益益,故故采采用用抽抽样样调调查查方方式式,从从四四个个分分公公司司共共抽抽取取420420个个样样本本单单位位(人人),了了解职工对此项改革的看法,调查结果如下表解职工对此项改革的看法,调查结果如下表第9页,此课件共43页哦1.边缘分布边缘分布行边缘分布行边缘分布行观察值的合计数的分布行观察值的合计数的分布例如,赞成改革方案的共有例如,赞成改革方案的共有279人,反对改革方案的人,反对改革方案的141人人列边缘分布列边缘分布列观察值的合计数的分布列观察值的合计数的
6、分布例例如如,四四个个分分公公司司接接受受调调查查的的人人数数分分别别为为100人人,120人人,90人人,110人人2.条件分布与条件频数条件分布与条件频数变变量量 X 条条件件下下变变量量Y 的的分分布布,或或在在变变量量Y 条条件件下下变变量量 X 的的分布分布每个具体的观察值称为条件频数每个具体的观察值称为条件频数二、列联表的分布二、列联表的分布-观察值的分布观察值的分布第10页,此课件共43页哦观察值的分布观察值的分布(图示图示)一分公司一分公司二分公司二分公司三分公司三分公司四分公司四分公司合计合计赞成该方案赞成该方案6868757557577979279279反对该方案反对该方案
7、3232454533333131141141合计合计1001001201209090110110420420行边缘分布行边缘分布列边缘分布列边缘分布条件频数条件频数第11页,此课件共43页哦1.1.条件频数反映了数据的分布,但不适合对比条件频数反映了数据的分布,但不适合对比2.2.为为在在相相同同的的基基数数上上进进行行比比较较,可可以以计计算算相相应应的的百百分分比,称为比,称为百分比分布百分比分布l行行百百分分比比:行行的的每每一一个个观观察察频频数数除除以以相相应应的的行行合合计数计数(fij/ri)l列列百百分分比比:列列的的每每一一个个观观察察频频数数除除以以相相应应的的列列合合计计
8、数数(fij/cj)l总百分比:每一个观察值除以观察值的总个数总百分比:每一个观察值除以观察值的总个数(fij/n)百分比分布百分比分布(概念要点概念要点)第12页,此课件共43页哦百分比分布百分比分布(图示图示)一分公司一分公司二分公司二分公司三分公司三分公司四分公司四分公司合计合计赞成该方案赞成该方案24.4%24.4%26.9%26.9%20.4%20.4%28.3%28.3%66.4%66.4%68.0%68.0%62.5%62.5%63.3563.3571.8%71.8%16.2%16.2%17.8%17.8%13.6%13.6%18.8%18.8%反对该方案反对该方案22.7%22
9、.7%31.9%31.9%23.4%23.4%22.0%22.0%33.6%33.6%32.0%32.0%37.5%37.5%36.7%36.7%28.2%28.2%7.6%7.6%10.7%10.7%7.9%7.9%7.4%7.4%合计合计23.8%23.8%28.6%28.6%21.4%21.4%26.2%26.2%100%100%总百分比总百分比列百分比列百分比行百分比行百分比第13页,此课件共43页哦1.假定行变量和列变量是独立的假定行变量和列变量是独立的2.一一个个实实际际频频数数 fij 的的期期望望频频数数 eij,是是总总频频数数的的个个数数 n 乘乘以以该该实实际际频频数数
10、fij 落落入入第第 i 行行 和和第第j列的概率,即列的概率,即期望频数的分布期望频数的分布第14页,此课件共43页哦期望频数的分布期望频数的分布(例题分析例题分析)由于观察频数的总数为由于观察频数的总数为n,所以,所以f11 的期望频数的期望频数 e11 应为应为例例如如,第第1行行和和第第1列列的的实实际际频频数数为为 f11,它它落落在在第第1行行的的概概率率估估计计值值为为该该行行的的频频数数之之和和r1除除以以总总频频数数的的个个数数 n,即即:r1/n;它它落落在在第第1列列的的概概率率的的估估计计值值为为该该列列的的频频数数之之和和c1除除以以总总频频数数的的个个数数 n,即即
11、:c1/n。根根据据概概率率的的乘乘法法公公式式,该该频频数数落落在在第第1行和第行和第1列的概率应为列的概率应为第15页,此课件共43页哦期望频数的分布期望频数的分布(例题分析例题分析)一分公司一分公司二分公司二分公司三分公司三分公司四分公司四分公司赞成该赞成该方方 案案实际频数实际频数6868757557577979期望频数期望频数6666808060607373反对该反对该方方 案案实际频数实际频数3232757533333131期望频数期望频数3434404030303737第16页,此课件共43页哦第二节第二节 检验检验 一、一、统计量统计量 二、拟合优度检验二、拟合优度检验第17页
12、,此课件共43页哦1.用于检验列联表中变量间拟合优度和独立性用于检验列联表中变量间拟合优度和独立性2.用于测定两个分类变量之间的相关程度用于测定两个分类变量之间的相关程度 3.计算公式为计算公式为 其自由度为其自由度为 式中式中 -列联表中第列联表中第i行第行第j列类别的实际频数列类别的实际频数 -列联表中第列联表中第i行第行第j列类别的期望频数列类别的期望频数一、一、统计量统计量第18页,此课件共43页哦 统计量统计量(例题分析例题分析)实际频数实际频数(fij)期望频数期望频数(eij)fij-eij(fij-eij)2(fij-eij)2eij6875577932453331668060
13、73344030372-5-36-253-64259364259360.06060.31250.15000.49320.11760.62500.30000.9730合计:合计:3.0319第19页,此课件共43页哦二、拟合优度二、拟合优度检验检验(品质数据的假设检验品质数据的假设检验)品质数据品质数据比例检验比例检验独立性检验独立性检验Z Z 检验检验一个总体 检验检验Z Z 检验检验 检验检验两个以上总体两个总体第20页,此课件共43页哦1.检验多个比例是否相等检验多个比例是否相等2.检验的步骤检验的步骤提出假设提出假设H0:1=2=j;H1:1,2,j 不全相等不全相等 计算检验的统计量计
14、算检验的统计量拟合优度检验拟合优度检验(goodness of fit test)进行决策进行决策 根据显著性水平根据显著性水平 和自由度和自由度(r-1)(c-1)查出临界值查出临界值 2 若若 2 2,拒绝,拒绝H0;若;若 2 2,接受,接受H0第21页,此课件共43页哦H0:1=2=3=4 H1:1,2,3,4 不全相等不全相等=0.1df=(2-1)(4-1)=3临界值临界值(s):拟合优度检验拟合优度检验(例题分析例题分析)统计量统计量:在在 =0.1的水平上不能拒绝的水平上不能拒绝H0可以认为四个分公司对改革方案的赞成比例是一致的可以认为四个分公司对改革方案的赞成比例是一致的 决
15、策决策:结论结论:6.2513.0319 =0.10第22页,此课件共43页哦 【例例】为为了了提提高高市市场场占占有有率率,A公公司司和和B公公司司同同时时开开展展了了广广告告宣宣传传。在在广广告告宣宣传传战战之之前前,A公公司司的的市市场场占占有有率率为为45%,B公公司司的的市市场场占占有有率率为为40%,其其他他公公司司的的市市场场占占有有率率为为15%。为为了了了了解解广广告告战战之之后后A、B和和其其他他公公司司的的市市场场占占有有率率是是否否发发生生变变化化,随随机机抽抽取取了了200名名消消费费者者,其其中中102人人表表示示准准备备购购买买A公公司司产产品品,82人人表表示示
16、准准备备购购买买B公公司司产产品品,另另外外16人人表表示示准准备备购购买买其其他他公公司司产产品品。检检验验广广告告战战前前后后各各公公司司的的市市场场占占有有率率是否发生了变化是否发生了变化(0.05)拟合优度检验拟合优度检验(例题分析例题分析)第23页,此课件共43页哦H0:1=0.45 2=0.4 3=0.15 H1:原假设中至少有一个不成立原假设中至少有一个不成立 =0.05df=(2-1)(3-1)=2临界值临界值(s):拟合优度检验拟合优度检验(例题分析例题分析)统计量统计量:在在 =0.05的水平上拒绝的水平上拒绝H0可以认为广告后各公司产品市场占有率可以认为广告后各公司产品市
17、场占有率发生显著变化发生显著变化 决策决策:结论结论:0 008.185.99 =0.05 24第24页,此课件共43页哦第第1步:将观察值输入一列,将期望值输入一列步:将观察值输入一列,将期望值输入一列第第2步:选择步:选择“函数函数”选项选项第第3步:在函数分类中选步:在函数分类中选“统计统计”,在函数名中选,在函数名中选 “CHITEST”,点击,点击“确定确定”第第4步:在对话框步:在对话框“Actual_range”输入观察数据区域输入观察数据区域 在对话框在对话框“Expected_range”输入期望数据区输入期望数据区 域得到域得到P值为值为0.016711,所以拒绝原假设,所
18、以拒绝原假设 拟合优度检验拟合优度检验(例题分析例题分析用用P值检验值检验)25第25页,此课件共43页哦第三节第三节 列联表中的相关测量列联表中的相关测量一一、相关系数相关系数二、列联相关系数二、列联相关系数三三、V V 相关系数相关系数第26页,此课件共43页哦1.品质相关品质相关对品质数据对品质数据(分类和顺序数据分类和顺序数据)之间相关程度之间相关程度的测度的测度2.列联表变量的相关属于品质相关列联表变量的相关属于品质相关3.列联表相关测量的统计量主要有列联表相关测量的统计量主要有 相关系数相关系数列联相关系数列联相关系数V 相关系数相关系数列联表中的相关测量列联表中的相关测量第27页
19、,此课件共43页哦1.测度测度2 2列联表中数据相关程度列联表中数据相关程度2.对于对于2 2 列联表,列联表,系数的值在系数的值在01之间之间3.相关系数相关系数计算公式为计算公式为 式中式中n为列联表的总频数,即样本量为列联表的总频数,即样本量一、一、相关系数相关系数(correlation coefficient)第28页,此课件共43页哦一个简化的一个简化的 2 2 2 2 列联表列联表 相关系数相关系数(原理分析原理分析)因素因素Y因素因素 X合计合计x1x2y1aba+by2cdc+d合计合计a+cb+dn第29页,此课件共43页哦la、b、c、d均为条件频数均为条件频数l当变量当
20、变量X,Y相互独立,不存在相关关系时,频数间应有下面的关相互独立,不存在相关关系时,频数间应有下面的关系:系:l化简后有:化简后有:l差值差值 的大小可以反映变量之间相关程度的高低。差值越大,的大小可以反映变量之间相关程度的高低。差值越大,说明两个变量的相关程度越高。说明两个变量的相关程度越高。系数就是以差值为基础,实现对两个系数就是以差值为基础,实现对两个变量相关程度的测量。变量相关程度的测量。相关系数相关系数(原理分析原理分析)第30页,此课件共43页哦列联表中每个单元格的期望频数分别为列联表中每个单元格的期望频数分别为 相关系数相关系数(原理分析原理分析)将各期望频数代入将各期望频数代入
21、 的计算公式得的计算公式得第31页,此课件共43页哦将将 代入代入 相关系数的计算公式得相关系数的计算公式得 相关系数相关系数(原理分析原理分析)ad 等于等于 bc,=0,表明变量,表明变量X 与与 Y 之间独立之间独立若若 b=0,c=0,或或a=0,d=0,意意味味着着各各观观察察频频数数全全部部落落在对角线上,此时在对角线上,此时|=1,表明变量表明变量X 与与 Y 之间完全相关之间完全相关列列联联表表中中变变量量的的位位置置可可以以互互换换,的的符符号号没没有有实实际际意义,故取绝对值即可意义,故取绝对值即可第32页,此课件共43页哦1.用于测度大于用于测度大于2 2列联表中数据的相
22、关程度列联表中数据的相关程度2.计算公式为计算公式为二、列联二、列联相关系数相关系数(coefficient ofcontingency)C 的取值范围是的取值范围是 0 C1C=0表明列联表中的两个变量独立表明列联表中的两个变量独立C 的的数数值值大大小小取取决决于于列列联联表表的的行行数数和和列列数数,并并随随行数和列数的增大而增大行数和列数的增大而增大根根据据不不同同行行和和列列的的列列联联表表计计算算的的列列联联系系数数不不便便于于比比较较第33页,此课件共43页哦1.计算公式为计算公式为三三、V 相关系数相关系数(V correlation coefficient)2.V 的取值范围
23、是的取值范围是 0 V 13.V=0表明列联表中的两个变量独立表明列联表中的两个变量独立4.V=1表明列联表中的两个变量完全相关表明列联表中的两个变量完全相关5.不同行和列的列联表计算的列联系数不便于比较不同行和列的列联表计算的列联系数不便于比较6.当列联表中有一维为当列联表中有一维为2,min(r-1),(c-1)=1,此时此时 V=第34页,此课件共43页哦1.同一个列联表,同一个列联表,、C、V 的结果会不同的结果会不同2.不同的列联表,不同的列联表,、C、V 的结果也不同的结果也不同3.在在对对不不同同列列联联表表变变量量之之间间的的相相关关程程度度进进行行比比较较时时,不不同同列列联
24、联表表中中的的行行与与行行、列列与与列列的的个个数要相同,并且采用同一种系数数要相同,并且采用同一种系数四四、C、V 的比较的比较第35页,此课件共43页哦列联表中的相关测量列联表中的相关测量(例题分析例题分析)【例例】一一种种原原料料来来自自三三个个不不同同地地区区,原原料料质质量量被被分分成成三三个个不不同同等等级级。从从这这批批原原料料中中随随机机抽抽取取500件件进进行行检检验验,结结果果如如下下表表。分分别别计计算算 系系数、数、C系数和系数和V系数,并分析相关程度系数,并分析相关程度地区地区一级一级二级二级三级三级合计合计甲地区甲地区525264642424140140乙地区乙地区
25、606059595252171171丙地区丙地区505065657474189189合计合计162162188188150150500500第36页,此课件共43页哦列联表中的相关测量列联表中的相关测量(例题分析例题分析)解:已知解:已知n=500,19.82,列联表为,列联表为3 3结论:三个系数均不高,表明产地和原料等级之结论:三个系数均不高,表明产地和原料等级之 间的相关程度不高间的相关程度不高第37页,此课件共43页哦第四节第四节 列联分析中应注意的问题列联分析中应注意的问题一、条件百分表的方向一、条件百分表的方向二、二、分布的期望准则分布的期望准则第38页,此课件共43页哦对于具有因
26、果关系的两个品质变量对于具有因果关系的两个品质变量X X与与Y Y,在列联表中的位置,在列联表中的位置有习惯的处理,即将自变量有习惯的处理,即将自变量(X)(X)置于列的位置,将因变量置于列的位置,将因变量(Y)(Y)置于行的位置,这样可以更好地表现原因对结果的影响。置于行的位置,这样可以更好地表现原因对结果的影响。一、条件百分表的方向一、条件百分表的方向价值取向价值取向Y职业职业X制造业制造业服务业服务业物质报酬物质报酬(%)105724556人情关系人情关系(%)40283544合计合计(%)14510080100第39页,此课件共43页哦如果因变量在样本内的分布不能代表其在总体内的分布,
27、例如果因变量在样本内的分布不能代表其在总体内的分布,例如,为了满足分析的需要,抽样时扩大了因变量某项内容的如,为了满足分析的需要,抽样时扩大了因变量某项内容的样本量,这时若仍以自变量的方向计算百分表就会歪曲事实。样本量,这时若仍以自变量的方向计算百分表就会歪曲事实。例如,社会学家欲研究家庭状况(自变量)对青少年犯罪例如,社会学家欲研究家庭状况(自变量)对青少年犯罪(因变量)的影响。该地区有未犯罪记录的青少年(因变量)的影响。该地区有未犯罪记录的青少年1000010000名,名,犯罪记录的青少年犯罪记录的青少年150150名。如果从未犯罪青少年中抽取名。如果从未犯罪青少年中抽取1%1%,即即10
28、0100名进行研究,按相同比例从犯罪青少年中抽取的样本名进行研究,按相同比例从犯罪青少年中抽取的样本量仅为量仅为1.51.5人。显然,这样少的样本量无法满足研究的需要。人。显然,这样少的样本量无法满足研究的需要。故要扩大犯罪青少年的样本量,如扩大到故要扩大犯罪青少年的样本量,如扩大到50%50%。调查结果:。调查结果:条件百分表的方向(特殊情况)条件百分表的方向(特殊情况)第40页,此课件共43页哦青少年行为青少年行为家庭状况家庭状况合计合计完整家庭完整家庭离异家庭离异家庭犯罪犯罪383775未犯罪未犯罪928100合计合计13045175条件百分表的方向(例题数据)条件百分表的方向(例题数据
29、)观察数据观察数据青少年行为青少年行为家庭状况家庭状况完整家庭完整家庭离异家庭离异家庭犯罪(犯罪(%)2982未犯罪(未犯罪(%)7118合计(人)合计(人)13045条件百分表条件百分表第41页,此课件共43页哦从条件百分表可知,完整家庭犯罪青少年所占比重为从条件百分表可知,完整家庭犯罪青少年所占比重为29%29%,离异家庭犯罪青少年所占比重为离异家庭犯罪青少年所占比重为82%82%,两者过高的比重令人,两者过高的比重令人怀疑。其原因是扩大了犯罪青少年的抽取数量。如果此时按怀疑。其原因是扩大了犯罪青少年的抽取数量。如果此时按因变量方向编制条件百分表,则得如下结果:因变量方向编制条件百分表,则
30、得如下结果:上述结果更能令人相信。上述结果更能令人相信。条件百分表的方向(数据解释与处理)条件百分表的方向(数据解释与处理)家庭状况家庭状况青少年行为青少年行为犯罪(犯罪(%)未犯罪(未犯罪(%)完整家庭完整家庭5192离异家庭离异家庭498合计(人)合计(人)75100第42页,此课件共43页哦利用利用 分布进行独立性检验,要求样本量足够大,特别是分布进行独立性检验,要求样本量足够大,特别是每个单元中的期望频数不能过小,否则每个单元中的期望频数不能过小,否则 检验失效。检验失效。准则一:准则一:如果只有两个单元,每个单元的期望频数必须是如果只有两个单元,每个单元的期望频数必须是5 5或或5 5以上。以上。准则一:准则一:如果有两个以上单元,如果如果有两个以上单元,如果20%20%的单元期望频数小于的单元期望频数小于5 5,则不,则不能运用能运用 检验检验 二、二、分布的期望准则分布的期望准则第43页,此课件共43页哦