统计学-第二章-列联分析.ppt

上传人:胜**** 文档编号:98018707 上传时间:2024-07-09 格式:PPT 页数:46 大小:3.55MB
返回 下载 相关 举报
统计学-第二章-列联分析.ppt_第1页
第1页 / 共46页
统计学-第二章-列联分析.ppt_第2页
第2页 / 共46页
点击查看更多>>
资源描述

《统计学-第二章-列联分析.ppt》由会员分享,可在线阅读,更多相关《统计学-第二章-列联分析.ppt(46页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第二章 列联分析第一节 分类数据与列联表第二节 检验第三节 列联表的相关测量第四节 列联分析中应注意的问题 1 2背 景统计分析中,我们常常会遇到一些定性的数据性别(男、女)态度(喜欢、不喜欢)性别对态度是否有影响1.可使用列联表分析技术2.可运用对数线性模型与 Logistic模型分析技术 3主要内容分类数据与列联表分类数据与列联表 检验检验列联表中的相关测量列联表中的相关测量列联分析中应注意的问题列联分析中应注意的问题第一节 分类数据与列联表 一、分类数据一、分类数据二、列联表的构造二、列联表的构造三、列联表的分布三、列联表的分布 4 l分类变量的结果表现为类别分类变量的结果表现为类别l例

2、如:性别例如:性别 (男男,女女)l各类别用符号或数字代码来测度各类别用符号或数字代码来测度l使用分类或顺序尺度使用分类或顺序尺度l你吸烟吗你吸烟吗?1.1.是;是;2.2.否否l你赞成还是反对这一改革方案你赞成还是反对这一改革方案?1.1.赞成;赞成;2.2.反对反对l对分类数据的描述和分析通常使用列联表对分类数据的描述和分析通常使用列联表l可使用可使用 检验检验l数值型数据也可以转化为分类数据数值型数据也可以转化为分类数据 5 5一、分类数据1.1.由两个以上的变量交叉分类的频数分布表由两个以上的变量交叉分类的频数分布表2.2.行行变变量量的的类类别别用用 r 表表示示,ri 表表示示第第

3、 i 个个类类别别3.3.列列变变量量的的类类别别用用 c 表表示示,cj 表表示示第第 j 个个类类别别4.4.每种组合的观察频数用每种组合的观察频数用 fij 表示表示5.5.表表中中列列出出了了行行变变量量和和列列变变量量的的所所有有可可能能的的组组合,所以称为列联表合,所以称为列联表6.6.一个一个 r 行行 c 列的列联表称为列的列联表称为 r c 列联表列联表 6 6二、列联表的构造-列联表(contingency table)7列联表的结构(2 2 列联表)列列(cj)合计合计j=1j=1i=1f11f12f11+f12i=2f21f22f21+f22合计合计f11+f21f12

4、+f22n列列列列(c c c cj j j j)行行行行 (r r r ri i i i)8 8列联表的结构(r c 列联表的一般表示)列列(cj)合计合计j=1j=2i=1f11f12r1i=2f21f22r2:合计合计c1c2n列列(c cj j)行行(r ri i)fij 表示第表示第 i 行第行第 j 列的观察频数列的观察频数 9 9例题分析例题分析一分公司二分公司三分公司四分公司合计合计赞成该方案赞成该方案6868757557577979279279反对该方案反对该方案3232757533333131141141合计合计1001001201209090110110420420【例例

5、】一一个个集集团团公公司司在在四四个个不不同同的的地地区区设设有有分分公公司司,现现该该集集团团公公司司欲欲进进行行一一项项改改革革,此此项项改改革革可可能能涉涉及及到到各各分分公公司司的的利利益益,故故采采用用抽抽样样调调查查方方式式,从从四四个个分分公公司司共共抽抽取取420420个个样样本本单位单位(人人),了解职工对此项改革的看法,调查结果如下表,了解职工对此项改革的看法,调查结果如下表1.边缘分布分布行行边缘分布分布行行观察察值的合的合计数的分布数的分布例如,例如,赞成改革方案的共有成改革方案的共有279人,反人,反对改革方案的改革方案的141人人列列边缘分布分布列列观察察值的合的合

6、计数的分布数的分布例例如如,四四个个分分公公司司接接受受调查的的人人数数分分别为100人人,120人人,90人,人,110人人2.条件分布与条件条件分布与条件频数数变量量 X 条条件件下下变量量Y 的的分分布布,或或在在变量量Y 条条件件下下变量量 X 的分布的分布每个具体的每个具体的观察察值称称为条件条件频数数 10二、列联表的分布二、列联表的分布-观察值的分布观察值的分布 1111观察值的分布观察值的分布(图示图示)一分公司一分公司二分公司二分公司三分公司三分公司四分公司四分公司合计合计赞成该方案赞成该方案6868757557577979279279反对该方案反对该方案3232454533

7、333131141141合计合计1001001201209090110110420420行边缘分布行边缘分布列边缘分布列边缘分布条件频数条件频数1.1.条件频数反映了数据的分布,但不适合对比条件频数反映了数据的分布,但不适合对比2.2.为为在在相相同同的的基基数数上上进进行行比比较较,可可以以计计算算相相应应的百分比,称为的百分比,称为百分比分布百分比分布l行行百百分分比比:行行的的每每一一个个观观察察频频数数除除以以相相应应的的行行合计数合计数(fij/ri)l列列百百分分比比:列列的的每每一一个个观观察察频频数数除除以以相相应应的的列列合计数合计数(fij/cj)l总总百百分分比比:每每一

8、一个个观观察察值值除除以以观观察察值值的的总总个个数数(fij/n)1212百分比分布百分比分布(概念要点概念要点)13百分比分布百分比分布(图示图示)一分公司一分公司二分公司二分公司三分公司三分公司四分公司四分公司合计合计赞成该方案赞成该方案24.4%24.4%26.9%26.9%20.4%20.4%28.3%28.3%66.4%66.4%68.0%68.0%62.5%62.5%63.3563.3571.8%71.8%16.2%16.2%17.8%17.8%13.6%13.6%18.8%18.8%反对该方案反对该方案22.7%22.7%31.9%31.9%23.4%23.4%22.0%22.

9、0%33.6%33.6%32.0%32.0%37.5%37.5%36.7%36.7%28.2%28.2%7.6%7.6%10.7%10.7%7.9%7.9%7.4%7.4%合计合计23.8%23.8%28.6%28.6%21.4%21.4%26.2%26.2%100%100%总百分比总百分比列百分比列百分比行百分比行百分比1.假定行假定行变量和列量和列变量是独立的量是独立的2.一一个个实际频数数 fij 的的期期望望频数数 eij,是是总频数数的的个个数数 n 乘乘以以该实际频数数 fij 落落入入第第 i 行行 和第和第j列的概率,即列的概率,即 14期望频数的分布期望频数的分布 15期望频

10、数的分布期望频数的分布(例题分析例题分析)由于由于观察察频数的数的总数数为n,所以,所以f11 的期望的期望频数数 e11 应为例例如如,第第1行行和和第第1列列的的实际频数数为 f11,它它落落在在第第1行行的的概概率率估估计值为该行行的的频数数之之和和r1除除以以总频数数的的个个数数 n,即即:r1/n;它它落落在在第第1列列的的概概率率的的估估计值为该列列的的频数数之之和和c1除除以以总频数数的的个个数数 n,即即:c1/n。根根据据概概率率的乘法公式,的乘法公式,该频数落在第数落在第1行和第行和第1列的概率列的概率应为 1616期望频数的分布期望频数的分布(例题分析例题分析)一分公司一

11、分公司二分公司二分公司三分公司三分公司四分公司四分公司赞成该赞成该方方 案案实际频数实际频数6868757557577979期望频数期望频数6666808060607373反对该反对该方方 案案实际频数实际频数3232757533333131期望频数期望频数3434404030303737第二节第二节 检验检验 一、一、统计量统计量 二、拟合优度检验二、拟合优度检验 1717 1.用于用于检验列列联表中表中变量量间拟合合优度和独立性度和独立性2.用于用于测定两个分定两个分类变量之量之间的相关程度的相关程度 3.计算公式算公式为 其自由度其自由度为 式中式中 -列列联表中第表中第i行第行第j列列

12、类别的的实际频数数 -列列联表中第表中第i行第行第j列列类别的期望的期望频数数 18一、一、统计量量 19 统计量统计量(例题分析例题分析)实际频数实际频数(fij)期望频数期望频数(eij)fij-eij(fij-eij)2(fij-eij)2eij687557793245333166806073344030372-5-36-253-64259364259360.06060.31250.15000.49320.11760.62500.30000.9730合合计:3.0319 20二、拟合优度二、拟合优度检验检验(品质数据的假设检验品质数据的假设检验)品质数据品质数据比例检验比例检验独立性检验

13、独立性检验Z Z 检验检验一个总体 检验检验Z Z 检验检验 检验检验两个以上总体两个总体1.检验多个比例是否相等多个比例是否相等2.检验的步的步骤提出假提出假设lH0:1=2=j;H1:1,2,j 不全相等不全相等 计算算检验的的统计量量 21拟合合优度度检验(goodness of fit test)进行决策行决策l 根据根据显著性水平著性水平 和自由度和自由度(r-1)(c-1)查出出临界界值 2l 若若 2 2,拒,拒绝H0;若;若 2 2,接受,接受H0H0:1=2=3=4 H1:1,2,3,4 不全相等不全相等=0.1df=(2-1)(4-1)=3临界界值(s):拟合合优度度检验(

14、例例题分析分析)统计量量:在在 =0.1的水平上不能拒的水平上不能拒绝H0可以可以认为四个分公司四个分公司对改革方案的改革方案的赞成比成比例是一致的例是一致的 决策决策:结论:6.2513.0319 =0.10222024/7/9 【例例】为了了提提高高市市场占占有有率率,A公公司司和和B公公司司同同时开开展展了了广广告告宣宣传。在在广广告告宣宣传战之之前前,A公公司司的的市市场占占有有率率为45%,B公公司司的的市市场占占有有率率为40%,其其他他公公司司的的市市场占占有有率率为15%。为了了了了解解广广告告战之之后后A、B和和其其他他公公司司的的市市场占占有有率率是是否否发生生变化化,随随

15、机机抽抽取取了了200名名消消费者者,其其中中102人人表表示示准准备购买A公公司司产品品,82人人表表示示准准备购买B公公司司产品品,另另外外16人人表表示示准准备购买其其他他公公司司产品品。检验广广告告战前前后后各各公公司司的的市市场占有率是否占有率是否发生了生了变化化(0.05)2323拟合优度检验拟合优度检验(例题分析例题分析)H0:1=0.45 2=0.4 3=0.15 H1:原假设中至少有一个不成立原假设中至少有一个不成立 =0.05df=(2-1)(3-1)=2临界值临界值(s):拟合优度检验拟合优度检验(例题分析例题分析)统计量统计量:在在 =0.05的水平上拒绝的水平上拒绝H

16、0可以认为广告后各公司产品市场占有可以认为广告后各公司产品市场占有率发生显著变化率发生显著变化 决策决策:结论结论:0 008.185.99 =0.05 24242024/7/9第第1步:将步:将观察察值输入一列,将期望入一列,将期望值输入一列入一列第第2步:步:选择“函数函数”选项第第3步:在函数分步:在函数分类中中选“统计”,在函数名中,在函数名中选 “CHITEST”,点,点击“确定确定”第第4步:在步:在对话框框“Actual_range”输入入观察数据区域察数据区域 在在对话框框“Expected_range”输入期望数据区入期望数据区 域得到域得到P值为0.016711,所以拒,所

17、以拒绝原假原假设 拟合合优度度检验(例例题分析分析用用P值检验)25252024/7/9第三节第三节 列联表中的相关测量列联表中的相关测量一一、相关系数相关系数二、列联相关系数二、列联相关系数三三、V V 相关系数相关系数 26 1.品品质相关相关对品品质数据数据(分分类和和顺序数据序数据)之之间相关程相关程度的度的测度度2.列列联表表变量的相关属于品量的相关属于品质相关相关3.列列联表相关表相关测量的量的统计量主要有量主要有 相关系数相关系数列列联相关系数相关系数V 相关系数相关系数 27列联表中的相关测量列联表中的相关测量1.测度度2 2列列联表中数据相关程度表中数据相关程度2.对于于2

18、2 列列联表,表,系数的系数的值在在01之之间3.相关系数相关系数计算公式算公式为 式中式中n为列列联表的表的总频数,即数,即样本量本量 28一、一、相关系数相关系数(correlation coefficient)一个简化的一个简化的 2 2 2 2 列联表列联表 29 相关系数相关系数(原理分析原理分析)因素因素Y因素因素 X合计合计x1x2y1aba+by2cdc+d合计合计a+cb+dnla、b、c、d均均为条件条件频数数l当当变量量X,Y相互独立,不存在相关关系相互独立,不存在相关关系时,频数数间应有下面的有下面的关系:关系:l化化简后有:后有:l差差值 的大小可以反映的大小可以反映

19、变量之量之间相关程度的高低。差相关程度的高低。差值越大,越大,说明两个明两个变量的相关程度越高。量的相关程度越高。系数就是以差系数就是以差值为基基础,实现对两个两个变量相关程度的量相关程度的测量。量。30 相关系数相关系数(原理分析原理分析)列列联表中每个表中每个单元格的期望元格的期望频数分数分别为 31 相关系数相关系数(原理分析原理分析)将各期望将各期望频数代入数代入 的的计算公式得算公式得将将 代入代入 相关系数的相关系数的计算公式得算公式得 32 相关系数相关系数(原理分析原理分析)lad 等于等于 bc,=0,表明,表明变量量X 与与 Y 之之间独立独立l若若 b=0,c=0,或或a

20、=0,d=0,意意味味着着各各观察察频数数全全部部落落在在对角角线上上,此此时|=1,表表明明变量量X 与与 Y 之之间完全相关完全相关列列联表表中中变量量的的位位置置可可以以互互换,的的符符号号没没有有实际意意义,故取,故取绝对值即可即可1.用于用于测度大于度大于2 2列列联表中数据的相关程度表中数据的相关程度2.计算公式算公式为 33二、列二、列联相关系数相关系数(coefficient ofcontingency)lC 的取值范围是的取值范围是 0 C1lC=0表明列联表中的两个变量独立表明列联表中的两个变量独立lC 的的数数值值大大小小取取决决于于列列联联表表的的行行数数和和列列数数,

21、并随行数和列数的增大而增大并随行数和列数的增大而增大l根根据据不不同同行行和和列列的的列列联联表表计计算算的的列列联联系系数数不不便于比较便于比较1.计算公式算公式为 34三三、V 相关系数相关系数(V correlation coefficient)2.V 的取的取值范范围是是 0 V 13.V=0表明列表明列联表中的两个表中的两个变量独立量独立4.V=1表明列表明列联表中的两个表中的两个变量完全相关量完全相关5.不同行和列的列不同行和列的列联表表计算的列算的列联系数不便于比系数不便于比较6.当列当列联表中有一表中有一维为2,min(r-1),(c-1)=1,此此时 V=1.同一个列同一个列

22、联表,表,、C、V 的的结果会不同果会不同2.不同的列不同的列联表,表,、C、V 的的结果也不同果也不同3.在在对不不同同列列联表表变量量之之间的的相相关关程程度度进行行比比较时,不不同同列列联表表中中的的行行与与行行、列列与与列列的个数要相同,并且采用同一种系数的个数要相同,并且采用同一种系数 35四四、C、V 的比的比较 36列列联表中的相关表中的相关测量量(例例题分析分析)【例例】一一种种原原料料来来自自三三个个不不同同地地区区,原原料料质量量被被分分成成三三个个不不同同等等级。从从这批批原原料料中中随随机机抽抽取取500件件进行行检验,结果果如如下表。分下表。分别计算算 系数、系数、C

23、系数和系数和V系数,并分析相关程度系数,并分析相关程度地区地区一级一级二级二级三级三级合计合计甲地区甲地区525264642424140140乙地区乙地区606059595252171171丙地区丙地区505065657474189189合计合计162162188188150150500500 37列联表中的相关测量列联表中的相关测量(例题分析例题分析)解:已知解:已知n=500,19.82,列,列联表表为3 3结论:三个系数均不高,表明:三个系数均不高,表明产地和原料等地和原料等级之之 间的相关程度不高的相关程度不高第四第四节 列列联分析中分析中应注意的注意的问题一、条件百分表的方向一、条件

24、百分表的方向二、二、分布的期望准分布的期望准则 38 对于具有因果关系的两个品质变量对于具有因果关系的两个品质变量X X与与Y Y,在列联表中的位置,在列联表中的位置有习惯的处理,即将自变量有习惯的处理,即将自变量(X)(X)置于列的位置,将因变量置于列的位置,将因变量(Y)(Y)置于行的位置,这样可以更好地表现原因对结果的影响。置于行的位置,这样可以更好地表现原因对结果的影响。39一、条件百分表的方向一、条件百分表的方向价值取向价值取向Y职业职业X制造业制造业服务业服务业物质报酬物质报酬(%)105724556人情关系人情关系(%)40283544合计合计(%)14510080100如果因变

25、量在样本内的分布不能代表其在总体内的分布,例如果因变量在样本内的分布不能代表其在总体内的分布,例如,为了满足分析的需要,抽样时扩大了因变量某项内容的如,为了满足分析的需要,抽样时扩大了因变量某项内容的样本量,这时若仍以自变量的方向计算百分表就会歪曲事实。样本量,这时若仍以自变量的方向计算百分表就会歪曲事实。例如,社会学家欲研究家庭状况(自变量)对青少年犯罪例如,社会学家欲研究家庭状况(自变量)对青少年犯罪(因变量)的影响。该地区有未犯罪记录的青少年(因变量)的影响。该地区有未犯罪记录的青少年1000010000名,名,犯罪记录的青少年犯罪记录的青少年150150名。如果从未犯罪青少年中抽取名。

26、如果从未犯罪青少年中抽取1%1%,即即100100名进行研究,按相同比例从犯罪青少年中抽取的样本名进行研究,按相同比例从犯罪青少年中抽取的样本量仅为量仅为1.51.5人。显然,这样少的样本量无法满足研究的需要。人。显然,这样少的样本量无法满足研究的需要。故要扩大犯罪青少年的样本量,如扩大到故要扩大犯罪青少年的样本量,如扩大到50%50%。调查结果:。调查结果:40条件百分表的方向(特殊情况)条件百分表的方向(特殊情况)青少年行为青少年行为家庭状况家庭状况合计合计完整家庭完整家庭离异家庭离异家庭犯罪犯罪383775未犯罪未犯罪928100合计合计13045175 41条件百分表的方向(例题数据)

27、条件百分表的方向(例题数据)观察数据观察数据青少年行为青少年行为家庭状况家庭状况完整家庭完整家庭离异家庭离异家庭犯罪(犯罪(%)2982未犯罪(未犯罪(%)7118合计(人)合计(人)13045条件百分表条件百分表从条件百分表可知,完整家庭犯罪青少年所占比重为从条件百分表可知,完整家庭犯罪青少年所占比重为29%29%,离异家庭犯罪青少年所占比重为离异家庭犯罪青少年所占比重为82%82%,两者过高的比重令人,两者过高的比重令人怀疑。其原因是扩大了犯罪青少年的抽取数量。如果此时按怀疑。其原因是扩大了犯罪青少年的抽取数量。如果此时按因变量方向编制条件百分表,则得如下结果:因变量方向编制条件百分表,则

28、得如下结果:上述结果更能令人相信。上述结果更能令人相信。42条件百分表的方向(数据解释与处理)条件百分表的方向(数据解释与处理)家庭状况家庭状况青少年行为青少年行为犯罪(犯罪(%)未犯罪(未犯罪(%)完整家庭完整家庭5192离异家庭离异家庭498合计(人)合计(人)75100利用利用 分布进行独立性检验,要求样本量足够大,特别是分布进行独立性检验,要求样本量足够大,特别是每个单元中的期望频数不能过小,否则每个单元中的期望频数不能过小,否则 检验失效。检验失效。准则一:准则一:如果只有两个单元,每个单元的期望频数必须是如果只有两个单元,每个单元的期望频数必须是5 5或或5 5以上。以上。准则一:

29、准则一:如果有两个以上单元,如果如果有两个以上单元,如果20%20%的单元期望频数小于的单元期望频数小于5 5,则不,则不能运用能运用 检验检验 43二、二、分布的期望准则分布的期望准则以往病史以往病史未患过肝炎未患过肝炎532531患过肝炎患过肝炎45 44分布的期望准则(例题数据)分布的期望准则(例题数据)数据表(数据表(1 1)数据表(数据表(2 2)类别类别A3032B110113C8687D2324E52F54G41合计合计263263表(表(1 1):):两个单元中的期望频数都大两个单元中的期望频数都大于于5 5,可使用,可使用 检验检验表(表(2 2):):7 7个单元中,有个单

30、元中,有3 3个单元的期个单元的期望频数小于望频数小于5 5,不可使用,不可使用 检验检验表(表(2 2)中)中 与与 很接近,很接近,说明期望值与观察值拟合得说明期望值与观察值拟合得很好,两者之间无显著差别。很好,两者之间无显著差别。若在若在 时进行时进行 检验:检验:结果是拒绝原假设,认为观结果是拒绝原假设,认为观察值与期望值之间存在显著察值与期望值之间存在显著差异,结论不符合逻辑。差异,结论不符合逻辑。45分布的期望准则(判断)分布的期望准则(判断)解决办法:解决办法:可将某些类别合并,使期望可将某些类别合并,使期望频数大于频数大于5 51.1.解释列联表解释列联表2.2.计算期望频数计算期望频数3.3.进行进行 检验检验拟合优度检验拟合优度检验4.4.对列联表进行相关分析对列联表进行相关分析5.5.用用Excel进行进行 检验检验 46本章小结本章小结

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 技术资料 > 其他杂项

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁