统计学-第二章-列联分析..优秀PPT.ppt

上传人:hg158****2095 文档编号:86737573 上传时间:2023-04-14 格式:PPT 页数:46 大小:628KB
返回 下载 相关 举报
统计学-第二章-列联分析..优秀PPT.ppt_第1页
第1页 / 共46页
统计学-第二章-列联分析..优秀PPT.ppt_第2页
第2页 / 共46页
点击查看更多>>
资源描述

《统计学-第二章-列联分析..优秀PPT.ppt》由会员分享,可在线阅读,更多相关《统计学-第二章-列联分析..优秀PPT.ppt(46页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、其次章 列联分析第一节第一节 分类数据与列联表分类数据与列联表其次节其次节 检验检验第三节第三节 列联表的相关测量列联表的相关测量第四节第四节 列联分析中应留意的问题列联分析中应留意的问题2023/4/1412023/4/142背 景统计分析中,我们常常会遇到一些定性的数据性别(男、女)态度(喜欢、不喜欢)性别对态度是否有影响1.可使用列联表分析技术2.可运用对数线性模型与 Logistic模型分析技术2023/4/143主要内容第一节 分类数据与列联表2023/4/144l分分类变量的量的结果表果表现为类别l例如:性例如:性别(男男,女女)l各各类别用符号或数字代用符号或数字代码来来测度度l

2、运用分运用分类或依次尺度或依次尺度l你吸烟你吸烟吗?l1.1.是;是;2.2.否否l你你赞成成还是反是反对这一改革方案一改革方案?l1.1.赞成;成;2.2.反反对l对分分类数据的描述和分析通常运用列数据的描述和分析通常运用列联表表l可运用可运用检验l数数值型数据也可以型数据也可以转化化为分分类数据数据2023/4/145一、分类数据1.由两个以上的由两个以上的变量交叉分量交叉分类的的频数分布表数分布表2.行行变量的量的类别用用 r 表示,表示,ri 表示第表示第 i 个个类别3.列列变量的量的类别用用 c 表示,表示,cj 表示第表示第 j 个个类别4.每种每种组合的合的视察察频数用数用 f

3、ij 表示表示5.表表中中列列出出了了行行变量量和和列列变量量的的全全部部可可能能的的组合,所以称合,所以称为列列联表表6.一个一个 r 行行 c 列的列列的列联表称表称为 r c 列列联表表2023/4/146二、列联表的构造-列联表(contingency table)2023/4/147列联表的结构(2 2 列联表)列列(cj)合计合计j=1j=1i=1f11f12f11+f12i=2f21f22f21+f22合计合计f11+f21f12+f22n列列列列(c c c cj j j j)行行行行 (r r r ri i i i)2023/4/148列联表的结构(r c 列联表的一般表示)

4、列列(cj)合计合计j=1j=2i=1f11f12r1i=2f21f22r2:合计合计c1c2n列列(c cj j)行行(r ri i)fij 表示第表示第 i 行第行第 j 列的视察频数列的视察频数2023/4/149例例题分析分析一分公司二分公司三分公司四分公司合计合计赞成该方案赞成该方案6868757557577979279279反对该方案反对该方案3232757533333131141141合计合计1001001201209090110110420420【例例】一一个个集集团团公公司司在在四四个个不不同同的的地地区区设设有有分分公公司司,现现该该集集团团公公司司欲欲进进行行一一项项改改

5、革革,此此项项改改革革可可能能涉涉及及到到各各分分公公司司的的利利益益,故故接接受受抽抽样样调调查查方方式式,从从四四个个分分公公司司共共抽抽取取420420个个样样本本单位单位(人人),了解职工对此项改革的看法,调查结果如下表,了解职工对此项改革的看法,调查结果如下表1.边缘分布分布2.行行边缘分布分布3.行行视察察值的合的合计数的分布数的分布4.例例如如,赞成成改改革革方方案案的的共共有有279人人,反反对改改革革方方案的案的141人人5.列列边缘分布分布6.列列视察察值的合的合计数的分布数的分布7.例例如如,四四个个分分公公司司接接受受调查的的人人数数分分别为100人人,120人,人,9

6、0人,人,110人人8.条件分布与条件条件分布与条件频数数9.变量量 X 条条件件下下变量量Y 的的分分布布,或或在在变量量Y 条条件件下下变量量 X 的分布的分布10.每个具体的每个具体的视察察值称称为条件条件频数数2023/4/14102023/4/1411一分公司一分公司二分公司二分公司三分公司三分公司四分公司四分公司合计合计赞成该方案赞成该方案6868757557577979279279反对该方案反对该方案3232454533333131141141合计合计1001001201209090110110420420行边缘分布行边缘分布列边缘分布列边缘分布条件频数条件频数1.条件条件频数反

7、映了数据的分布,但不适合数反映了数据的分布,但不适合对比比2.为在在相相同同的的基基数数上上进行行比比较,可可以以计算算相相应的百分比,称的百分比,称为百分比分布百分比分布3.行行百百分分比比:行行的的每每一一个个视察察频数数除除以以相相应的的行合行合计数数(fij/ri)4.列列百百分分比比:列列的的每每一一个个视察察频数数除除以以相相应的的列合列合计数数(fij/cj)5.总百百分分比比:每每一一个个视察察值除除以以视察察值的的总个个数数(fij/n)2023/4/14122023/4/1413一分公司一分公司二分公司二分公司三分公司三分公司四分公司四分公司合计合计赞成该方案赞成该方案24

8、.4%24.4%26.9%26.9%20.4%20.4%28.3%28.3%66.4%66.4%68.0%68.0%62.5%62.5%63.3563.3571.8%71.8%16.2%16.2%17.8%17.8%13.6%13.6%18.8%18.8%反对该方案反对该方案22.7%22.7%31.9%31.9%23.4%23.4%22.0%22.0%33.6%33.6%32.0%32.0%37.5%37.5%36.7%36.7%28.2%28.2%7.6%7.6%10.7%10.7%7.9%7.9%7.4%7.4%合计合计23.8%23.8%28.6%28.6%21.4%21.4%26.2

9、%26.2%100%100%总百分比总百分比列百分比列百分比行百分比行百分比1.假定行假定行变量和列量和列变量是独立的量是独立的2.一一个个实际频数数 fij 的的期期望望频数数 eij,是是总频数数的的个个数数 n 乘乘以以该实际频数数 fij 落落入入第第 i 行行 和第和第j列的概率,即列的概率,即2023/4/14142023/4/1415由于视察频数的总数为由于视察频数的总数为n,所以,所以f11 的期望频数的期望频数 e11 应应为为例例如如,第第1行行和和第第1列列的的实实际际频频数数为为 f11,它它落落在在第第1行行的的概概率率估估计计值值为为该该行行的的频频数数之之和和r1

10、除除以以总总频频数数的的个个数数 n,即即:r1/n;它它落落在在第第1列列的的概概率率的的估估计计值值为为该该列列的的频频数数之之和和c1除除以以总总频频数数的的个个数数 n,即即:c1/n。依依据据概概率率的乘法公式,该频数落在第的乘法公式,该频数落在第1行和第行和第1列的概率应为列的概率应为2023/4/142023/4/141616一分公司一分公司二分公司二分公司三分公司三分公司四分公司四分公司赞成该赞成该方方 案案实际频数实际频数6868757557577979期望频数期望频数6666808060607373反对该反对该方方 案案实际频数实际频数3232757533333131期望频

11、数期望频数3434404030303737其次节其次节 检验检验 一、一、统计量统计量 二、拟合优度检验二、拟合优度检验2023/4/14171.用于用于检验列列联表中表中变量量间拟合合优度和独立性度和独立性2.用于用于测定两个分定两个分类变量之量之间的相关程度的相关程度 3.计算公式算公式为 其自由度其自由度为 式中式中 -列列联表中第表中第i行第行第j列列类别的的实际频数数 -列列联表中第表中第i行第行第j列列类别的期望的期望频数数2023/4/1418一、一、统计量量2023/4/1419实际频数实际频数(fij)期望频数期望频数(eij)fij-eij(fij-eij)2(fij-ei

12、j)2eij687557793245333166806073344030372-5-36-253-64259364259360.06060.31250.15000.49320.11760.62500.30000.9730合计:合计:3.03192023/4/1420二、二、拟合合优度度检验(品品质数据的假数据的假设检验)品质数据品质数据比例检验比例检验独立性检验独立性检验Z Z 检验检验一个总体 检验检验Z Z 检验检验 检验检验两个以上总体两个总体1.检验多个比例是否相等多个比例是否相等2.检验的步的步骤提出假提出假设lH0:1=2=j;H1:1,2,j 不全相等不全相等 计算算检验的的统计

13、量量2023/4/1421拟合合优度度检验(goodness of fit test)进行决策进行决策 依据显著性水平依据显著性水平 和自由度和自由度(r-1)(c-1)查出临界值查出临界值2 若若 22,拒绝,拒绝H0;若;若 22,接受,接受H0H0:1=2=3=4 H1:1,2,3,4 不全相等不全相等=0.1df=(2-1)(4-1)=3临界界值(s):拟合合优度度检验(例例题分析分析)统计量统计量:在在 =0.1的水平上不能拒绝的水平上不能拒绝H0可以认为四个分公司对改革方案的赞成比可以认为四个分公司对改革方案的赞成比例是一样的例是一样的 决策决策:结论结论:6.2513.0319

14、=0.10 【例例】为为了了提提高高市市场场占占有有率率,A A公公司司和和B B公公司司同同时时开开展展了了广广告告宣宣扬扬。在在广广告告宣宣扬扬战战之之前前,A A公公司司的的市市场场占占有有率率为为45%45%,B B公公司司的的市市场场占占有有率率为为40%40%,其其他他公公司司的的市市场场占占有有率率为为15%15%。为为了了了了解解广广告告战战之之后后A A、B B和和其其他他公公司司的的市市场场占占有有率率是是否否发发生生变变更更,随随机机抽抽取取了了200200名名消消费费者者,其其中中102102人人表表示示准准备备购购买买A A公公司司产产品品,8282人人表表示示准准备

15、备购购买买B B公公司司产产品品,另另外外1616人人表表示示准准备备购购买买其其他他公公司司产产品品。检检验验广广告告战战前前后后各各公公司司的的市市场场占占有有率率是是否否发发生了生了变变更更(0.05)0.05)2023/4/1423拟合合优度度检验(例例题分析分析)H0:1=0.45 2=0.4 3=0.15 H1:原假原假设中至少有一个不成立中至少有一个不成立 =0.05df=(2-1)(3-1)=2临界界值(s):拟合合优度度检验(例例题分析分析)统计量统计量:在在 =0.05的水平上拒绝的水平上拒绝H0可以认为广告后各公司产品市场占有可以认为广告后各公司产品市场占有率发生显著变更

16、率发生显著变更 决策决策:结论结论:0 008.185.99 =0.05 24第第1步:将步:将视察察值输入一列,将期望入一列,将期望值输入一列入一列第第2步:步:选择“函数函数”选项第第3步:在函数分步:在函数分类中中选“统计”,在函数名中,在函数名中选 “CHITEST”,点,点击“确定确定”第第4步:在步:在对话框框“Actual_range”输入入视察数据区域察数据区域 在在对话框框“Expected_range”输入期望数据区入期望数据区 域得到域得到P值为0.016711,所以拒,所以拒绝原假原假设 拟合合优度度检验(例例题分析分析用用P值检验)25第三节第三节 列联表中的相关测量

17、列联表中的相关测量一一、相关系数相关系数二、列联相关系数二、列联相关系数三三、V V 相关系数相关系数2023/4/14261.品品质相关相关2.对品品质数据数据(分分类和依次数据和依次数据)之之间相关相关程度的程度的测度度3.列列联表表变量的相关属于品量的相关属于品质相关相关4.列列联表相关表相关测量的量的统计量主要有量主要有5.相关系数相关系数6.列列联相关系数相关系数7.V 相关系数相关系数2023/4/14271.测度度2 2列列联表中数据相关程度表中数据相关程度2.对于于2 2 列列联表,表,系数的系数的值在在01之之间3.相关系数相关系数计算公式算公式为 式中式中n为列列联表的表的

18、总频数,即数,即样本量本量2023/4/1428一、一、相关系数相关系数(correlation coefficient)一个一个简化的化的 2 2 2 2 列列联表表2023/4/1429 相关系数相关系数(原理分析原理分析)因素因素Y因素因素 X合计合计x1x2y1aba+by2cdc+d合计合计a+cb+dnla、b、c、d均均为为条件条件频频数数l当当变变量量X,Y相互独立,不存在相关关系相互独立,不存在相关关系时时,频频数数间应间应有下面的有下面的关系:关系:l化化简简后有:后有:l差差值值 的大小可以反映的大小可以反映变变量之量之间间相关程度的凹凸。差相关程度的凹凸。差值值越大,越

19、大,说说明两个明两个变变量的相关程度越高。量的相关程度越高。系数就是以差系数就是以差值值为为基基础础,实现对实现对两个两个变变量相关程度的量相关程度的测测量。量。2023/4/1430列列联表中每个表中每个单元格的期望元格的期望频数分数分别为2023/4/1431 相关系数相关系数(原理分析原理分析)将各期望频数代入将各期望频数代入 的计算公式得的计算公式得将将 代入代入 相关系数的相关系数的计算公式得算公式得2023/4/1432 相关系数相关系数(原理分析原理分析)lad 等于等于 bc,=0,表明变量,表明变量X 与与 Y 之间独立之间独立l若若 b=0,c=0,或,或a=0,d=0,意

20、味着各视察频数,意味着各视察频数全部落在对角线上,此时全部落在对角线上,此时|=1,表明变量表明变量X 与与 Y 之之间完全相关间完全相关列列联联表表中中变变量量的的位位置置可可以以互互换换,的的符符号号没没有有实际意义,故取确定值即可实际意义,故取确定值即可1.用于用于测度大于度大于2 2列列联表中数据的相关程度表中数据的相关程度2.计算公式算公式为2023/4/1433二、列二、列联相关系数相关系数(coefficient ofcontingency)lC 的取值范围是的取值范围是 0 C1lC=0表明列联表中的两个变量独立表明列联表中的两个变量独立lC 的的数数值值大大小小取取决决于于列

21、列联联表表的的行行数数和和列列数数,并随行数和列数的增大而增大并随行数和列数的增大而增大l依依据据不不同同行行和和列列的的列列联联表表计计算算的的列列联联系系数数不不便于比较便于比较1.计算公式算公式为2023/4/1434三三、V 相关系数相关系数(V correlation coefficient)2.V 的取值范围是的取值范围是 0 V 13.V=0表明列联表中的两个变量独立表明列联表中的两个变量独立4.V=1表明列联表中的两个变量完全相关表明列联表中的两个变量完全相关5.不同行和列的列联表计算的列联系数不便于比较不同行和列的列联表计算的列联系数不便于比较6.当列联表中有一维为当列联表中

22、有一维为2,min(r-1),(c-1)=1,此时此时 V=1.同一个列同一个列联表,表,、C、V 的的结果会不同果会不同2.不同的列不同的列联表,表,、C、V 的的结果也不同果也不同3.在在对不不同同列列联表表变量量之之间的的相相关关程程度度进行行比比较时,不不同同列列联表表中中的的行行与与行行、列列与与列列的个数要相同,并且接受同一种系数的个数要相同,并且接受同一种系数2023/4/1435四四、C、V 的比的比较2023/4/1436列列联表中的相关表中的相关测量量(例例题分析分析)【例例】一一种种原原料料来来自自三三个个不不同同地地区区,原原料料质质量量被被分分成成三三个个不不同同等等

23、级级。从从这这批批原原料料中中随随机机抽抽取取500件件进进行行检检验验,结结果果如如下表。分别计算下表。分别计算 系数、系数、C系数和系数和V系数,并分析相关程度系数,并分析相关程度地区地区一级一级二级二级三级三级合计合计甲地区甲地区525264642424140140乙地区乙地区606059595252171171丙地区丙地区505065657474189189合计合计1621621881881501505005002023/4/1437解:已知解:已知n=500,19.82,列联表为,列联表为3 3结论:三个系数均不高,表明产地和原料等级之结论:三个系数均不高,表明产地和原料等级之 间的

24、相关程度不高间的相关程度不高第四第四节 列列联分析中分析中应留意的留意的问题一、条件百分表的方向一、条件百分表的方向二、二、分布的期望准分布的期望准则2023/4/1438对于具有因果关系的两个品于具有因果关系的两个品质变量量X X与与Y Y,在列,在列联表中的位置表中的位置有有习惯的的处理,即将自理,即将自变量量(X)(X)置于列的位置,将因置于列的位置,将因变量量(Y)(Y)置于行的位置,置于行的位置,这样可以更好地表可以更好地表现缘由由对结果的影响。果的影响。2023/4/1439价值取向价值取向Y职业职业X制造业制造业服务业服务业物质报酬物质报酬(%)105724556人情关系人情关系

25、(%)40283544合计合计(%)14510080100假如因假如因变量在量在样本内的分布不能代表其在本内的分布不能代表其在总体内的分布,例体内的分布,例如,如,为了了满足分析的足分析的须要,抽要,抽样时扩大了因大了因变量某量某项内容的内容的样本量,本量,这时若仍以自若仍以自变量的方向量的方向计算百分表就会歪曲事算百分表就会歪曲事实。例如,社会学家欲探例如,社会学家欲探讨家庭状况(自家庭状况(自变量)量)对青少年犯罪青少年犯罪(因(因变量)的影响。量)的影响。该地区有未犯罪地区有未犯罪记录的青少年的青少年1000010000名,名,犯罪犯罪记录的青少年的青少年150150名。假如从未犯罪青少

26、年中抽取名。假如从未犯罪青少年中抽取1%1%,即即100100名名进行探行探讨,按相同比例从犯罪青少年中抽取的,按相同比例从犯罪青少年中抽取的样本本量量仅为1.51.5人。明人。明显,这样少的少的样本量无法本量无法满足探足探讨的的须要。要。故要故要扩大犯罪青少年的大犯罪青少年的样本量,如本量,如扩大到大到50%50%。调查结果:果:2023/4/1440青少年行为青少年行为家庭状况家庭状况合计合计完整家庭完整家庭离异家庭离异家庭犯罪犯罪383775未犯罪未犯罪928100合计合计130451752023/4/1441视察数据视察数据青少年行为青少年行为家庭状况家庭状况完整家庭完整家庭离异家庭离

27、异家庭犯罪(犯罪(%)2982未犯罪(未犯罪(%)7118合计(人)合计(人)13045条件百分表条件百分表从条件百分表可知,完整家庭犯罪青少年所占比重从条件百分表可知,完整家庭犯罪青少年所占比重为29%29%,离异家庭犯罪青少年所占比重离异家庭犯罪青少年所占比重为82%82%,两者,两者过高的比重令人高的比重令人怀疑。其疑。其缘由是由是扩大了犯罪青少年的抽取数量。假如此大了犯罪青少年的抽取数量。假如此时按按因因变量方向量方向编制条件百分表,制条件百分表,则得如下得如下结果:果:上述上述结果更能令人信任。果更能令人信任。2023/4/1442家庭状况家庭状况青少年行为青少年行为犯罪(犯罪(%)

28、未犯罪(未犯罪(%)完整家庭完整家庭5192离异家庭离异家庭498合计(人)合计(人)75100利用利用 分布分布进行独立性行独立性检验,要求,要求样本量足本量足够大,特殊是大,特殊是每个每个单元中的期望元中的期望频数不能数不能过小,否小,否则 检验失效。失效。准准则一:一:假如只有两个假如只有两个单元,每个元,每个单元的期望元的期望频数必需是数必需是5 5或或5 5以上。以上。准准则一:一:假如有两个以上假如有两个以上单元,假如元,假如20%20%的的单元期望元期望频数小于数小于5 5,则不不能运用能运用 检验 2023/4/1443以往病史以往病史未患过肝炎未患过肝炎532531患过肝炎患

29、过肝炎452023/4/1444数据表(数据表(1 1)数据表(数据表(2 2)类别类别A3032B110113C8687D2324E52F54G41合计合计263263表(表(1 1):):两个单元中的期望频数都大两个单元中的期望频数都大于于5 5,可运用,可运用 检验检验表(表(2 2):):7 7个单元中,有个单元中,有3 3个单元的期个单元的期望频数小于望频数小于5 5,不行运用,不行运用 检验检验表(表(2 2)中)中 与与 很接近,很接近,说明期望值与视察值拟合得说明期望值与视察值拟合得很好,两者之间无显著差别。很好,两者之间无显著差别。若在若在 时进行时进行 检验:检验:结果是拒绝原假设,认为观结果是拒绝原假设,认为观察值与期望值之间存在显著察值与期望值之间存在显著差异,结论不符合逻辑。差异,结论不符合逻辑。2023/4/1445解决办法:解决办法:可将某些类别合并,使期望可将某些类别合并,使期望频数大于频数大于5 51.说明列明列联表表2.计算期望算期望频数数3.进行行 检验4.拟合合优度度检验5.对列列联表表进行相关分析行相关分析6.用用Excel进行行 检验2023/4/1446

展开阅读全文
相关资源
相关搜索

当前位置:首页 > pptx模板 > 商业计划书

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁