《经营管理统计.pptx》由会员分享,可在线阅读,更多相关《经营管理统计.pptx(42页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、学习目标1.解释列联表2.进行 2 检验拟合优度检验3.测度列联表中的相关性第1页/共42页分类数据1.分类变量的结果表现为类别例如:性别(男,女)2.各类别用符号或数字代码来测度3.使用分类或顺序尺度你吸烟吗?1.是;2.否你赞成还是反对这一改革方案?1.赞成;2.反对4.对分类数据的描述和分析通常使用列联表5.可使用检验第2页/共42页9.1 分类数据与列联表分类数据列联表的构造列联表的分布第3页/共42页列联表的构造第4页/共42页列联表(contingency table)1.由两个以上的变量交叉分类的频数分布表2.行变量的类别用 r 表示,ri 表示第 i 个类别3.列变量的类别用
2、c 表示,cj 表示第 j 个类别4.每种组合的观察频数用 fij 表示5.表中列出了行变量和列变量的所有可能的组合,所以称为列联表6.一个 r 行 c 列的列联表称为 r c 列联表第5页/共42页列联表的结构(2 2 列联表)列列列列(c cj j)合计合计合计合计j j=1=1j j=1=1i i=1=1f11f12f11+f12i i=2=2f21f22f21+f22合计合计合计合计f11+f21f12+f22n列列(c cj j)行行 (r ri i)第6页/共42页列联表的结构(r c 列联表的一般表示)列列列列(c cj j)合计合计合计合计j j=1=1j j=2 2i i=1
3、=1f11f12r1i i=2=2f21f22r2:合计合计合计合计c1c2n列列(c cj j)行行(r ri i)f fij ij 表示第表示第 i i 行第行第 j j 列的观察频数列的观察频数第7页/共42页列联表(例题分析)一分公司一分公司二分公司二分公司三分公司三分公司四分公司四分公司合计合计合计合计赞成该方案赞成该方案赞成该方案赞成该方案6868757557577979279279反对该方案反对该方案反对该方案反对该方案3232757533333131141141合计合计合计合计1001001201209090110110420420【例例】一一个个集集团团公公司司在在四四个个不
4、不同同的的地地区区设设有有分分公公司司,现现该该集集团团公公司司欲欲进进行行一一项项改改革革,此此项项改改革革可可能能涉涉及及到到各各分分公公司司的的利利益益,故故采采用用抽抽样样调调查查方方式式,从从四四个个分分公公司司共共抽抽取取420420个个样样本本单位单位(人人),了解职工对此项改革的看法,调查结果如下表,了解职工对此项改革的看法,调查结果如下表第8页/共42页列联表的分布第9页/共42页观察值的分布1.边缘分布行边缘分布行观察值的合计数的分布例如,赞成改革方案的共有279人,反对改革方案的141人列边缘分布列观察值的合计数的分布例如,四个分公司接受调查的人数分别为100人,120人
5、,90人,110人2.条件分布与条件频数变量 X 条件下变量 Y 的分布,或在变量 Y 条件下变量 X 的分布每个具体的观察值称为条件频数第10页/共42页观察值的分布(图示)一分公司一分公司二分公司二分公司三分公司三分公司四分公司四分公司合计合计合计合计赞成该方案赞成该方案赞成该方案赞成该方案6868757557577979279279反对该方案反对该方案反对该方案反对该方案3232757533333131141141合计合计合计合计1001001201209090110110420420行边缘分布行边缘分布列边缘分布列边缘分布条件频数条件频数第11页/共42页百分比分布(概念要点)1.条件
6、频数反映了数据的分布,但不适合对比2.为在相同的基数上进行比较,可以计算相应的百分比,称为百分比分布行百分比:行的每一个观察频数除以相应的行合计数(fij/ri)列百分比:列的每一个观察频数除以相应的列合计数(fij/cj)总百分比:每一个观察值除以观察值的总个数(fij/n)第12页/共42页百分比分布(图示)一分公司一分公司二分公司二分公司三分公司三分公司四分公司四分公司合计合计合计合计赞成该方案赞成该方案赞成该方案赞成该方案24.4%24.4%26.9%26.9%20.4%20.4%28.3%28.3%66.4%66.4%68.0%68.0%62.5%62.5%63.3563.3571.
7、8%71.8%16.2%16.2%17.8%17.8%13.6%13.6%18.8%18.8%反对该方案反对该方案反对该方案反对该方案22.7%22.7%31.9%31.9%23.4%23.4%22.0%22.0%33.6%33.6%32.0%32.0%37.5%37.5%36.7%36.7%28.2%28.2%7.6%7.6%10.7%10.7%7.9%7.9%7.4%7.4%合计合计合计合计23.8%23.8%28.6%28.6%21.4%21.4%26.2%26.2%100%100%总百分比总百分比列百分比列百分比行百分比行百分比第13页/共42页期望频数的分布1.假定行变量和列变量是独
8、立的2.一个实际频数 fij 的期望频数 eij,是总频数的个数 n 乘以该实际频数 fij 落入第 i 行 和第j列的概率,即第14页/共42页期望频数的分布(例题分析)由于观察频数的总数为由于观察频数的总数为n n ,所以,所以f f1111 的期望频数的期望频数 e e11 11 应为应为 例例如如,第第1 1行行和和第第1 1列列的的实实际际频频数数为为 f f1111 ,它它落落在在第第1 1行行的的概概率率估估计计值值为为该该行行的的频频数数之之和和r r1 1除除以以总总频频数数的的个个数数 n n ,即即:r r1 1/n n;它它落落在在第第1 1列列的的概概率率的的估估计计
9、值值为为该该列列的的频频数数之之和和c c1 1除除以以总总频频数数的的个个数数 n n ,即即:c c1 1/n n。根根据据概概率率的的乘法公式,该频数落在第乘法公式,该频数落在第1 1行和第行和第1 1列的概率应为列的概率应为第15页/共42页期望频数的分布(例题分析)一分公司一分公司一分公司一分公司二分公司二分公司二分公司二分公司三分公司三分公司三分公司三分公司四分公司四分公司四分公司四分公司赞成该赞成该赞成该赞成该方案方案方案方案实际频数实际频数实际频数实际频数68755779期望频数期望频数期望频数期望频数66806073反对该反对该反对该反对该方案方案方案方案实际频数实际频数实际
10、频数实际频数32753331期望频数期望频数期望频数期望频数34403037第16页/共42页9.2 2检验 统计量拟合优度检验第17页/共42页 统计量第18页/共42页 统计量1.用于检验列联表中变量间拟合优度和独立性2.用于测定两个分类变量之间的相关程度 3.计算公式为第19页/共42页 统计量(例题分析)实际频数实际频数实际频数实际频数(f fij ij)期望频数期望频数期望频数期望频数(e eij ij)f fij ij-e eij ij(f fij ij-e eij ij)2 2(f fij ij-e eij ij)2 2e eij ij6868757557577979323245
11、4533333131666680806060737334344040303037372 2-5-5-3-36 6-2-25 53 3-6-64 425259 936364 425259 936360.06060.06060.31250.31250.15000.15000.49320.49320.11760.11760.62500.62500.30000.30000.97300.9730合计:合计:3.03193.0319第20页/共42页拟合优度检验第21页/共42页品质数据的假设检验品质数据品质数据比例检验比例检验独立性检验独立性检验Z 检验检验一个总体一个总体 检验检验Z 检验检验 检验检
12、验两个以上总体两个以上总体两个总体两个总体第22页/共42页拟合优度检验(goodness of fit test)1.检验多个比例是否相等2.检验的步骤提出假设H0:1=2=j;H1:1,2,j 不全相等 计算检验的统计量n n 进行决策进行决策l l 根据根据显著性水平显著性水平 和和自由度自由度(r r-1)(-1)(c c-1)-1)查出临界值查出临界值 2 2l l 若若 2 2 2 2,拒绝,拒绝H H0 0;若;若 2 2 2 2,接受,接受H H0 0第23页/共42页拟合优度检验(例题分析)H0:1=2=3=4 H1:1,2,3,4 不全相等 =0.1df=(2-1)(4-1
13、)=3临界值(s):统计量统计量:在在 =0.1=0.1的水平上不能拒绝的水平上不能拒绝H H0 0可以认为四个分公司对改革方案的赞成比可以认为四个分公司对改革方案的赞成比例是一致的例是一致的 决策决策:结论结论:2 220 006.2156.2156.2153.03193.03193.0319 =0.1=0.1=0.1第24页/共42页拟合优度检验(例题分析)【例】为了提高市场占有率,A公司和B公司同时开展了广告宣传。在广告宣传战之前,A公司的市场占有率为45%,B公司的市场占有率为40%,其他公司的市场占有率为15%。为了了解广告战之后A、B和其他公司的市场占有率是否发生变化,随机抽取了2
14、00名消费者,其中102人表示准备购买A公司产品,82人表示准备购买B公司产品,另外16人表示准备购买其他公司产品。检验广告战前后各公司的市场占有率是否发生了变化(0.05)第25页/共42页拟合优度检验(例题分析)H0:1=0.45 2=0.4 3=0.15 H1:原假设中至少有一个不成立 =0.1df=(2-1)(3-1)=2临界值(s):统计量统计量:在在 =0.05=0.05的水平上拒绝的水平上拒绝H H0 0可以认为广告后各公司产品市场占有可以认为广告后各公司产品市场占有率发生显著变化率发生显著变化 决策决策:结论结论:0 008.188.188.185.995.995.99 =0.
15、05=0.05=0.05第26页/共42页拟合优度检验(例题分析用P值检验)第1步:将观察值输入一列,将期望值输入一列第2步:选择“函数”选项第3步:在函数分类中选“统计”,在函数名中选 “CHITEST”,点击“确定”第4步:在对话框“Actual_range”输入观察数据区域 在对话框“Expected_range”输入期望数据区域 得到P值为0.016711,所以拒绝原假设 用Excel计算p值第27页/共42页9.3 列联表中的相关测量 相关系数列联相关系数V 相关系数第28页/共42页列联表中的相关测量1.品质相关对品质数据(分类和顺序数据)之间相关程度的测度2.列联表变量的相关属于
16、品质相关3.列联表相关测量的统计量主要有 相关系数列联相关系数V 相关系数第29页/共42页 相关系数(correlation coefficient)1.测度22列联表中数据相关程度2.对于22 列联表,系数的值在01之间3.相关系数计算公式为第30页/共42页 相关系数(原理分析)一个简化的 2 2 列联表因素因素因素因素Y Y因素因素因素因素 X X合计合计合计合计x x1 1x x2 2y y1 1aba+by y2 2cdc+d合计合计合计合计a+cb+dn第31页/共42页 相关系数(原理分析)列联表中每个单元格的期望频数分别为将各期望频数代入将各期望频数代入 的计算公式得的计算公
17、式得第32页/共42页 相关系数(原理分析)将入 相关系数的计算公式得 ad ad 等于等于 bc bc,=0=0,表明变量,表明变量X X 与与 Y Y 之间独立之间独立 若若 b b=0=0 ,c c=0=0,或或a a=0=0 ,d d=0=0,意意味味着着各各观观察察频频数数全全部部落落在在对对角角线线上上,此此时时|=1=1,表表明明变变量量X X 与与 Y Y 之间完全相关之间完全相关列列联联表表中中变变量量的的位位置置可可以以互互换换,的的符符号号没没有有实际意义,故取绝对值即可实际意义,故取绝对值即可第33页/共42页列联相关系数(coefficient of continge
18、ncy)1.用于测度大于22列联表中数据的相关程度2.计算公式为 C C 的取值范围是的取值范围是 0 0 C C11 C C=0=0表明列联表中的两个变量独立表明列联表中的两个变量独立 C C 的的数数值值大大小小取取决决于于列列联联表表的的行行数数和和列列数数,并随行数和列数的增大而增大并随行数和列数的增大而增大 根根据据不不同同行行和和列列的的列列联联表表计计算算的的列列联联系系数数不不便于比较便于比较第34页/共42页V 相关系数(V correlation coefficient)1.计算公式为2.V V 的取值范围是的取值范围是 0 0 V V 1 13.V V=0=0表明列联表中
19、的两个变量独立表明列联表中的两个变量独立4.V V=1=1表明列联表中的两个变量完全相关表明列联表中的两个变量完全相关5.不同行和列的列联表计算的列联系数不便于比较不同行和列的列联表计算的列联系数不便于比较6.当当列列联联表表中中有有一一维维为为2 2,min(min(r r-1),(-1),(c c-1)=1,-1)=1,此此时时V V=第35页/共42页、C、V 的比较1.同一个列联表,、C、V 的结果会不同2.不同的列联表,、C、V 的结果也不同3.在对不同列联表变量之间的相关程度进行比较时,不同列联表中的行与行、列与列的个数要相同,并且采用同一种系数第36页/共42页列联表中的相关测量
20、(例题分析)【例例】一一种种原原料料来来自自三三个个不不同同地地区区,原原料料质质量量被被分分成成三三个个不不同同等等级级。从从这这批批原原料料中中随随机机抽抽取取500500件件进进行行检检验验,结结果果如如下下表表。分分别别计计算算 系系数数、C C系系数数和和V V系系数数,并分析相关程度并分析相关程度地区地区地区地区一级一级一级一级二级二级二级二级三级三级三级三级合计合计合计合计甲地区甲地区甲地区甲地区525264642424140140乙地区乙地区乙地区乙地区606059595252171171丙地区丙地区丙地区丙地区505065657474189189合计合计合计合计1621621
21、88188150150500500第37页/共42页列联表中的相关测量(例题分析)解:解:已知已知n n=500=500,19.8219.82,列联表为,列联表为3 3 3 3结论:结论:三个系数均不高,表明产地和原料等级之三个系数均不高,表明产地和原料等级之 间的相关程度不高间的相关程度不高第38页/共42页本章小结1.解释列联表2.计算期望频数3.进行 2 检验拟合优度检验4.对列联表进行相关分析5.用Excel进行 2 检验第39页/共42页课堂作业原始数据:2008-2010年海盗数据数据内容:发生时间、船舶状态、攻击状态、船舶类型、船旗国、载重吨、发生地点作业要求:分为6组,每组8-10人按照船舶攻击状态提取2种状态进行分析(各小组选择不可相同)对数据采用合适的图表进行展示;采用概括性度量的相应指标对样本数据进行描述;以所有数据作为总体,以所选状态为样本,假设总体为正态分布,对两个样本的载重吨的均值差、方差比进行假设检验;采用方差分析,分析船舶类型,攻击状态对载重吨的影响。第40页/共42页结 束第41页/共42页感谢您的观看!第42页/共42页