《统计学Ch统计表与统计图.pptx》由会员分享,可在线阅读,更多相关《统计学Ch统计表与统计图.pptx(54页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、会计学1统计学统计学Ch统计表与统计图统计表与统计图第一节第一节 统计表统计表 一、统计表的意义与制作原则1 1统计表的意义统计表的意义 统计表用简明的表格形式,有条理地罗列数据统计表用简明的表格形式,有条理地罗列数据 和统计量,方便阅读、比较和计算。和统计量,方便阅读、比较和计算。2 2制表原则:重点突出、层次清楚制表原则:重点突出、层次清楚 3 3制表的基本要求制表的基本要求 第1页/共54页(1)(1)标标题题:概概括括表表的的主主要要内内容容,包包括括研研究究的的时间、地点和研究内容,放在表的上方。时间、地点和研究内容,放在表的上方。(2)(2)标标目目:分分别别用用横横标标目目和和纵
2、纵标标目目说说明明表表格格每每行行和和每每列列数数字字的的意意义义,注注意意标标明明指指标标的单位。的单位。第2页/共54页(3)(3)线线条条:至至少少用用三三条条线线,表表格格的的顶顶线线和和底底线线将将表表格格与与文文章章的的其其它它部部分分分分隔隔开开来来,纵纵标标目目下下横横线线将将标标目目的的文文字字区区与与表表格格的的数数字字区区分分隔隔开开来来。部部分分表表格格可可再再用用横横线线将将合合计计分分隔隔开开,或或用用横横线线将将两两重重纵纵标标目目分分割割开开。其其它它竖竖线线和和斜斜线线一概省去。一概省去。第3页/共54页(4)(4)数数字字:用用阿阿拉拉伯伯数数字字表表示示。
3、无无数数字字用用“”表表示示,缺缺失失数数字字用用“”表表示示,数数值值为为0 0者者记记为为“0”0”,不不要要留留空空项项。数字按小数位对齐。数字按小数位对齐。(5)(5)备备注注:表表中中数数字字区区不不要要插插入入文文字字,也也不不列列备备注注项项。必必须须说说明明者者标标“*”“*”号号,在表下方说明。在表下方说明。第4页/共54页二、统计表的种类第5页/共54页 例10-1 表10-1列出某地进行喷昔洛韦软膏治疗颜面单纯疱疹与阿昔洛韦软膏比较的随机对照临床试验结果。该表只有试验分组一个层次,属简单表。1.简单表简单表 统计表的主语只有一个层次统计表的主语只有一个层次 第6页/共54
4、页表表表表10-1 10-1 某年某地喷昔洛韦软膏治疗颜面单纯疱疹疗效比较某年某地喷昔洛韦软膏治疗颜面单纯疱疹疗效比较某年某地喷昔洛韦软膏治疗颜面单纯疱疹疗效比较某年某地喷昔洛韦软膏治疗颜面单纯疱疹疗效比较第7页/共54页2.组合表组合表 统计表的主语统计表的主语有两个以上层次有两个以上层次 例10-2 某年某地分别在城乡进行乙型肝炎病毒抗原携带者的检测,该研究的对象按城乡和年龄两个特征分层,结果列在表10-2。该表属组合表。第8页/共54页表表表表10-2 10-2 某年某地城乡各年龄组居民乙型肝炎病毒抗原携带率分析某年某地城乡各年龄组居民乙型肝炎病毒抗原携带率分析某年某地城乡各年龄组居民乙
5、型肝炎病毒抗原携带率分析某年某地城乡各年龄组居民乙型肝炎病毒抗原携带率分析 第9页/共54页三、编制统计表的注意事项 例10-3 某地进行冠心病危险因素研究时,调查了居民的心理得分值与其它冠心病有关因素,结果列成表10-3。第10页/共54页表表表表10-3 10-3 不同心理分值的冠心病危险因素水平比较不同心理分值的冠心病危险因素水平比较不同心理分值的冠心病危险因素水平比较不同心理分值的冠心病危险因素水平比较 第11页/共54页问问 题题将太多的内容放在一个表里,特别是将两种不同类型资料(计量资料和计数资料)的统计量放在同一表中。互不相容的内容分别占了不同的列,导致表中有许多空格。纵横标目倒
6、置。内容较多,层次复杂,表格中数据罗列无条理,较难读懂。第12页/共54页表表表表10-4 10-4 某年某地居民不同心理分值的冠心病危险因素水平比较某年某地居民不同心理分值的冠心病危险因素水平比较某年某地居民不同心理分值的冠心病危险因素水平比较某年某地居民不同心理分值的冠心病危险因素水平比较(X X S S)处理办法:将该表资料分别制成两个统计表,见表10-4和表10-5。第13页/共54页表表表表10-5 10-5 某年某地居民不同心理分值的冠心病危险因素水平比较某年某地居民不同心理分值的冠心病危险因素水平比较某年某地居民不同心理分值的冠心病危险因素水平比较某年某地居民不同心理分值的冠心病
7、危险因素水平比较 第14页/共54页第二节第二节 统计图统计图第15页/共54页1 1统计图的意义统计图的意义:统计图将统计数据统计图将统计数据形象化,让读者更易于领会统计资料形象化,让读者更易于领会统计资料的核心内容,易于做分析比较,并且的核心内容,易于做分析比较,并且可以给读者留下深刻的印象。可以给读者留下深刻的印象。第16页/共54页2统计图的种类:根据资料类型和统计分析目的不同,需要用不同的统计图表达数据和统计指标值。常用的统计图有直条图、直方图、百分比条图和圆图、线图、散点图和统计地图等,还有在数据探索性分析中应用的茎叶图、残差图、箱式图,序贯分析的检验区域图,判别分析的类别分布图,
8、聚类分析的谱系图等特殊分析图等。第17页/共54页3统计图制作的一般原则统计图制作的一般原则(1)根据资料性质和分析目的正确选用适当的统计图。(2)必须有标题,概括统计图资料的时间、地点和主要内容。统计图的标题放在图的下方。第18页/共54页(3)(3)统统计计图图一一般般有有横横轴轴和和纵纵轴轴,并并分分别别用用横横标标目目和和纵纵标标目目说说明明横横轴轴和和纵纵轴轴代代表表的的指指标标和和单单位位。一一般般将将两两轴轴的的相相交交点点即即原原点点处处定定为为0 0。纵纵横横轴轴的的比比例例一一般般以以5 5:7 7或或7 7:5 5为宜。为宜。(4)(4)统统计计图图用用不不同同线线条条和
9、和颜颜色色表表达达不不同同事事物物和和对对象象的的统统计计量量,需需要要附附图图例例加加以以说说明明。图图例例可可放放在在图图的的右右上上角角空空隙隙处处或下方中间位置。或下方中间位置。第19页/共54页二、常用统计图二、常用统计图第20页/共54页1直条图直条图(bar chart)用相同宽度的直条长短表示相互独立的某统计指标值的大小。直条图按直条是横放还是竖放分卧式和立式两种,按对象的分组是单层次和两层次分单式和复式两种。第21页/共54页 例10-4 图10-1显示某地某年主要死因死亡率资料,不同死因是相互独立的不连续指标,因此用直条图。该图只按死因分类,为单式立式直条图。第22页/共5
10、4页图10-1 某年某地主要死因的死亡率(/10万)第23页/共54页第24页/共54页 直条图的纵轴尺度起点必须为零示意图第25页/共54页2圆图和百分比条图圆图和百分比条图 圆图(pie chart)是以圆形总面积作为100%,将其分割成若干个扇面表示事物内部各构成部分所占的比例。百分比条图(percent bar chart)是以矩形总长度作为100%,将其分割成不同长度的段表示各构成的比例。圆图和百分比条图适合描述分类变量的构成比资料。第26页/共54页 例例10-510-5 某某年年某某地地进进行行婴婴儿儿死死亡亡原原因因的的调调查查,根根据据城城市市婴婴儿儿死死因因的的构构成成资资
11、料绘制成图料绘制成图10-210-2。从从图图10-210-2可可见见出出生生窒窒息息是是婴婴儿儿死死亡亡的的首首位位死死因因,出出生生窒窒息息、早早产产和和肺肺炎炎头头三三位位死死因因占占总总死死亡亡的的60.3%60.3%,是是婴婴儿死亡防治的重点。儿死亡防治的重点。第27页/共54页 图10-2 某年某地城市婴儿死因构成比 第28页/共54页 例10-6 图10-3是根据某地20世纪70年代和80年代恶性肿瘤发病登记资料绘制成的百分比条图。由图可见不同年代主要恶性肿瘤中,鼻咽癌和肝癌构成减少,肺癌明显增加。百分比条图特别适合作多个构成比的比较,将不同组别,不同时间或不同地区的某分类指标的
12、构成比平行地绘制成多个百分比条图,可以方便地比较其构成比的差异。第29页/共54页 图10-3 20世纪70年代和80年代某地7常见恶性肿瘤发病构成比较 第30页/共54页3线图线图(line graph)线图是用线段的升降来表示数值的变化,适合于描述某统计量随另一连续性数值变量变化而变化的趋势,最常用于描述统计量随时间变化而变化的趋势。普通线图:横轴和纵轴都是算术尺度。半对数线图:横轴是算术尺度,纵轴是对数尺度,特别适宜作不同指标变化速度的比较。第31页/共54页 例 10-7 图 10-4是 根 据19902000年某沿海城市甲状腺功能亢进(甲亢)发病率资料绘制的普通线图。图10-4可看出
13、在1995年开始食盐加碘后,甲亢发病率有一突增高峰,1999年以后又逐渐下降的趋势。第32页/共54页图10-4 19902000年某沿海城市甲状腺功能亢进发病率变化趋势 第33页/共54页 例10-8 调查某地1997年2001年两种与性传播有关疾病艾滋病和梅毒的发病率变化趋势,资料分别绘制成普通线图和半对数线图。普通线图显示梅毒的增长幅度较大,但半对数线图则显示艾滋病的增长速度更快。第34页/共54页图图10-5 19972001年某地艾滋病和梅毒发病率的变化趋势年某地艾滋病和梅毒发病率的变化趋势(a)纵轴为算术尺度纵轴为算术尺度;(b)纵轴为对数尺度。纵轴为对数尺度。第35页/共54页注
14、意:注意:普通线图的纵轴一般以0点作起点,否则需作特殊标记或说明,以防给读者错误印象。标记直线的连接点时要注意,如测定值是在某时间段或数值段的,应标记在段的中点;如测定值是在某时点或确定值的,标记在相应时点或数值上。第36页/共54页4直方图直方图(histogram)以直方面积描述各组频数的多少,面积的总和相以直方面积描述各组频数的多少,面积的总和相以直方面积描述各组频数的多少,面积的总和相以直方面积描述各组频数的多少,面积的总和相当于各组频数之和,适合表示数值变量的频数分布。当于各组频数之和,适合表示数值变量的频数分布。当于各组频数之和,适合表示数值变量的频数分布。当于各组频数之和,适合表
15、示数值变量的频数分布。直方图的横轴尺度是数值变量值,纵轴是频数。注意直方图的横轴尺度是数值变量值,纵轴是频数。注意直方图的横轴尺度是数值变量值,纵轴是频数。注意直方图的横轴尺度是数值变量值,纵轴是频数。注意如各组的组距不等时,要折合成等距后再绘图,即将如各组的组距不等时,要折合成等距后再绘图,即将如各组的组距不等时,要折合成等距后再绘图,即将如各组的组距不等时,要折合成等距后再绘图,即将频数除以组距得到单位组距的频数作为直方的高度,频数除以组距得到单位组距的频数作为直方的高度,频数除以组距得到单位组距的频数作为直方的高度,频数除以组距得到单位组距的频数作为直方的高度,组距为直方的宽度。另一种表
16、示数值变量资料频数分组距为直方的宽度。另一种表示数值变量资料频数分组距为直方的宽度。另一种表示数值变量资料频数分组距为直方的宽度。另一种表示数值变量资料频数分布的方式是将各组段观察频数除以总观察频数得到各布的方式是将各组段观察频数除以总观察频数得到各布的方式是将各组段观察频数除以总观察频数得到各布的方式是将各组段观察频数除以总观察频数得到各组段的频率,以各组段频率除以组距得到的频率密度组段的频率,以各组段频率除以组距得到的频率密度组段的频率,以各组段频率除以组距得到的频率密度组段的频率,以各组段频率除以组距得到的频率密度作为直方图高度,绘制的直方图称为频率直方图,它作为直方图高度,绘制的直方图
17、称为频率直方图,它作为直方图高度,绘制的直方图称为频率直方图,它作为直方图高度,绘制的直方图称为频率直方图,它以各直方面积表示各组频率,其面积的总和为以各直方面积表示各组频率,其面积的总和为以各直方面积表示各组频率,其面积的总和为以各直方面积表示各组频率,其面积的总和为1 1 1 1。第37页/共54页 例10-9 1997年某地共报告乙型病毒性脑炎104例,其年龄分布如表10-6。第38页/共54页图10-6 1997年某地乙型病毒性脑膜炎病例的年龄分布 第39页/共54页5统计地图统计地图(statistical map)统计地图是用不同的颜色和花纹表示统计量的值在地理分布上的变化,适宜描
18、述研究指标的地理分布。例10-10 2003年广东省发生了某急性传染病的流行,图10-7描述了该急性传染病发病数在广东省的分布情况。第40页/共54页图10-7 2003年广东省某急性传染病发病数的地理分布 图例中括号内是发生相同病例数的行政区频数,其余指数据缺失的行政区第41页/共54页6 6其他特殊分析图其他特殊分析图 在探索性数据分析中,在探索性数据分析中,一些特殊的统计图对于一些特殊的统计图对于发现数据分布特征有着发现数据分布特征有着重要的意义。这里介绍重要的意义。这里介绍常用的箱式图、茎叶图常用的箱式图、茎叶图和误差条图。和误差条图。第42页/共54页箱式图箱式图(box plot)
19、使用5个统计量反映原始数据的分布特征,即数据分布中心位置、分布、偏度、变异范围和异常值。箱式图的箱子两端分别是上四分位数和下四分位数,中间横线是中位数,两端连线分别是除异常值外的最小值和最大值。另外标记可能的异常值。显然箱子越长,数据变异程度越大。中间横线在箱子中点表明分布对称,否则不对称。第43页/共54页 例例10-1110-11 某某地地调调查查不不同同类类型型化化妆妆品品厂厂车间内粉尘数,结果绘制成图车间内粉尘数,结果绘制成图10-810-8。图图中中显显示示粉粉尘尘数数的的分分布布呈呈偏偏态态分分布布,净净化化厂厂粉粉尘尘数数较较少少,非非净净化化厂厂粉粉尘尘数数较较多多。第44页/
20、共54页图图10-8 某地不同类型化妆品厂车间粉尘数分布箱式图某地不同类型化妆品厂车间粉尘数分布箱式图 第45页/共54页茎叶图(stem-leaf plot)将数据分离成两部分:整数部分和尾数部分,整数部分形成图的茎,尾数部分形成图的叶。茎叶图的排列方式与频数表有些相似,每行由一个整数的茎和若干叶构成。左边是茎的数值,茎宽一般标在图的下方。右边是叶,图显示每个叶的尾数数值,同样在图的下方标示每个叶代表几个实际观察值。茎叶图可以非常直观地显示数据的分布范围和形态,近年非常流行。第46页/共54页例例10-1210-12 利用第二章例2-1的数据绘制茎叶图,结果为图10-9。图中茎的宽度为1,即
21、观察值的整数位。每个叶代表1个观察值,显示的尾数即观察值的第一位小数。从图可以看出血清总胆固醇的分布范围从2.3到5.7,基本近似正态分布。而且可以查看每个观察值的取值情况。第47页/共54页第48页/共54页误差条图误差条图(error bar chart)(error bar chart)第49页/共54页例10-13 利用第四章例4-2的数据绘制误差条图,结果显示为图10-10。从图示可见安慰剂组的低密度脂蛋白平均值高于所有不同剂量的新药组,而大剂量新药组的低密度脂蛋白平均值低于低剂量组和中剂量组,差异有统计学意义。第50页/共54页第51页/共54页练习题P231P231P231P231一、最佳选择题一、最佳选择题全做全做三、计算分析题三、计算分析题 第第1 1题题第52页/共54页第53页/共54页