《统计数据的整理与显(1).ppt》由会员分享,可在线阅读,更多相关《统计数据的整理与显(1).ppt(41页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第三章 统计数据的整理和显示1第一节 数据整理的内容与程序数据整理的内容与程序数据整理的内容与程序数据整理的内容与程序第二节 统计分组统计分组统计分组统计分组第三节 次数分配次数分配次数分配次数分配第四节第四节第四节第四节 统计表与统计图统计表与统计图统计表与统计图统计表与统计图第一节 数据整理的内容与程序数据整理的内容与程序(一)统计数据整理的内容1.1.根据研究目的设计整理的汇总方案。包括确定如何统根据研究目的设计整理的汇总方案。包括确定如何统计分组和明确说明总体的统计指标。计分组和明确说明总体的统计指标。2.2.根据汇总方案,对各个调查项目的资料进行汇总,通根据汇总方案,对各个调查项目的
2、资料进行汇总,通过汇总计算各项指标。过汇总计算各项指标。3.3.通过统计表或统计图的形式,描述整理的结果。通过统计表或统计图的形式,描述整理的结果。第一节 数据整理的内容与程数据整理的内容与程序序(二)数据整理的程序1.统计资料的审核。逻辑检查和计算检查统计资料的审核。逻辑检查和计算检查2.资料的分组和汇总。资料的分组和汇总。3.编制统计表或绘制统计图。编制统计表或绘制统计图。4.统计资料的积累、保管和公布。统计资料的积累、保管和公布。第二节 统计分组4统计分组的概念统计分组的原则统计分组的关键统计分组的方法一、统计分组的概念5统计分组:根据统计研究的目的和客观现象的内在特点,按某个标志(或几
3、个标志)把被研究的总体划分为若干个不同性质的组,称为统计分组。二、统计分组的原则6 互斥原则:在特定的分组标志下,总体中的任互斥原则:在特定的分组标志下,总体中的任何一个单位的只能归属于某一组,而不能同时何一个单位的只能归属于某一组,而不能同时或可能归属于几个组。或可能归属于几个组。穷尽原则:使总体中的每一个单位都应有组可穷尽原则:使总体中的每一个单位都应有组可归,或者说各分组的空间足以容纳总体所有的归,或者说各分组的空间足以容纳总体所有的单位。单位。三、统计分组的方法7按品质标志分组按数量标志分组1、品质分组的方法 单项式分组(一个取值一个组)例性别人数男女3020合计508品质标志品质标志
4、1、品质分组单项式分组2、数量分组的方法。1 1)按离散变量分组)按离散变量分组A A、变量值取值不多、变量值取值不多单项式分组单项式分组例例年龄年龄学生人数学生人数1818191920205 515152020合计合计40409离散变量离散变量1、品质分组的方法单项式分组2、数量分组的方法。1 1)按离散变量分组)按离散变量分组A A、变量值取值不多、变量值取值不多单项式分组单项式分组B B、变量值取值较多、变量值取值较多组距式分组(一个区间一个组)组距式分组(一个区间一个组)例例班级人数(人)班级人数(人)班级数班级数2020以下以下2 20-290-2930-30-49495050及及5
5、050以上以上1 16 619194 4合计合计303010离散变量离散变量1、品质分组的方法单项式分组2、数量分组的方法。1 1)按离散变量分组)按离散变量分组A A、变量值取值不多、变量值取值不多单项式分组单项式分组B B、变量值取值较多、变量值取值较多组距式分组(一个区间一个组)组距式分组(一个区间一个组)2 2)按连续变量分组)按连续变量分组组距式分组组距式分组例例身高(米)身高(米)学生人数学生人数1.50-1.601.50-1.601.60-1.701.60-1.701.70-1.801.70-1.80101011119 9合合 计计303011连续变量连续变量三、统计分组的方法(
6、总结)1、品质分组的方法单项式分组2、数量分组的方法。1 1)按离散变量分组)按离散变量分组A A、变量值取值不多、变量值取值不多单项式分组单项式分组B B、变量值取值较多、变量值取值较多组距式分组组距式分组2 2)按连续变量分组)按连续变量分组组距式分组组距式分组12四、组距式分组中的几个概念1、组限 区间两端的数值区间两端的数值下限:区间最小值下限:区间最小值上限:区间最大值上限:区间最大值 开口组和闭口组开口组和闭口组开口组:统计分组中缺上限开口组:统计分组中缺上限或缺下限的组或缺下限的组闭口组:统计分组中上、下闭口组:统计分组中上、下限均齐全的组限均齐全的组 组限的写法:组限的写法:间
7、断式写法间断式写法连续式写法:连续式写法:“上限不在内上限不在内”按班级人数分组(人)按班级人数分组(人)班级数班级数2020以下以下2 20-290-2930-3930-394040及及4040以上以上1 16 619194 4合计合计3030按身高分组(米)按身高分组(米)学生人数学生人数1.50-1.601.50-1.601.60-1.701.60-1.701.70-1.801.70-1.80101011119 9合合 计计3030132、组距:区间的距离(连续式写法)(连续式写法)组距组距=上限上限下限下限(间断式写法)(间断式写法)组距组距=本组上限本组上限-前组上限前组上限 或或=
8、本组下限本组下限-前组下限前组下限 或或=本组上限本组上限-本组下限本组下限+1+1(分组标志为离散变量)(分组标志为离散变量)等距分组和异距分组等距分组和异距分组 按身高分组(米)按身高分组(米)组距组距1.50-1.601.50-1.601.60-1.701.60-1.701.70-1.801.70-1.800.10.10.10.10.10.1合合 计计按班级人数分组(人)按班级人数分组(人)组距组距2020以下以下2 20-290-2930-30-49495050及及5050以上以上-10102020-合计合计14等距分组:在组距式分组中,每个组的组距均相等。一般在现象性质差异的变动比较
9、均衡条件下使一般在现象性质差异的变动比较均衡条件下使用。用。优点:易于掌握次数分布的特征;各组次数可优点:易于掌握次数分布的特征;各组次数可以直接比较。以直接比较。按身高分组(米)按身高分组(米)学生人数学生人数1.50-1.601.50-1.601.60-1.701.60-1.701.70-1.801.70-1.80101011119 9合合 计计303015异距分组:在组距式分组中,各组组距不尽相等。异距分组:在组距式分组中,各组组距不尽相等。一般在现象性质差异的变动非均衡的条件下使用。一般在现象性质差异的变动非均衡的条件下使用。优点:能够准确地描述偏态分布;能将性质相同的总体单位归为优点
10、:能够准确地描述偏态分布;能将性质相同的总体单位归为一组。一组。缺点:由于各组的组距不同,各组次数直接比较是没有意义的。缺点:由于各组的组距不同,各组次数直接比较是没有意义的。按班级人数分组(人)按班级人数分组(人)班级数班级数2020以下以下2 20-290-2930-30-49495050及及5050以上以上1 16 619194 4合计合计303016173、组数原则:原则:要尽量能反映总体单位的分布情况及总体单位的集要尽量能反映总体单位的分布情况及总体单位的集中趋势。中趋势。要尽可能区分出组与组性质上的差异。要尽可能区分出组与组性质上的差异。经验公式:经验公式:.Lg NLg N第三节
11、 频数分布18(一)频数分布的概念(一)频数分布的概念 在统计分组的基础上,将总体所有的单位按某一标志进行归类排在统计分组的基础上,将总体所有的单位按某一标志进行归类排列,称为频数分布,或次数分布。列,称为频数分布,或次数分布。品质分布数列、变量分布数列品质分布数列、变量分布数列(二)分布数列的两个要素(二)分布数列的两个要素 统计分组统计分组 各组所出现的单位数。各组所出现的单位数。(三)编制步骤(三)编制步骤1 1、确定组数、确定组数2 2、确定组距、确定组距3 3、根据分组整理频数分布表、根据分组整理频数分布表4 4、绘制频数分布图、绘制频数分布图 例:某单位30名职工工资资料如下:19
12、1060 840 1100 910 1090 910 1110 1070 990 940 1060 840 1100 910 1090 910 1110 1070 990 940 1190 870 1050 950 1060 1180 970 1030 1060 850 1190 870 1050 950 1060 1180 970 1030 1060 850 1060 1010 1050 960 1050 1070 1210 1280 1110 1010 1060 1010 1050 960 1050 1070 1210 1280 1110 1010 试分析该单位职工工资分布情况分析20排序
13、:排序:84840 8501210 12800 8501210 1280组数:组数:m=1+3.3lgN=1+3.3lg30=6m=1+3.3lgN=1+3.3lg30=6假设采用等距闭口组:假设采用等距闭口组:组距组距=R/m=(xR/m=(xmaxmax-x-xminmin)/m)/m =(1300-800)/5=100 =(1300-800)/5=100最大值比真实值大一些;最小值比真实值小一些;最大值比真实值大一些;最小值比真实值小一些;职工工资分布表月工资(元)800-900 900-10001000-11001100-12001200-1300合计21(四)指标频数:各组单位数频数
14、:各组单位数频率:频率:各组单位数占总体单位数的比重各组单位数占总体单位数的比重 月工资(元)月工资(元)职工人数职工人数(频数)(频数)频率(频率(%)80 800-9000-900 90 900-10000-10001001000-11000-11001101100-12000-12001201200-13000-13003 37 713135 52 210.010.023.323.343.343.316.716.76.76.7合计合计3030100.0100.022(四)指标 频数、频率频数、频率 组中值组中值 (闭口组)组中值(上限下限)(连续式写法)(闭口组)组中值(上限下限)(连续
15、式写法)(开口组)缺下限的开口组组中值相邻组下限邻组组距(开口组)缺下限的开口组组中值相邻组下限邻组组距 缺上限的开口组组中值本组下限邻组组距缺上限的开口组组中值本组下限邻组组距月工资(元)月工资(元)职工人数职工人数比重(比重(%)组中值组中值 80 800-9000-900 90 900-10000-10001001000-11000-11001101100-12000-12001201200-13000-13003 37 713135 52 210.010.023.323.343.343.316.716.76.76.785850 095950 01051050 01151150 0125
16、1250 0合计合计3030100.0100.0-23(四)指标 频数、频率、组中值频数、频率、组中值 累计频数和累计频率累计频数和累计频率累计频数和累计频率累计频数和累计频率:以下累计以下累计以下累计以下累计:从低组(第一组)到高组(最后一组),依次累计:从低组(第一组)到高组(最后一组),依次累计到每个组上限的总频数或总频率,表明各组上限以下的频数或到每个组上限的总频数或总频率,表明各组上限以下的频数或频率是多少。频率是多少。以上累计以上累计以上累计以上累计:从高组向低组依次累计到每个组下限的总频数或总:从高组向低组依次累计到每个组下限的总频数或总频率,表明各组下限以上的频数或频率是多少。
17、频率,表明各组下限以上的频数或频率是多少。月工资月工资(元)(元)职工职工人数人数比重比重(%)组中值组中值累计频数累计频数累计频率(累计频率(%)以下以下以上以上以下以下以上以上 80 800-9000-900 90 900-10000-10001001000-11000-11001101100-12000-12001201200-13000-13003 37 713135 52 210.010.023.323.343.343.316.716.76.76.785850 095950 01051050 01151150 01251250 03 3101023232828303030302727
18、20207 72 210.010.033.333.376.676.693.393.3100.0100.0100.0100.090.090.066.766.723.423.46.76.7合计合计3030100.0100.0-24职工工资分布表月工资月工资(元)(元)职工职工人数人数比重比重(%)组中值组中值累计频数累计频数累计频率(累计频率(%)以下以下以上以上以下以下以上以上 80 800-9000-900 90 900-10000-10001001000-11000-11001101100-12000-12001201200-13000-13003 37 713135 52 210.010.
19、023.323.343.343.316.716.76.76.785850 095950 01051050 01151150 01251250 03 310102323282830303030272720207 72 210.010.033.333.376.676.693.393.3100.0100.0100.0100.090.090.066.766.723.423.46.76.7合计30100.0-25(五)频数分布图261 1、直方图、直方图 用直方形的宽度和高度来表示次数分布的图形。绘制直方图时,用直方形的宽度和高度来表示次数分布的图形。绘制直方图时,横轴表示各组组限,纵轴表示次数(一般标
20、在左方)和比率(或横轴表示各组组限,纵轴表示次数(一般标在左方)和比率(或频率,一般标在右方)。频率,一般标在右方)。2 2、折线图、折线图 折线图可以在直方图的基础上,用折线将各组次数高度的坐标连折线图可以在直方图的基础上,用折线将各组次数高度的坐标连接而成,也可以用组中值与次数求坐标点连接而成接而成,也可以用组中值与次数求坐标点连接而成3 3、曲线图、曲线图 用平滑曲线连接各组次数坐标点即得分布曲线。用平滑曲线连接各组次数坐标点即得分布曲线。例27月工资月工资(元)(元)职工职工人数人数比重比重(%)组中组中值值累计频数累计频数累计频率(累计频率(%)以下以下以上以上以下以下以上以上 80
21、0-900800-900 900-1000 900-10001000-11001000-11001100-12001100-12001200-13001200-13003 37 713135 52 210.010.023.323.343.343.316.716.76.76.78508509509501050105011501150125012503 310102323282830303030272720207 72 210.010.033.333.376.676.693.393.3100.0100.0100.0100.090.090.066.766.723.423.46.76.7合计合计303
22、0100.0100.0-1、直方图288009001000110012001300工资(元)职工数2824201612842、折线图298009001000110012001300工资(元)职工数14121086423、曲线图308009001000110012001300工资(元)职工数14121086424、累计次数曲线318009001000110012001300工资(元)职工数28242016128432以下累计以上累计累计次数曲线的应用洛伦兹曲线32洛伦茨曲线洛伦茨曲线洛伦茨曲线洛伦茨曲线:是:是2020世纪初美国经济学家、统计学世纪初美国经济学家、统计学家洛伦兹根据意大利经济学家
23、帕累托提出的收入家洛伦兹根据意大利经济学家帕累托提出的收入分配公式绘制的描述收入和财富分配性质的一种分配公式绘制的描述收入和财富分配性质的一种累计次数曲线图。累计次数曲线图。原理:设有原理:设有1010名学生,各持有现金名学生,各持有现金100100元。画累元。画累计现金分布图。计现金分布图。累计次数曲线的应用洛伦兹曲线33累计现金分布图如下。0128910学生数累计现金9002001001000BA基尼系数基尼系数:基尼系数:2020世纪初意大利经济学家基尼,根据洛伦兹世纪初意大利经济学家基尼,根据洛伦兹曲线找出判断分配平等程度的指标,根据曲线所包含的曲线找出判断分配平等程度的指标,根据曲线
24、所包含的面积计算:面积计算:联合国有关组织规定:联合国有关组织规定:若低于若低于0.20.2表示收入绝对平均;表示收入绝对平均;0.2-0.30.2-0.3表示比较平均;表示比较平均;0.3-0.40.3-0.4表示相对合理;表示相对合理;0.4-0.50.4-0.5表示收入差距较大;表示收入差距较大;0.60.6以上表示收入差距悬殊。以上表示收入差距悬殊。34(六)次数分布的类型35钟型分布(正态分布、偏态分布)U型分布J型分布第四节 统计表与统计图36一、统计表(一)统计表的定义(一)统计表的定义把统计数据按一定的顺序排列在表格上,就形成了把统计数据按一定的顺序排列在表格上,就形成了统计表
25、。它清楚地、有条理地显示统计资料,直观统计表。它清楚地、有条理地显示统计资料,直观地反映统计分布特征,是统计分析的一种重要工具。地反映统计分布特征,是统计分析的一种重要工具。37(二)统计表的结构(二)统计表的结构从表式上看从表式上看 总标题、横行标题、纵栏标题和指标数值总标题、横行标题、纵栏标题和指标数值从内容上看从内容上看 主词栏:统计表所要说明的总体及其组成部分;主词栏:统计表所要说明的总体及其组成部分;宾词栏:统计表用来说明总体数量特征的各个统计指标。宾词栏:统计表用来说明总体数量特征的各个统计指标。此外,统计表还有补充资料、注解、资料来源、填表此外,统计表还有补充资料、注解、资料来源
26、、填表单位、填表人等。单位、填表人等。38(三)统计表的分类(三)统计表的分类1 1、按主词的结构分类、按主词的结构分类简单表:主词未经任何分组的统计表称为简单表,也称一览表。简单表:主词未经任何分组的统计表称为简单表,也称一览表。主词罗列各单位的名称。主词罗列各单位的名称。分组表:主词只按一个标志进行分组形成的统计表,也称简单分组表:主词只按一个标志进行分组形成的统计表,也称简单分组表,。分组表,。复合表:主词按两个或两个以上标志进行分组的统计表,也称复合表:主词按两个或两个以上标志进行分组的统计表,也称复合分组表。复合分组表。2 2、按宾词设计分类、按宾词设计分类宾词简单排列:宾词不加任何
27、分组、按一定顺序排列在统计表宾词简单排列:宾词不加任何分组、按一定顺序排列在统计表上。上。宾词分组平行排列:宾词栏中各分组标志彼此分开,平行排列。宾词分组平行排列:宾词栏中各分组标志彼此分开,平行排列。宾词分组层叠排列:统计指标同时有层次地按两个或两个以上宾词分组层叠排列:统计指标同时有层次地按两个或两个以上标志分组,各种分组层叠在一起,宾词的栏数等于各种分组的标志分组,各种分组层叠在一起,宾词的栏数等于各种分组的组数连乘积。组数连乘积。39(四)统计表的设计应注意如下事项:(四)统计表的设计应注意如下事项:1 1、线条的绘制。表的上下端应以粗线绘制,表内纵横线以细线绘制。、线条的绘制。表的上
28、下端应以粗线绘制,表内纵横线以细线绘制。表格的左右两端一般不划线,采用表格的左右两端一般不划线,采用“开口式开口式”。2 2、合计栏的设置。、合计栏的设置。3 3、标题设计。以简练而又准确的文字表述统计资料的内容、资料所、标题设计。以简练而又准确的文字表述统计资料的内容、资料所属的空间和时间范围。属的空间和时间范围。4 4、指标数值的填写。当数字因小可略而不计时,可写上、指标数值的填写。当数字因小可略而不计时,可写上“0”0”;当;当缺某项数字资料时,可用符号缺某项数字资料时,可用符号“”表示;不应有数字时用符号表示;不应有数字时用符号“”表示。表示。5 5、计量单位。统计表必须注明数字资料的
29、计量单位。当全表只有一、计量单位。统计表必须注明数字资料的计量单位。当全表只有一种计量单位时,可以把它写在表头的右上方。如果表中各格的指种计量单位时,可以把它写在表头的右上方。如果表中各格的指标数值计量单位不同,可在横行标题后添一列计量单位。标数值计量单位不同,可在横行标题后添一列计量单位。6 6、注解或资料来源。在统计表下,应注明资料来源。、注解或资料来源。在统计表下,应注明资料来源。二、统计图40统计图是统计数据直观和生动的表现形式。通过统计图可以直观地看出数量变化的特征和规律。常用的统计图直方图、条形图、折线图、线形图、圆形图、直方图、条形图、折线图、线形图、圆形图、环形图、散点图、茎叶图、箱线图等等。环形图、散点图、茎叶图、箱线图等等。练习题41