《第一节 统计整理的意义和步骤.pdf》由会员分享,可在线阅读,更多相关《第一节 统计整理的意义和步骤.pdf(15页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第一节 统计整理的意义和步骤第三章统计数据的整理和显示一、教学目的和要求一、教学目的和要求明确统计整理的概念、意义和内容;掌握统计分组的概念、原则、方法和作用,了解分组的类型;熟悉频数分布的概念、种类;熟悉变量数列的编制方法,注意组距数列中的一些基础知识;熟悉统计表的构成和制表、填表规则。二、教学时数:6 学时三、教学重点统计数据分组的类型原则和方法、变量数列特别是组据数列的编制方法、统计表设计的原则和方法。四、教学难点四、教学难点变量数列的编制。五、教学方法基本知识通过案例结合 E 某 CEL 软件演示授课。六、教学内容第一单元统计数据整理概述和统计分组教学目的要求:理解数据整理的概念、种类
2、理解数据整理的主要原则和内容掌握数据预处理的方法理解理解数据分组的涵义和类型教学重点:数据整理的原则内容统计数据分组的类型教学难点:数据的预处理、对数据分组概念的辩证理解授课时数:2 学时第一节统计数据整理概述一、统计整理及其类型一、统计整理及其类型(二)数据整理的内容(2)根据研究目和统计分析的需要,选择整理的标志,并进行划类分组。统计分组是统计整理的重要内容和统计分析的基础,只有正确的分组才能整理出有科学价值的综合指标,并借助这些指标来揭示现象的本质与规律。(5)对统计数据分门别类地系统积累。三、数据的预处理其次,是检查各项目之间有无相互矛盾的地方。例如,企业的净产值大于同期总产值就是明显
3、的逻辑错误。(2)计算检查即检查各项指标的计算口径、计量单位是否符合规定,并通过各种计算方法来检查各指标间的数字是否相互衔接。通过上述审核,如发现有缺报、缺份和缺项等情况,应及时催报、补报;如有不正确之处,则应分别不同情况作如下处理:(1)对于可以肯定的一般错误,应及时代为更正,并通知原报单位。(2)对于可疑之数或无法代为更正的错误,应要求原单位复查更正。(3)如果所发现的差错在其他单位也可能发生时,应将错误情况通报所有单位,以免发生类似错误。(4)对于严重的错误,应发还重新填报,并查明发生错误的原因,若属于违法行为,则应依法严肃处理。四、统计分组的含义四、统计分组的含义1.概念:根据社会经济
4、现象的特点和统计研究的目的要求,按照一定的标志把总体划分为若干不同性质的组或类型,称为统计分组。统计分组的对象是总体,统计分组的标志可以是品质标志,也可以是数量标志。2.统计分组的深层次理解从分组的性质来看,分组兼有“分和合”双重含义。(1)对于现象总体而言,是“分”,即把总体分为性质相异的若干部分;而对于总体单位而言,又是“合”,即把性质相同的许多总体单位合为一组。(2)对于分组标志而言,是“分”,即按分组标志将不同的标志表现分为若干组,而对于其他标志而言,是“合”,即在一个组内的各单位即使其它标志表现不相同也只能结合在一组。由此可见,选择一种分组方法,突出了一种差异,显示了一种矛盾,必然同
5、时掩盖了其他差异,忽略了其他矛盾。不同的分组方法,可能得出不同的结论。缺乏科学根据的分组,不但无法显示事物的根本特征,甚至会把不同性质的事物混淆在一起,歪曲社会经济现象的本质。因此,统计分组必须先对所研究现象本质作全面地、深刻地分析,确定所研究现象类型的属性及其内部差别,而后才能选择反映事物本质的正确的分组标志。五、统计分组的类型(一)按分组的作用或目的不同,分为类型分组、结构分组和分析分组。1.类型分组:是将复杂的现象总体,划分为若干个不同性质的部分。3.分析分组:是为研究现象之间依存关系而进行的统计分组。分析分组的分组标志称为原因标志,与原因标志相对应的标志称为结果标志。如影响某种商品消费
6、需求的因素有:该商品的价格、消费者收入、相关商品的价格、消费者偏好以及消费者对该商品的预期等。原(二)按分组标志的多少,可分为简单分组、复合分组和并列分组。1.简单分组:就是对总体只按一个标志进行分组。例如国民生产总值按产业分为第一、第二、第三产业三组;货运量按运输方式分为铁路运输、公路运输、水陆运输、航空运输与管道运输等五组。2.复合分组:就是对总体按两个或两个以上的标志进行的重叠式分组,即在按某一标志分组的基础上再按另一标志进一步分组。3、分组体系:就是同时用两个或两个以上的标志,分别从不同的角度,进行不重叠的多种分组。也就是说,很多简单分组从不同角度说明同一个总体,就构成一个并列的分组体
7、系。例如,职工先按性别分成两组,另按年龄分成若干组;进口总额先按贸易对象分成若干组,另按商品用途分成若干组。分组体系的特点是两种或多种分组相互独立而不重叠,既可从不同的方面反映事物的多种结构,又不致使分组过于烦琐,故被广泛采用。(三)按分组标志的性质,分为属性分组和变量分组。1.属性分组:是按品质标志进行的分组,即按事物的某种属性分组。如企业按经济类型、行业分组;人口按性别、民族分组;大学生按专业分组等。这种分组可以反映总体的构成和不同属性事物在总体中的地位和作用。2.变量分组:是按数量标志进行的分组。如企业按生产能力、劳动生产率分组;商店按商品流转额、职工人数分组;人口按年龄、身高分组等。这
8、种分组的目的在于通过事物在数量上的差异来反映事物在性质上的区别。属性分组和变量分组是一对重要的统计分组,统计分组方法主要是围绕这两种分组来阐述的。单元小结:1统计数据整理主要是将搜集的原始数据加工成反映总体特征的综合数据的工作过程,在统计过程中起着承上启下的作用。统计数据整理包括定期统计报表数据的整理、专题统计数据的整理和历史统计数据的整理。统计数据整理的原则是3统计数据分组是分与合的辨证统一,其类型中最重要的是按分组标志的性质和分组标志的多少分。习题布置:见统计学原理习题集第三章第 17 至 23 页,朱胜主编,中国统计出版社第二单元统计数据分组与频数分布教学目的要求:掌握统计数据分组的原则
9、、方法和作用了解统计数据分组的类型熟悉频数分布的概念、种类熟悉变量数列的编制方法,注意组距数列中的一些基础知识教学重点:数据分组的原则、方法变量数列的编制教学难点:频数累计与组据数列的编制授课时数:2 学时一、统计数据分组的原则和方法(一)统计数据分组的原则统计分组,必须遵循以下两个原则:1.穷尽原则:就是使总体中的每一个单位都应有组可归,或者说各分组的空间足以容纳总体所有的单位。例如,从业人员按文化程度分组,分为小学毕业、中学毕业(含中专)和大学毕业三组,那么,那些文盲或识字不多的以及大学以上的学历者则无组可归。如果将分组适当调整为文盲及识字不多、小学程度、中学程度、大学及大学以上,这样分组
10、,就可以包括全部从业人员的各种不同层次的文化程度,符合了分组的穷尽原则。2.互斥原则:就是在特定的分组标志下,总体中的任何一个单位只能归属于某一组,而不能同时或可能归属于几个组。例如,某商场把服装分为男装、女装、童装三类,这不符合互斥原则,因为童装也有男、女装之分。若先把服装分为成年与儿童两类,然后每类再分为男女两组,这就符合互斥原则了。(二)分组标志的选择分组标志是统计分组的依据或标准。正确选择分组标志是进行统计分组的关键,分组标志确定得恰当与否会直接影响统计分组的作用。为了正确选择分组标志,必须遵循以下几条原则:1.要符合统计研究的目的和要求统计分组是为统计研究服务的,统计研究的目的不同,
11、选择的分组标志也应有所不同。例如,同是以工业部门为研究对象,当研究的目的是为了分析部门中各种规模的企业的生产情况时,应该选择产品数量或生产能力作为分组标志;当研究目的在于确定工业内部比例及平衡关系时,应该以行业为分组标志,将工业部门划分为重工业与轻工业或冶金、电力、化工、机械、纺织、煤炭等工业行业。2.必须选择最重要的标志作为分组依据社会经济现象纷繁复杂,研究某一问题可能涉及许多标志,科学的统计分组则应从中选择与统计研究的目的、与有关事物的性质或类型关系最密切的标志,即最主要或最本质的标志作为统计分组的依据。3.要考虑到社会经济现象所处的具体历史条件例如,同是划分企业规模,在劳动密集型的行业或
12、地区,可采用职工人数作为分组标志;而在技术密集型的行业或地区,则应选择固定资产价值或生产能力作为分组标志。(三)分组界限的划分(分组标志确定后,分组界限便成为数据分组的重要问题)1.按属性分组时,确定各组的界限有两种情况:(1)组限是自然形成的或比较明显的;例如,人口按性别、文化程度、党派分组等。(2)由于存在属性之间的过渡形式,使分组界限难以确定。这种比较复杂的属性分组,国家有关部门都制定有标准的分类目录,分组时可以依据分类目录来确定组限。例如,人口按职业分组,企业按行业分组,产品按经济用途分组等。2.按变量分组时,应注意以下两点:(1)分组时各组数量界限的确定必须能反映事物质的差别。例如,
13、学生学习成绩分组,不能把 55 分和 65 分合为一组,因为这样的分组未区分及格与不及格的质的差别。(2)其次,应根据被研究的现象总体的数量特征,采用适当的分组形式,确定相宜的组距、组限和组数。单项式分组与组距式分组1)单项式分组:就是用一个变量值(标志值)作为一组,形成单项式变量数列。单项式分组一般适用于离散型变量且变量变动范围不大的场合。如,育龄妇女按其生育子女存活数分组,可分为0 个、1 个、2 个、3个、4 个、5 个等 6 组。2)组距式分组:就是将变量依次划分为几段区间,一段区间表现为“从到”距离,把一段区间内的所有变量值归为一组,形成组距式变量数列。区间的距离就是组距。对于连续型
14、变量或者变动范围较大的离散型变量,适宜采用组距式分组。例如,反映居民居住水平情况按人均居住面积分组分为:4 平方米以下,4-6 平方米,6-8 平方米,8 平方米以上等 4 组。再如了解某班学生成绩情况,按成绩进行组距式分组。间断组距式分组和连续组距式分组在组距式分组中,每组包含许多变量值,每一组变量值中,其最小值为下限,最大值为上限。组距是上下限之间的距离,相邻两组的界限,称为组限。间断组距式分组:是指凡是组限不相连的分组。例如,儿童按年龄分组分为未满 1 岁,1-2 岁,3-4 岁,5-9 岁,10-14 岁。连续组距式分组:凡是组限相连(或称相重叠的)分组,即以同一数值作为相邻两组的共同
15、界限的分组。例如,工人按工时定额完成程度分组分为 90-100%,100-110%,110-120%等组。如果变量值只是在整数之间变动,例如企业数、职工数、机器设备台数等如果变量值只是在整数之间变动,例如企业数、职工数、机器设备台数等离散型变量,可采用间断组距式分组,也可采用连续组距式分组。如果变离散型变量,可采用间断组距式分组,也可采用连续组距式分组。如果变量值在一定范围内的表现即可以是整数,也可以是小数,如产值、身高、量值在一定范围内的表现即可以是整数,也可以是小数,如产值、身高、体重等连续型变量,只能采用连续组距式分组。在进行连续组距式分组时体重等连续型变量,只能采用连续组距式分组。在进
16、行连续组距式分组时应注意,由于以同一个数值作为相邻两组共同的界限,为了遵循统计分组应注意,由于以同一个数值作为相邻两组共同的界限,为了遵循统计分组穷尽和互斥原则,所以统计上规定,凡是总体某一个单位的变量值是相邻穷尽和互斥原则,所以统计上规定,凡是总体某一个单位的变量值是相邻两组的界限值,这一个单位归入作为下限值的那一组内,即所谓“上限不两组的界限值,这一个单位归入作为下限值的那一组内,即所谓“上限不在内”原则。在内”原则。例如学生成绩分组,把例如学生成绩分组,把 7070 分的学生归入分的学生归入 70-8070-80 分组内,把分组内,把8080 分的学生归入分的学生归入 80-9080-9
17、0 分组内。分组内。根据这一根据这一原则,离散型变量的分组,各组的上限也可以写为下一组的下限,这样处理既简明又便于计算。连续型变量的分组也可以仅列出左端的数值,即以各组的下限来表示。如上例学生成绩分组也可表示为 50-,60-,70-,等距分组与异距分组按数量标志进行组距式分组,还可分为等距分组和不等距(或称异距)分组。1)等距分组等距分组:就是标志值在各组保持相等的组距,即各组的标志值变动都限于相同的范围。凡是在标志值变动比较均匀的情况下,都可采用等距分组。例如,工人的年龄、工龄、工资的分组;零件尺寸的误差、加工时间的分组;农产品单位面积产量、单位产品成本的分组等等。等距分组有很多好处,它便
18、于绘制统计图,也便于进行各类运算。2)异距分组分组的形式应服从分组的要求,即性质相同的单位应合并在一个组内,性质不同的应当分开。现象的差别取决于现象的本质,而不在于数学形式,必须根据现象的本质特征和统计研究的目的任务来确定分组的等距与否。在下列情况下,就必须考虑采用异距分组:第一,标志值分布很不均匀的场合。例如,学生成绩如果密集于某一范围,如 60-80 分或 70-90 分之间,其它部分则分布十分稀少,在这种场合若仍以 10 分为组距进行等距式分组,则无法显示出分布的规律性,会使得这一密集的分数段分布的信息损失过大。因此,合理的做法是,在分布比较密集的区间内使用较短的组距,在分布比较稀少的其
19、余部分使用较长的组距,形成各组的组距不相等的异距分组。第二,标志值相等的量具有不同意义的场合。例如,生命的每一个月对于新生婴儿和对于成年人是大不一样的,此时,进行人口疾病研究的年龄分组,应采用异距式分组,即 1 岁以下按月分组,1-10 岁按年分组,11-20 岁按 5 年分组,21 岁以上按 10 年或 20 年分组等等。第三,标志值按一定比例发展变化的场合。例如,百货商场营业额差别是很大的,比如营业额从 5 万元至 5 千万元,可采取公比为 10 的不等距分组 5-50 万元、50-500 万元、500-5000 万元。若用等距分组,即使组距为 100 万元,也得分为 50 组,显然是不合
20、适的。二、统计分组的应用(一)划分社会现象的不同类型。社会经济现象千差万别,要了解各种社会经济现象的性质、特点及其相互关系,必须根据某种标志把它们划分为性质不同的类型,以便揭示不同社会经济现象的质的差异。例如,国民经济按产业分组;农业分成农、林、牧、渔业各组;社会商品零售额按商品用途分组;企业按所有制分组等等。这些分组也叫类型分组。如下表是我国城镇居民家庭收入消费性支出按商品类别分组的统计表,它将全部消费品分为八大类,尽管它们同属于消费品,但在效用上却有“质”的差别。通过这种分类,可以反映我国居民和社会集团的商品性消费中不同类别的商品所占的地位和作用,也为进一步研究我国消费品零售额的水平与结构
21、提供了便利条件。我国城镇居民家庭人均消费支出及构成按商品类别分组食品类衣着类家庭设备用品及服务类文化娱乐用品类交通通讯类医疗保健类居住类杂项商品类合计(二)揭示社会现象的内部结构。我国出口产品构成表(%)年份农副产品农副产品加工品工矿产品合计零售额(元)构成(%)劳动力年份 19961997199819992000 总计人数合计男女三次产业第一产业合计男女第二产业合计男女第三产业合计男女统计表的主词分组与宾词分组是有区别的。主词分组的结果使总体分成许多组成部分,它们是需要用统计指标(宾词)来描述和表现的。宾词分组的结果并不增加统计总体的组成部分,仅仅是比较详细地描述总体已有的各个组成部分。由此
22、可见,主词分组具有独立的意义,而宾词分组从属于主词的要求,是为了描述主词的数量特征而设计的。(三)统计表的设计统计表的设计要求是:简练、明确、实用、美观,便于比较。1.统计表表式设计应注意的事项(1)统计表应设计成由纵横交叉线条组成的长方形表格,长与宽之间保持适当的比例;(2)线条的绘制。表的上下两端应以粗线绘制,表内纵横线以细线绘制;表格的左右两端一般不划线,采用“开口式”。(3)合计栏的设置。统计表各纵列须合计时,一般应将合计列在最后一行;各横行若须合计时,可将合计列在最前一栏或最后一栏。2.统计表内容设计应注意的事项三、统计图三、统计图(一)条形图条形图是用宽度相同的条形的高度或长度来表
23、示数据变动的图形。条形图可以横置也可以纵置,纵置时又称为柱形图,也就是说,当各类别放在纵轴时,称为条形图;当各类别放在横轴时,称为柱形图。例如:广告类型商品广告服务广告金融广告房地产广告招生招聘广告其他广告人广告类型商品广告服务广告金融广告房地产广告招生招聘广告其他广告人数(人)数(人)1125191610211251916102 比例比例 0.5600.2550.0450.0800.0500.0100.5600.2550.0450.0800.0500.010 频率频率V25.54.585141020406080100120V25.54.585141020406080100120 某市居民关注
24、不同类型广告人数分布图某市居民关注不同类型广告人数分布图系列系列 1 1(二)圆形图又称为饼图,是用圆形和圆内扇形的面积来表示数值大小的图形,主要用于表示总体中各组成部分所占的比例,对研究结构性问题十分有用。在绘制圆形图时,总体中各部分所占的百分比用圆内的各个扇形面积表示,这些扇形的中心角度是按各部分百分比占360 度的相应比例确定的。如根据上表,绘制出相应的圆形图如下:8%5%5%13455&V(三)环形图环形图与圆形图又有区别,环形图中间有一个空洞,总体中的每一部分数环形图与圆形图又有区别,环形图中间有一个空洞,总体中的每一部分数据用环中的一据用环中的一段表示;圆形图只能显示每一个总体各部
25、分所占的比例,而环形图则可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个环。因此环形图可以显示多个总体各部分所占的相应比例,从而有利于进行比较研究。例如:在一项有关住房问题的研究中,调查人员在甲乙两个城市各抽样调查 300 户家庭,其中一个问题是:“您对您家庭目前的住房状况是否满意?”备选答案有:(1)非常不满意;(2)不满意;(3)一般;(4)满意;(5)非常满意。调查结果如下表:甲城市家庭乙城市家庭户数比例%比例%户数 13%回答类别非常不满意不满意一般满意非常满意合计甲乙两城市家庭对住房状况评价7%8$1089345303008363115101007332621.312.71
26、00219921某6438300313634526%(四)直方图显示分组数据频数分布特征的图形有直方图、折线图和曲线图等。1.概念直方图是用矩形的宽度和高度来表示频数分布的图形。在平面直角坐标中,横轴表示数据分组,即各组组限,纵轴表示频数(一般标在左方)或频率(一般标在右方),若没有频率的直方图只保留左侧的频次数。这样各组组距的宽度与相应的频数的高度就绘制成一个个矩形,即直方图。2.直方图与条形图不同条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数密度,宽度则表示各组的组距,因此其高度与宽度均有意义。此
27、外,由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。(五)折线图和曲线图折线图可以在直方图的基础上,把直方图顶部的中点用直线连接而成,也可以用组中值与频数求坐标连接而成。需要注意,折线图的两个终点要与横轴相交,具体的做法是将第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴。这样才会使折线图下所围成的面积与直方图的面积相等,从而使二者所表示的频数分布一致。当对数据所分的组数很多时,组距会越来越小,这时所绘制的折线图就会越来越光滑,逐渐形成一条平滑的曲线,这就是频数分布曲线。(六)描述时间序列的线图线图是在平
28、面坐标上用折线表现数量变化特征和规律的统计图。线图主要用于显示时间序列数据,以反映事物发展变化的规律和趋势。例如,1991-1998 年我国城乡居民家庭的人均收入情况如下表:年份城镇居民农村居民19911700.6708.619922026.678419932577.4921.619943496.21221199542831577.719964838.91926.119975160.32091.119985425.12162600050004000300020001000012345678 系列 1 系列 2 城乡居民家庭人均收入从上图可以清楚地看出,城乡居民的家庭人均收入逐年提高,而且城镇居民的家庭人均收入高于农村,1993 年以后这种差距有扩大的趋势。绘制线图时应注意以下几点:1.时间一般绘在横轴,指标数据绘在纵轴;2.图形的长宽比例要适当,一般为横轴略大于纵轴的长方形,其长宽比例大致为 10:7,图形过扁或过于瘦高,不仅不美观,而且会给人造成视觉上的错觉,不便于对数据变化的理解;3.一般情况下,纵轴数据下端应从 0 开始,以便于比较。数据与 0 之间的间距过大,可以采取折断的“”符号将纵轴折断。单元小结:3统计表的设计应符合科学、美观、实用、简练和醒目的原则。作业布置:见统计学原理习题集第三章第 17 至 26 页,朱胜主编,中国统计出版社。