《第三章统计数据的整理2015.3.30(1)剖析.ppt》由会员分享,可在线阅读,更多相关《第三章统计数据的整理2015.3.30(1)剖析.ppt(22页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第三章第三章 统计数据的整理统计数据的整理第一节第一节 数据的预处理数据的预处理 一、统计资料整理的必要性一、统计资料整理的必要性 概念:概念:也称统计整理,是根据统计研究的任务与要求,也称统计整理,是根据统计研究的任务与要求,对调查得来的各种原始资料,进行科学的综合与加工,使对调查得来的各种原始资料,进行科学的综合与加工,使之系统化,从而得出反映总体的综合资料的过程之系统化,从而得出反映总体的综合资料的过程 必要性:必要性:表现在以下方面:表现在以下方面:1.1.统计调查搜集到的大量原始资料是分散的、不系统统计调查搜集到的大量原始资料是分散的、不系统的,只能说明总体单位的个别特征和属性(被调
2、查单位的的,只能说明总体单位的个别特征和属性(被调查单位的具体情况)。必须按照科学的原则加以整理,使之简化和具体情况)。必须按照科学的原则加以整理,使之简化和系统化。系统化。2.2.统计资料整理,是统计调查的继续,也是统计分析统计资料整理,是统计调查的继续,也是统计分析的前提和基础,在整个统计工作中具有承前启后的作用。的前提和基础,在整个统计工作中具有承前启后的作用。二、数据的预处理二、数据的预处理 统计整理的步骤:统计整理的步骤:审核、筛选、排序审核、筛选、排序、分组(类)、分组(类)、频数分布表(图)、频数分布表(图)1.审核审核 对于第一手资料:对于第一手资料:1)完整性(两方面)完整性
3、(两方面)2)准确性(两方面)准确性(两方面)对于第二手资料:对于第二手资料:1)完整性)完整性 2)准确性)准确性 3)适用性)适用性 4)时效性)时效性2.筛选筛选 1)剔除)剔除 2)挑出)挑出3.排序排序 1)升序)升序 2)降序)降序第二节第二节 统计分组(类统计分组(类)是根据现象总体内在特点和统计工作任务是根据现象总体内在特点和统计工作任务的要求,按照某种标志,把总体划分为不同的要求,按照某种标志,把总体划分为不同类型或者性质不同的几部分的一种统计方类型或者性质不同的几部分的一种统计方法。法。思考:为什么可以对总体进行分组?思考:为什么可以对总体进行分组?一、分组的种类一、分组的
4、种类1.类型分组类型分组 根据不同的标志把社会经济现象划分为性质不同根据不同的标志把社会经济现象划分为性质不同的类型,以解释不同社会经济现象的性质、特点的类型,以解释不同社会经济现象的性质、特点及其相互联系及其相互联系2.结构分组结构分组 根据某种标志,把社会经济现象总体分成若干组根据某种标志,把社会经济现象总体分成若干组成部分,以分析其构成。如表成部分,以分析其构成。如表1.3.分析分组分析分组 为研究现象总体诸标志依存关系而进行的分组为研究现象总体诸标志依存关系而进行的分组 如表如表2 表表1 中国农村居民纯收入构成(按收入来源分)中国农村居民纯收入构成(按收入来源分)单位:单位:%年份年
5、份工资性工资性收入收入经营性经营性收入收入财产性财产性收入收入转移性转移性收入收入20002001200220032004200531.232.633.935.034.036.163.361.760.058.859.556.72.02.02.02.52.62.73.53.74.03.73.94.5表表2 家庭人均生活费与就业人品数依存关系家庭人均生活费与就业人品数依存关系按人均月生活费分组按人均月生活费分组(元元)平均每户就业人数(人)平均每户就业人数(人)200以下以下200-250250-350350-500500-600600以上以上1.781.962.122.332.592.82二、分
6、组的方法二、分组的方法1.按品质标志分组按品质标志分组2.按数量标志分组按数量标志分组 1)单项式分组)单项式分组 每个变量值列为一个组的分组方法每个变量值列为一个组的分组方法 适合数量标志的适合数量标志的变化范围不大变化范围不大、总体、总体单位数不单位数不多多的的离散离散型变量的分组。型变量的分组。2)组距式分组)组距式分组 把整个变量值依次划分为几个区间,各个变把整个变量值依次划分为几个区间,各个变量值则按其大小确定所归并的区间的分组方法。量值则按其大小确定所归并的区间的分组方法。相关概念:相关概念:全距、组距(等距、不等距)、组限(上限全距、组距(等距、不等距)、组限(上限值、下限值)、
7、组中值、开口组、闭口组值、下限值)、组中值、开口组、闭口组分组步骤:分组步骤:第一步:确定组数第一步:确定组数 第二步:确定各组的组距第二步:确定各组的组距 组距组距=全距全距/组数组数 习惯上的做法是:取习惯上的做法是:取5或或10的倍数的倍数第三步:将分组结果整理成频数分布表第三步:将分组结果整理成频数分布表注:注:1.根据需要,实际中往往还有更复杂的分组根据需要,实际中往往还有更复杂的分组方法。如复合分组法。方法。如复合分组法。2.不管何种分组方法,都要遵循不管何种分组方法,都要遵循“不重不漏不重不漏”的原则。的原则。“不重不重”:“下组限在内下组限在内”或或“上组限不上组限不在内在内”
8、“不漏不漏”:重叠法(离散变量、连续变量):重叠法(离散变量、连续变量)顶针法(离散变量)顶针法(离散变量)三、频数分布表三、频数分布表1.频数分布表的结构及组成要素频数分布表的结构及组成要素例例1.某生产车间某生产车间50名工人日加工零件数如下名工人日加工零件数如下(单位:个)(单位:个)107 108 108 110 112 112 113 114 115 117 117 117 118 118 118 119 120 120 121 122 122 122 122 123 123 123 123 124 124 124 125 125 126 126 127 127 127 128 12
9、8 129 130 131 133 133 134 134 135 137 139 1391)单项式分组)单项式分组 某车间某车间50名工人日加工零件数名工人日加工零件数零件数零件数(个)(个)频数频数零件数零件数(个)(个)频数频数零件数零件数(个)(个)频数频数1071081101121131141151171181212111331191201211221231241251261271214432231281291301311331341351371392111221122)组距分组)组距分组按零件数分组按零件数分组频数(人)频数(人)频率(频率(%)105-110110-115115-
10、120120-125125-130130-135135-140合计合计358141064506101628201281002.累计频数累计频数(附:洛沦茨曲线)(附:洛沦茨曲线)按零件数按零件数分分组组频频数数(人)(人)频频率率(%)向上累向上累积积向下累向下累积积频频数数(人)(人)频频率率(%)频频数数(人)(人)频频率率(%)105-110105-110110-115110-115115-120115-120120-125120-125125-130125-130130-135130-135135-140135-1403 35 58 8141410106 64 46 610101616
11、2828202012128 83 38 8161630304040464650506 6161632326060808092921001005050474742423434202010104 4100100949484846868404020208 8合合计计5050100100-四、统计表四、统计表 统计表是用来显示统计资料的基本工具。以统计表是用来显示统计资料的基本工具。以上调查表、频数分布表都是统计表。上调查表、频数分布表都是统计表。(一)统计表的作用(优点)(一)统计表的作用(优点)1.能使统计资料条理化能使统计资料条理化2.比用叙述的方式表现统计资料更简明易懂,比用叙述的方式表现统计
12、资料更简明易懂,节省篇幅节省篇幅3.便于比较各项目之间的关系,便于计算便于比较各项目之间的关系,便于计算4.便于检查统计数字的完整性和正确性便于检查统计数字的完整性和正确性(二)统计表的构成(二)统计表的构成 1.由由表头表头、(横)、(横)行标题行标题(纵)(纵)列标题列标题、数字资料数字资料 四部分组成。另外,必要时可加上四部分组成。另外,必要时可加上表外附加表外附加。2.从内容上看,统计表包括主词和宾词两个部分。从内容上看,统计表包括主词和宾词两个部分。主词主词是统计表所要说明的总体或总体单位或各是统计表所要说明的总体或总体单位或各组的名称,通常排在表的左方,即列于横行,组的名称,通常排
13、在表的左方,即列于横行,宾词宾词是用来说明主词的各种指标,通常排在表是用来说明主词的各种指标,通常排在表的右方即列于纵栏的右方即列于纵栏 例:见下表例:见下表 中国农村居民纯收入构成(按收入来源分)中国农村居民纯收入构成(按收入来源分)单位:单位:%资料来源:资料来源:中国农村统计年鉴中国农村统计年鉴 注:本表数据为抽样调查材料注:本表数据为抽样调查材料年份年份工资性工资性收入收入经营性经营性收入收入财产性财产性收入收入转移性转移性收入收入20002001200220032004200531.232.633.935.034.036.163.361.760.058.859.556.72.02.0
14、2.02.52.62.73.53.74.03.73.94.5(三)统计表的种类(三)统计表的种类A.按用途的不同,可以分为调查表、整理表、按用途的不同,可以分为调查表、整理表、分析表分析表1.调查表调查表:在统计调查中,用于登记、搜集:在统计调查中,用于登记、搜集和表现原始统计资料的表格和表现原始统计资料的表格2.整理表整理表:在统计整理过程中用于统计汇总:在统计整理过程中用于统计汇总和用于表现统计汇总结果的表格和用于表现统计汇总结果的表格3.分析表分析表:在统计分析中用于对汇总结果进:在统计分析中用于对汇总结果进行定量分析的表格。行定量分析的表格。B.按主词是否分组,可以分为简单表、分组按主
15、词是否分组,可以分为简单表、分组表、复合表表、复合表(四)编制统计表的规则:(四)编制统计表的规则:1.总体要求:内容紧凑、重点突出、简洁明了,便总体要求:内容紧凑、重点突出、简洁明了,便于分析和比较于分析和比较2.表头要以概括、简练的文字反映表中资料的基本表头要以概括、简练的文字反映表中资料的基本内容(内容(what)及资料所属的时间)及资料所属的时间(when)和空间和空间(where)范围;表头一般放在表的上端中央;表头范围;表头一般放在表的上端中央;表头一般应包括表号、总标题和表中数据的单位等。一般应包括表号、总标题和表中数据的单位等。若表中数据单位不同,则应将计量单位放在每个若表中数
16、据单位不同,则应将计量单位放在每个指标后或单列出一列标明指标后或单列出一列标明3.统计表中各主词项目之间和宾词项目之间的顺序,统计表中各主词项目之间和宾词项目之间的顺序,应根据时间的先后、数量的大小、空间位置的顺应根据时间的先后、数量的大小、空间位置的顺序等合理编排。序等合理编排。4.统计表中横行合计一般在最后一列,而纵栏合计一般列在统计表中横行合计一般在最后一列,而纵栏合计一般列在最前一行。最前一行。5.统计表中如果栏数较多,习惯上对主词各栏采用甲、乙统计表中如果栏数较多,习惯上对主词各栏采用甲、乙次序编栏,对宾词各栏采用次序编栏,对宾词各栏采用1、2、3次序编栏,次序编栏,若各栏统计指标值
17、之间有一定的计算关系,还可用等式表若各栏统计指标值之间有一定的计算关系,还可用等式表示。示。6.表中数据一般应右对齐,若是小数,应保留相同的小数点表中数据一般应右对齐,若是小数,应保留相同的小数点后的位数,并以小数点对齐;不要求填写或无数字的空格,后的位数,并以小数点对齐;不要求填写或无数字的空格,用短线用短线“”表示,不能空着或写成表示,不能空着或写成“0”;若上、下、左、;若上、下、左、右数字相同,则必须将数字写出,不得用右数字相同,则必须将数字写出,不得用“同上同上”等表示。等表示。7.表格一般采用表格一般采用“三线三线”形式,上下两条横线用粗线,中间形式,上下两条横线用粗线,中间的其他线用细线。左右两边不封口。的其他线用细线。左右两边不封口。8.必要时可在表的下方加上必要的注释,特别要注明资料来必要时可在表的下方加上必要的注释,特别要注明资料来源,以对他人劳动成果的尊重和备读者查阅使用。源,以对他人劳动成果的尊重和备读者查阅使用。