《计算机数据库(经济会计类)数据收集与整理随堂讲解.ppt》由会员分享,可在线阅读,更多相关《计算机数据库(经济会计类)数据收集与整理随堂讲解.ppt(74页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第一节 统计数据的收集一、数据的来源一、数据的来源从统计数据的获得与使用角度来看,统计数据主要来源于两种渠道:一是直接的调查和科学实验,这是统计数据的直接来源,称为原始数据。二是他人调查或实验的数据,这是统计数据的间接来源,称之为次级数据,如统计年鉴、有关期刊和相关网站。二、调查方式二、调查方式(一一)统计报表)统计报表统计报表(statisticalstatements)是经常性的全面调查方式。它以一定的原始数据为基础,按照国家统一规定的表式、指标内容、报送时间和报送程序,自上而下地统一布置,自下而上地提供基本统计资料的一种统计调查形式。通常把这一整套提供基本统计资料的组织形式叫做统计报表制
2、度,把提供统计基本资料的表格叫做报表。统计报表按照其报送周期的长短,可分为日报、旬报、月报、季报、半年报、年报等。二、调查方式二、调查方式(二)(二)普查普查普查(generalinvestment)是一种专门组织的一次性全面调查。一般用于调查反映一定时点或时期社会经济现象的量。它主要用于搜集一些比较全面、细致而又不能或不宜用经常性调查来取得的统计资料。常见的普查有人口普查、工业普查、农业普查等。二、调查方式二、调查方式1普查的方式普查的方式一是建立专门的普查机构,配备一定数量的普查人员,对观测单位直接进行登记,如我国历次的人口普查等;二是利用观测单位的原始记录和核算资料,发放调查表,由观测单
3、位按要求填报,如工业普查。二、调查方式二、调查方式2普查普查的的基本原则基本原则必须统一规定数据所属的标准时点;普查范围内各调查点要统一行动,在方法、步调上保持一致,并力求在最短的期限内完成登记工作;普查项目要统一规定,一经确定就不能任意增减更改,同一种普查的各次普查项目要力求保持一致和稳定,以便对比分析;普查时期应选择在被调查对象变动最小的时期或者普查工作量方便的时期;实现普查的周期化,按固定的周期进行。二、调查方式二、调查方式(三)(三)抽样调查抽样调查抽样调查(samplinginvestigation)是非全面调查的一种主要形式。按照抽取样本原则的不同,抽样调查分为概率型抽样调查和非概
4、率型抽样调查。概率型抽样调查是按照随机原则抽取样本,即总体中的每个个体都有已知的、非零的概率被抽取到样本中。非概率抽样是凭人们的主观判断或根据便利性原则来抽取样本。二、调查方式二、调查方式(四四)重点调查)重点调查重点调查(investigationofkeyunits)是一种非全面调查,它是指在所研究对象中选择一部分重点单位来进行调查,尽管其数目不多,但对调查的指标数值来说,它们在总体中却占绝大比重。重点调查还可以和抽样调查结合起来应用,将调查对象分为重点单位和非重点单位两种,对重点单位实行全面调查,而对非重点单位实行抽样调查,以获得很好的效果。二、调查方式二、调查方式(五五)典型调查典型调
5、查典型调查(typicalinvestigation)也是一种非全面调查,它是指从研究对象中有意识地选择一个或几个有代表性的单位进行深入细致的调查,以了解其本质和规律性,用以概括同类现象发展变化的一般趋势。典型调查的特点就是调查单位少,节省各种费用。典型调查的关键是所选典型单位是否真正具有代表性。三、统计调查方案三、统计调查方案(一)确定调查目的(一)确定调查目的调查目的即为什么调查,调查要解决什么问题、具有什么意义等。调查目的的表述应具体明确、中心突出、针对性强。例如,我国2010年第六次人口普查的目的是“查清2000年第五次全国人口普查以来我国人口在数量、结构、分布和居住环境等方面的变化情
6、况,为实施可持续发展战略,构建社会主义和谐社会,提供科学准确的统计信息支持。”三、统计调查方案三、统计调查方案(二)确定调查对象和调查(二)确定调查对象和调查单位单位调查对象是指在调查中被研究对象的总体,它是由性质相同的若干个体单位构成的。构成调查对象的个体单位称为调查单位,它随着调查对象的变化而变化。例如,我国第六次人口普查规定,“人口普查的对象是普查标准时点在中华人民共和国境内的自然人以及在中华人民共和国境外但未定居的中国公民,不包括在中华人民共和国境内短期停留的港澳台居民和外籍人员。”人口普查的调查单位是每一个人。三、统计调查方案三、统计调查方案(三)确定调查项目(三)确定调查项目确定调
7、查项目即确定调查什么。调查项目是指需要调查登记的调查单位的特征,如一个人的性别、年龄、收入,一个企业所属行业类别、产品产量、产值等。三、统计调查方案三、统计调查方案(四)调查表格和问卷的(四)调查表格和问卷的设计设计调查项目通常以调查表和调查问卷的形式反映,因此它们是统计调查的主要工具,是调查方案的核心。1调查表调查表是将各个调查项目按照一定的顺序排列而形成的表格。调查表一般由表头、表体和表外附加三部分组成。表头是调查表的名称,用来说明调查的内容、被调查单位的名称和性质等;表体是调查表的主要内容,包括调查的具体项目;表外附加通常由填表人签名、填报日期和填表说明等内容组成。三、统计调查方案三、统
8、计调查方案调查表一般有两种形式:一览表和单一表。一览表是在一个调查表中登记多个调查单位的内容,如表2-1所示。表2-1身体基本情况调查表填表人填表日期检查检查序号序号姓名姓名性别性别出生出生年月年月年龄年龄体重体重身高身高胸围胸围肺活肺活量量三、统计调查方案三、统计调查方案单一表是在一个调查表中只登记一个调查单位的内容,如表2-2所示。表2-2劳动情况年报表指标名称指标名称指标代码指标代码计量单位计量单位本年实际本年实际甲甲乙丙1一、从业人员年末人数一、从业人员年末人数01人年末职工人数年末职工人数02人工人与学徒工人与学徒03人工程技术人员工程技术人员04人管理人员数管理人员数05人大专及大
9、专以上学历人员数大专及大专以上学历人员数06人高级职称高级职称07人中级职称中级职称08人二、从业人员劳动报酬总额二、从业人员劳动报酬总额09万元职工工资总额职工工资总额10万元三、下岗职工人数三、下岗职工人数11人下岗职工生活费下岗职工生活费12万元四、离退休人员数四、离退休人员数13人离退休职工保险、福利费用总额离退休职工保险、福利费用总额14万元离退休金离退休金15万元医疗费医疗费16万元三、统计调查方案三、统计调查方案2调查问卷调查问卷是一种特殊的调查形式,把所有要调查的项目以问题及其可能的答案按照一定的结构和顺序排列所形成的问答卷。根据调查目的,在调查对象中随机选择或有意识地确定调查
10、单位,以书面文字或表格形式了解被调查者的意见,调查者自愿地回答问卷中所提出的问题。调查表格和问卷的设计要简明扼要,问题通俗易懂,以保证所收集资料的准确性。三、统计调查方案三、统计调查方案(五)(五)确定调查时间和地点确定调查时间和地点统计调查时间包括调查时间调查时间和调查期限调查期限两种含义。调查时间指调查资料所属的时间,在统计调查中,如果调查的是时期对象,必须明确规定调查资料所反映的起止日期。如调查2004年全国国内生产总值,则调查时间是从2004年1月1日起至12月31日止。如果所要调查的是时点对象,调查时间就是规定的统一的标准时点。例如,第六次人口普查的标准时点是2010年11月1日零时
11、。调查期限则是进行调查工作的时限,包括收集资料和报送资料工作所需的时间,应尽可能缩短。如2010年人口普查规定,2010年11月1日-10日人口登记完毕,则调查期限为11月1日-10日共10天。所谓调查地点就是调查单位所在地。调查地点根据调查目的来决定,例如研究棉花生产成本问题时,调查地点就要在棉花生产区。三、统计调查方案三、统计调查方案(六)确定调查的组织实施计划(六)确定调查的组织实施计划调查的组织与实施工作包括:调查人员的选择、组织和培训,调查表格、调查问卷和调查员手册的印刷,调查经费的来源和开支预算等。第二节 统计数据的整理一、统计数据的预处理一、统计数据的预处理(一)数据的审核对于通
12、过直接调查取得的原始数据,要从完整性和准确性两方面去审核。准确性是审核的重点,主要通过逻辑检查饿计算检查进行,逻辑点差是审核统计数据的内容是否合理、有无相互矛盾或不符合实际的地方,计算检查是通过计算复核各项资料的数据有无差错,各项指标的计算方法是否恰当,计算单位是否正确,有关指标间的平衡关系是否保持等。完整性是检查调查单位是否有遗漏,调查项目是否填写齐全等。对于通过其他渠道取得的第二手数据,除了审核其完整性和准确性之外,还应审核期适用性和实效性。主要是检查数据的来源、计算口径和调查时间等。一、统计数据的预处理一、统计数据的预处理(二)数据的筛选一是将某些不符合要求的数据或有明显错误的数据予以剔
13、除。如果审核中发现的错误无法更正或者有些数据不符合调查的要求而无法弥补时,就要对这些数据予以剔除;二是将符合某种特定条件的数据筛选出来,不符合特定条件的数据予以剔除。一、统计数据的预处理一、统计数据的预处理(三)数据的排序数据排序就是按照一定规则将数据进行排列,目的是便于研究者通过浏览数据发现一些明显的趋势或特征,找到解决问题的方法和线索。排序还有助于对数据进行纠错,为重新分组会归类提供依据。例如,美国的财富杂志每年都要排出世界企业500排行榜,通过这一信息,经营者不仅能知道本企业所处的地位和差距,还可以了解竞争对手的状况,从而有效地制定本企业的发展规划和战略目标。二、二、统计数据的分组统计数
14、据的分组(一)统计分组的概念统计分组就是根据统计研究的任务和社会经济现象的最本质特征,把统计总体按照一定的标志划分为若干个不同类型或不同性质的组成部分的一种统计方法。统计分组的对象是总体。通过统计分组,使同一组内的各单位性质相同,不同组的单位性质相异。能够对统计总体进行分组,是由于统计总体所具有的差异性决定的。统计分组的各个单位,一方面,在某一个或某些标志上具有相同的性质,可以结合在同一性质的总体中;另一方面,在其他一些标志上具有彼此相异的性质,从而又可以被区分为性质不同的若干个组成部分。二、二、二、二、统计数据的分组统计数据的分组统计数据的分组统计数据的分组(二)统计分组的原则统计分组必须遵
15、循两个原则:穷尽原则和互斥原则。穷尽原则是使总体中的每一个单位都有组可归;互斥原则是使总体中的每一个单位都只有一个组可归。即总体中的每一个单位有且仅有一个组可归。例如,如果将企业职工按文化程度,分为小学毕业、中学毕业(含中专)和大学毕业三组,那么文盲或大学以上的职工则无组可归。再例如,某商场把服装分为女装、男装和童装三类,就不符合互斥原则,因为童装也有男、女之分。二、二、统计数据的分组统计数据的分组(三)统计分组的种类1.统计分组按所选择的标志数目,分为简单分组、复合分组和体系分组。简单分组是只采用一种分组标志对总体单位进行分组的方式。例如,将职工按性别、年龄和文化类别等标志进行分组。复合分组
16、是对总体选择两个或两个以上标志的多层次分组方式。复合分组的特点是用第二标志对第一标志所分的各组进行再分组,用第三标志对第二标志所分的各组进行再分组,依次类推。例如,将职工先按年龄进行分组,在此基础上,再按文化程度分组。体系分组是用两个或两个以上有联系的标志并列起来对总体进行逐个简单分组而组成的分组体系。二、二、统计数据的分组统计数据的分组表2-3就是复合分组和体系分组的结合表2-3农村居民家庭平均每人纯收入项目项目年份年份19851990199520002001纯收入纯收入397.60686.311577.742253.422366.40按收入来源分按收入来源分1基本收入基本收入368.136
17、57.351479.492129.572231.53(1)劳动者收入)劳动者收入72.15138.80353.70702.30771.90(2)家庭经营纯收入)家庭经营纯收入295.98518.551125.791427.271459.63农业收入农业收入202.10344.59799.44833.93963.62林业收入林业收入6.167.5313.5222.4422.10牧业收入牧业收入51.9696.81127.81207.35211.96渔业收入渔业收入3.597.1115.6926.9528.87其他收入其他收入32.1962.51169.33336.60333.082转移性和财产性
18、收入转移性和财产性收入29.4728.9698.25123.85134.87按收入性质分按收入性质分1生产性纯收入生产性纯收入367.69657.351479.492129.582231.58第一产业收入第一产业收入298.28510.86996.511125.341165.17第二产业收入第二产业收入29.4770.68287.24488.89532.61第三产业收入第三产业收入39.9575.81195.74515.35533.802非生产性纯收入非生产性纯收入29.9128.9698.25123.84134.82二、二、统计数据的分组统计数据的分组2.统计分组按分组标志的性质不同,分为品
19、质分组和数量分组。品质分组也叫属性分组,是指总体按某一个或某几个品质标志进行分组,并在品质标志变异的范围内,划定各组的性质界限,根据每个个体的标志标线把他们分别归入不同的组中。一般地,对于以定类尺度或定序尺度计量的,采用品质分组。例如,职工按性别分组,企业按经济类型分组等。数量分组也叫变量分组,是指总体按某一个或几个数量标志进行分组,并在数量标志变异的范围内,划定各组的数量界限,根据每个个体的标志表现(标志值或变量值)把它们分别归入不同的组中。例如,企业按固定资产、盈利能力分组。品质分组所形成的数列称为品质数列,数量分组所形成的数列称为变量数列。二、二、统计数据的分组统计数据的分组3.统计分组
20、按分组作用和任务不同,分为类型分组、结构分组和分析分组。类型分组是把复杂的现象总体划分为若干个不同性质的部分。例如,我国将企业登记注册类型分为内资企业,港、澳、台商投资企业三大类。结构分组是在对总体分组的基础上计算出各组对总体的比重,借此研究总体各部分的结构。分析分组是为研究现象之间的依存关系而进行的统计分组。分析分组的分组标志称为原因标志。如影响某种商品消费需求的因素有:该商品的价格、消费者收入、相关商品的价格、消费者偏好以及消费者对该商品预期等。二、二、统计数据的分组统计数据的分组(四)数据的分组整理1.频数与频数分布频数也称次数,是落在每一个组中的数据个数。相对频数(频率)是各组中的数据
21、个数或次数占全部数据总数的比例。反映总体的结构和构成。假定总体数量为N,每一组的数量分别为,则各部分的比例之和为1,即二、二、统计数据的分组统计数据的分组累积频数是将各有序类别或组的频数逐级累加起来。有两种方法:其一是从类别顺序的开始一方,向最后一方累加频数,数值型数据则是从变量值小的一方,向变量值大的一方累加频数,称为向上累积;其二是从类别顺序的最后一方,向开始一方累加频数,数值型数据则是由变量值大的一方,向变量值小的一方累加频数,称为向下累积。通过累积频数,可以很容易地看出某一类别(或数值)以下或某一类别(或数据)以上的频数之和。累积频率是将各有序类别或组的频率逐级累加起来,也有向上累积和
22、向下累积两种方法。频数分布表也称次数分布表,是各组及其相应的频数(还可包括频率、累积频数和累积频率)依一定的次序排列而成的表格。二、二、统计数据的分组统计数据的分组2.品质数列的分组整理按品质标志分组时,其组数的确定主要取决于两个因素统计研究的任务与事物的特点。对事物进行品质分组,其组数的确定主要取决于事物本身的特点。事物本身具有的既定属性使我们确定组数的基本依据。例如人口按性别分组,就只能分为男女两组。对于有些事物构成比较复杂,组数可多可少,需要考虑统计研究的具体要求来确定组数。例如人口按职业分组,就可以按照统计研究的任务来确定分几组。二、二、统计数据的分组统计数据的分组表2-4是一项关于工
23、资情况的研究,调查人员在某城市抽取300户,其中调查的一个问题是:“您对家庭目前的收入是否满意?”a.非常不满意;b.不满意;c.一般;d.满意;e.非常满意。经过分组整理后,可形成一个顺序数据频数分布表。表2-4某城市家庭对住房状况满意程度的频数分布满意程度满意程度频数(户)频数(户)频率频率(%)向上累积向上累积向下累积向下累积频数(户)频率(%)频数(户)频率(%)非常不满非常不满意意217.0217.0300100.0不满意不满意9933.012040.027993.0一般一般7826.019866.018060.0满意满意6421.326287.310234.0非常满意非常满意381
24、2.7300100.03812.7合计合计300100.0二、二、统计数据的分组统计数据的分组3.变量数列的分组整理变量数列按照分组标志的性质不同可以分为离散型变量数列和连续型变量数列。离散型变量数列按数量标志分组时,根据每组数量标志值的具体表现,分为单项式分组和组距式分组两种。连续型变量数列只能进行组距式分组。二、二、统计数据的分组统计数据的分组(1)单项式分组单项式分组就是把每一个具体的数量标志值作为一组,按照标志值的大小顺序排列,形成单项式变量数列。这种分组方法通常只适合离散变量且变量值较少的情况,否则应采用分组距式分组。表2-5在一项有关电脑使用问题的研究中,调查人员在某大学随机抽取了
25、200名学生进行调查。其中调查的一个问题是:“您到目前为止,更换过多少台电脑?”a.0;b.1;c.2;d.3及以上。经分组整理后,可形成一个单项式分组形成的数值型数据频数分组表,见表2-5。二、二、统计数据的分组统计数据的分组表2-5某200名大学生目前已更换电脑数量频数分布表更换电脑数量更换电脑数量频数(人)频数(人)频率(频率(%)01051964828944.53及以上及以上52.5合计合计200100二、二、统计数据的分组统计数据的分组(2)组距式分组组距式分组是将全部变量依次划分为若干个区间,并将这一区间的变量值作为一组,即形成组距分组。组距式分组适合于变量值较多的离散变量和连续变
26、量。对于一组数据进行组距分组需要三步:确定组数,确定组距,确定组限。二、二、统计数据的分组统计数据的分组第一步,确定组数。第一步,确定组数。一般来说,组数的多少与组距有关。组距大,组数就少;组距小,组数就多。若组数太少,则数据分布就会过于集中;若组数太多,则数据的分布就会过于分散,都不便于观察数据分布的特征和规律。组数的确定应该以能够显示数据的分布特征和规律为目的。在实际分组时,可以按Sturges提出的经验公式来确定组数,即式中,n为组数,N为总体单位数,对结果采用四舍五入的方法。二、二、统计数据的分组统计数据的分组第二步,确定各组的组距第二步,确定各组的组距。在组距数列中,每组中区间内变量
27、的最大可能取值称为上限(upperlimit),最小可能取值为下限(lowerlimit)。同组的上、下限之差叫组距(classwidth),即组距可以根据全部数据的最大值和最小值及所分的组数来确定,即式中,d为组距,R为全距,即最大变量值与最小变量值之差。注意:为便于计算,组距宜取5或10的倍数。二、二、统计数据的分组统计数据的分组等距分组和不等距分组等距分组和不等距分组在组距式分组中,如果各组的组距相等,称为等等距距分分组组,如果各组的组距不相等,则称为不等距分组不等距分组。一般地,当变量分布比较均匀时,采用等距分组,因为等距数列简单明了,便于分析计算,也便于绘制统计图。当变量分布很不均匀
28、或者变量分布具有某种自身特殊规律时,应该采用不等距分组,以便客观反映总体分布特征。例如,生命的一定时段(例如5年)对于成年人与未成年人、中青年与老年人是很不一样的,其生理特征有很大差别,因此人口疾病或死亡率的年龄分组就必须采用不等距分组,例如一岁以下可按月分组,110岁按年分组,1120岁按5年分组,2160岁按10年分组,60岁以上按5年分组。二、二、统计数据的分组统计数据的分组在不等距数列中,各组频数或频率不能直接比较。为消除各组组距不同所造成的影响,需要计算频数密度或频率密度。频数密度和频率密度的计算公式为各组的频数密度和频率密度可以进行比较。二、二、统计数据的分组统计数据的分组第三步,
29、确定组限。第三步,确定组限。当组距和组数确定之后,就需要确定组限,划清各组的数量界限。组限的确定要区分事物的性质和体现总体分布特征外,还要遵循“不重不漏”的原则。“不重”是指一项数据只能分在其中的某一组,不能在其他组中重复出现;“不漏”是指在所分的全部组别中,每项数据都能分在其中的每一组,不能遗漏。在划分连续变量的组限时,相邻组的组限必须重叠,但为了解决“不重”的问题,统计分组习惯上规定“上组限不在内“的原则,即当相连的两组上、下限重叠时,恰等于某一组上限的变量值不算在本组内,而算在下一组内。划分离散变量的组限时,可以采用两组组限间断的办法解决“不重”的问题。二、二、统计数据的分组统计数据的分
30、组组中值组中值为了反映分布在各组中个体变量值的一般水平,通常用组组中中值值作为该组数据的一个代表值。组组中中值值是各组变量值范围的中间数值,通常可以根据各组上限、下限进行简单平均,即用组中值来代表组内变量值的一般水平有一个必要的假定条件,即各组数据在本组内呈均匀分布或在组中值两侧呈对称分布。如果实际数据的分布不符合这一假定,那么用组中值作为一组数据的代表值会有一定的误差。二、二、统计数据的分组统计数据的分组开口组开口组有时最小组只有上限而没有下限,最大组只有下限而没有上限,这样的组称为开口组,开口组的组距一般按相邻组的组距加以确定,并进而确定相应的下限或上限。开口组的组中值在按上述原则确定组距
31、、组限后再加以计算。例如,要反映企业工人生产定额完成情况,按定额完成程度分组,分为90%以下,90%100%,100%110%,110%以上。因相邻组的组距为10%(=100%-90%),因此90%以下的组可视为80%90%,其中组中值为(80%+90%)/2=85%;110%以上的组距以临组的组距10%为本组组距,视为110%120%,组中值为(110%+120%)/2=115%。二、二、统计数据的分组统计数据的分组【例2.1】某生产车间50名工人日加工零件数如表2-6所示。试采用组距式分组法编制频率分布表。表2-6某生产车间50名工人日加工零件数原始资料表(单位:个)11712212412
32、9139107117130122125108131125117122133126122118108110118123126133134127123118112112134127123119113120123127135137114120128124115139128124121二、二、统计数据的分组统计数据的分组为便于分组,首先对原始数据排序,排序结果如表2-7所示:表2-7某生产车间50名工人日加工零件数排序表(单位:个)(1)计算全距。(2)计算组数。,取K=7为宜。(3)计算组距。(4)确定组限。第一组的下限取105,其他组限依次利用组限和组距的关系确定。(5)编制频数分布表。经分组整理
33、后,可形成一个采用连续式组限编制的频数分布表。见表2-8。107108108110112112113114115117117117118118118119120120121122122122122123123123123124124124125125126126127127127128128129130131133133134134135137139139二、二、统计数据的分组统计数据的分组表2-8某生产车间50名工人日加工零件频数分布表(一)零件数(个)零件数(个)频数(人)频数(人)频率(频率(%)1051103611011551011512081612012514281251301020
34、13013561213514048合计合计50100二、二、统计数据的分组统计数据的分组经分组整理后,也可形成一个采用间断式组限编制的频数分布表,见表2-9。表2-9某生产车间50名工人加工零件频数分布表(二)零件数(个)零件数(个)频数(人)频数(人)频率(频率(%)105109361101145101151198161201241428125129102013013461213513948合计合计50100第三节 统计数据的显示一、统计表一、统计表(一)统计表的定义及结构1统计表的定义统计表的定义统计表就是用来展示经过整理得一系列说明总体特征的统计指标值,并按一定顺序和格式所设计的表格。统
35、计表可分为广义和狭义两个层面的含义。广义层面的统计表包括调查表、登记表、过渡表及表达最后结果的分析表;狭义层面的统计表是指分析表。一、统计表一、统计表2统计表的结构统计表的结构从表式上看,统计表是由纵横交错的线条所构成的一种表格,包括表头、行标题、列标题和数字资料四个部分。表头即统计表的名称,应放在统计表的上方,它用概括性的文字简单明了地说明统计表的主要内容。行标题和列标题通常安排在统计表的第一列和第一行,主要包括所研究问题的类别名称和指标名称;如果是时间序列数据,行标题和列标题也可以是时间。横行和纵列交叉的位置,填写具体的数字资料。必要时,可以在统计表的下方加上表外附加,主要包括资料来源、指
36、标注释和必要的说明等内容。一、统计表一、统计表从内容上看,统计表由两部分组成:主词和宾词。主词是统计表所要说明的总体、个体或者组的名称,一般列于表的左方,即横行位置。宾词是用以说明总体及其组成部分数量特征的各种统计指标,一般列于表的右方,即列标题和数字资料的位置。有时,主词和宾词的位置可以互换。此外,有些统计表还有补充资料、资料来源、注释、填表单位、填表人和填表日期等内容。一、统计表一、统计表(二)统计表的种类统计表按照总体分组情况不同,可以划分为简单表、简单分组表和复合分组表。1.简单表。表的主词不存在分组的统计表称为简单表。简单表的主词一般按照时间顺序或总体单位名称进行排列,如图2-10所
37、示。表2-101999年中国农民人均收入名称名称绝对数(元绝对数(元/人)人)比重(比重(%)第一产业第一产业1180.0256.8第二产业第二产业564.3027.1第三产业第三产业334.3016.1合计合计2078.62100.0一、统计表一、统计表2.简单分组表。表的主词分组只有一个分组标志的统计表称为简单分组表。利用简单分组表可以说明不同类型现象的特征、说明现象内部的结构、分析现象之间的相互关系等,如表2-11所示。表2-11某年某县粮食产量单产(单产(kg/hm2)村数(个)村数(个)播种面积播种面积(hm2)产量(万产量(万kg)6000以下以下5110005949.060007
38、50061614010537.57500900071880014041.590001050041150012000.01050012000488009367.512000以上以上4845010290.0合计合计307469062190.0一、统计表一、统计表3.复合分组表。表的主词分组有两个或两个以上分组标志的统计表称为复合分组表,如表2-3所示。一、统计表一、统计表(三)统计表的设计统计表的设计应该符合科学、实用、简练和美观的要求。具体的说,在编制统计表时应注意以下几点:1.要合理安排统计表的结构,比如行标题、列标题、数字资料的位置应安排合理。当然,由于强调的问题不同,行标题和列标题可以互换
39、,但应使统计表的横竖长度比例适当,避免出现过高或过长的表格形式。2.表头一般应包括表号、总标题和表中数据的单位等内容。总标题应简明确切地概括出统计表的内容,一般需要表明统计数据的时间(When)、地点(Where)以及何种数据(What),即标题内容应满足“3W”要求。若表中的全部数据都是同一计量单位,则可放在表的右上角标明;若各指标的计量单位不同,则应放在每个指标后或单列出一列标明。一、统计表一、统计表3.表中的上、下两条横线一般用粗线,中间的其他线要用细线,使人看起来清楚、醒目。通常情况下,统计表的左右两边不封口,表中尽量少用横线。表中数据一般是右对齐,有小数点时,应以小数点对齐,而且小数
40、点的位数应该统一。对于没有数字的表格单元,一般用“”表示,一张填好的统计表不应出现空白单元格。4.在使用统计表时,必要时可在表的下方加上注释,特别要注意注明资料来源,以表示对他人劳动成果的尊重,方便读者查阅使用。二、统计图二、统计图(一)直方图和条形图直方图又叫柱状图是把每组数据显示为一个垂直柱状体,其高度对应于数值,横坐标表示分组(或分类),纵坐标表示频数或频率。条形图是把每组数据显示为一个水平条状体,其长度对应于数值,纵坐标表示分组(或分类),横坐标表示频数或频率。条形图实际上是将直方图顺时针旋转了90度。直方图和条形图通常用于显示分类数据和顺序数据的分布特征以及变量值较少的离散数据的分布
41、特征。图2-1和图2-2是某城市居民关注广告类型的频数分布的直方图和条形图(资料数据见表2-12)二、统计图二、统计图表2-12某城市居民关注广告类型的频数分布广告类型广告类型频数频数/人人比例比例频率频率/%商品广告商品广告1120.56056.0服务广告服务广告510.25525.5金融广告金融广告90.0454.5房地产广告房地产广告160.0808.0招生招聘广告招生招聘广告100.0505.0其他广告其他广告20.0101.0合计合计2001100二、统计图二、统计图图图2-1 某城市居民关注广告类型的频数分布图(直方图)某城市居民关注广告类型的频数分布图(直方图)二、统计图二、统计
42、图图图2-2某城市居民关注广告类型的频数分布图(条形图)某城市居民关注广告类型的频数分布图(条形图)二、统计图二、统计图(二)圆形图和圆环图圆形图,也称饼图,是用圆形及圆内扇形的面积来表示数值大小的图形。绘制圆形图时,总体中各部分所占的百分比用圆内各扇形面积表示,扇形的中心角度按各部分百分比占360度的相应比例确定。圆环图是把总体数据显示为一个圆环,每组数据显示为圆环的一段。圆形图和圆环图主要用于表示总体中各组成部分所占的比例。圆形图只能显示一个总体的结构比例,而圆环图可以显示多个总体的结构比例。每一个环表示一个总体,有利于进行比较分析。按照表2-12绘制的圆形图和圆环图如图2-3和图2-4所
43、示。二、统计图二、统计图图图2-3某城市居民关注广告类型的结构比例图(圆形图)某城市居民关注广告类型的结构比例图(圆形图)二、统计图二、统计图图图2-4 某城市居民关注广告类型的结构比例图(圆环图)某城市居民关注广告类型的结构比例图(圆环图)二、统计图二、统计图(三)折线图和曲线图折线图也称频数多边形图。在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉就是折线图。利用表2-12的数据绘制的折线图如图2-5所示。图图2-5某城市居民关注广告类型的频数分布图(折线图)某城市居民关注广告类型的频数分布图(折线图)二、统计图二、统计图曲线图用于显示动态数列的数据,它是
44、将各时间点上的数据连接成线。它是以折线图为基础,当变量数列的分组数较多,组距较小时,折线图就变成了平滑的曲线图。例如,图2-6是某生产车间50名工人日加工零件频数分布曲线图(资料数据见表2-6)。图图2-6 某生产车间某生产车间50名工人日加工零件频数分布图(曲线图)名工人日加工零件频数分布图(曲线图)二、统计图二、统计图(四)雷达图雷达图是显示多个变量的常用图示方法。设有n组样本,每个样本测得p个变量,要绘制这p个变量的雷达图,其具体做法是:先做一个圆,然后将圆p等分,得到p个点,令这p个点分别对应p个变量,再将这p个点与圆心连线,得到p个辐射状的半径,这p个半径分别作为p个变量的坐标轴,每
45、个变量值的大小由半径上的点到圆心的距离表示,再将同一样本的值在p个坐标上的点连线。这样,n个样本形成的p个多边形就是一个雷达图。二、统计图二、统计图【例2.2】1997年我国城乡居民家庭平均每人各项生活消费支出数据见表2-13。试绘制雷达图。表2-131997年我国城乡居民家庭平均每人生活消费支出项项目目城镇居民城镇居民*农村居民农村居民食品食品1942.59890.28衣着衣着520.91109.41家庭设备用品及服务家庭设备用品及服务316.8985.41医疗保健医疗保健179.6862.45交通通讯交通通讯232.9053.92娱乐教育文化服务娱乐教育文化服务448.38148.18居住
46、居住358.64233.23杂项商品与服务杂项商品与服务185.6534.27合合计计4185.641617.15二、统计图二、统计图根据上表数据绘制的雷达图如图2-7所示。图图2-7 1997年中国城乡居民家庭消费支出年中国城乡居民家庭消费支出二、统计图二、统计图【例2.3】为研究某条河流的污染程度,环保局分别在上游、中游和下游设立取样点,每个取样点化验水中的5项污染指数,所得数据见表2.14。试将各指标用雷达图表示出来,并分析该河流的主要污染源。表2-14不同样本点的化验指标地点地点指标指标1指标指标2指标指标3指标指标4指标指标5上游上游4.525.048319614中游中游0.341.
47、436416下游下游2.176.820811235二、统计图二、统计图由于5项指标的计量单位不同,各指标的数值差异较大,所以不宜直接根据原始数据绘制雷达图。将原始数据取对数,以压缩数据,再根据对数值绘制雷达图,如图2-8所示。图图2-8 河流污染指标雷达图河流污染指标雷达图二、统计图二、统计图(五)茎叶图茎叶图由“茎”和“叶”两部分构成,其图形是由数字组成的。茎叶图类似于横置的直方图,同时保留了原始数据的信息。通过茎叶图,可以看出数据的分布形状及数据的离散状况,比如,分布是否对称,数据是否集中,是否有极端值等等。绘制茎叶图的关键是设计好树茎,通常是以该组数据的高位数值作为树茎,以个位数字作为树
48、叶。二、统计图二、统计图【例2-4】一位心理学家发明了一种新的测试成年人智力的方法。这一测验对20人进行,取得下列数据1149913112411710210612711911598104144151132106125122118118试利用上述数据画出茎叶显示图。二、统计图二、统计图图图2-8 茎叶显示图茎叶显示图首先把每一数据项的高位数字排列在竖线左边。在竖线右边,按照每一数据项的最后一位数字的大小进行排列。每一项的最后一位数字放置在其高位数字相应的线上。二、统计图二、统计图图2-8茎叶显示中的数据值分离成两部分,每一茎的标签是数字的两位首字数(即9、10、11、12、13、14和15),叶是单个最后一位数字。为了关注茎叶显示所显示出的形状,用一长方形来描绘每一个茎的“长度”。