《社会经济统计学第3章统计数据的整理与显.ppt》由会员分享,可在线阅读,更多相关《社会经济统计学第3章统计数据的整理与显.ppt(27页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第3章 统计数据的整理与展示 3.1 统计数据整理概述 3.2 统计分组 3.3 次数分布 3.4 统计整理数据的显示3.1 统计数据整理概述一、统计整理的含义:对原始统计数据进行加工汇总,使之系 统化、条理化、科学化、反映数据分布规律的工作过程。三、统计整理的意义:统计调查的继续,统计分析的前提。四、统计数据的审核:统计数据的检查和处理。1、完整性审核 2、准确性审核:逻辑检查;计算检查。3、适用性和时效性审核(二手数据)二、统计整理的内容:审核;分组;汇总加工;编制图表;系统积累。3.2 统计分组一、统计分组的概念与原则1、概念:按照某个或若干标志将总体划分为若干部分;其中每个部分成为组。
2、例如,按照性别,人口可以分为男、女两组。2、原则:(1)组间差异性(分)、组内同质性(合);(2)互斥原则、穷尽原则。二、统计分组的作用 1、划分现象类型;2、揭示现象内部的结构;3、研究现象之间的数量依存关系。三、分组标志的选择 1、根据研究目的选择;2、选择最能反映现象本质特征的标志;3、根据现象所处的具体历史条件或经济条件选择。四、统计分组的分类 1、按分组标志类型:品质标志分组;数量标志分组。2、按分组标志数量和排列方式:简单分组;复合分组;平行分组。男女90 以上男女80 90男女70 80男女60 70男女60 以下男女90 以上80 9070 8060 7060 以下3.3 次数
3、分布一、次数分布的概念和构成要素1、概念:分组及总体中各单位在各组间的分布(次数)按一定顺序形成的排列,也称为次数分布数列,简称分布数列。2、要素:分组;次数。按性别分组次数(频数)男30女20合计50频率(%)6040100次数分布表二、次数分布数列的分类 1、品质分布数列 2、变量分布数列(1)离散型:单项、组距(等距、不等距);(2)连续型:等距、不等距。单词按字母数分组单词数0 2183 5146 8159 11212 141合计50学生按成绩分组学生人数50 60560 701370 801880 901290 1002合计50工人平均日产量(件)工人人数1521331841252合
4、计50人口按年龄分组人口数(万人)1岁以下11 7岁67 17岁1217 55岁24.655以上8.1合计51.7单项数列 等距数列 不等距数列 三、组距数列的编制 1、基本概念(1)组限 组的最小值(下限);组的最大值(上限);(2)组距=上限-下限(组限重叠)组距=相邻两组限之差(组限重叠、不重叠)(3)组中值 闭口组:组中值=(下限+上限)/2 缺下限:组中值=该组上限 相邻组组距/2 缺上限:组中值=该组下限+相邻组组距/2学生按成绩分组学生人数60以下560 701370 801880 901290以上2合计502、编制步骤(以等距数列为例)(1)排序,计算全距:全距=最大值 最小值
5、;例,全距=99 56=43;(2)确定组数K,计算组距 d:组数根据数据多少、经验、习惯等确定,5 20 组;组距=全距/组数 的调整;例,K=5,43/5 =9,取 d=10;8988769974608260898693999482777997789592878479659867597284855681777365668363797056596060636565666770727374767777787979798182828384848586878889899293949597989999某班40位同学统计学成绩(3)确定组限:最小组下限小于等于最小值;最大组上限大于等于最大值;组限选方
6、便的数或 引起事物质变的界限;连续型变量分组组限重叠;离散型变量分组组限不重叠;56596060636565666770727374767777787979798182828384848586878889899293949597989999某班40位同学统计学成绩(4)计算频数,编制变量数列:56596060636565666770727374767777787979798182828384848586878889899293949597989999某班40位同学统计学成绩按成绩分组人数比重(%)50 602560 70717.570 801127.580 90123090 100820合计4
7、0100某班学生统计学成次数分布表3、组距数列编制原则(1)适合于连续变量或离散变量取值较多场合;(2)组数根据数据多少、经验、习惯等确定,5 20 组;(3)组距或组限使用方便的数,或体现质变的临界值;(4)数据分布均匀,使用等距分组;不均匀,使用不等距分组;根据需要拆分、合并组,或使用开口组;(5)连续型变量分组组限重叠,上限不在本组内;(不重不漏)(6)离散型变量分组组限不重叠,下限、上限都在本组内;(7)频数合计与原始数据个数相等。【例例】某50名居民月纯收入资料如下表所示,试对数据进行分组,并编制次数分布表。15003560128014801930460740185017101320
8、155011401690223024002100157012001900220058018501600275016702500260040005002900680105023003350142018702000850136017501820100012401750163020001650119017303100460850120014201600171018502000230029005001000124014801630173018502000240031005801050128015001650175018702100250033506801140132015501670175019002
9、20026003560740119013601570169018201930223027504000解:(1)排序,计算全距:R=4000 460=3540;(2)确定组数,计算组距:取 K=9,则 3540/9 =392,故取 d=400;(3)确定组限:400-800,800 1200,1200 1600,1600 2000,2000 2400,2400 2800,2800 3200,3200 3600,3600 4000;460850120014201600171018502000230029005001000124014801630173018502000240031005801050
10、12801500165017501870210025003350680114013201550167017501900220026003560740119013601570169018201930223027504000(4)计算频数,编制变量数列,并形成次数分布表:按收入分组人数比重(%)400 800510800 12005101200 160010201600 200015302000 24006122400 2800482800 3200243200 3600243600 400012612112218369184812460850120014201600171018502000230
11、02900500100012401480163017301850200024003100580105012801500165017501870210025003350680114013201550167017501900220026003560740119013601570169018201930223027504000(5)调整:组的合并、拆分与重组。按收入分组人数比重(%)400 800510800 12005101200 160010201600 200015302000 24006122400 2800482800 3200243200 3600243600 400012按收入分组人数
12、比重(%)400 10001000 15001500 20002000 28002800 32003200 4000不等距变量数列 【课课堂堂练练习习】某车间同工种的40名工人完成个人生产定额百分数如下:9788123115119158112146117108105110107137120136125127142118103871151141171241291381001039295113126107108105119127104试根据上述资料,编制变量分配数列。3.4 统计整理数据的显示一、统计图 1、直方图工人按加工零件数分组人数80 90390 1007100 11013110 1205
13、120 1302合计30某车间工人加工零件数直方图2、折线图某车间工人加工零件数直方图零件数工人数频率密度次数分布的主要类型对称分布对称分布对称分布右偏分布右偏分布右偏分布左偏分布左偏分布左偏分布正正正J J J型分布型分布型分布反反反J J J型分布型分布型分布U UU型分布型分布型分布3、累计次数分布工人按加工零件数分组人数较小制累计较大制累计80 90390 1007100 11013110 1205120 1302合计30某车间工人加工零件数累计次数分布表较小制累计较大制累计33010272320287302某车间工人加工零件数累计次数分布图零件数累计工人数80901001101201
14、3005101520253035较小制累计较大制累计累计次数(或累计频率)的应用:洛伦茨曲线20C初,美经济、统计学家洛伦茨根据意大利经济学家帕累托(V.Pareto)提出的收入分配公式绘制而成;分析该国家或地区分配的平均程度。AB累积的人口百分比累积的人口百分比 累累积积的的收收入入百百分分比比 20C初,意经济学家基尼(G.Gini):基尼系数G=A/A+B;基尼系数小于0.2,表明分配平均;基尼系数在0.2至0.4之间是比较适当的,即一个社会既有效率又没有造成极大的分配不公;基尼系数在0.4为警戒线,超过了0.4应该采取措施缩小这一差距。AB二、统计表1、形式构成:总标题、横行标题、纵列标题、数值资料;2、内容构成:主词、宾词;按经济类型分组工业企业数增加值(亿元)国有企业1362238集体企业1958105中外合资6486其他企业3580合计34195092009年某市各类工业企业的增加值 主词(总体分组或总体单位)宾词(指标及其数值)3、分类:简单表、分组表、复合表。按经济类型分组工业企业数增加值(亿元)国有企业1362238集体企业1958105中外合资6486其他企业3580合计34195092009年某市各类工业企业的增加值地区GDP(亿元)北京1615.73天津1101.40上海2902.20湖北2970.20我国某年GDP