《数据整理统计数据的收集与整理课件.ppt》由会员分享,可在线阅读,更多相关《数据整理统计数据的收集与整理课件.ppt(28页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第二章第二章 统计数据的收数据的收集与整理集与整理第二第二节 统计数据整理数据整理1.数据整理的含数据整理的含义数数据据整整理理又又称称统计整整理理是指根据统计研究的任务与要求,对搜集来的各种原始资料进行科学的分类和汇总,为统计分析提供系统化、条理化的综合资料的工作过程。统计资料整理在统计工作中处于中间阶段,它是统计调查的继续,是统计分析的前提,起着承前启后的作用。2.数据整理的程序(数据整理的程序(课外)外)(一)(一)对调查资料的料的审核核 审核的内容主要有资料的准准确确性性、及及时性性、完完整整性性和和适适用用性性等几个方面。发现问题,及时纠正。这是统计资料处理工作中一个十分重要的问题,
2、必须认真对待。逻辑审查 计算审查 人机同审3.(二)(二)统计分分组与与汇总(前提和基础)按照资料整理的要求进行分组汇总,计算各组单位数和总体单位数,计算各组指标和综合指标。(三)(三)编制制统计表或表或绘制制统计图 统计汇总的结果一般通过统计表或统计图的形式表现出来,以简明扼要、生动形象地表达社会经济现象的数量表现和数量关系。4.一、一、统计分分组的含的含义统计分组是根据研究任务的需要和事物内在的特点,将统计总体按照一定的标志划分为若干组成部分的一种统计方法。总体中的各单位在某一(些)方面是相同的(即同同质性性),而在其他许多方面则是不同的(即差差异异性性),统计分组的目的是把不同性质的单位
3、分开,把性质相同的单位合在一起。因此,统计分组同时具有两方面的含具有两方面的含义:两层含义对个体是“合”对总体是“分”5.分分组标志的志的选择统计分组的关键在于正确选择分组标志,这是统计分组的核心问题。1.完备性各组之和等于总体之和2.互斥性一个单位只能归到某一个组 3.分组标志的一致性6.统计分分组的种的种类(课外)外)(一)品(一)品质标志分志分组和数量和数量标志分志分组按照分组标志的性质不同可分为品质标志分组和数量标志分组 1、品质标志分组就是按事物的质量属性分组。2、数量标志分组就是按照事物的数量特征分组7.(二)(二)简单分分组与复合分与复合分组统计分组按分组标志的多少可以分为简单分
4、组与符合分组1、简单分组,就是对研究现象按一个标志进行分组。2、复合分组,就是按两个或两个以上的标志对总体单位进行重叠分组。8.某校教某校教师按性按性别、职称复合分称复合分组表表 组别人数(人)比重()男性教授副教授讲师助教女性教授副教授讲师助教 92 4 18 40 30126 3 22 56 4542.2 1.8 8.318.313.857.8 1.410.125.720.6合计218 100.09.二、分布数列二、分布数列在统计分组基础上,将总体中所有单位按组归类整理,形成总体中各个单位数在各组间的分布,叫做次数分布,又称分布数列。分配数列 将组别与次数按一定的顺序排列所形成的数列。次数
5、 分布在各组的单位数叫次数,又称频数。比率 各组次数与总次数之比叫比率,又称频率。10.某某车间工人按日工人按日产量分量分组表表 日产量(件)工人数(人)人数比重(%)2021222324251020305040305.5611.1116.6727.7722.2216.67合计180100.00 组别 次数(次数(频数)数)比率比率(频率)率)11.(一)分布数列的种(一)分布数列的种类品质数列 单项式数列变量数列 等距数列 组距数列 异距数列分分布布数数列列一个变量值就代表一组。在变量值不多且变化幅度不大的情况下采用。两个变量值确定一组。在变量值较多,变动范围较大的情况下采用。按品质标志分组
6、编制的分布数列按数量标志分组编制的分布数列各组组距相等各组组距不等12.某班学生按性某班学生按性别分分组表表 性别 人数 人数比重()男 女 15 25 37.5 62.5合计40100.013.某某车间工人按日工人按日产量分量分组表表日产量(件)工人数(人)人数比重(%)2021222324251020305040305.5611.1116.6727.7722.2216.67合计180100.00 组别 次数(次数(频数)数)比率比率(频率)率)14.某班某班40名学生英名学生英语测验成成绩分分组表表成绩(分)学生数(人)比重(%)60以下60707080809090以上27121545.0
7、017.5030.0037.5010.00合计40100.0015.(二)分布数列的(二)分布数列的编制制组数 即分得的组的数目,K。组限 确定每组距离的数值,分下限和上限。下限 毎组起点数值。上限 毎组终点数值。组距 即毎组的距离,i,等于上限与下限之差。组中值 即各组中点的数值。开口组 上、下限只有一个的组。闭口组 上限和下限都齐全的组。16.组中中值的的计算算闭口组组中值=(上限+下限)/2 上限-邻组组距/2(只有上限)开口组组中值=下限+邻组组距/2(只有下限)组距=上限-下限全距=最大值-最小值17.变量数列的量数列的编制例制例题课本64页6.某班45名学生“统计学”考试成绩从低分
8、到高分排列18.1.将原始将原始资料按其数料按其数值大小重新排列大小重新排列找出最小值最大值计算全距全距 R=99-50=4919.2.确定确定变量数列的形式量数列的形式1.编制单项式数列还是组距数列,取决于所研究变量的类型和变量变动的幅度;2.编制等距数列还是异距数列,主要取决于现象的特点和研究目的。3.案例中的数据特点:1)波动范围大,数据多 组距数列;2)变动均匀 等距数列20.3.确定确定组距和距和组数数对组距和组数,不能机械地规定先确定什么。从原则上讲,都应力求符合实际,能够反映总体分布的特点。斯透奇斯规则”(Sturges rule):K=1+3.322 lgn=1+3.322*l
9、g45=6.49组数与组距(i)的关系是:i=R/K=49/6.497.557或8两者成反比变化本例中采用组距为10,组数为521.4.确定确定组限限1.组限最好用整数表示;2.应使第一组下限不大于资料中的最小变量值,最末组上限不小于资料中的最大变量值;3.对于连续变量,应采用重叠组限,并且习惯上按照“上限不在本组内”原则处理;而离散变量变量两种方法都可以。本 例 中 的 组 限 分 别 为:60以 下,6070,7080,8090,90以上.22.某班某班45名学生名学生统计测验成成绩分分组表表成绩(分)学生数(人)比重(%)60以下60707080809090以上69169513.3320
10、35.562011.11合计45100.005.计算各算各组单位数,位数,编制制变量数列量数列23.例题50株树苗的高度的测量结果(单位:厘米)154 133 116 128 85 100 105 146 118 97 110 131 119 103 93 108 100111 130 104 135 113 122 115 103 90 108 114 127 87 127 108 112 100117 121 105 136 123 108 89 94 139 82 113 110 109 118 115 126 24.用Excel演示频数(Frequency)汇总25.向上累向上累计与向下累与向下累计(补充)充)向向上上累累计:是指从变量值小的组向变量值大的组累计,又称为较小制累计;向向下下累累计:是指从变量值大的组向变量值小的组累计,又称为较大制累计。26.表 某班40名学生按成绩分组表成成绩(分)(分)次数次数向上累向上累计向下累向下累计学生数学生数(人)(人)比率(比率(%)学生数学生数(人)(人)比率(比率(%)学生数学生数(人)(人)比率(比率(%)60以下以下60707080809090以上以上2818935204522.57.52102837405257092.51004038301231009575307.5合合计40100-27.谢 谢!28.