《数据搜集与整理下.ppt》由会员分享,可在线阅读,更多相关《数据搜集与整理下.ppt(23页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第二章 数据搜集与整理(下)统计搜集到的大量资料是分散的,不系统统计搜集到的大量资料是分散的,不系统的,只能说明各个单位的特征和属性,必须的,只能说明各个单位的特征和属性,必须按照科学的原则加以按照科学的原则加以整理整理,使之,使之条理化和系条理化和系统化统化,成为便于储存和传递的、反映总体特,成为便于储存和传递的、反映总体特征的数据。征的数据。统计数据统计数据的整理的整理 统计数据统计数据的展示的展示排序排序统计分组统计分组频数分布编制频数分布编制统计表统计表统计图统计图(一)(一)统计数据的整理统计数据的整理 排序排序就是把定量数据按从大到小或从小到大的顺序排列,就是把定量数据按从大到小或
2、从小到大的顺序排列,把定性数据按习惯的文字顺序排列,便于我们研究其把定性数据按习惯的文字顺序排列,便于我们研究其条理。条理。统计分组统计分组对于定性数据就是依据属性的不同将对于定性数据就是依据属性的不同将数据划分成若干组,对于定量数据就数据划分成若干组,对于定量数据就是依据属性数值的不同将数据划分成是依据属性数值的不同将数据划分成若干组。若干组。组内同质性,组间差异性组内同质性,组间差异性频数分布表的编制频率频率频率频率f/ff/f频数频数频数频数f f分组分组分组分组x x编制频数分布表的步骤编制频数分布表的步骤编制频数分布编制频数分布表的步骤表的步骤确确确确定定定定组组组组数数数数编编编编
3、制制制制表表表表格格格格计计计计算算算算频频频频数数数数确确确确定定定定组组组组距距距距频数分布表的编制频数分布表的编制(实例)【例例例例1 1】某某某某生生生生产产产产车车车车间间间间5050名名名名工工工工人人人人日日日日加加加加工工工工零零零零件件件件数数数数如如如如下下下下(单单单单位位位位:个个个个)。试试试试采采采采用用用用单单单单变变变变量量量量值值值值对对对对数数数数据据据据进进进进行分组行分组行分组行分组。n117 122 124 129 139 107 117 130 122 125n108 131 125 117 122 133 126 122 118 108n110 1
4、18 123 126 133 134 127 123 118 112n112 134 127 123 119 113 120 123 127 135n137 114 120 128 124 115 139 128 124 121分组方法分组方法等距分组等距分组异距分组异距分组单变量值分组单变量值分组(要点)n将一个变量值作为一组将一个变量值作为一组n适合于离散变量适合于离散变量n适合于变量值较少的情况适合于变量值较少的情况单变量值分组表单变量值分组表(实例)(实例)表表2-4 某车间某车间50名工人日加工零件数分组表名工人日加工零件数分组表零件数零件数(个个)频数频数(人人)零件数零件数(个个
5、)频数频数(人人)零件数零件数(个个)频数频数(人人)107108110112113114115117118121211133119120121122123124125126127121443223128129130131133134135137139211122112组距分组组距分组(要点)(要点)1.将变量值的一个区间作为一组将变量值的一个区间作为一组2.适合于连续变量适合于连续变量3.适合于变量值较多的情况适合于变量值较多的情况4.必须遵循必须遵循“不重不漏不重不漏”的原则的原则5.可可采采用用等等距距分分组组,也也可可采采用用不不等等距距分组分组 组距分组组距分组(几个概念)n下下 限
6、:限:一个组的最小值一个组的最小值n上上 限:限:一个组的最大值一个组的最大值n组组 距:距:上限与下限之差上限与下限之差n组中值:组中值:下限与上限之间的中点值下限与上限之间的中点值下限值下限值+上限值上限值2组中值组中值=组距分组组距分组(步骤)(步骤)1.确确定定组组数数:组组数数的的确确定定应应以以能能够够显显示示数数据据的的分分布布特特征征和和规规律律为为目目的的。在实际分组时,可以按在实际分组时,可以按 Sturges 提出的经验公式来确定组数提出的经验公式来确定组数K 确确确确定定定定各各各各组组组组的的的的组组组组距距距距:组组组组距距距距(Class Class Width)
7、Width)是是是是一一一一个个个个组组组组的的的的上上上上限限限限与与与与下下下下限限限限之之之之差差差差,可可可可根根根根据据据据全全全全部部部部数数数数据据据据的的的的最最最最大大大大值值值值和和和和最最最最小小小小值值值值及及及及所所所所分分分分的的的的组组组组数数数数来来来来确确确确定,即定,即定,即定,即 组距组距组距组距(最大值最大值最大值最大值 -最小值)最小值)最小值)最小值)组数组数组数组数 3.3.根据分组整理成频数分布表根据分组整理成频数分布表根据分组整理成频数分布表根据分组整理成频数分布表 等距分组表等距分组表表表2-5 某车间某车间50名工人日加工零件数分组表名工人
8、日加工零件数分组表按零件数分组按零件数分组频数(人)频数(人)频率(频率(%)105110110115115120120125125130130135135140358141064610162820128合计合计50100(上下组限重叠)等距分组表等距分组表表表2-6 某车间某车间50名工人日加工零件数分组表名工人日加工零件数分组表按零件数分组按零件数分组频数(人)频数(人)频率(频率(%)105109110114115119120124125129130134135139358141064610162820128合计合计50100(上下组限间断)等距分组表等距分组表 表表2-7 某车间某车间
9、50名工人日加工零件数分组表名工人日加工零件数分组表按零件数分组按零件数分组频数(人)频数(人)频率(频率(%)110以下以下110114115119120124125129130134135以上以上358141064610162820128合计合计50100(使用开口组)组距分组与不等距分组组距分组与不等距分组(在表现频数分布上的差异)1.等距分组等距分组各组频数的分布不受组距大小的影响各组频数的分布不受组距大小的影响可直接根据绝对频数来观察频数分布的特征和规律可直接根据绝对频数来观察频数分布的特征和规律2.不等距分组不等距分组各组频数的分布受组距大小不同的影响各组频数的分布受组距大小不同的
10、影响各组绝对频数的多少不能反映频数分布的实际状况各组绝对频数的多少不能反映频数分布的实际状况需需要要用用频频数数密密度度(频频数数密密度度频频数数/组组距距)反反映映频频数数分布的实际状况分布的实际状况(二)统计数据的展示(二)统计数据的展示当统计数据比较多时,就应该制作表格或者图形进行来当统计数据比较多时,就应该制作表格或者图形进行来展示,使数据的重要特性能从表格或者图形展示,使数据的重要特性能从表格或者图形中直观地中直观地反反映出来,这样可提高分析数据和解释数据的映出来,这样可提高分析数据和解释数据的效率效率。统计表统计表是把统计数据用表格的形式展示出来。是把统计数据用表格的形式展示出来。
11、类型类型:按作用分按作用分调查调查表表按数据按数据所属所属的的时间时间分分截面数据表截面数据表时间序列表时间序列表 汇总汇总整理表整理表计计算分析表算分析表 统计表的结构统计表的结构表表1 20042005年城镇居民家庭抽样调查资料年城镇居民家庭抽样调查资料项目项目单位单位2004年年 2005年年 一、调查户数一、调查户数 二、平均每户家庭人口数二、平均每户家庭人口数 三、平均每户就业人口数三、平均每户就业人口数 四、平均每人全部收入四、平均每人全部收入 五、平均每人实际支出五、平均每人实际支出 消费性支出消费性支出 非消费性支出非消费性支出 六、平均每人居住面积六、平均每人居住面积户户人人
12、人人元元元元元元元元平方米平方米 37890 37890 3.19 3.19 1.83 1.83 5188.54 5188.54 4945.87 4945.87 4185.64 4185.64 755.94 755.94 11.9011.90 39080 3.16 1.80 5458.34 5322.95 4331.61 987.17 12.40资料来源:资料来源:中国统计摘要中国统计摘要2006,中国统计出版社,中国统计出版社,2006,第,第79页。页。注:注:1本表为城市和县城的城镇居民家庭抽样调查材料。本表为城市和县城的城镇居民家庭抽样调查材料。2消费性支出项目包括:食品、衣着、家庭设
13、备用品及服务、医疗消费性支出项目包括:食品、衣着、家庭设备用品及服务、医疗 保健、交通和通讯、娱乐教育文化服务、居住、杂项商品和服务。保健、交通和通讯、娱乐教育文化服务、居住、杂项商品和服务。行行行行标标标标题题题题表头表头表头表头列列列列标标标标题题题题数数数数字字字字资资资资料料料料附附附附加加加加1.1.要合理安排统计表的结构要合理安排统计表的结构要合理安排统计表的结构要合理安排统计表的结构2.2.总标题内容应满足总标题内容应满足总标题内容应满足总标题内容应满足3 3WW要求要求要求要求3.3.数数数数据据据据计计计计量量量量单单单单位位位位相相相相同同同同时时时时,可可可可放放放放在在
14、在在表表表表的的的的右右右右上上上上角角角角标标标标明明明明,不同时应放在每个指标后或单列出一列标明不同时应放在每个指标后或单列出一列标明不同时应放在每个指标后或单列出一列标明不同时应放在每个指标后或单列出一列标明4.4.表中的上下两条横线一般用粗线,其他线用细线表中的上下两条横线一般用粗线,其他线用细线表中的上下两条横线一般用粗线,其他线用细线表中的上下两条横线一般用粗线,其他线用细线5.5.通常情况下,统计表的左右两边不封口通常情况下,统计表的左右两边不封口通常情况下,统计表的左右两边不封口通常情况下,统计表的左右两边不封口6.6.表表表表中中中中的的的的数数数数据据据据一一一一般般般般是
15、是是是右右右右对对对对齐齐齐齐,有有有有小小小小数数数数点点点点时时时时应应应应以以以以小小小小数数数数点对齐,而且小数点的位数应统一点对齐,而且小数点的位数应统一点对齐,而且小数点的位数应统一点对齐,而且小数点的位数应统一7.7.对于没有数字的表格单元,一般用对于没有数字的表格单元,一般用对于没有数字的表格单元,一般用对于没有数字的表格单元,一般用“”表示表示表示表示8.8.必要时可在表的下方加上注释必要时可在表的下方加上注释必要时可在表的下方加上注释必要时可在表的下方加上注释统计表的设计统计表的设计统计图统计图统计图形通常可比统计表格更生动地描述数据。统计图形通常可比统计表格更生动地描述数
16、据。类型类型:饼图饼图是以整个圆的是以整个圆的360360度代表全部数据的总和,度代表全部数据的总和,按照各类组所占的百分比(频率),把一个按照各类组所占的百分比(频率),把一个“饼饼”切割为各个扇形。切割为各个扇形。适用于定性数据适用于定性数据。2003年合年合肥肥GDP按按产业分组产业分组条形条形图图中,每一分中,每一分类组类组表示成一个条,条表示成一个条,条的的长长度代表了度代表了这这个个组组中所含数据的中所含数据的频频数或数或频频率。适用于定性数据率。适用于定性数据。2003年合肥市年合肥市GDP按产业分的条形图按产业分的条形图直方直方图图与条形与条形图图相似,是在每个分相似,是在每个分组组区区间间上上绘绘制一个制一个长长条形而条形而产产生的生的图图形,它可以用来形,它可以用来描述已表示成描述已表示成频频数或数或频频率的数据。适用于定率的数据。适用于定量量数据数据。对于异距数列,以组对于异距数列,以组距为宽距为宽,以频数密度以频数密度为高来为高来绘绘制制直方图。直方图。折线图折线图可以在直方图基础上,将每个长方形的顶端中可以在直方图基础上,将每个长方形的顶端中点用折线连接而成,或用组中值与频数(或频率)求点用折线连接而成,或用组中值与频数(或频率)求坐标点连接而成坐标点连接而成 。根据表根据表2-6的直方图绘制的折线图的直方图绘制的折线图