《统计学第讲数据的整理与展示幻灯片.ppt》由会员分享,可在线阅读,更多相关《统计学第讲数据的整理与展示幻灯片.ppt(71页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、统计学课件第讲数据统计学课件第讲数据的整理与展示的整理与展示第1页,共71页,编辑于2022年,星期二2010年第第 3 讲讲 数据的整理与展示数据的整理与展示3.1数据的数据的录入入3.2数据的预处理数据的预处理 3.3数据的整理与展示数据的整理与展示(重点重点)学习目标:学习目标:掌握计算机软件建立数据库掌握计算机软件建立数据库掌握数据预处理的内容和目的掌握数据预处理的内容和目的掌握数据预处理的内容和目的掌握数据预处理的内容和目的掌握数据分组方法,并熟练编制统计表和统计掌握数据分组方法,并熟练编制统计表和统计图图第2页,共71页,编辑于2022年,星期二2010年统计应用统计应用把数据画图
2、之后,要用用脑袋把数据画图之后,要用用脑袋沃沃沃沃德德德德(Abraham(Abraham Wald)Wald)和和和和许许许许多多多多统统统统计计计计学学学学家家家家一一一一样样样样,在在在在第第第第二二二二次次次次世世世世界界界界大大大大战战战战时时时时也也也也处处处处理理理理了了了了战战战战争争争争与与与与相相相相关关关关的的的的问问问问题题题题。他他他他发发发发明明明明的的的的一一一一些些些些统统统统计计计计方方方方法法法法在在在在战战战战时时时时被被被被视视视视为为为为军军军军事事事事机密。以下是他提出的概念中较简单的一种机密。以下是他提出的概念中较简单的一种机密。以下是他提出的概念
3、中较简单的一种机密。以下是他提出的概念中较简单的一种沃沃沃沃德德德德被被被被咨咨咨咨询询询询飞飞飞飞机机机机上上上上什什什什么么么么部部部部位位位位应应应应该该该该加加加加强强强强钢钢钢钢板板板板时时时时,开开开开始始始始研研研研究究究究从从从从战战战战役役役役中中中中返返返返航航航航的的的的军军军军机机机机上上上上受受受受敌敌敌敌军军军军创创创创伤伤伤伤的的的的弹弹弹弹孔孔孔孔位位位位置置置置。他他他他画画画画了了了了飞飞飞飞机机机机的的的的轮轮轮轮廓廓廓廓,并并并并且且且且标标标标识识识识出出出出弹弹弹弹孔孔孔孔的的的的位位位位置置置置。资资资资料料料料累累累累积积积积一一一一段段段段时时
4、时时间间间间后后后后,几几几几乎乎乎乎把把把把机机机机身身身身各各各各部部部部位位位位都都都都填填填填满满满满了了了了。于于于于是是是是沃沃沃沃德德德德建建建建议议议议,把把把把剩剩剩剩下下下下少少少少数数数数几几几几个个个个没没没没有有有有弹弹弹弹孔孔孔孔的的的的部部部部位位位位补补补补强强强强。因因因因为为为为这这这这些些些些部部部部位位位位被被被被击击击击中中中中的的的的飞飞飞飞机机机机都都都都没没没没有返航有返航有返航有返航第3页,共71页,编辑于2022年,星期二2010年3.1数据的数据的录入入3.1.1 纸制统计表纸制统计表3.1.2 excel数据库数据库第4页,共71页,编辑
5、于2022年,星期二2010年3.1.1 纸制统计表纸制统计表在纸上手绘统计表格,横行为个体,纵行为变量,在纸上手绘统计表格,横行为个体,纵行为变量,记录原始数据记录原始数据编号编号姓名姓名性别性别年龄年龄月收入月收入刘恋刘恋女女4000陈风陈风男男5000第5页,共71页,编辑于2022年,星期二2010年3.1.2 excel数据库数据库建立一个建立一个excel文件后,直接进行数据的输入操作,文件后,直接进行数据的输入操作,一般横行为个体,纵行为一个变量一般横行为个体,纵行为一个变量第6页,共71页,编辑于2022年,星期二2010年3.2 数据的预处理数据的预处理 3.2.1 数据审核
6、数据审核3.2.2 数据筛选数据筛选3.2.3 数据排序数据排序3.2.4 数据透视表数据透视表第7页,共71页,编辑于2022年,星期二2010年数据的预处理数据的预处理数据审核数据审核n检查数据中的错误检查数据中的错误数据筛选数据筛选n找出符合条件的数据找出符合条件的数据数据排序数据排序升序和降序升序和降序寻找数据的基本特征寻找数据的基本特征第8页,共71页,编辑于2022年,星期二2010年3.2.1 数据审核数据审核原始数据原始数据(raw data)完整性审核完整性审核n n检查应调查的单位或个体是否有遗漏n n所有的调查项目或指标是否填写齐全准确性审核准确性审核n n检查数据是否真
7、实反映客观实际情况,内容是否符合实际n n检查数据是否有错误,计算是否正确等n n逻辑检查和计算检查第9页,共71页,编辑于2022年,星期二2010年二手数据二手数据(second hand data)适用性审核适用性审核n弄清楚数据的来源、数据的口径以及有关的背景材料n确定数据是否符合自己分析研究的需要时效性审核时效性审核n尽可能使用最新的数据确认是否有必要做进一步的加工整理确认是否有必要做进一步的加工整理第10页,共71页,编辑于2022年,星期二2010年3.2.2 数据筛选数据筛选当当数数据据中中的的错错误误不不能能予予以以纠纠正正,或或者者有有些些数数据据不不符符合合调调查查的的要
8、要求求而而又又无无法法弥弥补补时时,需需要对数据进行筛选要对数据进行筛选数据筛选的内容数据筛选的内容将某些不符合要求的数据或有明显错误的数据予以剔除将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔除第11页,共71页,编辑于2022年,星期二2010年:用用用用ExcelExcel进行数据筛选进行数据筛选进行数据筛选进行数据筛选 8 8名学生的考试成绩数据名学生的考试成绩数据名学生的考试成绩数据名学生的考试成绩数据 数据筛选数据筛选(data filter)【例例例例2.12.1】8 8名名名名学学学学生生生生4 4门门门门课课课课程程程程的的的的考考考考试试试试成成成成绩绩绩绩
9、数数数数据据据据。找找找找出出出出统统统统计计计计学学学学成成成成绩绩绩绩等等等等于于于于7575分分分分的的的的学学学学生生生生,英英英英语语语语成成成成绩绩绩绩最最最最高高高高的的的的前前前前3 3名名名名学学学学生生生生,4 4门门门门课课课课程程程程成成成成绩绩绩绩都都都都大于大于大于大于7070分的学生分的学生分的学生分的学生 第12页,共71页,编辑于2022年,星期二2010年3.2.3 数据排序数据排序按按一一定定顺顺序序将将数数据据排排列列,以以发发现现一一些些明明显显的的特征或趋势,找到解决问题的线索特征或趋势,找到解决问题的线索排排序序有有助助于于对对数数据据检检查查纠纠
10、错错,以以及及为为重重新新归归类或分组等提供依据类或分组等提供依据在某些场合,排序本身就是分析的目的之一在某些场合,排序本身就是分析的目的之一排序可借助于计算机完成排序可借助于计算机完成第13页,共71页,编辑于2022年,星期二2010年数据排序数据排序(方法方法)分类数据的排序分类数据的排序n字母型数据,排序有升序降序之分,但习惯上字母型数据,排序有升序降序之分,但习惯上用升序用升序n汉字型数据,可按汉字的首位拼音字母排列,汉字型数据,可按汉字的首位拼音字母排列,也可按笔画排序,其中也有笔画多少的升序降也可按笔画排序,其中也有笔画多少的升序降序之分序之分数值型数据的排序数值型数据的排序n递
11、增排序:设一组数据为递增排序:设一组数据为x1,x2,xn,递增排序后可表示为:递增排序后可表示为:x(1)x(2)x(2)x(n)第14页,共71页,编辑于2022年,星期二2010年1.可以从复杂的数据中提取有用的信息可以从复杂的数据中提取有用的信息2.可可以以对对数数据据表表的的重重要要信信息息按按使使用用者者的的习习惯惯或分析要求进行汇总和作图或分析要求进行汇总和作图3.形成一个符合需要的交叉表形成一个符合需要的交叉表(列联表列联表)4.在在利利用用数数据据透透视视表表时时,数数据据源源表表中中的的首首行行必须有列标题必须有列标题3.2.3 数据透视表数据透视表第15页,共71页,编辑
12、于2022年,星期二2010年数据透视表数据透视表(pivot table)【例例例例2.22.2】在在在在某某某某大大大大学学学学随随随随机机机机抽抽抽抽取取取取3030名名名名学学学学生生生生,调调调调查查查查他他他他们们们们的的的的性性性性别别别别、家家家家庭庭庭庭所所所所在在在在地地地地、平平平平均均均均月月月月生生生生活活活活费费费费支支支支出出出出、平平平平均均均均每每每每月月月月购购购购买买买买衣衣衣衣物物物物支支支支出出出出和和和和购购购购买买买买衣衣衣衣物物物物时时时时所所所所考考考考虑虑虑虑的的的的首首首首要要要要因因因因素素素素等等等等,得得得得到到到到的的的的数数数数据
13、据据据如如如如表表表表2424所所所所示示示示。试试试试建建建建立立立立一一一一个个个个数数数数据据据据透透透透视视视视表表表表,在在在在表表表表的的的的行行行行变变变变量量量量中中中中给给给给出出出出性性性性别别别别和和和和购购购购买买买买衣衣衣衣物物物物首首首首选选选选因因因因素素素素,在在在在列列列列变变变变量量量量中中中中给给给给出出出出学学学学生生生生的的的的家家家家庭庭庭庭所所所所在在在在地地地地,对对对对平均月生活费支出和月平均购买衣物支出进行交叉汇总。平均月生活费支出和月平均购买衣物支出进行交叉汇总。平均月生活费支出和月平均购买衣物支出进行交叉汇总。平均月生活费支出和月平均购买
14、衣物支出进行交叉汇总。第16页,共71页,编辑于2022年,星期二2010年数据透视表数据透视表(用用Excel创建数据透视表创建数据透视表)第第第第1 1步:步:步:步:在在ExcelExcel工作表中建立数据清单工作表中建立数据清单第第第第2 2步:步:步:步:选中数据清单中的任意单元格,并选择选中数据清单中的任意单元格,并选择【数据数据】菜单菜单 中的中的【数据透视表和数据透视图数据透视表和数据透视图】第第第第3 3步:步:步:步:确定数据源区域确定数据源区域第第第第4 4步:步:步:步:在在【向导向导33步骤之步骤之3 3】中选择数据透视表的输出位置中选择数据透视表的输出位置 。然后选
15、择。然后选择【布局布局】第第第第5 5步:步:步:步:在在【向导向导布局布局】对话框中,依次将对话框中,依次将”分类变量分类变量“拖至拖至 左左边边的的“行行”区区域域,上上边边的的“列列”区区域域,将将需需要要汇汇总总的的“变变 量量”拖至拖至“数据区域数据区域”第第第第6 6步:步:步:步:然后单击然后单击【确定确定】,自动返回,自动返回【向导向导33步骤之步骤之3 3】对对 话框。然后单击话框。然后单击【完成完成】,即可输出数据透视表,即可输出数据透视表 用用用用ExcelExcel创建数据透视表创建数据透视表创建数据透视表创建数据透视表第17页,共71页,编辑于2022年,星期二201
16、0年3.3 品质数据的整理与显示品质数据的整理与显示1.要弄清所面对的数据类型要弄清所面对的数据类型n n不同类型的数据,采取不同的处理方式和方法不同类型的数据,采取不同的处理方式和方法不同类型的数据,采取不同的处理方式和方法不同类型的数据,采取不同的处理方式和方法2.对对分类数据和顺序数据主要是作分类整理分类数据和顺序数据主要是作分类整理3.对对数值型数据则主要是作分组整理数值型数据则主要是作分组整理4.适适合合于于低低层层次次数数据据的的整整理理和和显显示示方方法法也也适适合合于于高高层层次次的的数数据据;但但适适合合于于高高层层次次数数据据的的整整理理和和显示方法并不适合于低层次的数据显
17、示方法并不适合于低层次的数据几点几点 基本问题基本问题第18页,共71页,编辑于2022年,星期二2010年3.3.1 分类数据的整理与图示分类数据的整理与图示第19页,共71页,编辑于2022年,星期二2010年分类数据的描述统计量分类数据的描述统计量1.频数频数(frequency):落在各类别中的数据个数:落在各类别中的数据个数 把各个类别及落在其中的相应频数全部列出,把各个类别及落在其中的相应频数全部列出,并用表格形式表现出来,称为并用表格形式表现出来,称为频数分布频数分布。2.比例比例(proportion):某一类别数据个数占全部数据:某一类别数据个数占全部数据个数的比值个数的比值
18、3.百分比百分比(percentage):将对比的基数作为:将对比的基数作为100而而计算的比值计算的比值4.比率比率(ratio):不同类别数值个数的比值:不同类别数值个数的比值第20页,共71页,编辑于2022年,星期二2010年生成频数分布表生成频数分布表(分类数据分类数据)1.列出各类别列出各类别2.计算各类别的频数计算各类别的频数3.生成频数分布表生成频数分布表分类分类频数频数比例比例百分比百分比比率比率ABCDE第21页,共71页,编辑于2022年,星期二2010年生成频数分布表生成频数分布表(定性数据定性数据)【例例例例2.32.3】为为为为研研研研究究究究不不不不同同同同类类类
19、类型型型型的的的的软软软软饮饮饮饮料料料料的的的的市市市市场场场场销销销销售售售售情情情情况况况况,一一一一家家家家市市市市场场场场调调调调查查查查公公公公司司司司对对对对随随随随机机机机抽抽抽抽取取取取的的的的一一一一家家家家超超超超市市市市进进进进行行行行调调调调查查查查。下下下下面面面面的的的的表表表表2121是是是是调调调调查查查查员员员员随随随随机机机机观观观观察察察察的的的的5050名名名名顾顾顾顾客客客客购购购购买买买买的的的的饮饮饮饮料料料料类类类类型型型型及及及及购购购购买买买买者者者者性性性性别别别别的的的的记记记记录录录录。生生生生成成成成频频频频数数数数分分分分布布布布
20、表表表表,观观观观察察察察饮饮饮饮料料料料类类类类型型型型和和和和消消消消费费费费者者者者性性性性别别别别的的的的分分分分布布布布状状状状况况况况,并并并并进行描述性分析进行描述性分析进行描述性分析进行描述性分析 制作频数分布表制作频数分布表绿色绿色绿色绿色健康饮品健康饮品健康饮品健康饮品第22页,共71页,编辑于2022年,星期二2010年使用使用Excel数据透视表计数数据透视表计数(pivot table)第第1步:步:选择选择【数据数据】菜单中的菜单中的【数据透视表和数据透视图数据透视表和数据透视图】第第2步:步:确定数据源区域确定数据源区域(在操作前将光标放在任意数据单元格在操作前将
21、光标放在任意数据单元格 内,系统会自动选定数据源区域内,系统会自动选定数据源区域)第第3步:步:在在【向导向导3步骤之步骤之3】中选择数据透视表的输出位中选择数据透视表的输出位 置,然后选择置,然后选择【布局布局】第第4步:步:在在【向导向导布局布局】对话框中,依次将对话框中,依次将“饮料类型饮料类型”拖至左拖至左 边的边的“行行”(或列或列)区域,将区域,将“顾客性别顾客性别”拖至拖至“列列”(或或 行行)区域,将区域,将“饮料类型饮料类型”拖至拖至“数据数据”区域。区域。第第5步:步:单击单击【确定确定】,自动返回,自动返回【向导向导3步骤之步骤之3】对话对话 框。单击框。单击【完成完成】
22、用数据透视表生成分类数据的频数分布用数据透视表生成分类数据的频数分布用数据透视表生成分类数据的频数分布用数据透视表生成分类数据的频数分布第23页,共71页,编辑于2022年,星期二2010年生成频数分布表生成频数分布表(列联表列联表Excel)不同类型饮料和顾客性别的频数分布不同类型饮料和顾客性别的频数分布不同类型饮料和顾客性别的频数分布不同类型饮料和顾客性别的频数分布 绿色绿色绿色绿色健康饮品健康饮品健康饮品健康饮品第24页,共71页,编辑于2022年,星期二2010年分类数据的图示分类数据的图示条形图条形图(bar Chart)1.1.用宽度相同的条形的高度或长短来表示各类别数据用宽度相同
23、的条形的高度或长短来表示各类别数据用宽度相同的条形的高度或长短来表示各类别数据用宽度相同的条形的高度或长短来表示各类别数据2.2.各各各各类类类类别别别别可可可可放放放放在在在在纵纵纵纵轴轴轴轴,称称称称为为为为条条条条形形形形图图图图,可可可可以以以以放放放放在在在在横横横横轴轴轴轴,称称称称为为为为柱柱柱柱形形形形图图图图(column chart)(column chart)第25页,共71页,编辑于2022年,星期二2010年第26页,共71页,编辑于2022年,星期二2010年分类数据的图示分类数据的图示复式条形图复式条形图(bar Chart)饮料类型和顾客性别的条形图饮料类型和顾
24、客性别的条形图第27页,共71页,编辑于2022年,星期二2010年分类数据的图示分类数据的图示简单饼图简单饼图(pie Chart)用用圆圆形形及及圆圆内内扇扇形形的的角角度度来来表表示示数数值值大大小小的的图图形形,主主要要用用于于表表示示一一个个样样本本(或或总总体体)中中各各组组成成部部分分的的数数据据占占全全部部数数据据的的比比例例用于研究结构问题用于研究结构问题第28页,共71页,编辑于2022年,星期二2010年分类数据的图示分类数据的图示环形图环形图第29页,共71页,编辑于2022年,星期二2010年分类数据的图示分类数据的图示帕累托图帕累托图(pareto chart)1.
25、1.按按按按 各各各各 类类类类 别别别别数数数数 据据据据 出出出出 现现现现的的的的 频频频频 数数数数 多多多多少少少少 排排排排 序序序序 后后后后绘绘绘绘 制制制制 的的的的 柱柱柱柱形图形图形图形图 2.2.用用用用于于于于展展展展示示示示分分分分类类类类数数数数据据据据的分布的分布的分布的分布第30页,共71页,编辑于2022年,星期二2010年3.3.2顺序数据的整理顺序数据的整理(可计算的统计量可计算的统计量)1.累累积积频频数数(cumulative cumulative frequenciesfrequencies):各各类类别别频频数数的的逐级累加逐级累加2.2.累累累
26、累积积积积频频频频率率率率(cumulative cumulative percentagespercentages):各类别频率(百分比百分比)的逐级累加 第31页,共71页,编辑于2022年,星期二2010年顺序数据的频数分布表顺序数据的频数分布表(例题分析例题分析(SPASS)【例例例例2.42.4】在在在在一一一一项项项项城城城城市市市市住住住住房房房房问问问问题题题题的的的的研研研研究究究究中中中中,研研研研究究究究人人人人员员员员在在在在甲甲甲甲乙乙乙乙两两两两个个个个城城城城市市市市各各各各抽抽抽抽样样样样调调调调查查查查300300户户户户,其其其其中中中中的的的的一一一一个个
27、个个问问问问题题题题是是是是:“您您您您对对对对您您您您家家家家庭庭庭庭目目目目前前前前的的的的住住住住房房房房状状状状况况况况是是是是否满意?否满意?否满意?否满意?”1 1非非非非常常常常不不不不满满满满意意意意;2 2不不不不满满满满意意意意;3 3一一一一般般般般;4 4满意;满意;满意;满意;5 5非常满意。非常满意。非常满意。非常满意。甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数(户户)百分比百分比(%)向上累积向上累积 向下累积向下累积 户数户数(户户)
28、百分比百分比(%)户数户数(户户)百分比百分比(%)非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 836311510 24132225270300 8.0 44.0 75.0 90.0100.0300276168 75 30100.092562510合计合计300100.0第32页,共71页,编辑于2022年,星期二2010年顺序数据的频数分布表顺序数据的频数分布表(例题分析例题分析(SPASS)乙城市家庭对住房状况评价的频数分布乙城市家庭对住房状况评价的频数分布乙城市家庭对住房状况评价的频数分布乙城市家庭对住房状况评价的频数分布回答类
29、别回答类别乙城市乙城市户数户数(户户)百分比百分比(%)向上累积向上累积 向下累积向下累积 户数户数(户户)百分比百分比(%)户数户数(户户)百分比百分比(%)非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意2199786438 7.033.026.021.312.7 21120198262300 7.0 40.0 66.0 87.3100.0300279180102 38100.0 93.0 60.0 34.0 12.7合计合计300100.0第33页,共71页,编辑于2022年,星期二2010年顺序数据的图示顺序数据的图示累计频数分布图累计频数分布图(例题分析例题分
30、析)243001322252700100200300400 非常不满意 不满意 一般 满意 非常满意累积户数(户)(a)向上累积向上累积27616830300750100200300400 非常不满意 不满意 一般 满意 非常满意累积户数(户)(b)向下累积向下累积甲城市家庭对住房状况评价的累积频数分布甲城市家庭对住房状况评价的累积频数分布甲城市家庭对住房状况评价的累积频数分布甲城市家庭对住房状况评价的累积频数分布第34页,共71页,编辑于2022年,星期二2010年环形图环形图(例题分析例题分析)8%36%31%15%7%33%26%21%13%10%非常不满意 不满意 一般 满意 非常满意
31、 甲乙两城市家庭对住房状况的评价甲乙两城市家庭对住房状况的评价第35页,共71页,编辑于2022年,星期二2010年环形图环形图(doughnut chart)1.环环形形图图中中间间有有一一个个“空空洞洞”,样样本本或或总总体体中中的的每每一部分数据用环中的一段表示一部分数据用环中的一段表示2.与饼图类似,但又有区别与饼图类似,但又有区别n n饼图只能显示一个总体各部分所占的比例饼图只能显示一个总体各部分所占的比例饼图只能显示一个总体各部分所占的比例饼图只能显示一个总体各部分所占的比例n n环环环环形形形形图图图图则则则则可可可可以以以以同同同同时时时时绘绘绘绘制制制制多多多多个个个个样样样
32、样本本本本或或或或总总总总体体体体的的的的数数数数据据据据系系系系列列列列,每一个样本或总体的数据系列为一个环每一个样本或总体的数据系列为一个环每一个样本或总体的数据系列为一个环每一个样本或总体的数据系列为一个环3.用于结构比较研究用于结构比较研究 4.用于展示分类和顺序数据用于展示分类和顺序数据第36页,共71页,编辑于2022年,星期二2010年学号语文 数学1001 优差1002 良中1003 中中1004 差中1005 差差1006 中良1007 中优1008 差良1009 良中1010 中良计数项:学号语文数学差良优中总计优11差112良123中1214总计321410顺序数据的频数
33、分布表顺序数据的频数分布表(例题分析例题分析)第37页,共71页,编辑于2022年,星期二2010年将频数替换成为百分比数:将频数替换成为百分比数:将频数替换成为百分比数:将频数替换成为百分比数:用鼠标右击频数的任一单元格,选择用鼠标右击频数的任一单元格,选择用鼠标右击频数的任一单元格,选择用鼠标右击频数的任一单元格,选择“字段设置字段设置字段设置字段设置”,单击,单击,单击,单击“选项选项选项选项”,将,将,将,将“数据显示方式数据显示方式数据显示方式数据显示方式”中中中中“普通普通普通普通”替换为替换为替换为替换为“占总和的百分比占总和的百分比占总和的百分比占总和的百分比”计数项计数项:学
34、号学号 语文语文数学数学差差良良优优中中总计总计优优0.00%0.00%0.00%0.00%0.00%0.00%10.00%10.00%10.00%10.00%差差10.00%10.00%0.00%0.00%10.00%10.00%0.00%0.00%20.00%20.00%良良10.00%10.00%0.00%0.00%0.00%0.00%20.00%20.00%30.00%30.00%中中10.00%10.00%20.00%20.00%0.00%0.00%10.00%10.00%40.00%40.00%总计总计30.00%30.00%20.00%20.00%10.00%10.00%40.0
35、0%40.00%100.00%100.00%第38页,共71页,编辑于2022年,星期二2010年3.4.1 数据分组数据分组3.4 数数值型数据的整理与展示型数据的整理与展示数据数据数据分组数据分组根据研究的需要,将原始数据按照某种标准化分成不同根据研究的需要,将原始数据按照某种标准化分成不同根据研究的需要,将原始数据按照某种标准化分成不同根据研究的需要,将原始数据按照某种标准化分成不同的组别,分组后的数据称为分组数据。的组别,分组后的数据称为分组数据。的组别,分组后的数据称为分组数据。的组别,分组后的数据称为分组数据。第39页,共71页,编辑于2022年,星期二2010年分组方法分组方法等
36、距分组等距分组异距分组异距分组单变量值分组单变量值分组组距分组组距分组第40页,共71页,编辑于2022年,星期二2010年单变量值分组单变量值分组(要点要点)1.将一个变量值作为一组将一个变量值作为一组2.适合于离散变量适合于离散变量3.适合于变量值较少的情况适合于变量值较少的情况第41页,共71页,编辑于2022年,星期二2010年组距分组组距分组(要点要点)1.将变量值的一个区间作为一组将变量值的一个区间作为一组2.适合于连续变量适合于连续变量3.适合于变量值较多的情况适合于变量值较多的情况4.需要遵循需要遵循“不重不漏不重不漏”的原则的原则5.可可采采用用等等距距分分组组,也也可可采采
37、用用不不等距分组等距分组 第42页,共71页,编辑于2022年,星期二2010年组距分组组距分组(几个概念几个概念)1.下限下限(low limit):一个组的最小值2.上限上限(upper limit):一个组的最大值3.组距组距(class width):上限与下限之差4.组中值组中值(class midpoint):下限与上限之间的中点值下限值下限值+上限值上限值2组中值组中值=第43页,共71页,编辑于2022年,星期二2010年频数分布表的编制频数分布表的编制(例题分析例题分析)【例例例例2.52.5】某某某某电电电电脑脑脑脑公公公公司司司司20052005年年年年前前前前四四四四个
38、个个个月月月月各各各各天天天天的的的的销销销销售售售售量量量量数数数数据据据据(单单单单 位位位位:台台台台)。试试试试对对对对数数数数据据据据进进进进行行行行分组分组分组分组第44页,共71页,编辑于2022年,星期二2010年生成频数分布表生成频数分布表(例题分析例题分析)1.1.确确确确定定定定组组组组数数数数:组组组组数数数数的的的的确确确确定定定定应应应应以以以以能能能能够够够够显显显显示示示示数数数数据据据据的的的的分分分分布布布布特特特特征征征征为为为为目目目目的的的的。在在在在实实实实际际际际分分分分组组组组时时时时,组组组组数数数数一一一一般般般般为为为为5 5 K K 15
39、15。本本本本例例例例中中中中由由由由于于于于数数数数据据据据较较较较多多多多,可可可可考考考考虑虑虑虑分分分分为为为为1010组组组组 2.2.确确确确定定定定组组组组距距距距:组组组组距距距距(Class(Class Width)Width)是是是是一一一一个个个个组组组组的的的的上上上上限限限限与与与与下下下下限限限限之之之之差差差差,可可可可根根根根据据据据全部数据的最大值和最小值及所分的组数来确定,即全部数据的最大值和最小值及所分的组数来确定,即全部数据的最大值和最小值及所分的组数来确定,即全部数据的最大值和最小值及所分的组数来确定,即 组距组距组距组距(最大值最大值最大值最大值 -
40、最小值最小值最小值最小值)组数组数组数组数 例例例例如如如如,本本本本例例例例最最最最大大大大值值值值为为为为237237,最最最最小小小小值值值值为为为为141141,组组组组距距距距=(237-141)10=(237-141)109.69.6。为为为为便便便便于于于于计计计计算算算算,组组组组距距距距宜宜宜宜取取取取5 5或或或或1010的的的的倍倍倍倍数数数数,且且且且第第第第一一一一组组组组的的的的下下下下限限限限应应应应低低低低于于于于最最最最小小小小变量值,最后一组的上限应高于最大变量值,因此组距可取变量值,最后一组的上限应高于最大变量值,因此组距可取变量值,最后一组的上限应高于最
41、大变量值,因此组距可取变量值,最后一组的上限应高于最大变量值,因此组距可取10 10 3.3.统统统统计计计计出出出出各各各各组组组组的的的的频频频频数数数数。每每每每个个个个组组组组的的的的数数数数据据据据满满满满足足足足a a x xb(b(上上上上限限限限值值值值不不不不在在在在内内内内(Excel(Excel的计数规则是的计数规则是的计数规则是的计数规则是aax x b b)制作频数分布制作频数分布第45页,共71页,编辑于2022年,星期二2010年等距分组表等距分组表(上下组限重叠上下组限重叠)第46页,共71页,编辑于2022年,星期二2010年等距分组表等距分组表(上下组限间断
42、上下组限间断)第47页,共71页,编辑于2022年,星期二2010年等距分组表等距分组表(使用开口组使用开口组)第48页,共71页,编辑于2022年,星期二3.4.2 数值型数据的图示数值型数据的图示3.4 数数值型数据的整理与展示型数据的整理与展示数据数据Excel第49页,共71页,编辑于2022年,星期二2010年分组数据分组数据直方图直方图(histogram)1.用于展示分组数据分布的一种图形用于展示分组数据分布的一种图形2.用矩形的宽度和高度来表示频数分布用矩形的宽度和高度来表示频数分布n本质上是用矩形的本质上是用矩形的面积面积来表示频数分布来表示频数分布3.在在直直角角坐坐标标中
43、中,用用横横轴轴表表示示数数据据分分组组,纵纵轴轴表表示示频频数数或或频频率率,各各组组与与相相应应的的频频数数就就形成了一个矩形,即直方图形成了一个矩形,即直方图4.直方图下的总面积等于直方图下的总面积等于1第50页,共71页,编辑于2022年,星期二2010年分组数据的图示分组数据的图示(直方图的绘制直方图的绘制)140140 150150210210直方图下的面直方图下的面积之和等于积之和等于1 1某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图我我一一眼眼就就看看出出来来了了,销销售售量量在在170170180180之之间
44、的天数最多间的天数最多!190190 200200180180160160 170170频频频频频频数数数数数数(天天天天天天)25252020151510105 53030220220 230230 240240第51页,共71页,编辑于2022年,星期二2010年分组数据分组数据直方图直方图(直方图与条形图的区别直方图与条形图的区别)1.条条形形图图是是用用条条形形的的长长度度(横横横横置置置置时时时时)表表示示各各类类别别频频数数的的多多少,其宽度少,其宽度(表示类别表示类别表示类别表示类别)则是固定的则是固定的则是固定的则是固定的2.直直方方图图是是用用面面积积表表示示各各组组频频数数
45、的的多多少少,矩矩形形的的高高度度表表示示每每一一组组的的频频数数或或百百分分比比,宽宽度度则则表表示示各各组组的的组组距,其高度与宽度均有意义距,其高度与宽度均有意义3.直直方方图图的的各各矩矩形形通通常常是是连连续续排排列列,条条形形图图则则是是分分开开排列排列4.4.条条条条形形形形图图图图主主主主要要要要用用用用于于于于展展展展示示示示分分分分类类类类数数数数据据据据,直直直直方方方方图图图图则则则则主主主主要要要要用用用用于于于于展展展展示示示示数值型数据数值型数据数值型数据数值型数据第52页,共71页,编辑于2022年,星期二2010年时间序列数据时间序列数据线图线图(line p
46、lot)1.表示时间序列数据趋势的图形2.时间一般绘在横轴,数据绘在纵轴3.图形的长宽比例大致为10:73.一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断第53页,共71页,编辑于2022年,星期二2010年时间序列数据时间序列数据线图线图(例题分析例题分析)【例例例例2.72.7】我国我国我国我国1991199120032003年年年年城乡居民家庭城乡居民家庭城乡居民家庭城乡居民家庭的人均收入数的人均收入数的人均收入数的人均收入数据如表。试绘据如表。试绘据如表。试绘据如表。试绘制线图制线图制线图制线图¥1991199120032
47、003年城乡居民家庭人均收入年城乡居民家庭人均收入年城乡居民家庭人均收入年城乡居民家庭人均收入年份年份城镇居民城镇居民农村居民农村居民19911992199319941995199619971998199920002001200220031700.62026.62577.43496.24283.04838.95160.35425.15854.06280.06859.07702.88472.2 708.6 784.0 921.61221.01577.71926.12091.12162.02210.32253.42366.42475.62622.2制作频数分布制作频数分布第54页,共71页,编辑于
48、2022年,星期二2010年时间序列数据时间序列数据线图线图(例题分析例题分析)第55页,共71页,编辑于2022年,星期二2010年两个变量间的关系两个变量间的关系二维散点图二维散点图(2D Scatterplots)1.1.展示两个变量之间的关系展示两个变量之间的关系展示两个变量之间的关系展示两个变量之间的关系2.2.用用用用横横横横轴轴轴轴代代代代表表表表变变变变量量量量x x,纵纵纵纵轴轴轴轴代代代代表表表表变变变变量量量量y y,每每每每组组组组数数数数据据据据(x xi i ,y yi i)在在在在坐坐坐坐标标标标系系系系中中中中用用用用一一一一个个个个点点点点表表表表示示示示,n
49、 n组组组组数数数数据据据据在在在在坐坐坐坐标标标标系系系系中中中中形形形形成成成成的的的的个个个个点点点点称称称称为为为为散散散散点点点点,由由由由坐标及其散点形成的二维数据图坐标及其散点形成的二维数据图坐标及其散点形成的二维数据图坐标及其散点形成的二维数据图温度温度/0C降雨量降雨量/mm产量产量/kg/hm262522508403450105845001368575014110580016987500211208250第56页,共71页,编辑于2022年,星期二2010年两个变量间的关系两个变量间的关系二维散点图二维散点图(2D Scatterplots)制作频数分布制作频数分布第57页
50、,共71页,编辑于2022年,星期二2010年三个变量间的关系三个变量间的关系气泡图气泡图(bubble chart)1.显显 示示 三三个个 变变 量量之之 间间 的的关系关系2.图图 中中 数数据据 点点 的的大大 小小 依依赖赖 于于 第第三三 个个 变变量量第58页,共71页,编辑于2022年,星期二2010年三个变量间的关系三个变量间的关系双轴线的折线图双轴线的折线图第59页,共71页,编辑于2022年,星期二2010年1.也称为蜘蛛图也称为蜘蛛图(spider chart)2.显示多个变量的图示方法显示多个变量的图示方法3.在在显显示示或或对对比比各各变变量量的的数数值值总总和和时