《统计学数据的收集与整理幻灯片.ppt》由会员分享,可在线阅读,更多相关《统计学数据的收集与整理幻灯片.ppt(53页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、统计学数据的收集与整理第1页,共53页,编辑于2022年,星期二第2章 数据的搜集与整理2.1 2.1 统计数据的收集统计数据的收集2.2 2.2 统计数据的整理统计数据的整理第2页,共53页,编辑于2022年,星期二2.1 统计数据的收集一一.统计数据的直接来源统计数据的直接来源二二.统计数据的间接来源统计数据的间接来源第3页,共53页,编辑于2022年,星期二一、统计数据的直接来源两个渠道:两个渠道:v调查或观察调查或观察 -取得社会经济数据的重要手段取得社会经济数据的重要手段v实验实验 -取得自然科学数据的主要手段取得自然科学数据的主要手段第4页,共53页,编辑于2022年,星期二(一)
2、统计调查方式第5页,共53页,编辑于2022年,星期二1、抽样调查(Sample survey)(1 1)从总体中随机抽取一部分单位)从总体中随机抽取一部分单位(样本样本)进行进行调查,并根据样本调查结果来推断总体数量调查,并根据样本调查结果来推断总体数量特征特征总体总体随机样本随机样本随机样本随机样本(2 2)目的是推断总体的未知数字特征)目的是推断总体的未知数字特征 (3 3)遵循随机原则抽样)遵循随机原则抽样第6页,共53页,编辑于2022年,星期二(4 4)特点)特点 -按随机原则抽选调查单位按随机原则抽选调查单位 -用样本推断总体用样本推断总体 -在调查前可计算和控制抽样误差在调查前
3、可计算和控制抽样误差第7页,共53页,编辑于2022年,星期二2、普查(census)1.1.专门组织进行的一次性全面调查专门组织进行的一次性全面调查 2.2.相对于常规性调查相对于常规性调查 3.3.相对于经常性调查相对于经常性调查 4.4.相对于非全面调查相对于非全面调查 5.5.我国已建立了周期性普查制度我国已建立了周期性普查制度总体总体第8页,共53页,编辑于2022年,星期二3.统计表报(Statistical report forms)1.1.按照国家有关法规的规定,自上而下地按照国家有关法规的规定,自上而下地统一布置、自下而上地逐级提供基本统统一布置、自下而上地逐级提供基本统计数
4、据计数据 2.2.是我国重要的数据收集方式是我国重要的数据收集方式 3.3.以原始数据为基础,按统一的表式、指以原始数据为基础,按统一的表式、指标、报送时间、程序填报标、报送时间、程序填报第9页,共53页,编辑于2022年,星期二4.重点调查和典型调查 典型调查典型调查(Model survey)(Model survey)从调查对象的全部单位中选择若干从调查对象的全部单位中选择若干有代表性的单位进行调查有代表性的单位进行调查目的是描述和揭示事物的本质特征目的是描述和揭示事物的本质特征和规律和规律调查结果不能用于推断总体调查结果不能用于推断总体 重点调查(Key-point investiga
5、tion)(Key-point investigation)从调查对象的全部单位中选择少数重点单位进行调从调查对象的全部单位中选择少数重点单位进行调查查调查结果不能用于推断总体调查结果不能用于推断总体第10页,共53页,编辑于2022年,星期二(二)数据的搜集方法v数据的搜集方法数据的搜集方法v询问调查询问调查访访问问调调查查v观察实验观察实验电电话话调调查查邮邮寄寄调调查查观观察察座座谈谈会会个个别别深深访访实实验验第11页,共53页,编辑于2022年,星期二访问调查(Personal interview)1.1.调查者与被调查者通调查者与被调查者通过面对面地交谈而获过面对面地交谈而获得资料
6、得资料 2.2.有标准式访问和非标有标准式访问和非标准式访问准式访问标准式访问通常按事先标准式访问通常按事先设计好的问卷进行设计好的问卷进行非标准式访问事先一般非标准式访问事先一般不制作问卷不制作问卷对不起,对不起,对不起,打扰了!打扰了!打扰了!第12页,共53页,编辑于2022年,星期二邮寄调查(Mail survey)v是一种标准化调查是一种标准化调查v调查者与被调查者没有直接的语调查者与被调查者没有直接的语 言交流,信息的传递依赖于问卷言交流,信息的传递依赖于问卷v通过某种方式将调查表或问卷送通过某种方式将调查表或问卷送 至某被调查者手中,由被调查者至某被调查者手中,由被调查者 填写,
7、然后将问卷寄回指定收集点填写,然后将问卷寄回指定收集点v问卷或表格的发放方式有邮寄、问卷或表格的发放方式有邮寄、宣传媒介传送、专门场所分发三种宣传媒介传送、专门场所分发三种第13页,共53页,编辑于2022年,星期二电话调查(Telephone survey)v调查者利用电话与被调查者进行调查者利用电话与被调查者进行语言交流以获得信息语言交流以获得信息v时效快、成本低时效快、成本低v问题的数量不宜过多问题的数量不宜过多 您好您好!我是我是调查公调查公司的调查员司的调查员第14页,共53页,编辑于2022年,星期二座谈会(Colloquia)v将一组被调查者集中在调查现场,让他们将一组被调查者集
8、中在调查现场,让他们对调查的主题发表意见以获得资料对调查的主题发表意见以获得资料v人数不宜过多,一般为人数不宜过多,一般为6 61010人人v侧重于定性研究侧重于定性研究第15页,共53页,编辑于2022年,星期二个别深度访问(Personal Interviewing)v一次只有一名受访者参加、一次只有一名受访者参加、针对特殊问题的调查针对特殊问题的调查v适合于较隐秘的问题适合于较隐秘的问题v侧重于定性研究侧重于定性研究第16页,共53页,编辑于2022年,星期二观察法(Observational method)v调查人员边观察边记录调查人员边观察边记录以收集所需信息以收集所需信息v能够在被
9、调查者不察觉能够在被调查者不察觉的情况下获得资料的情况下获得资料第17页,共53页,编辑于2022年,星期二实验法(Experimental method)v在设定的特殊实验场所、特在设定的特殊实验场所、特殊状态下,对调查对象进行殊状态下,对调查对象进行实验以获得所需资料实验以获得所需资料v有室内实验法和市场实验法有室内实验法和市场实验法第18页,共53页,编辑于2022年,星期二(三)调查方案设计第19页,共53页,编辑于2022年,星期二确定调查目的(Objective of survey)v调查要达到的具体目标调查要达到的具体目标v回答回答“为什么调查?为什么调查?”v调查之前必须明确调
10、查之前必须明确第20页,共53页,编辑于2022年,星期二确定调查对象和调查单位v调查对象调查对象(Respondent)(Respondent):调查研究的总体:调查研究的总体或调查范围或调查范围v调查单位调查单位(Survey unit)(Survey unit):需要对之进行调:需要对之进行调查的单位。可以是调查对象的全部单位查的单位。可以是调查对象的全部单位(全面调查),也可以是调查对象中的一(全面调查),也可以是调查对象中的一部分单位(非全面调查)部分单位(非全面调查)v回答回答“向谁调查?向谁调查?”调查对象调查对象调查单位?调查单位?调查单位?调查单位?第21页,共53页,编辑于
11、2022年,星期二设计调查项目和调查表v调查项目调查项目(Survey items)(Survey items):调查的具体内容:调查的具体内容v调查表调查表(Questionnaire)(Questionnaire):表现调查项目的:表现调查项目的表格或问卷表格或问卷v 回答回答“调查什么?调查什么?”Q Q1 1 Q Q2 2 Q Q3 3 Q Q4 4 第22页,共53页,编辑于2022年,星期二二、统计数据的间接来源 1.1.公公开开出出版版物物:中中国国统统计计年年鉴鉴、中中国国统统计计摘摘要要、中中国国社社会会统统计计年年鉴鉴、中中国国工工业业经经济济统统计计年年鉴鉴、中中国国农农
12、村村统统计计年年鉴鉴、中中国国人人口口统统计计年年鉴鉴、中中国国市市场场统统计计年年鉴鉴、世世界界经经济济年年鉴鉴、国国外外经经济济统统计计资资料料、世世界界发发展展报告报告Internet 2.2.网络网络中国统计中国统计中国统计中国统计年鉴年鉴年鉴年鉴20032003中中中中国国国国人人人人口口口口统统统统计计计计年年年年鉴鉴鉴鉴中中中中国国国国市市市市场场场场统统统统计计计计年年年年鉴鉴鉴鉴世世世世界界界界发发发发展展展展报报报报告告告告世世世世界界界界经经经经济济济济年年年年检检检检工工工工业业业业普普普普查查查查数数数数据据据据中国统计出版社第23页,共53页,编辑于2022年,星期
13、二2.2 统计数据的整理一、数据的预处理一、数据的预处理 二、数据分组与频数分布二、数据分组与频数分布三、频数分布的图示和类型三、频数分布的图示和类型第24页,共53页,编辑于2022年,星期二一、数据的预处理1.数据审核2.数据筛选3.数据排序第25页,共53页,编辑于2022年,星期二 数据的预处理v数据的审核数据的审核检查数据中的错误检查数据中的错误v数据的筛选数据的筛选找出符合条件的数据找出符合条件的数据v数据排序数据排序升序和降序升序和降序寻找数据的基本特征寻找数据的基本特征第26页,共53页,编辑于2022年,星期二1、数据审核原始数据(raw data)审核的内容审核的内容1.完
14、整性审核完整性审核检查应调查的单位或个体是否有遗漏检查应调查的单位或个体是否有遗漏所有的调查项目或指标是否填写齐全所有的调查项目或指标是否填写齐全2.准确性审核准确性审核检查数据是否有错误,计算是否正确等检查数据是否有错误,计算是否正确等检查是否存在异常值检查是否存在异常值第27页,共53页,编辑于2022年,星期二1、数据的审核二手数据(second hand data)1.适用性审核适用性审核弄弄清清楚楚数数据据的的来来源源、数数据据的的口口径径以以及及有有关关的的背背景材料景材料确定数据是否符合自己分析研究的需要确定数据是否符合自己分析研究的需要2.时效性审核时效性审核尽可能使用最新的数
15、据尽可能使用最新的数据3.确认有否必要做进一步的加工整理确认有否必要做进一步的加工整理第28页,共53页,编辑于2022年,星期二2、数据筛选(data filter)1.当当数数据据中中的的错错误误不不能能予予以以纠纠正正,或或者者有有些些数数据据不不符符合合调调查查的的要要求求而而又又无无法法弥弥补补时时,需需要要对数据进行筛选对数据进行筛选2.数据筛选的内容包括数据筛选的内容包括将将某某些些不不符符合合要要求求的的数数据据或或有有明明显显错错误误的的数数据据予以剔除予以剔除将将符符合合某某种种特特定定条条件件的的数数据据筛筛选选出出来来,而而不不符符合特定条件的数据予以剔除合特定条件的数
16、据予以剔除第29页,共53页,编辑于2022年,星期二数据筛选(data filter)用用Excel进行数据筛选进行数据筛选 8 8名学生的考试成绩数据名学生的考试成绩数据名学生的考试成绩数据名学生的考试成绩数据 第30页,共53页,编辑于2022年,星期二3、数据排序(data rank)按按一一定定顺顺序序将将数数据据排排列列,以以发发现现一一些些明明显的特征或趋势,找到解决问题的线索显的特征或趋势,找到解决问题的线索 排排序序有有助助于于对对数数据据检检查查纠纠错错,以以及及为为重重新归类或分组等提供依据新归类或分组等提供依据 在在某某些些场场合合,排排序序本本身身就就是是分分析析的的
17、目目的的之一之一 排序可借助于计算机完成排序可借助于计算机完成第31页,共53页,编辑于2022年,星期二数据排序(方法)(1 1)分类数据的排序分类数据的排序字字母母型型数数据据,排排序序有有升升序序降降序序之之分分,但但习习惯惯上上用升序用升序汉汉字字型型数数据据,可可按按汉汉字字的的首首位位拼拼音音字字母母排排列列,也也可可按按笔笔画画排排序序,其其中中也也有有笔笔画画多多少少的的升升序序降序之分降序之分(2 2)数值型数据的排序)数值型数据的排序递递增增排排序序:设设一一组组数数据据为为x x1 1,x x2 2,x xn n,递递增排序后可表示为:增排序后可表示为:x x(1)(1)
18、x x(2)2)x x(2)(2)x x(n)(n)第32页,共53页,编辑于2022年,星期二二、数据分组与频数分布数据分组与频数分布第33页,共53页,编辑于2022年,星期二分组方法等距分组等距分组异距分组异距分组第34页,共53页,编辑于2022年,星期二单变量值分组(要点)适合于离散变量 适合于变量值较少的情况第35页,共53页,编辑于2022年,星期二组距分组(要点)v将变量值的一个区间作为一组将变量值的一个区间作为一组v适合于连续变量适合于连续变量v适合于变量值较多的情况适合于变量值较多的情况v需要遵循需要遵循“不重不漏不重不漏”的原则的原则v可采用等距分组,也可采用不可采用等距
19、分组,也可采用不等距分组等距分组 第36页,共53页,编辑于2022年,星期二组距分组(步骤)1.1.确确定定组组数数:组组数数的的确确定定应应以以能能够够显显示示数数据据的的分分布布特特征征和和规规律律为为目目的的。在在实实际际分分组组时时,可可以以按按 Sturges Sturges 提出的经验公式来确定组数提出的经验公式来确定组数K K2.2.确确定定组组距距:组组距距(Class(Class Width)Width)是是一一个个组组的的上上限限与与下下限限之之差差,可可根根据据全全部部数数据据的的最最大大值值和和最最小小值值及及所所分分的组数来确定,即的组数来确定,即 组距组距(最大值
20、最大值 -最小值最小值)组数组数 3.统计出各组的频数并整理成频数分布表统计出各组的频数并整理成频数分布表 第37页,共53页,编辑于2022年,星期二组距分组(几个概念)1.1.下限下限(low limit)(low limit):一个组的最小值2.2.上限上限(upper limit)(upper limit):一个组的最大值3.3.组距组距(class width)(class width):上限与下限之差4.4.组中值组中值(class midpoint)(class midpoint):下限与上限之间的中点值下限值下限值+上限值上限值2组中值组中值=第38页,共53页,编辑于2022
21、年,星期二频数分布表的编制(例题分析)【例例】某某某某电电电电脑脑脑脑公公公公司司司司20022002年年年年前前前前四四四四个个个个月月月月各各各各天天天天的的的的销销销销 售售售售 量量量量 数数数数 据据据据(单单单单位位位位:台台台台)。试试试试对对对对数数数数据据据据进进进进行行行行分组。分组。分组。分组。第39页,共53页,编辑于2022年,星期二频数分布表的编制(步骤)1.1.确确定定组组数数:根根据据 Sturges Sturges 提提出出的的经经验验公公式式得组数得组数K K为:为:2.2.确定各组的组距:确定各组的组距:组距组距(237-141)10=9.6(237-14
22、1)10=9.6 10 103.3.用用ExcelExcel制作频数分布表制作频数分布表 第40页,共53页,编辑于2022年,星期二等距分组表(上下组限重叠)第41页,共53页,编辑于2022年,星期二等距分组表(上下组限间断)第42页,共53页,编辑于2022年,星期二等距分组表(使用开口组)第43页,共53页,编辑于2022年,星期二等距分组与不等距分组(在表现频数分布上的差异)1.1.等距分组等距分组各组频数的分布不受组距大小的影响各组频数的分布不受组距大小的影响可可直直接接根根据据绝绝对对频频数数来来观观察察频频数数分分布布的的特特征征2.2.不等距分组不等距分组各组频数的分布受组距
23、大小不同的影响各组频数的分布受组距大小不同的影响各各组组绝绝对对频频数数的的多多少少不不能能反反映映频频数数分分布布的的实实际状况际状况需需要要用用频频数数密密度度(频频数数密密度度=频频数数/组组距距)反反映频数分布的实际状况映频数分布的实际状况第44页,共53页,编辑于2022年,星期二三、频数分布的图示Excel分组数据分组数据直方图和折线图直方图和折线图第45页,共53页,编辑于2022年,星期二分组数据直方图(histogram)1.1.用用矩矩形形的的宽宽度度和和高高度度来来表表示示频频数数分分布布的的图图形形,实实际际上上是是用用矩矩形形的的面面积积来来表表示示各各组的频数分布组
24、的频数分布2.2.在在直直角角坐坐标标中中,用用横横轴轴表表示示数数据据分分组组,纵纵轴轴表表示示频频率率/组组距距,各各组组与与相相应应的的频频率率/组距就形成了一个矩形,即直方图组距就形成了一个矩形,即直方图3.3.直方图下的总面积等于直方图下的总面积等于1 1第46页,共53页,编辑于2022年,星期二分组数据的图示(直方图的绘制)140140 150150210210直方图下的面直方图下的面直方图下的面直方图下的面积之和等于积之和等于积之和等于积之和等于1 1某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图我我一一眼眼就就
25、看看出出来来了了,销销售售量量在在170170180180之之间的天数最多间的天数最多!190190 200200180180160160 170170(1/1200(1/1200(1/1200天天天天天天)25252020151510105 53030220220 230230 240240第47页,共53页,编辑于2022年,星期二分组数据折线图(frequency polygon)1.1.折线图也称频数多边形图折线图也称频数多边形图2.2.是是在在直直方方图图的的基基础础上上,把把直直方方图图顶顶部部的的中中点点(组组中中值值)用用直直线线连连接接起起来来,再再把把原原来来的的直方图抹掉
26、直方图抹掉3.3.折折线线图图的的两两个个终终点点要要与与横横轴轴相相交交,具具体体的的做法是做法是第第一一个个矩矩形形的的顶顶部部中中点点通通过过竖竖边边中中点点(即即该该组组频频数数一一半半的的位位置置)连连接接到到横横轴轴,最最后后一一个个矩形顶部中点与其竖边中点连接到横轴矩形顶部中点与其竖边中点连接到横轴折折线线图图下下所所围围成成的的面面积积与与直直方方图图的的面面积积相相等等,二者所表示的频数分布是一致的二者所表示的频数分布是一致的第48页,共53页,编辑于2022年,星期二分组数据的图示(折线图的绘制)折线图与直方图折线图与直方图折线图与直方图折线图与直方图下的面积相等!下的面积
27、相等!下的面积相等!下的面积相等!140140150150210210某电脑公司销售量分布的折线图某电脑公司销售量分布的折线图某电脑公司销售量分布的折线图某电脑公司销售量分布的折线图190190 200200180180160160170170220220230230240240(1/1200(1/1200(1/1200天天天天天天)25252020151510105 53030第49页,共53页,编辑于2022年,星期二STATISTICASTATISTICA未未分组数据分组数据茎叶图茎叶图第50页,共53页,编辑于2022年,星期二未分组数据茎叶图(stem-and-leaf displa
28、y)1.1.用于显示未分组的原始数据的分布用于显示未分组的原始数据的分布2.2.由由“茎茎”和和“叶叶”两部分构成,其图形是由数字组成的两部分构成,其图形是由数字组成的3.3.以该组数据的高位数值作树茎,低位数字作树叶以该组数据的高位数值作树茎,低位数字作树叶4.4.树叶上只保留一位数字树叶上只保留一位数字5.5.对于对于n(20n(20 n n 300)300)个数据,茎叶图最大行数不超过个数据,茎叶图最大行数不超过 L L=10 lg(=10 lg(n n)6.6.茎叶图类似于横置的直方图,但又有区别茎叶图类似于横置的直方图,但又有区别直直方方图图可可观观察察一一组组数数据据的的分分布布状状况况,但但没没有有给给出出具体的数值具体的数值茎茎叶叶图图既既能能给给出出数数据据的的分分布布状状况况,又又能能给给出出每每一一个原始数值,保留了原始数据的信息个原始数值,保留了原始数据的信息第51页,共53页,编辑于2022年,星期二未分组数据茎叶图(例题分析)第52页,共53页,编辑于2022年,星期二未分组数据茎叶图(扩展的茎叶图)第53页,共53页,编辑于2022年,星期二