《02数据收集(精品).ppt》由会员分享,可在线阅读,更多相关《02数据收集(精品).ppt(22页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、统计学从数据到结论第二章数据的收集2.1 数据是怎样得到的?数据是怎样得到的?可从报纸、电视、互联网、可从报纸、电视、互联网、年鉴等方面看到各种数据年鉴等方面看到各种数据并且从这些数据可以提取对并且从这些数据可以提取对自己有用的信息。自己有用的信息。这些间接得到的(并非自己这些间接得到的(并非自己收集的)数据都是二手数据。收集的)数据都是二手数据。2.1 数据是怎样得到的?数据是怎样得到的?获得第一手数据要困难得多获得第一手数据要困难得多某方便面企业每年至少花三四某方便面企业每年至少花三四千万元来收集和分析数据千万元来收集和分析数据调查其产品及竞争者在市场中调查其产品及竞争者在市场中的状况、各
2、种类型消费者对其的状况、各种类型消费者对其产品的态度、收集各地方的经产品的态度、收集各地方的经济交通等信息等等济交通等信息等等2.1 数据是怎样得到的?数据是怎样得到的?他们如同间谍,收集各种情他们如同间谍,收集各种情报报他们很舍得在这方面花钱。他们很舍得在这方面花钱。因为市场信息数据是企业生因为市场信息数据是企业生存所必需的,绝不是可有可存所必需的,绝不是可有可无的。无的。2.1 数据是怎样得到的?数据是怎样得到的?在自然的未被控制的条件下观测在自然的未被控制的条件下观测到的数据,称为到的数据,称为观测数据观测数据(observational data)。在人工干预和操作情况下收集的在人工干
3、预和操作情况下收集的数据就称为数据就称为试验数据试验数据(experimental data)。同学们自己可以举出大量的观测同学们自己可以举出大量的观测数据和试验数据的例子数据和试验数据的例子2.2 个体、总体和样本个体、总体和样本需要调查北京市民对交通规则需要调查北京市民对交通规则的观点;的观点;对象对象是所有市民,是所有市民,目的是希望知道市民中对该问目的是希望知道市民中对该问题的不同看法各自占有的比例题的不同看法各自占有的比例显然,不可能去问所有的北京显然,不可能去问所有的北京市民,而只能够问一部分;市民,而只能够问一部分;并且根据这一部分的观点来理并且根据这一部分的观点来理解整个北京市
4、民的总体观点。解整个北京市民的总体观点。2.2 个体、总体和样本个体、总体和样本在这个例子中,单个北京市民在这个例子中,单个北京市民的的观点观点称为称为个体个体(element)所有所有北京市民对这个问题的北京市民对这个问题的观观点点为一个为一个总体总体(population),总体是包含所有要研究的个体总体是包含所有要研究的个体的集合的集合。2.2 个体、总体和样本个体、总体和样本而调查时问到的那部分市民的而调查时问到的那部分市民的观点(也就是部分个体)称为观点(也就是部分个体)称为该总体的该总体的一个样本一个样本(sample),是总体的一部分。是总体的一部分。也有可能试图调查所有的人也有
5、可能试图调查所有的人(比如人口普查),那叫做(比如人口普查),那叫做普普查查(census)。2.2 个体、总体和样本个体、总体和样本在抽取样本时,如果总体中的在抽取样本时,如果总体中的每一个体都有同等机会被选到每一个体都有同等机会被选到样本中,这种抽样称为样本中,这种抽样称为简单随简单随机抽样(机抽样(simple random sampling),),而这样得到的样本则称为而这样得到的样本则称为随机随机样本(样本(random sample)。)。2.2 个体、总体和样本个体、总体和样本如果总体是一锅八宝粥,随机如果总体是一锅八宝粥,随机样本则是充分搅拌后的八宝粥样本则是充分搅拌后的八宝粥
6、中的任意一勺中的任意一勺该勺中的八宝粥的成分比例应该勺中的八宝粥的成分比例应该和整个一锅粥类似该和整个一锅粥类似搅拌越充分,样本的代表性也搅拌越充分,样本的代表性也越好越好2.3 收集数据时的误差收集数据时的误差一勺八宝粥中的成分比例和整一勺八宝粥中的成分比例和整锅不尽相同,可能稍微多些或锅不尽相同,可能稍微多些或稍微少些。这是很正常的,因稍微少些。这是很正常的,因为样本的特征不一定和总体完为样本的特征不一定和总体完全一样全一样这种差异不是错误,而是必然这种差异不是错误,而是必然会出现的会出现的抽样误差(抽样误差(sampling error)。)。2.3 收集数据时的误差收集数据时的误差抽样
7、调查中,人们因为种种原抽样调查中,人们因为种种原因没有对调查做出反映,这种因没有对调查做出反映,这种误差称为误差称为未响应误差未响应误差(nonresponse error)。一些人因为各种原因回答时并一些人因为各种原因回答时并没有真实反映他们的观点,这没有真实反映他们的观点,这称为称为响应误差(响应误差(response error)。2.3 收集数据时的误差收集数据时的误差和抽样误差不一样,未响应和抽样误差不一样,未响应误差和响应误差都会影响对误差和响应误差都会影响对真实世界的了解真实世界的了解应该在设计调查方案时和进应该在设计调查方案时和进行调查过程中尽量避免行调查过程中尽量避免2.4
8、抽样调查时获得数据的一些常用方法抽样调查时获得数据的一些常用方法在抽样调查时,最理想的样本在抽样调查时,最理想的样本是随机样本。但是实践起来不是随机样本。但是实践起来不方便方便在大规模调查时一般不用全部在大规模调查时一般不用全部随机抽样的方式,而只是在局随机抽样的方式,而只是在局部采用随机抽样的方法。部采用随机抽样的方法。2.4 抽样调查时获得数据的一些常用方法抽样调查时获得数据的一些常用方法下面介绍的几种抽样方法没有下面介绍的几种抽样方法没有深奥的理论;读者完全可以根深奥的理论;读者完全可以根据常识判断在什么情况下获取据常识判断在什么情况下获取简单的随机样本不方便以及每简单的随机样本不方便以
9、及每个方法有什么好处和缺陷。个方法有什么好处和缺陷。实际上,一般仅有少数人有机实际上,一般仅有少数人有机会来确定抽样方案。读者仅需会来确定抽样方案。读者仅需把这些方法当成常识来了解就把这些方法当成常识来了解就可以了(或者跳过这部分)可以了(或者跳过这部分)2.4 抽样调查时获得数据的一些常用方法抽样调查时获得数据的一些常用方法分层抽样分层抽样(stratified sampling)。这是先把要研究的总体按照某些这是先把要研究的总体按照某些性质分性质分类(类(stratum),再在各类,再在各类中分别抽取样本。中分别抽取样本。比如,按教育程度把感兴趣的人比如,按教育程度把感兴趣的人群分成几类;
10、再在每一类中调查群分成几类;再在每一类中调查和该类成比例数目的人,以确保和该类成比例数目的人,以确保每一类都有相应比例的代表。每一类都有相应比例的代表。2.4 抽样调查时获得数据的一些常用方法抽样调查时获得数据的一些常用方法整群抽样(整群抽样(cluster sampling)先先把总体划分成若把总体划分成若干群(干群(cluster),再(通常是随机地)从这些群中再(通常是随机地)从这些群中抽取几群;然后再在这些抽取的抽取几群;然后再在这些抽取的群中对个体进行简单随机抽样。群中对个体进行简单随机抽样。比如,在某县进行调查,首先在比如,在某县进行调查,首先在所有村中选取若干村子,然后只所有村中
11、选取若干村子,然后只对这些选中的村子的人进行调查。对这些选中的村子的人进行调查。如果各村情况差异不大,这种抽如果各村情况差异不大,这种抽样还是方便的。样还是方便的。2.4 抽样调查时获得数据的一些常用方法抽样调查时获得数据的一些常用方法多级抽样多级抽样(multistage sampling)。在群体很大时,往往在抽取若干群之在群体很大时,往往在抽取若干群之后,再在其中抽取若干子群,甚至再后,再在其中抽取若干子群,甚至再在子群中抽取子群,等等。最后只对在子群中抽取子群,等等。最后只对最后选定的最下面一级进行调查。最后选定的最下面一级进行调查。比如在全国调查时,先抽取省,再抽比如在全国调查时,先
12、抽取省,再抽取市地,再抽取县区,再抽取乡、村取市地,再抽取县区,再抽取乡、村直到户。每一级都可能采取各种抽样直到户。每一级都可能采取各种抽样方法。也称为多级混和型抽样。方法。也称为多级混和型抽样。2.4 抽样调查时获得数据的一些常用方法抽样调查时获得数据的一些常用方法系统抽样(系统抽样(systematic sampling)。这是先把总体中的每个单元编号,然这是先把总体中的每个单元编号,然后随机选取其中之一作为抽样的开始后随机选取其中之一作为抽样的开始点进行抽样。点进行抽样。在选取开始点之后,通常从开始点开在选取开始点之后,通常从开始点开始按照编号进行所谓等距抽样;也就始按照编号进行所谓等距
13、抽样;也就是说,如果开始点为是说,如果开始点为5号,号,“距离距离”为为10,则下面的调查对象为,则下面的调查对象为15号、号、25号等等。号等等。不难想象,如果编号是随机选取的,不难想象,如果编号是随机选取的,则这和简单随机抽样是等价的。则这和简单随机抽样是等价的。附:随机数的产生附:随机数的产生大小为大小为N的总体中产生样本量为的总体中产生样本量为n的随机样本的一个常用的方法是的随机样本的一个常用的方法是利用利用随机数(随机数(random number)利用随机数步骤为:利用随机数步骤为:(1)把总体的把总体的所有个体编号;所有个体编号;(2)产生产生n个在个在0到到N之间的随机数;之间
14、的随机数;(3)与如此产生与如此产生的随机数中的数目相同的个体则的随机数中的数目相同的个体则形成了样本量为形成了样本量为n的简单随机样本。的简单随机样本。附:随机数的产生附:随机数的产生最原始的办法是掷一种正最原始的办法是掷一种正20面体的均面体的均匀材料制成的骰子,标有两套匀材料制成的骰子,标有两套0到到9的的数字。每次产生一个数字。每次产生一个0到到9的数字。的数字。另一种是查阅随机数表。在一些传统另一种是查阅随机数表。在一些传统的统计教科书后可以找到随机数表;的统计教科书后可以找到随机数表;也有专门的随机数表的册子也有专门的随机数表的册子今天,多用计算机产生的今天,多用计算机产生的伪随机数伪随机数(pseudo-random number)来代来代替真正的随机数替真正的随机数