《数据的搜集与整理 .ppt》由会员分享,可在线阅读,更多相关《数据的搜集与整理 .ppt(42页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、管 理 学 院王雪华副教授第二章、数据的搜集与整理第二章、数据的搜集与整理 统计工作总是从收集资料开始的,但由于统计工作总是从收集资料开始的,但由于生产和实践过程中收集到的资料和数据往生产和实践过程中收集到的资料和数据往往是分散的,而且从表面上看不出有什么往是分散的,而且从表面上看不出有什么规律性,也不能说明任何问题,必须经过规律性,也不能说明任何问题,必须经过整理和归纳后,这一批数据所遵循的规律整理和归纳后,这一批数据所遵循的规律才能显露出来,方可得出有意义的统计结才能显露出来,方可得出有意义的统计结论。论。数据的收集数据的收集数据的整理数据的整理管 理 学 院王雪华副教授数据的收集数据的收
2、集从理论上讲,进行大量观测、试验,从理论上讲,进行大量观测、试验,就可以清楚地掌握随机现象的统计规就可以清楚地掌握随机现象的统计规律。但有时大量试验客观上是不允许律。但有时大量试验客观上是不允许的(如破坏性试验),这时只能得到的(如破坏性试验),这时只能得到有限的,甚至是很少的数据,以什么有限的,甚至是很少的数据,以什么样的方式收集资料更为有效?样的方式收集资料更为有效?抽样抽样管 理 学 院王雪华副教授 例子:例子:国家医护协会对于医护专业未来护士国家医护协会对于医护专业未来护士的缺乏十分关注。为了了解现阶段护士们对于工的缺乏十分关注。为了了解现阶段护士们对于工作的满意程度,该协会发起了一向
3、对全国的医院作的满意程度,该协会发起了一向对全国的医院护士的调查研究。作为研究的一部分,一个由护士的调查研究。作为研究的一部分,一个由50名护士组成的小组被要求写出她们对工作、工资名护士组成的小组被要求写出她们对工作、工资和升职机会的满意程度和升职机会的满意程度(见表一)(见表一)抽样抽样管 理 学 院王雪华副教授几个概念几个概念总体(population):全国的医院护士-研究对象的全体/或研究对象的某项数量指标X的值的全体。一般用X表示。样本(sample):被抽到的这50名护士-总体中抽出若干个体所组成的集合。一般用X1X2Xn表示一个样本容量为n的样本。管 理 学 院王雪华副教授抽样的
4、目的!抽样的目的!1.总体?总体?全体医护人员对全体医护人员对工作的满意度工作的满意度3.这这50 名护士对名护士对工作的满意度工作的满意度资料资料2.样本!样本!被抽到的被抽到的50名名护士护士4.将样本的结论将样本的结论推广到总体上推广到总体上管 理 学 院王雪华副教授抽样抽样抽样调查中应当注意的问题抽样调查中应当注意的问题抽样方法的优点抽样方法的优点抽样方法抽样方法抽样调查的应用抽样调查的应用管 理 学 院王雪华副教授抽样方法的优点抽样方法的优点费用较低费用较低速度较快速度较快应用范围较广应用范围较广准确度较高准确度较高管 理 学 院王雪华副教授费用较低费用较低 如果数据是从总体的一个很
5、小的如果数据是从总体的一个很小的部分取得,那么他的费用就比普部分取得,那么他的费用就比普查小。在美国,政府说进行的最查小。在美国,政府说进行的最重要的经常性调查,使用的样本重要的经常性调查,使用的样本在在105,000人左右,或者说大约人左右,或者说大约从从1240人中抽取一个人。在市场人中抽取一个人。在市场研究中,可能只要对几千人的样研究中,可能只要对几千人的样本进行调查。本进行调查。管 理 学 院王雪华副教授速度较快速度较快 收集和综合样本资料要比收集和收集和综合样本资料要比收集和综合全面调查的资料更快些。在综合全面调查的资料更快些。在迫切需要有关的信息时,考虑这迫切需要有关的信息时,考虑
6、这一点是极为重要的。一点是极为重要的。管 理 学 院王雪华副教授应用范围较广应用范围较广 就能取得的信息的种类来说,就能取得的信息的种类来说,抽样调查可以发挥作用的范抽样调查可以发挥作用的范围更为宽广,而且具有更大围更为宽广,而且具有更大的灵活性。的灵活性。管 理 学 院王雪华副教授准确度较高准确度较高 在工作量减少以后,由于能雇用在工作量减少以后,由于能雇用质量较高的工作人员并对他们进质量较高的工作人员并对他们进行深入的训练,还由于实地调查行深入的训练,还由于实地调查工作可以受到更仔细的检查监督,工作可以受到更仔细的检查监督,调查资料的处理页能够完成,因调查资料的处理页能够完成,因此与可能进
7、行的全面调查相比,此与可能进行的全面调查相比,抽样调查可能取得更准确的结果。抽样调查可能取得更准确的结果。管 理 学 院王雪华副教授抽样调查的应用抽样调查的应用 联合国统计局经常发表由成员国进行联合国统计局经常发表由成员国进行的的“当前所关心的的情况的抽样调查当前所关心的的情况的抽样调查(Sample Surveys of Current Interest)”报报告。告。1968年的报告就列出了年的报告就列出了46个国家个国家的调查。这些调查很多是为了收集对的调查。这些调查很多是为了收集对国家计划显然很重要的情报,例如农国家计划显然很重要的情报,例如农产品产量、土地使用情况、劳动力的产品产量、
8、土地使用情况、劳动力的多少与失业人数、工业生产、批发与多少与失业人数、工业生产、批发与零售价格、人民健康情况与家庭的收零售价格、人民健康情况与家庭的收支等等。支等等。管 理 学 院王雪华副教授抽样调查的应用抽样调查的应用 离婚的原因(匈牙利),家庭用水的消耗离婚的原因(匈牙利),家庭用水的消耗量(以色列),乳牛的年龄结构(捷克)量(以色列),乳牛的年龄结构(捷克)以及职位空缺情况(美国)。在美国,大以及职位空缺情况(美国)。在美国,大多数的大城市中都有商业性的机构从事为多数的大城市中都有商业性的机构从事为顾客设计和进行抽样调查的业务。市场研顾客设计和进行抽样调查的业务。市场研究在很大程度上依赖
9、于抽样方法。工厂主究在很大程度上依赖于抽样方法。工厂主与零售商要知道人们对新产品的包装方法与零售商要知道人们对新产品的包装方法的反应,对老产品的批评以及他们喜爱这的反应,对老产品的批评以及他们喜爱这一种产品,不喜爱另一种产品的原因。一种产品,不喜爱另一种产品的原因。管 理 学 院王雪华副教授抽样调查中应当注意的问题抽样调查中应当注意的问题要更据调查的目的确定合理的要更据调查的目的确定合理的调查总体调查总体明确待收集的数据都与调查目明确待收集的数据都与调查目的有关并且没有遗漏基本数据的有关并且没有遗漏基本数据根据精度要求,选择恰当的抽根据精度要求,选择恰当的抽样方法和方案。事先对所需费样方法和方
10、案。事先对所需费用和时间加以估计,在小范围用和时间加以估计,在小范围内预先试验,改进方案。内预先试验,改进方案。有效组织现场实地的调查工作。有效组织现场实地的调查工作。管 理 学 院王雪华副教授抽样方法抽样方法1 简单随机抽样(独立的、有代表性简单随机抽样(独立的、有代表性的、等可能性的)的、等可能性的)简单随机抽样也叫完全随机抽样,它是简单随机抽样也叫完全随机抽样,它是在无限总体中进行的无放回独立或在有在无限总体中进行的无放回独立或在有限总体中进行的有放回随机抽样。任一限总体中进行的有放回随机抽样。任一样本被抽取的概率都是相等的情况,像样本被抽取的概率都是相等的情况,像平时的抽签,借助随机表
11、进行的抽样等平时的抽签,借助随机表进行的抽样等就是简单随机抽样。就是简单随机抽样。-不重复抽样与重复抽样之分不重复抽样与重复抽样之分管 理 学 院王雪华副教授抽样方法抽样方法2 分层抽样分层抽样 将总体中的成员按某种原则划分成将总体中的成员按某种原则划分成若干个子总体,每个子总体称为一若干个子总体,每个子总体称为一层,在每层中进行简单随机抽样或层,在每层中进行简单随机抽样或其它抽样,称为分层抽样。分层抽其它抽样,称为分层抽样。分层抽样适用于调查既需要对总体又需要样适用于调查既需要对总体又需要对局部进行估计的情况。如调查大对局部进行估计的情况。如调查大连市民的收入情况。连市民的收入情况。(当层内
12、差异比(当层内差异比较小,而层间差异比较大时,分层抽样较小,而层间差异比较大时,分层抽样可以提高估计的精度。)可以提高估计的精度。)-不重复抽样与重复抽样之分不重复抽样与重复抽样之分管 理 学 院王雪华副教授抽样方法抽样方法3 整群抽样整群抽样 将总体中的成员分为若干群,从这些群将总体中的成员分为若干群,从这些群中抽取部分群,调查对象是被抽中的这中抽取部分群,调查对象是被抽中的这些群中的所有成员。如民主选举前的民些群中的所有成员。如民主选举前的民意测验。(当群内差异比较大,而群间意测验。(当群内差异比较大,而群间差异比较小时,整群抽样比较准确差异比较小时,整群抽样比较准确)4 系统抽样系统抽样
13、 等距抽样等距抽样.准确性差准确性差 将总体中的调查单位按某种次序排序,将总体中的调查单位按某种次序排序,随机地选定初始单位,然后按相等的间随机地选定初始单位,然后按相等的间距抽取其它样本单位。(要求对调查单位距抽取其它样本单位。(要求对调查单位的排序次序必须进行细致研究)的排序次序必须进行细致研究)-不重复抽样与重复抽样之分不重复抽样与重复抽样之分管 理 学 院王雪华副教授数据的整理数据的整理 为了探寻大量观测的样本数为了探寻大量观测的样本数据中所隐藏的统计关系,有必据中所隐藏的统计关系,有必要对数据加以整理和归纳。要对数据加以整理和归纳。数据的描述性指标数据的描述性指标 图、表图、表表示表
14、示管 理 学 院王雪华副教授数据的描述性指标数据的描述性指标例子:某班例子:某班30名名MBA 学生的年龄按学生的年龄按上升顺序排列为:上升顺序排列为:2727 28 28 28 28 29 29 29 29 30 30 30 30 30 31 31 31 31 31 32 32 33 33 33 33 34 34 34 35。数据集中趋势的度量数据集中趋势的度量数据离散趋势的度量数据离散趋势的度量管 理 学 院王雪华副教授数据集中趋势的度量数据集中趋势的度量众数众数#30,31;中数中数#-30.5;平均数平均数#-30.67;上四分位数上四分位数#-x23;下四分位数下四分位数#-x827
15、 27 28 28 28 28 29 29 29 29 30 30 30 30 30 31 31 31 31 31 32 32 33 33 33 33 34 34 34 35。管 理 学 院王雪华副教授数据离散趋势的度量数据离散趋势的度量极差极差R#(全距)(全距)-8;两极的差两极的差方差方差S2#-5;公式为公式为标准差标准差S2.25;方差开平方方差开平方四分位差四分位差2;上下四分位数的差的一半上下四分位数的差的一半27 27 28 28 28 28 29 29 29 29 30 30 30 30 30 31 31 31 31 31 32 32 33 33 33 33 34 34 34
16、 35。管 理 学 院王雪华副教授众数众数众数众数-就是出现次数最多的数就是出现次数最多的数(众数可以不唯一(众数可以不唯一,也可以不存在。)也可以不存在。)27 27 28 28 28 28 29 29 29 29 30 30 30 30 30 31 31 31 31 31 32 32 33 33 33 33 34 34 34 35。管 理 学 院王雪华副教授中数中数中数(中位数)中数(中位数)-将数据按从将数据按从小到大的顺序排列后,位置小到大的顺序排列后,位置居中的数。居中的数。(偶数个数据时,将中偶数个数据时,将中间两个数平均间两个数平均)27 27 28 28 28 28 29 29
17、 29 29 30 30 30 30 30 31 31 31 31 31 32 32 33 33 33 33 34 34 34 35。管 理 学 院王雪华副教授上四分位数上四分位数上四分位数上四分位数-将数据按从小到大将数据按从小到大的顺序排列后分别记为:的顺序排列后分别记为:x1,x2,x3,xn ,则,则xi为上四为上四分位数,其中分位数,其中i=n3/4 =23 27 27 28 28 28 28 29 29 29 29 30 30 30 30 30 31 31 31 31 31 32 32 33 33 33 33 34 34 34 35。管 理 学 院王雪华副教授下四分位数下四分位数下
18、四分位数下四分位数-将数据按从小到大将数据按从小到大的顺序排列后分别记为:的顺序排列后分别记为:x1,x2,x3,xn ,则,则xi为下四为下四分位数,其中分位数,其中i=n1/4 =8 27 27 28 28 28 28 29 29 29 29 30 30 30 30 30 31 31 31 31 31 32 32 33 33 33 33 34 34 34 35。管 理 学 院王雪华副教授*两个重要的样本指标两个重要的样本指标*样本均值样本均值X#样本方差样本方差S2#管 理 学 院王雪华副教授SamplesSamples A 1992 survey conducted by the Fou
19、ndation for Women and Center Policy Awareness asked married working women to identify the factors that would contribute most to improved family life.more flexible hours 272 higher pay 208 more help at home 120 better day care 56 nothing 144管 理 学 院王雪华副教授样本均值样本均值x x n n为样本容量为样本容量,反映样本数据的反映样本数据的集中程度。显然
20、它随样本而变化,集中程度。显然它随样本而变化,因此因此是随机变量是随机变量。样本均值样本均值x x=管 理 学 院王雪华副教授样本均值样本均值x x的分布的分布#根据中心极限定理:根据中心极限定理:来自于正态总体来自于正态总体N(,N(,2 2)的样本均值的样本均值标准化得到:标准化得到:管 理 学 院王雪华副教授样本方差样本方差s s2 2的分布的分布样本方差样本方差S S2 2=它反映样本数据的分散程度,显然他随它反映样本数据的分散程度,显然他随样本而变化样本而变化,也是随机变量。也是随机变量。2 2(n-1)(n-1)管 理 学 院王雪华副教授*统计量统计量#*#*设设X1,X2,Xn是
21、来自于总体是来自于总体X的一个样本,的一个样本,g(X1,X2,Xn)是关于是关于X1,X2,Xn的函数,若的函数,若连续、且不含有任何未知参数,则称连续、且不含有任何未知参数,则称g(X1,X2,Xn)为一个统计量。为一个统计量。(统计量是指由样本确定的不含有其它未知数的(统计量是指由样本确定的不含有其它未知数的函数)如样本平均函数)如样本平均X,样本方差样本方差S2等等管 理 学 院王雪华副教授*统计量例子统计量例子*设总体设总体XN(,2),已知均值,已知均值,而方差,而方差2未知。未知。X1,X2,X3为来自总体的一个样本为来自总体的一个样本,指出以下哪些是统计量:,指出以下哪些是统计
22、量:(A)X1+3X2+2 (B)X1+2(C)maxX1,X2,X3(D)X1(E)X (F)S2答案答案:B B、C C、D D、E E、F F管 理 学 院王雪华副教授*综合例子综合例子*1。设总体设总体XN(1,4),,求,求P(0X 2)和和P(0X 2),其中,其中,X为样本容量为为样本容量为16的的样本均值样本均值.2。在总体在总体XN(80,202)中随机抽取一容中随机抽取一容量为量为100的样本,为样本平均值与总体的样本,为样本平均值与总体均值的差的绝对值大于均值的差的绝对值大于3的概率的概率?管 理 学 院王雪华副教授*综合例子综合例子*3。已知某工厂的次品率为。已知某工厂
23、的次品率为1%,设从一,设从一大批该厂生产的产品中随机地抽取一大批该厂生产的产品中随机地抽取一个容量为个容量为500的样本,令的样本,令X为该样本的为该样本的次品率,则次品率,则X近似地服从什么分布?为近似地服从什么分布?为什么?什么?结束结束下一章下一章管 理 学 院王雪华副教授美国军用标准美国军用标准无论在任何国家或地区无论在任何国家或地区,其政府必然其政府必然是最大的买家(消费者)是最大的买家(消费者),美国更是美国更是如此。美国的国防部财力雄厚如此。美国的国防部财力雄厚,购买购买的物品种类五花八门:上至大型电的物品种类五花八门:上至大型电脑、飞弹、穿梭机等,下至灯泡、脑、飞弹、穿梭机等
24、,下至灯泡、衣物、文具等,多姿多彩。真可谓衣物、文具等,多姿多彩。真可谓是制造者必争之顾客。是制造者必争之顾客。管 理 学 院王雪华副教授美国军用标准美国军用标准这个顾客不同一般这个顾客不同一般,其地位相当其地位相当优越优越,主动订下其对产品品质的主动订下其对产品品质的要求要求,编就了一本本的小册子编就了一本本的小册子,皆皆命名为命名为Military Standard(MIL-STD),其中包括所需产品的质,其中包括所需产品的质量标准、原材料要求和要求的量标准、原材料要求和要求的可靠度等。可靠度等。管 理 学 院王雪华副教授美国军用标准美国军用标准例如:例如:MIL-STD-001可能是关于
25、可能是关于军靴的质量要求军靴的质量要求,MIL-STD-002可可能是关于水性笔的质量要求等能是关于水性笔的质量要求等.等编到等编到105册的时候册的时候,他们认为有他们认为有必要制定允许接受抽样标准必要制定允许接受抽样标准.MIL-STD-105定名为定名为“Sampling Procedures and Table for Inspection by Attributes”管 理 学 院王雪华副教授美国军用标准美国军用标准这是一个抽样系统这是一个抽样系统,它的最大特它的最大特点就是每次选取的不是一个而点就是每次选取的不是一个而是一套三个的抽样计划是一套三个的抽样计划Normal Stand
26、ard、Tightened Standard 和和Reduced Standard。例如:。例如:Normal Standard50(5/6),),Tightened Standard 50(3/4),),Reduced Standard 20(2/5)。)。管 理 学 院王雪华副教授美国军用标准美国军用标准这套法则是这样的:这套法则是这样的:(1)在交易的初期,使用正常)在交易的初期,使用正常验收计划;验收计划;(2)在使用正常计划的日子里)在使用正常计划的日子里,假如某连续送验的五批之中假如某连续送验的五批之中,有两批被拒收有两批被拒收,则买家依合同则买家依合同转而使用收紧验收计划转而使用
27、收紧验收计划;管 理 学 院王雪华副教授美国军用标准美国军用标准(3)在使用收紧计划的日子里)在使用收紧计划的日子里,假如有连续送验的五批都被接假如有连续送验的五批都被接收收,则买家有义务恢复使用正常则买家有义务恢复使用正常计划计划;(4)在使用收紧计划的日子里在使用收紧计划的日子里,假假如连续十批的表现都未能唤回如连续十批的表现都未能唤回正常允许接收标准正常允许接收标准,那么买家有那么买家有权终止合同权终止合同;管 理 学 院王雪华副教授美国军用标准美国军用标准(5)从开头起从开头起,假如连续十批都假如连续十批都在正常标准下被接收了在正常标准下被接收了,则改用则改用放宽标准的验收计划放宽标准
28、的验收计划;(6)在使用正常计划的日子里在使用正常计划的日子里,从每拒收一批起从每拒收一批起,假如连续假如连续14批批都被接收都被接收,则改用放宽标准的验则改用放宽标准的验收计划收计划;管 理 学 院王雪华副教授美国军用标准美国军用标准(7)在使用放宽计划的日子里在使用放宽计划的日子里,只只要有一个抽中的样本中含有多于允要有一个抽中的样本中含有多于允许接收数目的次品许接收数目的次品,则改用正常标则改用正常标准的验收计划准的验收计划;被美国政府各部门采用,并成为与被美国政府各部门采用,并成为与供应商所定的长期合同的一部分。供应商所定的长期合同的一部分。因此大小供应商均要对此有所了解因此大小供应商均要对此有所了解和认识。和认识。