统计学之数据的收集与整理37014.pptx

上传人:jix****n11 文档编号:90078896 上传时间:2023-05-13 格式:PPTX 页数:46 大小:1MB
返回 下载 相关 举报
统计学之数据的收集与整理37014.pptx_第1页
第1页 / 共46页
统计学之数据的收集与整理37014.pptx_第2页
第2页 / 共46页
点击查看更多>>
资源描述

《统计学之数据的收集与整理37014.pptx》由会员分享,可在线阅读,更多相关《统计学之数据的收集与整理37014.pptx(46页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、本资料来源2 数据数据的收集与整理的收集与整理21 21 数据的收集数据的收集 一、调查方案的设计一、调查方案的设计一、调查目的一、调查目的“为什么调查为什么调查”。二、研究对象、调查对象、调查单位二、研究对象、调查对象、调查单位“向谁调查向谁调查”。三、调查项目三、调查项目“调查什么调查什么”。四、调查方式和方法四、调查方式和方法“怎样调查怎样调查”。五、调查地点和调查时间五、调查地点和调查时间“什么时间、什么地点什么时间、什么地点”。六、组织计划(具体工作计划)六、组织计划(具体工作计划)“谁做调查谁做调查”等等。等等。案例:案例:调研可以增加商战的胜算,而失败的调研对企业来说是一场噩梦。

2、调研可以增加商战的胜算,而失败的调研对企业来说是一场噩梦。上海柴氏宠物食品公司为一次市场调查付出了三十几万元的代价。拿到上海柴氏宠物食品公司为一次市场调查付出了三十几万元的代价。拿到错误的数据不如没有数据。错误的数据不如没有数据。2004 2004年底,为了能提高产品在宠物食品市场的竞争力,以前做生意年底,为了能提高产品在宠物食品市场的竞争力,以前做生意一贯靠经验的柴远森先生决定为产品设计做消费调查。一贯靠经验的柴远森先生决定为产品设计做消费调查。为了能够了解更多的消费信息,柴先生设计了精细的问卷,在上海为了能够了解更多的消费信息,柴先生设计了精细的问卷,在上海选择了选择了10001000个样

3、本,并且保证所有的抽样在超级市场的宠物组购物人群个样本,并且保证所有的抽样在超级市场的宠物组购物人群中产生,内容涉及:价格、包装、食量、周期、口味、配料等中产生,内容涉及:价格、包装、食量、周期、口味、配料等6 6大方面,大方面,覆盖了所能想到的全部因素。覆盖了所能想到的全部因素。2005 2005年初,上海柴氏的新配方、新包装狗粮产品上市了,短暂的旺年初,上海柴氏的新配方、新包装狗粮产品上市了,短暂的旺销持续了一星期,随后就是全面萧条,后来产品在一些渠道甚至遭到了销持续了一星期,随后就是全面萧条,后来产品在一些渠道甚至遭到了抵制。抵制。20052005年年2 2月初,新产品被迫从终端撤回,产

4、品革新宣布失败。月初,新产品被迫从终端撤回,产品革新宣布失败。公司请了十多个新产品的购买者回来座谈,原来,他们拒绝再次购买公司请了十多个新产品的购买者回来座谈,原来,他们拒绝再次购买的原因是宠物不喜欢吃。产品的最终消费者并不是的原因是宠物不喜欢吃。产品的最终消费者并不是“人人”,人只是一个购买,人只是一个购买者,错误的市场调查方向,决定了调查结论的局限,甚至荒谬。者,错误的市场调查方向,决定了调查结论的局限,甚至荒谬。u 调查的标准时间:资料所属的时间。调查的标准时间:资料所属的时间。时点资料时点资料时期资料时期资料u 调查期限:调查的工作时间。调查期限:调查的工作时间。二、统计调查的方式和方

5、法二、统计调查的方式和方法统计调查的方式统计调查的方式统计报表统计报表普查普查重点调查重点调查抽样调查抽样调查统计调查的方法统计调查的方法 原始数据搜集方法原始数据搜集方法 次级数据搜集方法次级数据搜集方法典型调查典型调查优点:数据一般比较准确、规范化程度高;优点:数据一般比较准确、规范化程度高;搜集的资料更全面、更系统。搜集的资料更全面、更系统。缺点:工作量大、耗费大;缺点:工作量大、耗费大;适用的对象比较狭窄。适用的对象比较狭窄。基本原则:基本原则:确定普查的标准时间,避免遗漏或重复;确定普查的标准时间,避免遗漏或重复;登记工作应在整个普查范围内同时进行;登记工作应在整个普查范围内同时进行

6、;统一规定普查的项目和指标统一规定普查的项目和指标;历次普查应尽可能保持连贯性。历次普查应尽可能保持连贯性。是专门组织的一次性的全面调查。是专门组织的一次性的全面调查。普查(普查(census):):每逢末尾数字为每逢末尾数字为“1”“1”或或“6”“6”的年份进行基本单位普的年份进行基本单位普查)查)每逢末尾数字为每逢末尾数字为“0”“0”的年份进行人口普查;的年份进行人口普查;每逢末尾数字为每逢末尾数字为“3”“3”的年份进行第三产业普查;的年份进行第三产业普查;(每逢末尾数字为(每逢末尾数字为“5”“5”的年份进行工业普查;的年份进行工业普查;每逢末尾数字为每逢末尾数字为“6”“6”的年

7、份进行农业普查;的年份进行农业普查;我国的普查项目:我国的普查项目:每逢末尾数字为每逢末尾数字为“3”“3”或或“8”“8”的年份进行经的年份进行经济普查。济普查。特点:特点:经济性,节省人力、物力和财力;经济性,节省人力、物力和财力;时效性强,可迅速、及时地获取信息;时效性强,可迅速、及时地获取信息;适用面广,适用于对各个领域、各种问题的调查;适用面广,适用于对各个领域、各种问题的调查;准确性高,产生的误差可以计算和控制。准确性高,产生的误差可以计算和控制。抽样调查(抽样调查(samplingsurvey)定义:按照随机(或非随机)的原则,从总体中抽定义:按照随机(或非随机)的原则,从总体中

8、抽取一部分单位作为样本进行调查,并根据样本调查取一部分单位作为样本进行调查,并根据样本调查结果来推断总体数量特征的一种非全面调查方式。结果来推断总体数量特征的一种非全面调查方式。在佛州的选票最后决出之前,全美国在佛州的选票最后决出之前,全美国90009000多万张普选选票中,多万张普选选票中,民主党候选人阿尔民主党候选人阿尔.戈尔获得戈尔获得5050,140140,140140张选票,占张选票,占49%49%,乔治,乔治.布什获得布什获得4949,782782,288288张,占张,占48%48%。戈尔领先布什。戈尔领先布什357357,932932张选张选票;在全美国票;在全美国538538

9、张选举人票中,戈尔获得张选举人票中,戈尔获得267267张;布什获得张;布什获得246246张。张。此后,小布什在佛罗里达州此后,小布什在佛罗里达州600600多万张普选选票中以仅多出戈多万张普选选票中以仅多出戈尔尔537537张的优势获得该州的张的优势获得该州的2525张选举人票,当选美国总统。张选举人票,当选美国总统。20002000年美国大选年美国大选 2000 2000年,乔治年,乔治布什成为继布什成为继18881888年本杰明年本杰明哈里森之后第一哈里森之后第一位以少数选民票当选的总统。戈尔在全国大选中领先布什位以少数选民票当选的总统。戈尔在全国大选中领先布什3535万多万多票,但最

10、终结果却要由佛罗里达艰苦漫长的人工点票决定。大选票,但最终结果却要由佛罗里达艰苦漫长的人工点票决定。大选结束四周以后最高法院以结束四周以后最高法院以5 5:4 4决定停止佛州人工点票,将该州决定停止佛州人工点票,将该州2525张总统选举人票判给布什。张总统选举人票判给布什。20002000大选作为美国历史上最接近、最大选作为美国历史上最接近、最有争议和最奇特的选举而载入史册。有争议和最奇特的选举而载入史册。美国历史上的两次选举美国历史上的两次选举(一)(一)谁会在谁会在谁会在谁会在19361936年的选举中获胜年的选举中获胜年的选举中获胜年的选举中获胜?AlfLondonAlfLondon(兰

11、(兰(兰(兰登)还是登)还是登)还是登)还是 F.D.R.F.D.R.(罗斯福)(罗斯福)(罗斯福)(罗斯福)?Literary DigestLiterary Digest(文学文摘)送出一千万份问卷后,预测兰(文学文摘)送出一千万份问卷后,预测兰(文学文摘)送出一千万份问卷后,预测兰(文学文摘)送出一千万份问卷后,预测兰登会赢。而登会赢。而登会赢。而登会赢。而GallopGallop(盖洛普)只问了(盖洛普)只问了(盖洛普)只问了(盖洛普)只问了50005000人,说罗斯福会赢。人,说罗斯福会赢。人,说罗斯福会赢。人,说罗斯福会赢。最后罗斯福和盖洛普都赢了,文摘倒闭了。最后罗斯福和盖洛普都赢

12、了,文摘倒闭了。最后罗斯福和盖洛普都赢了,文摘倒闭了。最后罗斯福和盖洛普都赢了,文摘倒闭了。从结果来看,从结果来看,1936年的选举是美国历史上年的选举是美国历史上最没有悬念的选举。罗斯福以最没有悬念的选举。罗斯福以2775万张选票赢万张选票赢得了得了46个州,比对手兰登多个州,比对手兰登多1107万张选票,选万张选票,选举人票是举人票是523票对票对8票,罗斯福几乎赢得了所有票,罗斯福几乎赢得了所有25万人口以上的大中城市。万人口以上的大中城市。盖洛普将其成果归因于他们所采用的与传盖洛普将其成果归因于他们所采用的与传统抽样方法不同的配额抽样。应用这种方法,统抽样方法不同的配额抽样。应用这种方

13、法,盖洛普又成功地预测了盖洛普又成功地预测了1940年年1944年美国总统年美国总统大选的结果,其声名鹊起,几乎成为民意调查大选的结果,其声名鹊起,几乎成为民意调查的代名词。的代名词。美国历史上的两次选举美国历史上的两次选举(二)(二)谁会在谁会在1948选举中获胜选举中获胜?ThomasDewey(杜威)还是(杜威)还是HarryTruman(杜鲁门杜鲁门)?盖洛普等民调机构都用了盖洛普等民调机构都用了5000份问卷,都预测杜威会赢。份问卷,都预测杜威会赢。最后的结果是杜鲁门赢了。他获得最后的结果是杜鲁门赢了。他获得49.5%的普选票,的普选票,305张选举人票(张选举人票(2个选举人改变主

14、意,实际得到个选举人改变主意,实际得到303票);杜威票);杜威获得获得45.1%的普选票,的普选票,187张选举人票(张选举人票(2个选举人改变主意,个选举人改变主意,实际得到实际得到189票);州权党候选人瑟蒙德获得票);州权党候选人瑟蒙德获得2.4%的普选票和的普选票和39张选举人票;进步党候选人、前副总统华莱士获得张选举人票;进步党候选人、前副总统华莱士获得2.4%的的普选票,没有赢得任何一张选举人票。普选票,没有赢得任何一张选举人票。这个结果与盖洛普民意测验的结果正好相反。盖洛普最后这个结果与盖洛普民意测验的结果正好相反。盖洛普最后一次的预测是,杜威将赢得一次的预测是,杜威将赢得49

15、%的普选票,杜鲁门只能赢得的普选票,杜鲁门只能赢得44%。这也是历次盖洛普民意测验的最大误差。这也是历次盖洛普民意测验的最大误差几乎整整几乎整整5个百分点。个百分点。美美国国历历史史上上最最富富戏戏剧剧性性的的选选举举优点:调查单位少,人力、物力和财力花费少;优点:调查单位少,人力、物力和财力花费少;能及时获得有关的基本情况。能及时获得有关的基本情况。重点调查(重点调查(key-pointsurvey)定义:在研究对象的总体中,选取重点单位而进定义:在研究对象的总体中,选取重点单位而进行的一种非全面调查。行的一种非全面调查。重点单位:数目不多,但被研究的标志值之和在重点单位:数目不多,但被研究

16、的标志值之和在总体所有单位标志值总和中占有很大比重的部分总体所有单位标志值总和中占有很大比重的部分单位。单位。定定义义:根根据据调调查查目目的的和和要要求求,在在对对所所研研究究现现象象进进行行初初步步分分析析的的基基础础上上,从从中中选选取取有有代代表表性性的的单位进行的周密细致的调查。单位进行的周密细致的调查。典型调查(典型调查(modelsurvey)形式:形式:“解剖麻雀解剖麻雀”式式“划类选典划类选典”式式优点:调查单位少、省时省力;优点:调查单位少、省时省力;调查内容多,有助于开展深入研究。调查内容多,有助于开展深入研究。统计报表(统计报表(statisticalreportfor

17、ms)按调查对象范围可分为全面报表和非全面报表。按调查对象范围可分为全面报表和非全面报表。按报送时间长短可分为日报、月报、季报、年报等。按报送时间长短可分为日报、月报、季报、年报等。按内容和报送范围可分为国家、部门、地方统计报表。按内容和报送范围可分为国家、部门、地方统计报表。按报送方式可分为邮寄报表和电讯报表。按报送方式可分为邮寄报表和电讯报表。定义:按照国家有关法规的规定,自上而下地布置、自下定义:按照国家有关法规的规定,自上而下地布置、自下而上地逐级提供统计数据的一种调查方式。而上地逐级提供统计数据的一种调查方式。要求:统计报表要按一定的原始数据为基础,按照统一的表要求:统计报表要按一定

18、的原始数据为基础,按照统一的表式、统一的指标、统一的报送时间和报送程序进行填报。式、统一的指标、统一的报送时间和报送程序进行填报。类型:类型:统计调查的方法统计调查的方法文案资料法文案资料法访问法访问法面谈调查面谈调查电话调查电话调查邮寄调查邮寄调查留置调查留置调查日记调查日记调查观察法观察法报告法报告法次级数据次级数据原始资料原始资料实验法实验法l 调查专业人士调查专业人士通过访问知识渊博人士开展探索性调研,被称为通过访问知识渊博人士开展探索性调研,被称为“关键信息提供者技术关键信息提供者技术”(Key-Informant technique),也称),也称“专家意见调查或主导使用者调专家意

19、见调查或主导使用者调查查”(lead-user survey)。)。需要探索性调研的情景需要探索性调研的情景能提供观点的专业人士能提供观点的专业人士某公司生产的某公司生产的X牌去污剂是市场领牌去污剂是市场领导产品,因为生产饱和,该公司希导产品,因为生产饱和,该公司希望开发新产品来逆转下降的利润望开发新产品来逆转下降的利润消费品市场的主要调研经理和清洁消费品市场的主要调研经理和清洁产业的主要使用者产业的主要使用者某新成立的非营利组织宗旨为协助某新成立的非营利组织宗旨为协助有严重身体残障的人们。该组织在有严重身体残障的人们。该组织在考虑它应该如何制定慈善项目以及考虑它应该如何制定慈善项目以及该采用

20、何种战略以获得公众的捐助该采用何种战略以获得公众的捐助公共服务机构官员,比如红十字会、公共服务机构官员,比如红十字会、联合募捐会和肌肉萎缩协会等联合募捐会和肌肉萎缩协会等美国总统候选人在考虑如何在各个美国总统候选人在考虑如何在各个选区有效分配竞选资源选区有效分配竞选资源了解公众观点和态度的州和地方政了解公众观点和态度的州和地方政党官员党官员硅谷图像技术公司的灯塔客户硅谷图像技术公司的灯塔客户 硅谷图像技术公司(硅谷图像技术公司(SGISGI)提供广泛的高功能计算)提供广泛的高功能计算和先进的图表解决方案。该公司在和先进的图表解决方案。该公司在20042004年的财务年度年的财务年度收入为收入为

21、8.428.42亿美元,其中亿美元,其中6565的收入来自美国,的收入来自美国,2525来自欧洲,来自欧洲,1010来自全球其他地区。来自全球其他地区。SGISGI认为传统的市认为传统的市场调研对收集重大技术演变的信息作用不大。他们派场调研对收集重大技术演变的信息作用不大。他们派最好的技术人员拜访行业专家,或该公司所称的最好的技术人员拜访行业专家,或该公司所称的“灯灯塔客户塔客户”(lighthouse customerlighthouse customer)。)。SGI SGI的的“灯塔客户灯塔客户”包括美国国家航天航空局、工业光魔公司、美包括美国国家航天航空局、工业光魔公司、美国陆军、波音

22、公司、迪斯尼公司和默克公司。这些公司在高功能计算和国陆军、波音公司、迪斯尼公司和默克公司。这些公司在高功能计算和图表解决方案领域内的参与程度和专业素养使得他们成为验证换代产品图表解决方案领域内的参与程度和专业素养使得他们成为验证换代产品的最佳选择。的最佳选择。SGISGI的技术人员花费大量时间来访问灯塔客户并了解他们的技术人员花费大量时间来访问灯塔客户并了解他们如何使用如何使用SGISGI的机器或他们希望如何更好地使用机器。比如,的机器或他们希望如何更好地使用机器。比如,SGISGI在和工在和工业灯魔公司与太平洋数据影像公司的互动中发现了仿真影像的需要。业灯魔公司与太平洋数据影像公司的互动中发

23、现了仿真影像的需要。SGISGI开发出高功能计算机,可以制作终结者开发出高功能计算机,可以制作终结者2 2:审判日中的电子怪人、:审判日中的电子怪人、侏罗纪公园中的恐龙。灯塔客户帮助侏罗纪公园中的恐龙。灯塔客户帮助SGISGI一直保持在高功能计算机一直保持在高功能计算机行业的领导地位。行业的领导地位。l 焦点人群访问(焦点人群访问(Focus group interview)可用于调研消费者关于新产品概念的观点、识别网可用于调研消费者关于新产品概念的观点、识别网上购物者评价网站时采用的标准、观察对潜在促销主题上购物者评价网站时采用的标准、观察对潜在促销主题的反响、消费者问卷调查中包括的问题等众

24、多情景。的反响、消费者问卷调查中包括的问题等众多情景。由组织者(由组织者(moderator)以相当自然和非结构)以相当自然和非结构化的方式将某一主题介绍给一组受访者或客户。受访化的方式将某一主题介绍给一组受访者或客户。受访者(通常者(通常812人)就给定主题开展非正式的讨论。人)就给定主题开展非正式的讨论。l 观察法(观察法(Observational method)采用人工或机械方式来观察人们在购物或消费情景中的实际行采用人工或机械方式来观察人们在购物或消费情景中的实际行为或发生的事件。为或发生的事件。观察法调研方式对于评估产品使用、光顾商店的频率、媒体使用、观察法调研方式对于评估产品使用

25、、光顾商店的频率、媒体使用、在特定网站花费的时间、有监护人陪同或无人陪同的儿童的购买在特定网站花费的时间、有监护人陪同或无人陪同的儿童的购买行为等非常有用。行为等非常有用。日本的经理们常常拜访批发商和零售商以感受市场。他们通过观察结果来改日本的经理们常常拜访批发商和零售商以感受市场。他们通过观察结果来改善营销战略。善营销战略。许多美国公司开始基于观察法的调研来设计产品。许多美国公司开始基于观察法的调研来设计产品。惠而浦公司在观察全球使用者后为其产品设计了新控制设施。惠而浦公司在观察全球使用者后为其产品设计了新控制设施。乐柏美公司定期派遣员工到客户家庭访问观察家庭存储的做法。乐柏美公司定期派遣员

26、工到客户家庭访问观察家庭存储的做法。福特汽车公司通过人口影像资料来收集观察数据。福特汽车公司通过人口影像资料来收集观察数据。l 二手资料(二手资料(Secondary data)仔细审核合适的二手数据是快速且便宜地开展仔细审核合适的二手数据是快速且便宜地开展探索性调研以获得宝贵观点的方式。获得的观点为进探索性调研以获得宝贵观点的方式。获得的观点为进一步的调研提供正确的聚焦。一步的调研提供正确的聚焦。有时通过分析二手数据得出的观点甚至可能会有时通过分析二手数据得出的观点甚至可能会取消后续调研,即从外部数据来源的二手数据完全足取消后续调研,即从外部数据来源的二手数据完全足以制定最终决策。以制定最终

27、决策。二手数据中发现低卡饮食潮流二手数据中发现低卡饮食潮流Minute MaidMinute Maid美汁源美汁源 创立于美国,是可口可乐公司创立于美国,是可口可乐公司旗下的第一果汁饮料品牌。但其营销主管托瑞发现,旗下的第一果汁饮料品牌。但其营销主管托瑞发现,在在19991999年和年和20042004年之间,美国人消费的橙汁下降年之间,美国人消费的橙汁下降10.810.8。其中主力家庭(每年消费超过。其中主力家庭(每年消费超过12.512.5加仑或更多)加仑或更多)的消费数量显著下降。自从的消费数量显著下降。自从2020世纪世纪2020年代橙汁产品问年代橙汁产品问世,它一直是美国的主流饮品。

28、作为早餐饮料,也和世,它一直是美国的主流饮品。作为早餐饮料,也和咖啡混搭。如今橙汁到底怎么啦?咖啡混搭。如今橙汁到底怎么啦?为确认销量下降的原因,托瑞和他的小组很大程为确认销量下降的原因,托瑞和他的小组很大程度上采用了二手数据,包括营养杂志和期刊。他们发度上采用了二手数据,包括营养杂志和期刊。他们发现,现,1010的消费者是因为卡路里、碳水化合物和蔗糖的消费者是因为卡路里、碳水化合物和蔗糖的考虑而减少橙汁饮用量。其中,的考虑而减少橙汁饮用量。其中,4 4的消费者是因的消费者是因为低卡饮食潮流而减少橙汁饮用量。为低卡饮食潮流而减少橙汁饮用量。通过使用二手数据,托瑞不仅可以更好地了解消通过使用二手

29、数据,托瑞不仅可以更好地了解消费者的食品购买习惯与饮食习惯,还明确了橙汁消费费者的食品购买习惯与饮食习惯,还明确了橙汁消费减少的原因。同时,他识别出客户的潜在需求还没有减少的原因。同时,他识别出客户的潜在需求还没有得到满足:低卡的橙汁饮品。于是,为迎合市场机会,得到满足:低卡的橙汁饮品。于是,为迎合市场机会,美汁源公司开发出低卡产品(美汁源公司开发出低卡产品(Minute Maid Premium Minute Maid Premium LightLight),该产品热量只有普通橙汁的一半。),该产品热量只有普通橙汁的一半。22 22 数据的整理数据的整理 数据的预处理数据的预处理数据的排序

30、n 数据的筛选n 数据的审核数据的审核数据的审核 1、对于第一手数据资料:、对于第一手数据资料:完整性:统计单位是否遗漏;项目、指标是否填写齐全。完整性:统计单位是否遗漏;项目、指标是否填写齐全。准确性:数据是否与实际相符;计算是否正确。准确性:数据是否与实际相符;计算是否正确。2、对于第二手数据资料:、对于第二手数据资料:完整性、准确性完整性、准确性;适用性:审核来源、口径、背景材料。适用性:审核来源、口径、背景材料。时效性:若数据过于滞后,失去研究意义。时效性:若数据过于滞后,失去研究意义。审核方法审核方法:逻辑检查逻辑检查适用于品质数据。适用于品质数据。计算检查计算检查适用于数量数据。适

31、用于数量数据。一、一、统统 计计 分分 组组作用作用:1、划分现象的类型、划分现象的类型 2、反映总体内部结构和比例关系、反映总体内部结构和比例关系 3、研究社会经济现象之间的、研究社会经济现象之间的依存关系依存关系正依存关系正依存关系负依存关系负依存关系 概念:根据统计研究的需要,将所有数据按照某种概念:根据统计研究的需要,将所有数据按照某种标志分成不同的组别。标志分成不同的组别。二、选择分组标志的依据二、选择分组标志的依据 根据研究目的选择分组标志根据研究目的选择分组标志;选择反映事物本质区别的标志选择反映事物本质区别的标志;根据经济发展变化及历史条件选择分组标志根据经济发展变化及历史条件

32、选择分组标志。目的目的目的目的分组标志分组标志分组标志分组标志研究企业生产内部结构研究企业生产内部结构研究企业生产内部结构研究企业生产内部结构生产部门生产部门生产部门生产部门了解生产计划完成情况了解生产计划完成情况了解生产计划完成情况了解生产计划完成情况计划完成程度计划完成程度计划完成程度计划完成程度掌握盈亏情况掌握盈亏情况掌握盈亏情况掌握盈亏情况利润水平利润水平利润水平利润水平了解生产技术力量状况了解生产技术力量状况了解生产技术力量状况了解生产技术力量状况职工技术等级、技术装备职工技术等级、技术装备职工技术等级、技术装备职工技术等级、技术装备水平水平水平水平工业企业分组标志的选择工业企业分组

33、标志的选择每户月收入每户月收入每户月收入每户月收入/元元元元户数户数户数户数800800以下以下以下以下11011080080012001200450450120012001600160039539516001600以上以上以上以上245245合计合计合计合计12001200每户人均月收入每户人均月收入每户人均月收入每户人均月收入/元元元元户数户数户数户数400400以下以下以下以下130130400400600600350350600600800800520520800800以上以上以上以上200200合计合计合计合计12001200研究某地区居民家庭生活水平,可按每户月收入和每户研究某地区

34、居民家庭生活水平,可按每户月收入和每户人均月收入分别分组如下:人均月收入分别分组如下:三、统计分组的类型三、统计分组的类型(一)按标志的特征划分:(一)按标志的特征划分:1、按品质标志分组、按品质标志分组 2、按数量标志分组、按数量标志分组(二)按标志的多少划分:(二)按标志的多少划分:1、简单分组:只选择一个标志进行简单分组。、简单分组:只选择一个标志进行简单分组。多次简单分组形成平行分组体系。多次简单分组形成平行分组体系。2、复复合合分分组组:选选择择两两个个或或两两个个以以上上标标志志结结合合起来进行层叠分组,形成复合分组体系。起来进行层叠分组,形成复合分组体系。四、次四、次 数数 分分

35、 布(布(frequencydistribution)次数分布数列:按某种标志对数据进行分组后,再计算出所有数次数分布数列:按某种标志对数据进行分组后,再计算出所有数据在各组中出现的频数或频率,就形成了次数分布数列。据在各组中出现的频数或频率,就形成了次数分布数列。分组标志分组标志频数频数频率(频率(%)合计合计总体单位数总体单位数100频数(次数):分布在各组内的数据个数。各组次数之和频数(次数):分布在各组内的数据个数。各组次数之和等于总次数,即总体单位数。等于总次数,即总体单位数。频率(比重):各组频数与全部频数之和的比值。各组频频率(比重):各组频数与全部频数之和的比值。各组频率之和等

36、于率之和等于1或或100%。研究对象研究对象人数人数百分比百分比(%)初犯者初犯者193.7屡犯者屡犯者173.3非违法者非违法者48493.1合计合计520100.1在社会秩序与安全研究中,对某社区青少年犯罪状况在社会秩序与安全研究中,对某社区青少年犯罪状况统计结果如下表所示:统计结果如下表所示:次数分布数列的种类次数分布数列的种类 按分组标志按分组标志的性质划分的性质划分品质数列:按品质标志分组的次数分布数列。品质数列:按品质标志分组的次数分布数列。变量数列变量数列:按数量标志分组的次数分布数列。:按数量标志分组的次数分布数列。组距数列:组距数列:以变量值的一定变动范围(区间)为一组。以变

37、量值的一定变动范围(区间)为一组。单项数列:以每个变量值为一组。单项数列:以每个变量值为一组。通常只适合于离散变量,且变量值较少的情况。通常只适合于离散变量,且变量值较少的情况。等距数列:适用于变量值分布比较均匀的情况等距数列:适用于变量值分布比较均匀的情况 异距数列:变量值的分布很不均衡。异距数列:变量值的分布很不均衡。通常适用于连续变量及变量值较多的离散变量。通常适用于连续变量及变量值较多的离散变量。按组距是否按组距是否 相等划分相等划分按民族分组按民族分组人数(人人数(人)比重(比重(%)汉族汉族回族回族藏族藏族1440660900482230合计合计100表表1表表2按年龄段分组按年龄

38、段分组人数(人人数(人)比重(比重(%)老老中中青青1446690482230合计合计300100按家庭人口数分组按家庭人口数分组/人人户数户数180224035004120560合计合计1000按从业人员数分组按从业人员数分组/人人企业数企业数50以下以下2054915099900510049965765009996841000及以上及以上547合计合计222303某区居民家庭按人口数分组所形成的频次分布:某区居民家庭按人口数分组所形成的频次分布:某市企业法人单位按从业人员数分组所形成的频次分布:某市企业法人单位按从业人员数分组所形成的频次分布:按每户月平均收入分组(元)按每户月平均收入分组

39、(元)户数(户)户数(户)比重(比重(%)1000以下以下100020002000300030004000400050005000以上以上2049955040267.117.533.917.914.39.3合计合计280100五、五、变量数列的编制变量数列的编制 变量的类型:决定分布数列的类型。变量的类型:决定分布数列的类型。全距(全距(Range):最大值与最小值之差。):最大值与最小值之差。组数(组数(Intervals)与组距()与组距(Classwidth)组限(组限(Classlimits)组中值(组中值(Classmidpoint)累计次数(累计次数(Cumulativefrequ

40、encies)频数密度(频数密度(Frequencydensity)累计频率(累计频率(Cumulativepercentages)组数:数列分组的数目。组数的确定应以能够显示数据组数:数列分组的数目。组数的确定应以能够显示数据的分布特征和规律为原则。的分布特征和规律为原则。组距:在组距数列中,用变量值的一定区间(范围)组距:在组距数列中,用变量值的一定区间(范围)代表一个组,每个区间的宽度称为组距。代表一个组,每个区间的宽度称为组距。对同一总体而言,组距越大,组数越少;对同一总体而言,组距越大,组数越少;组距越小,组数越多。组距越小,组数越多。组数组数=全距全距/组距组距 组距组距=全距全距

41、/组数组数 组数的多少与组距大小有关。组数的多少与组距大小有关。如何确定组数与组距?如何确定组数与组距?异距数列中,组距的确定主要根据所研究事物的分布特征。等距数列中,组距与组数的确定都可利用Sturges经验公式。A、若先求组距,再求组数B、若先求组数,再求组距斯特奇斯经验公式斯特奇斯经验公式:其中:N为数列总次数(变量值个数)组限组限:组距的两个端点。有上限(组距的两个端点。有上限(upper limit)和下限(和下限(lower limit)之分。)之分。开口组:开口组:闭口组闭口组:有上限缺下限;或有下限缺上限。往往出现有上限缺下限;或有下限缺上限。往往出现在最低组(首组)或最高组(

42、末组)。在最低组(首组)或最高组(末组)。上限、下限都齐全。上限、下限都齐全。如何确定组限?如何确定组限?v 最低组的下限应小于或至多等于原始资料中的最小值;最低组的下限应小于或至多等于原始资料中的最小值;最高组的上限应大于或至少等于原始资料中的最大值。最高组的上限应大于或至少等于原始资料中的最大值。v 连续变量相邻两组的组限必须重叠。离散变量相邻两连续变量相邻两组的组限必须重叠。离散变量相邻两组的组限一般间断。组的组限一般间断。v “上限不在内上限不在内”原则。即恰好重叠在组限上的变量值一般原则。即恰好重叠在组限上的变量值一般归入下限的一组,避免频数的重复计算。归入下限的一组,避免频数的重复

43、计算。穷尽穷尽互斥互斥开口组的组中值计算:开口组的组中值计算:组中值组中值:每组上限与下限之间中点位置上的数值。每组上限与下限之间中点位置上的数值。只有上限,无下限:只有上限,无下限:只有下限,无上限:只有下限,无上限:按每户月平均收入分组(元)按每户月平均收入分组(元)户数(户)户数(户)比重(比重(%)1000以下以下100020002000300030004000400050005000以上以上2049955040267.117.533.917.914.39.3合计合计280100累计次数与累计频率累计次数与累计频率 较小制累计较小制累计:从变量值小的组向变量值大的组累计。:从变量值小的

44、组向变量值大的组累计。较大制累计较大制累计:从变量值大的组向变量值小的组累计。:从变量值大的组向变量值小的组累计。按销售额分组(万元)商店数较小制累计较大制累计100以下100200200300300400400以上2485122+4=66+8=1414+5=1919+1=2018+2=2014+4=186+8=141+5=61合计20按结婚年龄分组(岁)按结婚年龄分组(岁)人数(人)人数(人)频数密度(人频数密度(人/岁)岁)262730304050353.5按成绩分组(分)按成绩分组(分)人数(人)人数(人)比重(比重(%)607070808090121810304525合计合计40100表表1:表表2:

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 技术资料 > 技术总结

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁