《应用统计学 第1章 统计和统计数据收集.ppt》由会员分享,可在线阅读,更多相关《应用统计学 第1章 统计和统计数据收集.ppt(39页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、应用统计学应用统计学1马庆国.管理统计数据获取、统计原理SPSS工具与应用研究.北京:科学出版社,2003何晓群.多元统计分析.北京:中国人民大学出版社,2004戴维 M.莱文、戴维 F.斯蒂芬等(张建同、刘文驰等译).以Excel为决策工具的商务统计.北京:机械工业出版社,2009主要参考书:主要参考书:2几种常用的统计软件几种常用的统计软件典型的统计软件典型的统计软件SASSPSSMINITABSTATISTICAExcel3本章教学目标:本章教学目标:l了解统计学的基本知识;l统计数据的收集、调查;第第1章章 统计和统计数据收集统计和统计数据收集4本章主要内容本章主要内容1.1 统计学概
2、述1.2 统计数据的收集1.3 问卷设计1.4 变量类型 51.1 什么是统计学什么是统计学?统统计计学学是是一一门门收收集集、整整理理和和分分析析数数据据的的方方法法科科学学,其其目目的的是是探探索索数数据据的的内内在在数数量量规规律律性性,以以达达到到对对客观事物的科学认识客观事物的科学认识6Statistics的定义的定义 Statistics:the science of collecting,analyzing,presenting,and interpreting data.Copyright 1994-2000 Encyclopaedia Britannica,Inc.(不列颠百
3、科全书)7统计数据的内在规律统计数据的内在规律1.正常条件下新生婴儿的性别比为107:1002.投掷一枚均匀的硬币,出现正面和反面的频率各为1/2;投掷一枚骰子出现16点的频率各为1/63.农作物的产量与施肥量之间存在相关关系8统计学的应用领域统计学的应用领域统计学统计学经济学经济学经济学经济学管理学管理学管理学管理学医学医学医学医学工程学工程学工程学工程学社会学社会学社会学社会学9 基于统计学的数据转换应用基于统计学的数据转换应用 10应用统计的领域应用统计的领域actuarial work actuarial work(精算精算)agriculture agriculture(农业农业)a
4、nimal science animal science(动物学动物学)anthropology anthropology(人类学人类学)archaeology archaeology(考古学考古学)auditing auditing(审计学审计学)crystallography crystallography(晶体学晶体学)demography demography(人口统计学人口统计学)dentistry dentistry(牙医学牙医学)ecology ecology(生态学生态学)econometrics econometrics(经济计量学经济计量学)education educat
5、ion(教育学教育学)engineering engineering(工程工程)epidemiology epidemiology(流行病学流行病学)finance finance(金融金融)gambling(gambling(赌博赌博)genetics genetics(遗传学遗传学)geography geography(地理学地理学)geology geology(地质学地质学)election forecasting and projection(election forecasting and projection(选举预测和策划选举预测和策划)fisheries research(
6、fisheries research(水产渔业研究水产渔业研究)historical research(historical research(历史研究历史研究)human genetics(human genetics(人类遗传学人类遗传学)11应用统计的领域应用统计的领域(续续)hydrology hydrology(水文学水文学)IndustryIndustry(工业工业)linguisticslinguistics(语言学语言学)literature literature(文学文学)manpower planningmanpower planning(劳动力计划劳动力计划)manage
7、ment sciencemanagement science(管理科学管理科学)marketing marketing(市场营销学市场营销学)medical diagnosismedical diagnosis(医学诊断医学诊断)meteorology meteorology(气象学气象学)military sciencemilitary science(军事科学军事科学)nuclear material safeguardsnuclear material safeguards(核材料安全管理核材料安全管理)ophthalmology ophthalmology(眼科学眼科学)pharmac
8、eutics pharmaceutics(制药学制药学)physicsphysics(物理学物理学)political sciencepolitical science(政治学政治学)psychology psychology(心理学心理学)psychophysics psychophysics(心理物理学心理物理学)quality controlquality control(质量控制质量控制)religious studiesreligious studies(宗教研究宗教研究)sociologysociology(社会学社会学)survey samplingsurvey sampling
9、(调查抽样调查抽样)taxonomy taxonomy(分类学分类学)weather modification weather modification(气象改善气象改善)12统计研究对象的特点统计研究对象的特点1.数量性数量性 统计学研究的对象是客观现象的数量特征和规律性。2.总体性总体性 统计学研究的是客观现象总体的数量特征与规律性,而不是个体的量。3.具体性具体性 统计的对象是一定时间、地点、条件下事物的量,而不是抽象对象的量,这是统计学和数学的一个重要区别。4.差异性差异性 组成统计研究对象总体的个体是有差异的,否则就不需要进行统计分析。统计研究中需要对总体中大量的个体进行观察并进行综
10、合分析,由此才能获得总体的数量分布特征。13统计学的分类统计学的分类 统计学大致有以下两种主要的分类方法。1.描述统计学和推断统计学描述统计学和推断统计学 这一分类方法既反映了统计学发展的两个主要阶段,同时也反映了各自不同的侧重。l 描述统计学描述统计学是研究如何对客观现象进行数量的计量、加工、概括和表示的方法。在二十世纪之前统计学基本上处于描述阶段。描述统计学是统计学的基础。l 推断统计学推断统计学是研究如何根据样本数据去推断总体的情况,概率论是其理论基础。推断统计学是近代统计学的核心,也是统计学中的主要内容。14统计学的分科统计学的分科15描述统计与推断统计的关系描述统计与推断统计的关系反
11、映客观现反映客观现反映客观现反映客观现象的数据象的数据象的数据象的数据总体内在的总体内在的总体内在的总体内在的数量规律性数量规律性数量规律性数量规律性推断统计推断统计推断统计推断统计(利用样本信息和概率(利用样本信息和概率(利用样本信息和概率(利用样本信息和概率论对总体的数量特征进论对总体的数量特征进论对总体的数量特征进论对总体的数量特征进行估计和检验等)行估计和检验等)行估计和检验等)行估计和检验等)概率论概率论概率论概率论(包括分布理论、大数定律(包括分布理论、大数定律(包括分布理论、大数定律(包括分布理论、大数定律和中心极限定理等)和中心极限定理等)和中心极限定理等)和中心极限定理等)描
12、述统计描述统计描述统计描述统计(统计数据的搜集、整(统计数据的搜集、整(统计数据的搜集、整(统计数据的搜集、整理、显示和分析等)理、显示和分析等)理、显示和分析等)理、显示和分析等)总体数据总体数据样本数据样本数据统计学探索现象数量规律性的过程统计学探索现象数量规律性的过程统计学探索现象数量规律性的过程统计学探索现象数量规律性的过程16理论统计学和应用统计学理论统计学和应用统计学l理论统计学理论统计学 是研究统计学的数学原理,它基于概率论的原理,还包括不属于传统概率论的一些内容,如随机化原则的理论、各种估计的原理、假设检验的原理以及一般决策的原理。在统计实践中经常会遇到一些原有的统计方法不能适
13、应的新问题,需要创造新的统计模型和统计分析方法,这就需要统计理论的研究与指导。l应用统计学应用统计学 将统计学的基本原理应用于各个领域就形成各种应用统计学的分支。它包括适用于各个领域的一般性的统计方法,如参数估计、假设检验、方差分析、回归分析等,还包括在某一领域中特定的分析方法,如经济统计中的时间数列分析和指数分析等。应用统计学侧重于阐明统计学的基本原理,并将理论统计学的成果作为工具应用于各个领域。17统计基本术语统计基本术语变量:变量:事物的特征,是运用统计方法所分析的对象。例如,在商业模型中,销售额、每年的开支和每年的净利润都是企业想要分析的变量。数据数据:是与变量相关的值。变量可能随时间
14、变动,如某一公司的期望销售额、开支和净利润每年都有所不同。这些不同的值就是与变量相关的数据,或者简单地说,就是统计所要分析的“数据”。注意注意:变量需赋予可操作定义,否则会产生歧义。如:对销售额的操作性定义可能会发生这样错误的理解:一个人认为年销售额是指全部连锁店的年销售额,而另一个人则认为是每家店的年销售额。18统计基本术语统计基本术语总体总体:所研究对象的全体。个体个体:指总体中的每个元素或单元。总体依其所包含的个体总数分为有限总体和无限总体。样本样本:从总体中挑选出来用于分析的一部分。这种挑选通常是相对独立的。样本是进行推断统计的依据。参数参数:参数是描述总体特征的数值。统计量:统计量:
15、是描述样本特征的数值19 统计数据的收集是统计整理和分析,以及统计推断和预测的基础。社会经济统计中所需要的数据与资料主要来源于统计调查。统计数据的收集就是根据统计研究的目的和要求,有组织、有计划地向调查对象搜集原始资料的过程。确定数据最合适的来源和收集数据的合理方法是非常重要的任务,因为如果收集的数据有偏差,模糊不清或有其他类型的错误时,即使最复杂的统计方法也无法得到有用的信息,即需要避免“Garbage In Garbage Out(垃圾数据产生垃圾统计结果)”的统计应用情况。1.2 统计数据的收集统计数据的收集20一一.数据采集的基本要求数据采集的基本要求准确性准确性及时性及时性完整性完整
16、性系统性系统性 统计调查的数据资料应配套,要能从不同侧面反映所研究总体的特征,才能为科学的判断和决策提供依据。在实际应用中,我们要依据特定的研究目的或工作任务,结合研究对象所具有的性质和特点,相应地选择适合的调查方法,必要时也可以几种调查方法结合使用。21二二.普遍调查普遍调查普遍调查简称普查,是专门组织的一次性的全面调查。如全国的人口普查、能源普查、工业普查等。组织方式有两种:1.建立专门的普查机构2.利用调查单位的原始记录和核算资料,发放调查表,由登记单位填报。普查时注意的原则:(1)规定统一的标准时点(2)规定统一的普查期限(3)规定普查的项目和指标。22普遍调查实例普遍调查实例【例1.
17、1】2002年在国务院统一部署下,开展全国“基本单位普查”。关于这次普查的部分重要要求与规定如下:调查目的:统计分析全国和各省市地区的单位总数、性质、隶属关系、分布情况等。标准时间:2001年12月31日。调查对象:各类法人单位,各类法人单位所属的产业活动单位。调查项目:单位总数;性质分类(企业法人、事业法人、社团法人、机关法人、其他法人);基本情况 性质划分、隶属关系(中央、省市、区县、街道等);主要构成(产业结构、行业分布、地区分布、经济成分、规模结构);分布情况。23三三.重点调查重点调查 在总体中选择部分重点单位进行调查,以了解总体基本情况总体基本情况的一种非全面调查。重点调查的特点:
18、重点调查的特点:(1)重点调查适用于调查对象的标志值比较集中于某些单位的场合,这些单位的管理比较健全,统计力量比较充实,能够及时取得准确资料。(2)重点调查的目的在于了解总体现象某些方面的基本情况,而不要求全面准确地推算总体数字。(3)重点调查比实际调查的单位数目少,在满足调查目的所要求的前提下,可以比全面调查节省人力、物力和时间。24四四.典型调查典型调查 也是专门组织的一种非全面调查,在总体中选择有代表性的典型单位进行深入细致深入细致的调查。典型调查的作用和目的典型调查的作用和目的(1)研究新事物或某种倾向性的社会问题研究新事物或某种倾向性的社会问题 通过对典型单位深入细致的调查,可以发现
19、新情况、新问题,探测事物发展变化的趋势,形成科学的预见。(2)分析事物的不同类型分析事物的不同类型 通过研究造成它们间差别的原因,总结经验教训,研究对策,促进事物的转化和发展。(3)典型调查可用来研究事务的变化规律。典型调查可用来研究事务的变化规律。(4)典型调查的资料可用来补充和验证全面统计的数字,推典型调查的资料可用来补充和验证全面统计的数字,推论和测算有关现象的总体。论和测算有关现象的总体。25六六.抽样调查抽样调查 是指按随机原则从总体中抽取部分单位组成样本。目的是利用样本数据推断(估计)总体的数量分布特征。抽样调查是现代推断统计的核心,也是最重要的统计调查方法。26抽样调查中四种误差
20、抽样调查中四种误差1.涵盖误差涵盖误差:当某一组代表性的样本被排除在抽样调查之外时所引起的选择偏差。2.无回应误差无回应误差:抽样时,对样本个体数据收集失败会导致无回应偏差。3.抽抽样样误误差差:选择抽样调查是因为这种方法简单、低成本和有效。但同时也意味着有的个体被抽中,有的个体没有被抽中。4.测测量量误误差差:测量误差是指由于样本数据测量程序的设计和应用不当所引起的误差。课堂讨论课堂讨论:举例说明这几种误差。27七七.网上调查网上调查 截至2009年6月底,中国网民规模达到3.38亿人,较2008年底增长13.4%,上网普及率达到25.5%。网民规模持续扩大,互联网普及率平稳上升。其中宽带网
21、民数达到3.2亿,占比高达94.3%,较2008年底上升了3.7个百分点。另外,截至2009年6月底,作为国家域名,CN域名总计达到1,296万个。作为我国互联网的重要基础资源,CN域名已经广泛地应用在金融、汽车等各个行业中。截止2009年6月我国互联网用户发展情况如图1.2所示。28图 2008-2009年我国互联网用户发展情况(资料来源:第23次中国互联网络发展状况统计报告)29网上调查优势网上调查优势l及时性和共享性 l便捷性和低成本 l可靠性和客观性 l更好的接触性 l穿越时空性 30 问卷是一种特殊形式的调查表。其特点是表中用一系列按照严密逻辑结构组成的问题,向被调查者调查具体事实和
22、个人对某问题的反映、看法,它不要求被调查者填写姓名。问卷设计一般要遵循以下原则。l合理性:合理性指的是问卷必须紧密与调查主题相关。l一般性:即问题的设置是否具有普遍意义。l逻辑性:问卷的设计要有整体感,这种整体感即是问题与问题之间要具有逻辑性,独立的问题本身也不能出现逻辑上的谬误。l明确性:所谓明确性,事实上是问题设置的规范性。l非诱导性:非诱导性指的是问题要设置在中性位置、不参与提示或主观臆断,完全将被访问者的独立性与客观性摆在问卷操作的限制条件的位置上。l便于整理和分析 1.3 问卷设计问卷设计31统计学中将变量分为分类变量或数值变量。分类变量分类变量(也称为定性变量)的值只能按类别分开。
23、数值变量数值变量(也称为定量变量)的值表示数量。数值变量可进一步分为离散变量和连续变量。1.4 变量类型变量类型32四种计量尺度331.计量层次最低2.对事物进行平行的分类3.各类别可以指定数字代码表示4.使用时必须符合类别穷尽和互斥的要求5.数据表现为“类别”6.具有=或的数学特性定类尺度定类尺度(概念要点概念要点)341.对事物分类的同时给出各类别的顺序2.比定类尺度精确3.未测量出类别之间的准确差值4.数据表现为“类别”,但有序5.具有或的数学特性定序尺度定序尺度(概念要点概念要点)351.对事物的准确测度2.比定序尺度精确3.数据表现为“数值”4.没有绝对零点5.具有+或-的数学特性定
24、距尺度定距尺度(概念要点概念要点)361.对事物的准确测度2.与定距尺度处于同一层次3.数据表现为“数值”4.有绝对零点5.具有 或 的数学特性定比尺度定比尺度(概念要点概念要点)37四种计量尺度的比较四种计量尺度的比较四种计量尺度的比较四种计量尺度的比较定类定类尺度尺度定序定序尺度尺度定距定距尺度尺度定比尺度定比尺度 分分类类(,(,)排序(排序()间间距(距(+,-)比比值值(,)计量尺度计量尺度数学特性数学特性“”表示表示该该尺度所具有的特性尺度所具有的特性38数据类型与统计方法数据类型与统计方法数据类型与统计方法数据类型与统计方法定类数据定类数据定序数据定序数据品质数据品质数据数量数据数量数据数量数据数量数据定距数据定距数据定距数据定距数据定比数据定比数据定比数据定比数据39