《数据搜集整理与SPSS基础.pptx》由会员分享,可在线阅读,更多相关《数据搜集整理与SPSS基础.pptx(81页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、学时:8授课内容:数据搜集整理与SPSS基础目的要求:掌握统计数据收集、调查设计、统计数据整理、SPSS基础及其在统计数据整理中的应用。旧知复习:概率论基础1.事件独立是如何定义的?2.贝叶斯公式的形式如何?3.什么是概率分布函数?1第1页/共81页2.1 统计数据的搜集统计数据搜集的概念根据统计研究的目的,采用科学的方法,有计划有组织地搜集统计资料的过程。统计数据搜集的原则准确性:统计调查资料要客观、真实地反映所研究的现象。及时性:统计调查资料应按照统一规定的时间 搜集完成并上报。全面性:统计调查应按调查方案和调查表的要求,无遗漏地全面搜集统计资料。2第2页/共81页2.1.1 统计数据的概
2、念与来源(1)统计数据概念统计工作过程中所取得的各项数字资料以及与之相关的其他实际资料的总称。(2)统计数据的来源数据的直接来源:在统计研究中,调查人员通过直接的调查或科学实验获得的统计数据。数据的间接来源:对于某些研究问题,如果与研究内容相关的数据资料已经存在,调查者所要做的只是将这些数据资料搜集起来,经过再加工处理使之变成可以使用的数据资料。3第3页/共81页2.1.2 统计调查与统计调查体系(1)统计调查:是根据统计研究的目的、要求和任务,采用科学的调查方法,有计划、有组织地收集统计资料的工作过程。(2)统计调查的方法观察法:由调查人员到现场对调查对象直接计数和计量以获得统计资料的方法。
3、通过观察法搜集的数据受调查人员主观意识影响小,相对比较可观;但需要花费大量的人力、物力、财力、时间;具有一定局限性。报告法:以原始记录或核算资料为基础,由调查单位按规定填写调查表,并按统一规定的时间上报的方法。获得资料相对准确、全面。询问法:调查人员通过询问的方式,从调查对象的回答中获得统计资料的方法。根据询问方式的不同,询问法又分为访问调查法、电话调查法、被调查者自填法等。4第4页/共81页询问法的子类型特征:询问调查法:即采访法,真实性较强,但费用高,被调查者受调查人员主管意识影响大。电话调查法:范围广、速度快、费用低,但问题不宜过多。被调查者自填法:被调查者受调查人员影响小,但由于调查人
4、员不在场,容易产生理解上的误差。实验调查法:在控制条件下操控某种变量来考察它对其他变量影响的研究方法。如霍桑实验(照明实验、福利实验、访谈实验、群体实验)。(3)统计调查的种类按搜集资料的组织方式不同,分为统计报表制度和专门调查 统计报表制度是由政府主管部门根据统计法规,以统计表格形式和行政手段自上而下布置,而后由企、事业单位自下而上层层汇总、逐级上报,提供基本统计数据的调查方式。专门调查是指为了研究某些特定的社会经济现象而专门组织的调查。如普查、抽样调查、重点调查、典型调查等。5第5页/共81页按调查对象所包括的范围不同,分为全面调查和非全面调查全面调查是对构成调查对象总体的全部单位无一例外
5、地进行调查。资料全面、准确,但调查工作量大,成本高。非全面调查是对构成调查对象的部分单位的调查。工作量小、成本低,但搜集到的资料存在统计误差。按调查登记时间是否连续,分为经常性调查和一次性调查经常性调查是随着调查对象的变化,经常地、连续不断地进行调查登记,以了解事物在一定时期内发展变化的全过程。如工业企业对产品质量和原材料消耗量的调查。一次性调查是指间隔一段时间,对调查对象进行不连续地调查登记,以了解事物在一定时点上的状态。如人口普查。(4)统计调查体系1994年国家统计局“全国统计工作会议”提出了“以必要的周期性普查为基础,以经常性的抽样检查为主体,同时辅之以重点调查、科学推算和全面报表等多
6、种方法综合运用”的统计调查体系。常用统计调查组织形式主要包括统计报表制度、普查、抽样调查、重点调查、典型调查等五种。6第6页/共81页统计报表制度概念由政府主管部门根据统计法规,以统计表格形式和行政手段自上而下布置,而后由企、事业单位自下而上层层汇总、逐级上报,提供基本统计数据的一种调查方式。统计报表的分类根据报表内容和实施范围,分为国家统计报表、业务部门统计报表和地方统计报表。根据报送周期长短,分为日报、旬报、季报和年报。报表报送的周期越短,报送的指标项目越简,反之指标项目越详,日报、旬报由于时效性强,也称为进度报表。根据报送单位,分为基层统计报表和综合统计报表。基层统计报表指由基层企事业单
7、位填报的报表;综合统计报表指由主管部门根据基层报表逐级汇总填报的报表。根据调查范围,分为全面统计报表和非全面统计报表。全面统计报表指要求调查对象的每一个单位都要填报的报表;非全面统计报表指要求调查对象的一部分单位填报的报表。我国的统计报表大多属于全面报表。根据报送方式的不同,可分为邮寄报表和电讯报表。月报、季报、年报等一般采用邮寄报表;时效性强的日报、旬报常采用电信方式。7第7页/共81页普查概念为了某一特定目的而专门组织的一次性全面调查,常被用来说明现象在一定时点上的全面情况组织形式 建立专门机构,配备大量人员,对调查单位进行直接的登记 利用调查单位的原始记录和核算资料,颁发调查表,由登记单
8、位填报 原则统一时点:调查资料必须反映调查对象在这一时点上的状况,以避免发生登记重复和遗漏的问题。短期同步:各调查单位或调查点尽可能同时登记,并在尽量短的期限完成,在方法上、步调上保持一致,保证统计资料的准确性和及时性。如我国人口普查的调查期限一般是10天。统一口径:调查项目应统一规定,且项目一旦确定不得任意改变或删减,以免影响汇总综合,降低资料质量。固定周期:普查尽可能按照一定周期进行,以便进行历史资料动态对比,研究调查对象的发展变化规律。改革开放以来,我国对有关国情的重大信息采取每隔10年或5年进行一次的周期调查。8第8页/共81页抽样调查概念从总体中抽取一部分单位作为样本进行调查,并根据
9、样本的数量特征去推断总体的数量特征 抽取样本原则概率抽样:抽取调查样本时遵循随机原则(如无特殊说明,下文提到的抽样调查都是指概率抽样调查)非概率抽样:调查者根据自己的方便或主观判断抽取样本的方法抽样调查的特点按照随机原则从总体中抽取样本单位,力求样本结构和总体结构的最大程度相似。根据所调查样本的实际情况对调查总体的数量特征作出估计 用样本数据推算总体的特征,不可避免地存在误差,但这个误差可以事先计算并加以控制。优势工作量小、经济性强、时效性高,通常用于一些不可能或没有必要进行全面调查的情况,如导弹射程、产品寿命。另外抽样调查还常用于对全面调查资料的检验补充和修正。9第9页/共81页重点调查概念
10、在全体调查对象中选择一部分重点单位进行调查,以取得统计数据的一种非全面调查方法。例如,要了解全国钢铁行业生产的基本情况,只需要对鞍钢、武钢、首钢、宝钢、包钢等几个钢铁企业进行调查 关键问题确定重点单位。重点单位可以是重点地区(产区、市场、出口基地等),也可以是重点企业、主要产品或商品,在具体问题中应视情况而定 特点允许较多的项目或指标以了解详细情况以较低成本把握整体状况适用于存在重点单位的情形,可以反映总体发展趋势,但不能用以推断总体10第10页/共81页典型调查概念根据调查目的和要求,在对调查对象进行初步分析的基础上,有意识地选取少数具有代表性的典型单位进行深入细致的调查研究,借以认识事物发
11、展变化规律及本质的一种非全面调查 特点典型调查单位的确定更多地取决于调查者主观的判断与决策,要求研究者有较丰富的经验,在划分类别、选择典型上有较大的把握侧重于定性分析可用于补充和验证全面统计数字,但不具备由部分单位推算总体数量特征的作用。11第11页/共81页2.1.3 抽样调查(1)基本概念总体与样本总体/全及总体:所要认识的对象的全体,由具有共同性质的许多单位组成,总体单位数量一般用N表示 抽样框:指包含全部抽样单位的名单框架样本/子样:从总体中随机抽取出来的部分单位所构成的集合样本容量:样本的单位数,其数量一般用n表示抽样比:样本容量n与总体单位数N的比值n/N总体指标和样本指标总体指标
12、/全及指标:根据总体各单位的标志值和标志特征计算的、反映总体数量特征的综合指标对于变量总体,设总体单位数为N,变量为X,变量值分别为X1,X2,XN,则总体平均数和总体方差如 和 所示。对于属性总体,设总体N个单位中,有N1个单位具有某种属性,则总体成数如P所示。12第12页/共81页样本指标:根据样本各单位的标志值或标志特征计算的、反映样本总体特征的综合指标。一般用小写字母表示样本指标 对于从变量总体中抽取出来的样本,设样本m各单位各单位变量值分别为x1,x2,xn,则样本平均数和样本方差为 对于从属性总体中抽取出来的样本,设样本n个单位中有n1个单位具有某种属性,则样本成数p为(2)抽样调
13、查的方法重复抽样从总体中抽取样本时,每次抽取的样本单位,在记录其有关标志表现后都要放回总体中去参加下一次抽取不重复抽样/不放回式抽样从总体中抽取样本时,每次抽取的样本单位,在记录其有关标志表现后不再放回总体13第13页/共81页(3)抽样调查的组织形式简单随机抽样/纯随机抽样按照随机原则从总体中逐个地抽取样本单位,因此每个单位的入样概率是相等的 需要进行编号、列表,然后抽取,不适用于总体单位数巨大的调查类型抽样/分层抽样将总体中的各单位按照某种特征或某种规则划分成若干个不同的类型组,然后从各类型组中独立地、随机地抽取样本,再将各类型组的样本结合起来,对总体的目标量进行估计 可以保证样本中包含各
14、种特征的抽样单位,使样本结构更接近总体结构。如分年龄段抽取样本等距抽样/系统抽样将总体中各单位按照某一标志顺序排列,在规定的范围内随机确定起点,然后按照一定的间隔抽取其他样本单位样本单位均匀分布在总体中,等距抽样精度一般较简单抽样优实施时,先编号 ,然后计算抽样距离 ,其中N为总体单位数,n为样本容量,然后随机取数字k,抽取如下编号的样本14第14页/共81页整群抽样将总体各单位划分为若干群,然后以群为单位从中随机抽取一些群,对抽中群的所有单位都进行调查实施方便,但误差较大。宜多抽取一些群,群应均匀分布于样本总体中。如抽取某几个班对全校学生视力情况进行统计研究多阶段抽样/多级抽样/阶段抽样将对
15、总体单位的整个抽样过程分为两个或更多个阶段进行,先从总体中抽选若干个大的样本群,称为第一阶段单位,然后从被抽中的若干个大的单位群中,抽选较小的样本单位,以此类推。如手机售后服务满意度研究,先抽取省,继而抽取市、县、区。多阶段抽样保留了整群抽样的优点,成本低。我国许多全国性的大规模抽样就是多阶段抽样。15第15页/共81页2.2 调查设计统计调查需要投入大量的人力、物力和财力,为了保证统计调查资料的准确、及时、全面,在组织调查之前,必须制定科学、严密的工作计划和实施措施,以保证调查工作顺利、有序地进行 调查设计包括:统计调查方案的设计和调查问卷的设计16第16页/共81页2.2.1 统计调查方案
16、的设计(1)明确调查目的即明确统计调查要研究和解决什么问题,这是最基本的问题第六次全国人口普查的目的是“查清2000年以来我国人口数量、结构、分布和居住环境等方面的变化情况,为科学制定国民经济和社会发展规划,统筹安排人民的物质和文化生活,实现可持续发展战略,构建社会主义和谐社会,提供真实准确、完整及时的人口统计信息支持”。(2)明确调查对象、调查单位 调查对象/调查总体:需要调查的总体范围,避免遗漏和重复调查单位/总体单位:具体调查项目和内容的承担者报告单位:负责报告调查资料的单位。调查单位和报告单位有时一致,有时不一致。如如商场调查中,商场既是调查单位,也是报告单位;人口普查中,调查单位是人
17、,报告单位是户。17第17页/共81页(3)确定调查项目 调查项目:所要调查登记的具体内容(4)确定调查时间和调查期限 调查时间:调查资料所属的时点或时期 调查期限:包括搜集资料和报送资料的整个工作所需时间(5)确定调查的组织实施计划 调查工作的领导队伍调查人员队伍的组织调查资料的管理方法调查前的准备工作等,如培训调查人员、经费筹措、组织试点等。18第18页/共81页2.2.2 调查问卷的设计调查问卷:根据调查目的,将所要调查的内容、问题和可能的答案按照一定的形式排列所形成搜集调查数据的书面形式,是一种特殊的调查表(1)调查问卷的结构和内容标题。即问卷的主题,应能够概括性地描述问卷的研究主题,
18、并且应醒目、准确,使被调查者大致明确调查的内容和性质。前言。主要包括引言和注释,用来向被调查者说明调查的目的、意义和主要内容、调查者的身份及填写说明等。示例见P41。主体。包括问题与答案,是问卷的核心内容,研究者欲通过调查问卷了解的数据资料大部分在这里以问题和回答项目的形式提出。结束语和实验记录。结束语是为了表示对调查对象真诚合作的谢意,在问卷的末端的简短明了的感谢语。实验记录用于记录调查的完成情况和需要复查、校订的问题,由调查员和审核员签写姓名和日期,以明确调查人员责任。19第19页/共81页(2)问题与答案的设计问题的主要形式:开放式问题和封闭式问题 开放式问题/无结构的问答题:只需提出问
19、题,而不必在问卷上拟定答案封闭式问题/有结构的回答题:对问题预先设计备选答案,由被调查者根据自己的判断或实际情况进行选择 问题的措辞与顺序表述问题时应遵守的原则 措辞应简单、易懂。考虑被调查者的语言能力,尽量使用符合人们交谈习惯的通俗易懂的语言,尽量避免相对生僻的专业术语。避免诱导性问题。诱导性问题带有一定的倾向性,会影响到被调查者的正常思考,误导其回答,影响调查结果的准确性。避免使用双重否定语和语义双关的句子。对敏感性问题的设计应讲究技巧,特别注意问题的提出方式。问题的排序应遵循的原则 按照由易到难的顺序,最前面的是容易回答的问题,然后是较难回答的问题,最后是敏感性问题 封闭式问题放在前面,
20、开放式问题放在后面 注意问题的逻辑顺序20第20页/共81页问题表述举例:大学生恋爱观调查:“您赞成大学期间的纯洁恋爱而不是进入社会以后趋炎附势的恋爱吗?”大学生社团现状调查:第一题“您参加的社团有哪些?”,第二题“您是否参加过社团”大学生社团现状调查:“假如您中途退出社团,那么退出的原因是:A.没有归属感;B.失去热情;C.学习与社团不能兼顾”购物途径调查:“你网上购物的次数如何:A.较少;B.一般;C.较多”消费群体调查:“你的体重是多少公斤?”家庭消费调查:请问你家人均年食品支出是多少元?答案的设计 调查问卷答案的主要形式 自由回答式:由被调查者自由填写答案 住房户型二项选择式:被调查者
21、只需在两个对立的答案中任选其一 取消黄金周多项选择式:被调查者需要从若干个备选答案中选择符合自己情况的一项或几项 年龄顺位式:列出对某一问题不同层次的答案,由被调查者排除先后次序,以表示自己的态度和倾向 经营重点/关注点量表应答式:以量表的方式使调查对象对问题作出反应李克特量表(Likert scale)21第21页/共81页(3)调查问卷的信度与效度问卷调查的误差 测量误差/随机误差:产生于问卷测验过程中的误差系统误差:由问卷的结构质量造成的误差为了提高调查问卷的结构质量,减少误差,在调查问卷初步设计成型后,需要在小范围内进行试验性调查,并对调查问卷进行信度和效度的检验信度:问卷的可靠性,即
22、用一份调查问卷对同一组调查对象进行重复调查时,所得结果的一致性程度 效度:问卷的有效性和正确性,即问卷能够正确测量研究者所要测量的特质的程度测量是否发烧:效度:测温度还是测体重信度:温度计好用吗?22第22页/共81页2.3 统计数据的整理统计数据整理:根据统计研究的目的和任务的要求,对统计调查所得到的各项原始资料进行科学的分类和汇总,为统计分析提供准确、系统、条理清晰、能在一定程度上说明总体特征的综合资料的工作过程。统计资料的整理包括统计资料的审核、统计分组、汇总计算,制作统计表、统计图等程序,以及描述统计数据的分布特征等。23第23页/共81页2.3.1 统计分组(1)概念:统计分组是根据
23、统计研究的目的和需要,将统计总体按照某一标识划分为若干个类型组 统计分组应保证:各组内统计资料的差异尽可能小,各组间则应有明显的差异(2)统计分组的作用 划分现象的类型:通过统计分组能将这些不同类型的现象区分开来,分别研究如企业可分为资本密集型、技术密集型、劳动密集型研究总体的结构:在划分总体类型的基础上,通过统计分组能计算出各类型现象占总体的比重,以进一步说明总体的结构特征和基本性质 如根据各年龄段人口比重,人口可分为增长型、静止型、缩减型研究总体现象之间的依存关系:在统计分组的基础上,计算相关指标,可以观察不同现象之间是否存在或存在何种联系 如销售额与广告费、家庭收入与支出、施肥量与产量2
24、4第24页/共81页(3)分组标志的选择统计分组的关键在于分组标志选择。分组标志直接影响到能否正确反映总体的性质特征,进而影响到统计研究结论的正确性。选择统计分组标志的原则:选择符合统计研究的目的和要求的分组标志 选择最能反映现象本质特征的分组标志 要考虑社会经济现象所处的具体历史条件和社会经济发展条件(4)统计分组的种类根据分组标志的多少,分为简单分组和复合分组 简单分组:将统计总体按照一个分组标志进行分组,如性别、婚姻状况、年龄等复合分组:对同一统计总体运用两个或两个以上分组标志进行层叠方式的分组 根据分组标志的性质,可以分为品质分组和数量分组品质分组:按反映事物属性或质的特征等品质标志进
25、行的分组数量分组:按反映事物数量特征的数量标志进行的分组,如企业职工数、生产能力、固定资产总值25第25页/共81页大型中型小型大型中型小型大型中型小型大型中型小型轻工业重工业轻工业重工业国有企业非国有企业工业企业我国工业企业的复合分组体系26第26页/共81页2.3.2频数分布(1)频数分布/分布数列的定义在统计分组的基础上,将总体所有单位按组归类整理,并按一定的顺序排列,形成说明单位总数在各组分配情况的分布(2)频数分布的组成部分按照分组标志分组形成的组别频数/次数:与各组相对应的总体单位数(3)频率:各组频数与总次数的比率(4)分类:品质分布数列/品质数列:按品质标志分组的分布数列变量分
26、布数列/变量数列:按可变数量标志分组的分布数列(重点讨论)矿泉水品牌矿泉水品牌销售量销售量/瓶瓶比率(频率)比率(频率)/%/%(精确到百分位)(精确到百分位)农夫山泉农夫山泉8 81313乐百氏乐百氏4 46 6康师傅康师傅13132121哇哈哈哇哈哈8 81313冰露冰露15152323统一统一9 91414雀巢雀巢6 61010合计合计6363100100不同品牌矿泉水销售量的分布数列 27第27页/共81页(4)变量数列的编制两类:单项式变量数列和组距式变量数列单项式变量数列单项式变量数列:在数量标志分组中,若总体变量是离散型变量,且变量值变动幅度较小,变量值的项数又较少,我们可以依次
27、将每个变量作为一组,形成分布数列由于每个变量就是一个组,因此单项式变量数列的编制简单,只需计算出每个变量值的频数和频率即可组距式变量数列组距式变量数列:将总体变量依次划分为几个区间,各个变量值按其大小确定所归并的区间,形成分布数列组距式变量数列的编制略繁年龄年龄/岁岁人数(频数)人数(频数)/人人比率(频率)比率(频率)/%/%181860360315.07515.07519191761176144.02544.02520201286128632.15032.15021213503508.7508.750总计总计40004000100.00100.00某大学年级在校人数年龄分组表 28第28页
28、/共81页组距数列的编制步骤确定组数和组距确定组限计算频数、频率等统计指标 组距数列的基本概念全距:总体变量的最大数值与最小数值之差组距:每个组上限和下限之间的距离组数:全距除以组距(在等距分组的前提下)斯特杰斯经验公式:确定组数和组距的经验公式 组数n=13.3log10N 组距 其中,N为总体单位数,R为全距,xmax和xmin分别为最大变量值和最小变量值现实应用中可以参考上述公式,不必完全依赖等距分组和异距分组分组时各组组距保持相等/不完全相等异距分组的分布受各组组距大小的影响,需要对每组数据计算其频数密度 若总体中变量分布比较均衡,采用等距分组;否则采用异距分组 29第29页/共81页
29、组限和组中值组限:各组两端的数值。在划分离散变量的组限时,相邻组限可以间断 在划分连续变量的组限时,相邻组的组限必须重叠,统计次数时应遵循“上组限不包括在内”的原则 组中值:各组变量值范围的中点值 当相邻组组限重合时当相邻组组限不重合时开口组:在首末两组使用“以上”或“以下”的组限表示方法。开口组以相邻组的组距作为本组的组距累计频数和累计频率用于表示某个变量值以上或以下的总次数和总比重有多少 向上累计:由变量值小的向变量值大的累计向下累计:由变量值大的向变量值小的累计年龄/岁人数(频数)/人比率(频率)/%向上累计向下累计人数/人频率/%人数/人频率/%1860315.07560315.075
30、4000100.00019176144.025236459.100339784.92520128632.150365091.250163640.900213508.7504000100.0003508.750总计4000100.0030第30页/共81页2.3.3 统计表和统计图统计表:将统计调查搜集到的资料,经分组、汇总、整理后,按一定的顺序和格式排列在表格内用数据代替文字描述,便于统计结果精确、简洁表达和对比分析统计图:用几何图形或具体形象图形把统计表中的数字资料直观、形象地展示出来用图形代替数据,获得直观、形象的效果(1)统计表结构31第31页/共81页统计表的种类简单表:主词未经过任何
31、分组的统计表分组表:主词只按一个标志进行分组的统计表复合表:主词按两个或两个以上标志进行分组,且标志重叠排列的统计表 统计表的编制规则统计表的标题应简明扼要 统计表的内容应少而精,使主题突出,一目了然 表内分组和指标的排列顺序,要符合内容的逻辑关系 数字应排列整齐,同栏数据的计量单位和精确度应一致 必须注明数字资料的计量单位 表左右两端一般不封口,表上下两端通常划粗线或双线(三线表)必要时表下可加“注释”,说明表的资料来源,制表人或制表单位,制表日期以及其他需要说明的问题年份出生率/%死亡率/%产业类别GDP/%比重/%项目人数/万人就业人员合计一产在岗职工数国有企业32第32页/共81页(2
32、)统计图常用的统计图饼图:用圆形及圆内扇形的面积表示数值大小的图形 条形图:坐标平面上用宽度相同的条形的高度或长短来表示数据多少的图形 直方图:在坐标平面上以组距为底边,以长方形面积代表各组的次数绘制的一系列条形图 折线图:在直方图的基础上,将每个长方形的顶边中点用折线连接起来,或直接以组中值作为横坐标、频数作为纵坐标得到各个坐标点并依次连接各坐标点 曲线图:若变量数列的变量值非常多,将各组组距无限缩小,组数无限增多,折线图趋于一条平滑的曲线 33第33页/共81页饼图和条形图饼图和条形图饼图主要是以圆内扇形的面积的大小来表示总体中各组成部分占总体的比重 条形图中,条形及条形之间宽度相等,条形
33、的高度或长度表示各类别指标值的大小 不同品牌矿泉水销售量比重不同品牌矿泉水销售量比重 不同品牌矿泉水销售量分布条形图不同品牌矿泉水销售量分布条形图 34第34页/共81页直方图和折线图直方图和折线图直方图中,长方形的高度与频数成正比关系,高度就可反映次数(对于异距分组以频数密度作为纵坐标)折线图,在直方图的基础上,将每个长方形的顶边中点用折线连接起来绘制而成某班级男生身高分布直方图某班级男生身高分布直方图 某班级男生身高分布折线图某班级男生身高分布折线图 35第35页/共81页曲线图曲线图钟形曲线靠近中间的变量值分布次数较多,靠近两边的变量值分布次数较少,整个曲线的形状如同一个倒挂的钟可以分为
34、正态分布和偏态分布(又包括左偏和右偏)正态分布曲线 左偏分布曲线 右偏分布曲线36第36页/共81页曲线图(续)曲线图(续)U型曲线:靠近中间的变量值分布的次数较少,靠近两边的变量值分布的次数较多 J型曲线根据次数随变量的变化情况,可分为正J型和负J型曲线 U型分布曲线 正J型曲线负J型曲线37第37页/共81页洛伦茨曲线洛伦茨曲线横轴表示累计的人口百分比,纵轴表示累计的收入或财富百分比,弧线OL为洛伦茨曲线洛伦茨曲线的弯曲程度反映了收入分配的不平等程度洛伦茨曲线的弯曲程度越大,收入分配越不平等,特别是如果所有的财富都集中的一人手中,而其余人口一无所有时,收入分配达到完全不平等,这时洛伦茨曲线
35、为折线OHL 基尼系数(a/(a+b)与马太效应洛伦茨曲线洛伦茨曲线 38AB第38页/共81页2.3.4 统计数据的分布特征(1)分布集中趋势的测度众数(M0):总体单位中出现次数最多的标志值对于单项式变量数列,通过观察法将出现次数最多的标志值确定为众数;对于组距式变量数列,首先确定次数最多的组为众数组,然后根据下面的近似公式来计算众数其中:M0表示众数;L表示众数组的下限;1表示众数组与前一组的次数之差;2表示众数组与后一组的次数之差;d表示众数组的组距身高/cm频数/个频率/%155-165820.0165-1751742.5175-1851230.0185-19537.5合计40100
36、.039第39页/共81页中位数:将总体单位中各单位标志值按大小顺序排列,处于中间位置的那个标志值对于未分组数据,根据中位数的定义确定其取值对于未分组数据,根据变量数列类型的不同 对于单项式变量数列,可以先计算出各组的累计频数,中间位置所在组的标志值即为中位数 对于组距式变量数列,首先根据累计频数确定中为数组,然后根据下面的近似公式来计算中位数 其中:N/2 表示中位数所在位置;L表示中位数所在组的下组限;Sm-1表示中位数所在组以下各组的累计频数;fm表示中位数所在组的频数;d表示中位数所在组的组距类似于中位数,总体单位可以划分为更多个数量相等的部分,如四分位数、十分位数和百分位数 身高/c
37、m频数/个频率/%155-165820.0165-1751742.5175-1851230.0185-19537.5合计40100.040第40页/共81页平均数/均值算术平均数对于未分组数据,对总体各单位的标志值求和并除以总体单位数 其中:xi(i=1,2,n)表示第i个单位的标志值;n表示单位总数 对于已分组的数据的平均数,需要考虑到各组的权值,计算其加权平均值xi(i=1,2,k)表示各组组中值,fi(i=1,2,k)表示各组频数 几何平均数在某些实际问题中,总体各单位的变量值具有整体的衔接性,或联乘积具有实际意义,需要求解n个变量值乘积的n次方根来代表变量值的平均水平 41第41页/共
38、81页(2)分布离散程度的测度极差与四分位差极差/全距(R):总体各单位标志值中最大值与最小值之差R=max(xi)-min(xi)四分位差(QD):总体单位的两个四分位数之差QD=Q3-Q1其中QD表示四分位差;Q3和Q1分别表示75%位置上和25%位置上的四分位数 平均差平均差(AD):总体各单位标志值同其算术平均数的离差的绝对值的算术平均数对于未分组数据对于已分组数据 上两式中字母含义同平均数(后同)42第42页/共81页方差与标准差方差(s):总体各单位标志值同算术平均数离差的平方的算术平均数,对方差开平方就得到标准差()对于未分组数据对于已分组数据变异系数 变异系数/离散系数(V):
39、总体离散程度指标值相对于平均数的比值极差系数 标准差系数 43第43页/共81页(3)分布偏度与峰度的测度偏度(Skewness)数据分布相对于正态分布的偏斜方向及程度,用偏度系数(SK)来测度数据分布的偏度SK=0时分布对称(正态)SK0时为右偏分布(正偏态)SK0为尖峰分布KChart Builder注意可通过选择恰当的Statistic下拉列表框声明绘制内容(频数/均值/中位数/标准差)A 59A 45A 60B 74B 79B 75B 80C 82C 8479第79页/共81页本章内容到此结束!作业:习题2的2、4、5、6题,其中第5题应注意进行恰当分组,46题必须基于SPSS完成自定数据资料利用SPSS绘制饼图、条形图、折线图自定题目设计一份问卷80第80页/共81页81感谢您的观看!第81页/共81页