统计数据的搜集整理与显示.pptx

上传人:莉*** 文档编号:87340225 上传时间:2023-04-16 格式:PPTX 页数:55 大小:386.11KB
返回 下载 相关 举报
统计数据的搜集整理与显示.pptx_第1页
第1页 / 共55页
统计数据的搜集整理与显示.pptx_第2页
第2页 / 共55页
点击查看更多>>
资源描述

《统计数据的搜集整理与显示.pptx》由会员分享,可在线阅读,更多相关《统计数据的搜集整理与显示.pptx(55页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、1第1页/共55页2第2页/共55页3第3页/共55页4第4页/共55页5第一节 统计数据的整理 一、数据整理概述 数据整理的含义:对统计调查所搜集到的各种数据进行分类和汇总,又称为汇总性整理。1 统计数据整理的内容:(1)如何对所要研究的总体进行统计分组;(2)确定描述总体数量特征的统计指标体系2数据整理的程序 数据审核、资料分组和汇总、编制统计图表、统计资料的保管和公布。第5页/共55页6二、统计分组基本理论 1.统计分组的概念根据统计研究的目的和客观现象的内在特点,按某个标志(或几个标志)把被研究的总体划分为若干个不同性质的组,称为统计分组。统计分组标志:品质标志或数量标志兼有分和合双重

2、含义,对于现象总体,是“分”,对于单位,是“合”。2.统计分组的种类(1)按分组标志的多少,分为按一个标志的简单分组和按二个以上标志的复合分组平行分组和层迭分组(2)按分组的标志的性质不同,分为按品质标志分组(或称属性分组)和按数量标志分组(或称变量分组)。第6页/共55页7三、统计分组的原则和方法 1统计分组的原则:穷尽原则:使总体中的每一个单位都应有组可归,或者说各分组的空间足以容纳总体所有的单位。互斥原则:就是在特定的分组标志下,总体中的任何一个单位的只能归属于某一组,而不能同时或可能归属于几个组。2统计分组的方法 (1)定类、定序变量分组:按品质标志分组 (2)数量分组:按数量标志分组

3、(A)单项式分组与组距式分组(B)间断组距式分组和连续组距式分组“上限在不内”原则:凡是总体某一个单位的变量值是相邻两组的界限值,这一个单位归入作为下限值的那一组内。(C)等距分组与异距分组(成绩、年龄、收入、体重分组)第7页/共55页83组距式分组的相关概念(1)组距连续组距分组的组距=本组上限本组下限 间断式组距且等距分组的条件下:组距=本组上限前组上限 或=本组下限前组下限 或=本组上限本组下限+1(2)组数n和组距d:(3)组中值=(本组上限+本组下限)/2(4)开口组的组距与组中值第8页/共55页9四、频数分布1频数分布的基本概念(1)频数分布的定义(2)分布数列的两个要素总体按某标

4、志所分的组,若总体按数量标志分组,分组标志在各组有不同的数量表现,形成标志值数列,亦称变量,一般用x 表示;各组所出现的单位数,即频数,亦称次数,用f 表示。第9页/共55页10数据的输入技巧教材:P:36表3。2P:38表3。8P:44表3。12第10页/共55页11(3)频率 fi:第i组频数 频率的性质 (A);(B)。(4)频数密度与频率密度:(A)频数密度=频数/组距(2.9)(B)频率密度=频率/组距(2.10)第11页/共55页122变量数列的编制方法五、累计频数与累计频率1向上累计频数(或频率)分布由标志值低的组向标志值高的组依次累计2向下累计频数(或频率)分布由标志值高的组向

5、标志值低的组依次累计第12页/共55页13五、统计表1统计表的定义和结构(1)统计表的定义(2)统计表的结构 (A)从表式上看,表格包括总标题、横行标题、纵栏标题和指标数值四个部分。(B)从内容上看,统计表由主词栏和宾词栏两个部分组成。第13页/共55页142统计表的分类(1)按主词的结构分类,根据主词是否分组和分组的程度,分为简单表、分组表和复合表。(2)按宾词设计分类,可分为宾词简单排列、分组平行排列和分组层叠排列等三种。3统计表的设计(1)开口式(2)标题(3)合计拦(4)数据(5)计量单位(6)注释或资料来源。第14页/共55页15六、统计图 1直方图2折线图3曲线图4累计曲线图洛伦茨

6、曲线图基尼系数,用以衡量收入分配的平等与否。第15页/共55页16罗伦茨曲线和基尼系数第16页/共55页17G=0.306+2*0.550-1=0.407XYSXX*YX*(1-SY)SY10.129 0.050 0.129 0.006 0.122 0.050 20.348 0.130 0.477 0.045 0.285 0.180 30.467 0.520 0.943 0.243 0.140 0.700 40.046 0.240 0.989 0.011 0.003 0.940 50.011 0.060 10.001 01合计110.306 0.550 G=0.407 第17页/共55页18七

7、、频(次)数分布图的类型七、频(次)数分布图的类型1钟型分布 钟型分布示意图()()()第18页/共55页192U型分布图2-7 U型分布示意图 10 20 30 40 50 60 70 805040302010 0死亡率()年龄第19页/共55页203J型分布 J型分布示意图 正J型图反J型图第20页/共55页21第二节 集中趋势测量法一、测定集中趋势的指标及其作用二、数值平均数三、众数与中位数第21页/共55页22一、测定集中趋势的指标及其作用集中趋势(Central tendency)较大和较小的观测值出现的频率比较低,大多数观测值密集分布在中心附近,使得全部数据呈现出向中心聚集或靠拢的

8、态势。n测度集中趋势的指标有两大类:n数值平均数是根据全部数据计算得到的代表值,主要有算术平均数、调和平均数及几何平均数;n位置代表值根据数据所处位置直接观察、或根据与特定位置有关的部分数据来确定的代表值,主要有众数和中位数。第22页/共55页23测定集中趋势指标的作用1反映变量分布的集中趋势和一般水平。如用平均工资了解职工工资分布的中心,反映职工工资的一般水平。2可用来比较同一现象在不同空间或不同阶段的发展水平。不受总体规模大小的影响,在一定程度上使偶然因素的影响相互抵消。3可用来分析现象之间的依存关系。如研究劳动者的文化程度与收入的关系4平均指标也是统计推断中的一个重要统计量,是进行统计推

9、断的基础。第23页/共55页24二、数值平均数(一)算术平均数(均值)一组数据的总和除以这组数据的项数所得的结果;最常用的数值平均数。1简单算术平均数把每项数据直接加总后除以它们的项数。通常用于对未分组的数据计算算术平均数。计算公式:第24页/共55页25分组例 2-1 表表 3-23-2年龄年龄人数(人)人数(人)x xf f22224 42525101030305 550501 1合计合计2020表表 3-13-1男性男性女性女性22222222222222222525252525252525252525252525252525252525303030303030303050503030n

10、解:采用简单算术平均法计算,即全体队员的平均年龄为(单位:周岁):若采用简单平均:分组数据不能简单平均!因为各组变量值的次数不等!第25页/共55页262加权算术平均数加权算术平均数的计算公式:n正确的计算是:n加权为了体现各变量值轻重不同的影响作用,对各个变量值赋予不尽相同的权数(fi).第26页/共55页27权数(fi,也称权重)权数指在计算总体平均数或综合水平的过程中对各个数据起着权衡轻重作用的变量。可以是绝对数形式,也可以是比重形式(如频率)来表示。事实上比重权数更能够直接表明权数的权衡轻重作用的实质。当权数完全相等(f1=f2=fn)时,加权算术平均数就成了简单算术平均数。第27页/

11、共55页283由组距数列计算算术平均数 要点:各组变量值用组中值来代表。假定条件是各组内数据呈均匀分布或对称分布。计算结果是近似值.表表3 33 3节能灯泡的使用寿命的分组数据节能灯泡的使用寿命的分组数据使用寿命使用寿命(小时)组中组中值值 (x)数量数量(f)XfXf 频率频率 (f/ff/f)(Xf/f)10001000以下以下900218000.020 181000-12001000-12001100888000.080 881200-14001200-1400130016208000.160 2081400-16001400-1600150035525000.350 5251600-1

12、8001600-1800170023391000.230 3911800-20001800-2000190012228000.120 22820002000以上以上2100484000.040 84合合 计计1001542001.000 1542解:平均使用寿命为:第28页/共55页294对相对数求算术平均数由于各个相对数的对比基础不同,采用简单算术平均通常不合理,需要加权。表表 3-43-4企 业流通费用率()商品销售额(万元)流通费用(万元)甲161600256乙104750475丙124000480合 计11.70048103501211n权数的选择必须符合该相对数本身的计算公式。n权数

13、通常为该相对数的分母指标。第29页/共55页305算术平均数的主要数学性质(1)算术平均数与变量值个数的乘积等于各个变量值的总和。(2)各变量值与算术平均数的离差之总和等于零。(3)各变量值与算术平均数的离差平方之总和为最小。第30页/共55页31(二)几何平均数(Geometric mean)几何平均数 n个变量值连乘积的n次方根。简单几何平均数n加权几何平均数n适用于各个变量值之间存在连乘积关系的场合。n主要用于计算现象的平均发展速度,n也适用于对某些具有环比性质的比率求平均.第31页/共55页32【例2-5】某企业产品的加工要顺次经过前后衔接的五道工序。本月该企业各加工工序的合格率分别为

14、88、85、90、92、96,试求这五道工序的平均合格率。解:本例中各工序的合格率具有环比的性质,企业产品的总合格率等于各工序合格率之连乘积。所以,所求的平均合格率应为:第32页/共55页33三、众数与中位数(一)众数(Mode)众数是一组数据中出现频数最多、频率最高的变量值,常用 M0 表示。如表3-2中年龄的众数值MO25。众数代表的是最常见、最普遍的状况,是对现象集中趋势的度量。可用来测度定性变量的集中趋势;销售量最大的产品颜色是“白色”,则有M0“白色”可以度量定量变量的集中趋势。从分布曲线的角度看,众数就是变量分布曲线的最高峰所对应的变量值。xMOf(x)第33页/共55页34组距数

15、列中众数的确定先找到众数组。在等距数列中,众数组就是次数最多的组;在异距数列中,众数组应是频数密度最大的组。根据众数组与其相邻两组的次数差来推算。其近似公式为:下限公式:上限公式:M MMooo第34页/共55页35(二)中位数(Median)中位数是将数据由小到大排列后位置居中的数值。n由未分组数据计算中位数n若数据项数是奇数,则正好位于中间的数值就是中位数;n如5人收入为:1200,1450,1500,1600,2000元,则收入的中位数 Me=1500。n若数据项数是偶数,则取居中两个数值的平均数为中位数.n如6人收入为:1200,1450,1500,1600,1800,2000元,则收

16、入的中位数 Me=1550。x Mef(x)50%50%第35页/共55页36由组距数据计算中位数先确定中位数组,即中间位置(用f/2来计算)所在的组。假定中位数组内次数均匀分布(次数与变量值的区间大小成比例),近似推算中位数的值。计算公式为:下限公式:上限公式:第36页/共55页37四分位数、十分位数和百分位数四分位数是将数据由小到大排序后,位于全部数据1/4位置上的数值。十分位数是将数据由小到大排序后,位于全部数据1/10位置上的数值。百分位数是将数据由小到大排序后,位于全部数据1/100位置上的数值。中位数也就是第二个四分位数、第五个十分位数、第五十个百分位数。分位数与其它指标结合,可以

17、更详细地反映数据的分布特征。第37页/共55页38箱线图(boxplot)箱线图由一组数据的最小值(xmin)、第一四分位数(Q1)、中位数(Me)、第三四分位数(Q3)、最大值(xmax)等五个数值来绘成。利用箱线图可以观察数据分布的范围、中心位置和对称性等特征,还可以进行多组数据分布的比较。xmin Q1 Me Q3 xmax第38页/共55页39(三)众数、中位数和算术平均数的比较1.算术平均数综合反映了全部数据的信息,众数和中位数由数据分布的特定位置所确定。2.算术平均数和中位数在任何一组数据中都存在而且具有惟一性,但计算和应用众数有两个前提条件:(1)数据项数众多;(2)数据具有明显

18、的集中趋势。3.算术平均数只能用于定量(数值型)数据,中位数适用于定序数据和定量数据,众数适用于所有形式(类型、计量层次)的数据第39页/共55页40(续)4.算术平均数要受数据中极端值的影响。而众数和中位数都不受极端值的影响。为了排除极端值的干扰,可计算切尾均值,即去掉数据中最大和最小的若干项数值后计算的均值.切尾均值是将均值与中位数取长补短的结果。5.算术平均数可以推算总体的有关总量指标,而中位数和众数则不宜用作此类推算。第40页/共55页41算术平均数和众数、中位数的数量关系在对称分布中,三者相等.即:均值=Me=Mo;x MeMe xn在左偏分布中,一般有:均值MeMon在右偏分布中,

19、一般有:Mo Me 均值。n皮尔生经验公式:在轻微偏态时,三者的近似关系:第41页/共55页42第三节 离散程度测量法一、测定离散程度的指标及其作用二、极差、四分位差和平均差三、方差和标准差四、离散系数五、异众比率 第42页/共55页43一则笑话如果你一只脚放在摄氏 1 度的水里,另一只脚放在摄氏 79 度的水里,平均水温 40 度,你一定感觉很舒服?显然,只了解变量的集中趋势是不够的!第43页/共55页44一、测定离散程度的指标及其作用1.说明数据的分散程度,反映变量的稳定性、均衡性。数据之间差异越大,变量的稳定性或均衡性越差。2.衡量平均数的代表性。离散程度越大,平均数的代表性就越小。3.

20、统计推断的重要依据判别统计推断前提条件是否成立,衡量推断效果好坏的重要尺度。第44页/共55页45二、极差、四分位差和平均差(一)极差(Range)极差是一组数据的最大值(xmax)与最小值(xmin)之差,通常用 R 表示。对于总体数据而言,极差也就是变量变化的范围或幅度大小,故也称为全距。组距数列中,极差最高组的上限-最低组的下限。优缺点:计算简便、含义直观、容易理解。它未考虑数据的中间分布情况,不能充分说明全部数据的差异程度。第45页/共55页46(二)四分位差第3四分位数(Q3)与第1四分位数(Q1)之差,常用Qd表示。计算公式为:实质上是两端各去掉四分之一的数据以后的极差,表示占全部

21、数据一半的中间数据的离散程度。四分位差越大,表示数据离散程度越大。是在一定程度上对极差的一种改进,避免了极端值的干扰。但它对数据差异的反映仍然是不充分的。四分位差是一种顺序统计量,适用于定序数据和定量数据。尤其是当用中位数来测度数据集中趋势时.第46页/共55页47三、方差和标准差1.方差(Variance)的概念和计算方差是各个数据与其均值的离差平方的算术平均数.总体方差(2)的计算公式为:未分组数据:n分组数据:n样本方差(通常用 S2 表示)分母应为(n-1)。第47页/共55页48标准差(standard Deviation)标准差方差的算术平方根。总体标准差一般用表示。其计算公式为:

22、未分组数据:n分组数据:n标准差比方差更容易理解。在社会经济现象的统计分析中,标准差比方差的应用更为普遍,经常被用作测度数据与均值差距的标准尺度。n样本标准差(S)分母应为(n-1)。第48页/共55页49【例3-9】计算平均差和方差、标准差使用寿命(小时)组中值(x)试验数量(只)f 频率 (f/f)(x1542)|x1542|f(X1542)2*f1000以下90020.020-64212848243281000-1200110080.080-442353615629121200-14001300160.160-24238729370241400-16001500350.350-42147

23、0617401600-18001700230.230 15836345741721800-20001900120.120 358429615379682000以上210040.040 55822321245456合计合计1001001.000 1.000 203242032467436006743600第49页/共55页502.方差的主要数学性质(3)分组条件下,总体的方差等于组间方差与各组方差平均数之和。(1)常数的方差等于零。a为常数,则(2)变量的线性函数的方差等于变量系数的平方乘以变量的方差。设a,b为常数,y=a+bx,则有:n组间方差n各组方差平均数第50页/共55页513.标准化

24、值(Z-score)标准化值或标准得分也称为Z值。对于来自不同均值和标准差的个体的数据,往往不能直接对比。这就需要将它们转化为同一规格、尺度的数据后再比较。标准化值实际上是将不同均值和标准差的总体都转换为均值为0、标准差为1的总体,将各个体的数据转换为它在其总体中的相对位置。第51页/共55页52【例3-10】解:由于两次考试成绩的均值和标准差不同,每个学生两次考试的成绩不宜直接比较。利用标准化值进行对比,表明第二次考试的成绩更好一些。n假定某班学生先后两个两次进行了难度不同的综合考试,第一次考试成绩的均值和标准差分别为80分和10分,而第二次考试成绩的均值和标准差分别为70分和7分。张三第一、二次考试的成绩分别为92分和80分,那么全班相比较而言,他哪一次考试的成绩更好呢?第52页/共55页53四、异众比率 异众比率是指非众数值的次数之和在总次数中所占比重,其公式为:n主要用于衡量一组数据以众数为分布中心的集中程度,即衡量众数代表一组数据一般水平的代表性。n其值越小,数据集中程度越高,众数代表性越大.n【例3-12】n规格的异众比率 n颜色的异众比率:第53页/共55页54第54页/共55页55感谢您的观看!第55页/共55页

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > PPT文档

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁