《经济应用统计学第四章统计整理精选PPT.ppt》由会员分享,可在线阅读,更多相关《经济应用统计学第四章统计整理精选PPT.ppt(69页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、经济应用统计学第四章统计整理第1页,此课件共69页哦学习目标l明确统计资料整理的涵义和作用l了解统计整理的内容和程序l掌握分布数列的编制方法 第2页,此课件共69页哦本章主要内容第一节统计整理的一般问题第二节统计汇总技术第三节统计汇总的质量控制第四节分布数列的编制第3页,此课件共69页哦第一节统计整理的一般问题第4页,此课件共69页哦第一节统计整理的一般问题一、统计整理的概念二、统计整理的内容三、统计整理的程序第5页,此课件共69页哦一、统计整理的概念统计整理统计整理将统计调查得到的原始资料进行科学的分组和汇总,使其系统化、条理化,成为能够反映总体特征及其发展变化情况的综合统计资料的工作过程统
2、计整理是统计调查的继续,统计分析的前提和基础第6页,此课件共69页哦二、统计整理的内容统计整理统计汇总统计分组就是在统计分组设计的基础上,根据各单位的标志归属,把总体各单位归纳到各组中,计算出各组和总体的单位数和标志值。逐级汇总集中汇总优点:满足各层次的需要;便于审核更正缺点:费时费力;易出错优点:速度快层次少缺点:有错不易查找;不能及时满足中间层次需要第7页,此课件共69页哦三、统计整理的程序1、设计和编制统计资料的汇总方案2、对原始资料进行审核3、对调查数据进行编码及录入4、分组汇总原始资料5、编制统计表和绘制统计图第8页,此课件共69页哦第二节统计汇总技术第9页,此课件共69页哦第二节统
3、计汇总技术利用计算机进行统计汇总主要包括:审核、编码、录入、数据净化编码、录入、数据净化、逻辑检查运算以及编制和打印汇总表、统计图等。第10页,此课件共69页哦一、编 码将调查表或调查问卷中的各个项目转化为数字符号的过程。编码事前编码事后编码适用封闭性问题适用开放性问题第11页,此课件共69页哦(一)编码的常用方法又称系列编码法。只用一个标准对数据进行分类,并按照一定的顺序用连续数字或字母进行编码的方式。例如:根据某项对家庭月度消费支出的调查,对家庭月度消费支出分为四个档次:小于500元500元1000元1000元1500元1500元以上1、顺序编码法操作简便,但不便于进行分组处理第12页,此
4、课件共69页哦(一)编码的常用方法又称区间编码法,是根据调查数据的属性特点和处理要求,将具有一定位数的代码单元分成若干个组,每个组的数字均代表一定的意义。例如:在某项关于社会公众保险意识调查中,对被调查者个人的基本情况进行了调查,运用分组编码法对有关信息编码如下:2、分组编码法 性 别 居 住 地 家庭人口数 月收入水平回答编码编码编码编码回答回答回答男女12大城市中小城市县乡镇农村1234单身两人三口之家四人以上1234200以下200-300300-400 1000-110001020310若某个被调查者为女性若某个被调查者为女性,居住于中等城市居住于中等城市,家中有三口人家中有三口人,月
5、收入为月收入为1000-1100则其回答信息为则其回答信息为22310第13页,此课件共69页哦(一)编码的常用方法把调查数据分成不同的组,给以一定的组码(数字区间)来进行编码的方法.例如:对某地市场上99种商品的价格变动进行调查,在运用信息组码编码法对调查的信息进行编码时,首先对99种商品分组,再给每个组分配一个组码:3、信息组码编码法组别组别百货组百货组食品组食品组家电组家电组服装组服装组其他组其他组名称码名称码01-3031-5051-6566-8081-99第14页,此课件共69页哦(一)编码的常用方法又称助忆编码法,它用数字符号等表明编码对象的属性,并依此方式对调查数据进行编码的方法
6、.例如:用180BXJ表示容量为180升的进口电冰箱.其中180为冰箱的容量,BX表示冰箱.J表示进口.4、表义式文字编码法第15页,此课件共69页哦(二)编码手册的编制 也称编码表,是用来进行数据编码的工作手册,包括四个项目:问题顺序号,每个调查项目的预置代码位置,项目名称,内容说明.第16页,此课件共69页哦1.您的职务?(1)正高级 (2)副高级 (3)中级 (4)其他2.您的年龄_3.您从事的专业_4.您对自己工作情况的评价?(1)已充分发挥积极性(2)基本发挥了积极性(3)积极性有所发挥(4)完全没有发挥积极性5.目前,您是否有离开学校的想法?(1)是 (2)否6.请您按投入精力的多
7、少,将下列三项活动排序?(1)校内工作 (2)校外兼职 (3)生活琐事 第一位_ 第二位_第三位_案例:对某高等学校教师的工作,生活状况的调查,一共有32个问题,我们摘录6个问题,来说明编码手册的编制.第17页,此课件共69页哦问题序号问题序号项目名称项目名称编码位置编码位置编码意义编码意义1职务职务11.正高正高2.副高副高3.中级中级4.其他其他2年龄年龄2-3答卷人回答年龄答卷人回答年龄3从事专业从事专业4-6专业编码见附表专业编码见附表4工作评价工作评价71.已充分发挥积极性已充分发挥积极性2.基本发挥了积极性基本发挥了积极性3.积极性有所发挥积极性有所发挥4.完全没有发挥积极性完全没
8、有发挥积极性5是否打算离是否打算离开学校开学校81.是是2.否否6按投入精力按投入精力排列排列9-111.校内工作校内工作2.校外兼职校外兼职3.生活琐事生活琐事若某份问卷的回答信息在答录卡上的前11为数字为:23300112132则表示为?第18页,此课件共69页哦二、录入 数据录入就是将问卷或编码表中的每一个项目对应的代码读到磁盘中,或通过键盘直接敲入计算机中的工作过程。方式:程序录入光电扫描录入第19页,此课件共69页哦三、数据净化 数据净化指通过计算机处理错误的或不合理的数据以及进行一致性检验。方式:统计软件:SPSS、SAS第20页,此课件共69页哦第三节统计汇总的质量控制第21页,
9、此课件共69页哦全面性审核一、资料审核汇总前对统计资料进行审核是统计汇总质量控制的关键。准确性审核 审核调查单位的全面性、审核调查项目的全面性逻辑审核、计算技术审核第22页,此课件共69页哦二、编码和录入的质量控制l编码工作的质量控制l录入工作的质量控制第23页,此课件共69页哦三、统计预处理l缺省数据的处理l加权处理l原始数据或变量的转换第24页,此课件共69页哦统计预处理1、缺省数据的处理以样本统计量代替缺省值 一般为平均值一般为平均值以统计模型计算的估计值代替缺省值 回归模型等回归模型等缺省值样本删除缺省值样本保留,仅在相应的分析中作必要删除第25页,此课件共69页哦 通过对调查数据进行
10、加权,使样本更具代表性,或为了强调某些被访群体的重要性。(例如:P91)统计预处理2、加权处理第26页,此课件共69页哦l变量类型的转化l数学意义上的变量代换统计预处理3、原始数据或变量的转换第27页,此课件共69页哦第四节分布数列的编制第28页,此课件共69页哦第四节分布数列的编制一、次数分布与分布数列的概念二、分布数列的种类三、累计分布数列四、次数分布图五、次数分布的类型第29页,此课件共69页哦一、次数分布与分布数列的概念1、次数分布:在统计分组的基础上,将总体的所有单位按组归类整理,并按一定顺序排列,形成总体中各单位在各组间的分布,就叫做次数分布。表示各组标志值对总体标志值所起作用的强
11、度频数(次数):各组单位数。频率:各组单位数占总体单位数的比率。性别性别人数人数比例比例男男4040%女女6060%合计合计100100%第30页,此课件共69页哦l反映统计总体内所有总体单位在各组间的分布。同类总体不同的分布状况差异反映了它们的性质差异。如各班成绩分布。l对某随机现象的重复观察,频率分布可以渐近反映其统计规律。次数分布的作用第31页,此课件共69页哦2、分布数列 分布数列:将各组组别的名称与相应的频数和频率,依次排列起来形成的数列称为次数分布数列,简称分布数列。也称分配数列或次数分配数列。分布数列的意义:分布数列是统计整理结果的一种表现形式,也是统计分析的一种方法。不仅可以表
12、明总体单位的分布特征和结构状况,而且可用以进一步研究总体单位某一标志的构成、平均水平及其变异程度。作用:反映总体中所有单位在各组的分布状态和分布特征。第32页,此课件共69页哦 各组名称(常用x 表示)两个构成要素 各组次数 分布数列的构成要素绝对数,称频数,用 f 表示。相对数,称频率,用f/f表示。总体所分各组的分组标志的具体体现各组对应的总体单位数或频率。第33页,此课件共69页哦某地人口的性别分布按性别按性别分组分组次数次数人数(人)人数(人)比重(比重(%)男男女女154349271461329751.3748.63合计合计30048224100.00学生的成绩分布按成绩按成绩分组分
13、组次数次数学生数学生数(人)(人)比重(比重(%)60以下以下60-7070-8080-9090以上以上2820155416403010合计合计50100f/ff/fff第34页,此课件共69页哦次数分布品质分布数列变量分布数列单项式分布数列组距式分布数列等距分布数列异距分布数列 由于分组是次数分布的基础,因此有怎样的分组就形成怎样的次数分布。综合上述各种分组类型,次数分布的类型,可归纳为:二、分布数列的种类 按品质标志分组形成的分布数列称为品质分布数列,简称品质数列。按数量标志分组形成的分布数列称为变量分布数列,简称变量数列。二、第35页,此课件共69页哦某地人口的性别分布按性别按性别分组分
14、组次数次数人数(人)人数(人)比重(比重(%)男男女女154349271461329751.3748.63合计合计30048224100.00学生的成绩分布按成绩按成绩分组分组次数次数学生数学生数(人)(人)比重(比重(%)60以下以下60-7070-8080-9090以上以上2820155416403010合计合计50100变量数列品质数列第36页,此课件共69页哦每个组值只用一个具体的变量值表现的数列同时具备变量是离散变量变量的不同取值个数较少编制条件:分布数列的种类单项式分布数列第37页,此课件共69页哦【例】己知某车间有24名工人,他们的日产量(件)分别是:20,23,20,24,23
15、,21,22,25,26,20,21,21,22,22,23,22,22,24,25,21,22,21,24,23.要求根据以上资料编制变量数列。分布数列的种类单项式分布数列案例日产量(件)日产量(件)X工人数(人工人数(人)f202122232425263564321合计合计24第38页,此课件共69页哦每个组的变量值用一个区间来表现的变量数列或者变量是连续变量编制条件:分布数列的种类组距式分布数列总体单位数较多,变量不同取值个数也较多的离散变量第39页,此课件共69页哦指每组两端表示各组界限的变量值,各组的最小值为下限,最大值为上限组限组限每组变量值变动区间的长度,为上下限之差组距组距每组
16、变量取值范围的中点数值 组中值组中值分布数列的种类组距式分布数列相关概念第40页,此课件共69页哦某地区100个百货商店月销售额与流通费用情况销售额(万元)销售额(万元)商店数商店数(个)(个)每百元商品销售额中每百元商品销售额中支付的流通费(元)支付的流通费(元)50以下以下50100100200200300300以上以上102030251514.211.410.19.28.5上组限U下组限L组距d=U-L=100-50=50(万元)组中值x=(U+L)/2 =(100+200)/2=150(万元)分布数列的种类组距式分布数列第41页,此课件共69页哦变量值变动区间的长度相等变量值变动区间的
17、长度不完全相等变量值变动区间的长度不完全相等等距分布数列等距分布数列异距分布数列异距分布数列分布数列的种类变量式分布数列第42页,此课件共69页哦等距分组各组频数的分布不受组距大小的影响可直接根据绝对频数来观察频数分布的特征和规律不等距分组各组频数的分布受组距大小不同的影响各组绝对频数的多少不能反映频数分布的实际状况需要用频数密度(频数密度频数/组距)反映频数分布的实际状况,以解决各组频率由于组距不同而不可比的问题。分布数列的种类等距分组与不等距分组的差异第43页,此课件共69页哦分布数列的种类考分考分组距组距次数次数次数密度次数密度=次数次数/组距组距50-60420.560-66650.8
18、3366-8216140.87582-9210111.192-100881.0第44页,此课件共69页哦将变量数列各组的频数(或频率)逐组累计相加而形成的数列三、累计分布数列向上累计向下累计从变量值低的组开始,将各组次数(频率)逐次向变量值高的组累计,说明某一组上限以下各组的累计次数(频率)。从变量值高的组开始,将各组次数(频率)逐次向变量值低的组累计,说明某一组下限以上各组的累计次数(频率)。什么以下什么以下的有多少的有多少什么以上什么以上的有多少的有多少第45页,此课件共69页哦 销售额销售额(百万元)(百万元)商店数商店数频率(频率()累计次数累计次数累计频率(累计频率()5以下以下51
19、010151520202525以上以上410161343820322686合计合计50100分布数列的种类第46页,此课件共69页哦 销售额销售额(百万元)(百万元)商店数商店数频率(频率()累计次数累计次数累计频率(累计频率()向上向上累计累计向上向上累计累计5以下以下51010151520202525以上以上41016134382032268641430434750828608694100合计合计50100分布数列的种类第47页,此课件共69页哦 销售额销售额(百万元)(百万元)商店数商店数频率(频率()累计次数累计次数累计频率(累计频率()向上向上累计累计向下向下累计累计向上向上累计累计
20、向下向下累计累计5以下以下51010151520202525以上以上410161343820322686414304347505046362073828608694100100927240146合计合计50100分布数列的种类第48页,此课件共69页哦ll117 122 124 129 139 107 117 130 122 125117 122 124 129 139 107 117 130 122 125ll108 131 125 117 122 133 126 122 118 108108 131 125 117 122 133 126 122 118 108ll110 118 123
21、126 133 134 127 123 118 112110 118 123 126 133 134 127 123 118 112ll112 134 127 123 119 113 120 123 127 135112 134 127 123 119 113 120 123 127 135ll137 114 120 128 124 115 139 128 124 121137 114 120 128 124 115 139 128 124 121【例例】某生产车间50名工人日加工零件数如下(单位:个)。四、次数分布图第49页,此课件共69页哦l用矩形的宽度和高度来表示频数分布的图形,实际上是
22、用矩形的面积来表示各组的频数分布l在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图l直方图下的总面积等于1 1次数分布图分组数据直方图第50页,此课件共69页哦频频频频频频数数数数数数(人人人人人人)151512129 96 63 3105105 110110 115115 120120 125125 130130 135135 140140日加工零件数日加工零件数日加工零件数日加工零件数日加工零件数日加工零件数(个个个个个个)直方图下的面直方图下的面积之和等于积之和等于1 1某车间工人日加工零件数的直方图某车间工人日加工零件数的直方图某车间工人
23、日加工零件数的直方图某车间工人日加工零件数的直方图我一眼就看出来了,大多数人的日加工零件数在120125之间!次数分布图分组数据直方图第51页,此课件共69页哦遇到异距数列时,则通常按次数密度绘制直方图以表示分布 直方图一般不用来表示累计次数的分布。次数分布图分组数据直方图第52页,此课件共69页哦l条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的l直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义l直方图的各矩形通常是连续排列,条形图则是分开排列次数分布图分组数据直方图直方图与条形图的区别第53页,
24、此课件共69页哦R结果第54页,此课件共69页哦l折线图也称频数多边形图(Frequency polygon)l是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉l折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的分组数据折线图次数分布图第55页,此课件共69页哦151512129 96 63 3105105110110115115120120125125130130135135140140日
25、加工零件数日加工零件数日加工零件数日加工零件数日加工零件数日加工零件数(个个个个个个)频频频频频频数数数数数数(人人人人人人)折线图下的面积折线图下的面积折线图下的面积折线图下的面积与直方图的面积与直方图的面积与直方图的面积与直方图的面积相等!相等!相等!相等!某车间工人日加工零件数的折线图某车间工人日加工零件数的折线图某车间工人日加工零件数的折线图某车间工人日加工零件数的折线图分组数据折线图次数分布图第56页,此课件共69页哦l用于显示未分组的原始数据的分布l由“茎”和“叶”两部分构成,其图形是由数字组成的l以该组数据的高位数值作树茎,低位数字作树叶l茎叶图类似于横置的直方图,但又有区别直方
26、图可大体上看出一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息未分组数据茎叶图次数分布图第57页,此课件共69页哦树茎树茎树茎树茎树叶树叶树叶树叶78878802234777888902234777888900122223333444667778890012222333344466777889013344579901334457991010111112121313数据个数数据个数数据个数数据个数3 3131324241010茎叶图类似横置茎叶图类似横置的直方图的直方图某车间工人日加工零件数的茎叶图某车间工人日加工零件数的茎叶图某
27、车间工人日加工零件数的茎叶图某车间工人日加工零件数的茎叶图未分组数据茎叶图次数分布图第58页,此课件共69页哦R绘制茎叶图的结果第59页,此课件共69页哦l用于显示未分组的原始数据或分组数据的分布l箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成l其绘制方法是:l首先找出一组数据的5个特征值,即最最大大值值、最最小小值值、中中位位数数Me 和两个四四分分位数位数(下四分位数QL和上四分位数QU)l连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接 未分组数据箱线图次数分布图第60页,此课件共69页哦最小值最小值最小值107107107最大值最大值最大值139139139中
28、位数中位数中位数123123123下四分位数下四分位数下四分位数117.75117.75117.75上四分位数上四分位数上四分位数128128128105 110 115 120 125 130 135 140105 110 115 120 125 130 135 140105 110 115 120 125 130 135 14050505050名工人日加工零件数的箱线图名工人日加工零件数的箱线图名工人日加工零件数的箱线图名工人日加工零件数的箱线图未分组数据箱线图次数分布图作用:可以看出分布类型是左偏、右偏还是对称作用:可以看出分布类型是左偏、右偏还是对称第61页,此课件共69页哦l时间一般
29、绘在横轴,指标数据绘在纵轴l图形的长宽比例要适当,其长宽比例大致为10:7l一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断时间序列数据线图次数分布图第62页,此课件共69页哦【例例例例】已知已知1991199119981998年我国城年我国城乡居民家庭的人乡居民家庭的人均收入数据如表。均收入数据如表。试绘制线图试绘制线图19911998年城乡居民家庭人均收入年城乡居民家庭人均收入年份年份城镇居民城镇居民农村居民农村居民199119921993199419951996199719981700.62026.62577.43496.24
30、283.04838.95160.35425.1708.6 784.0 921.61221.01577.71926.12091.12162.0时间序列数据线图次数分布图第63页,此课件共69页哦020004000600019911992199319941995199619971998城镇居民农村居民收收入入(元)(元)城乡居民家庭人均收入城乡居民家庭人均收入时间序列数据线图次数分布图第64页,此课件共69页哦l雷达图(Radar Chart)是显示多个变量的常用图示方法l在显示或对比各变量的数值总和时十分有用l假定各变量的取值具有相同的正负号,总的绝对值与图形所围成的区域成正比l可用于研究多个样
31、本之间的相似程度多变量数据雷达图次数分布图第65页,此课件共69页哦【例例例例】19971997年年 我我 国国城城乡乡居居民民家家庭庭平平均均每每人人各各项项生生活活消消费费支支出出数数据据如如表表。试试绘制雷达图。绘制雷达图。1997年城乡居民家庭平均每人生活消费支出年城乡居民家庭平均每人生活消费支出项项 目目城镇居民城镇居民农村居民农村居民 食品食品 衣着衣着 家庭设备用品及服务家庭设备用品及服务 医疗保健医疗保健 交通通讯交通通讯 娱乐教育文化服务娱乐教育文化服务 居住居住 杂项商品与服务杂项商品与服务1942.59520.91316.89179.68232.90448.38358.6
32、4185.65 890.28 109.41 85.41 62.45 53.92 148.18 233.23 34.27合合 计计4185.641617.15多变量数据雷达图次数分布图第66页,此课件共69页哦0 0500500100010001500150020002000 食品食品 衣着衣着 家庭设备用家庭设备用 品及服务品及服务 医疗保健医疗保健 交通通讯交通通讯 娱乐教育娱乐教育 文化服务文化服务 居住居住 杂项商品杂项商品 与服务与服务城镇居民农村居民19971997年城镇居民家庭消费支出年城镇居民家庭消费支出 (元)(元)多变量数据雷达图次数分布图第67页,此课件共69页哦对称钟形分布对称钟形分布对称钟形分布右偏钟形分布右偏钟形分布右偏钟形分布左偏钟形分布左偏钟形分布左偏钟形分布正正正J J J型分布型分布型分布反反反J J J型分布型分布型分布U UU型分布型分布型分布五、次数分布类型例:不同年龄人口的死亡率分布例:不同年龄人口的死亡率分布第68页,此课件共69页哦思考题l统计整理的概念和重要性。l统计整理的程序包括哪些方面?l什么是次数分布?有什么作用?l次数分布数列的意义有哪些?l次数分布数列有哪两个基本要素?l次数分布数列有哪些种类?l常见的次数分布类型有哪几种?第69页,此课件共69页哦