《第三章-统计整理ppt课件(全).ppt》由会员分享,可在线阅读,更多相关《第三章-统计整理ppt课件(全).ppt(67页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第三章第三章 统计整理第一节第一节 统计整理的基本问题统计整理的基本问题第二节第二节 统计分组统计分组第三节第三节 分布数列分布数列第四节第四节 统计图统计图第五节第五节 统计表统计表不同原因引起的寿命损失不同原因引起的寿命损失统计研究表明,某种原因会使寿命减少。统计研究表明,某种原因会使寿命减少。我们可以用三种不同的方式来描述这个我们可以用三种不同的方式来描述这个现象。现象。第一种方式是用文字来描述。比如,未第一种方式是用文字来描述。比如,未婚男性会使寿命减少婚男性会使寿命减少3500天,女性则减天,女性则减少少1600天;吸烟男性会使寿命较少天;吸烟男性会使寿命较少2250天,女性则减少天
2、,女性则减少800天;天;案例1第二种方式是用统计表来表示,结果如下第二种方式是用统计表来表示,结果如下原因原因寿命减少寿命减少的天数的天数原因原因寿命减少寿命减少的天数的天数未婚(男性)未婚(男性)3500危险工作,事故危险工作,事故300惯用左手惯用左手3285交通事故交通事故200吸烟(男性)吸烟(男性)2250饮酒饮酒130未婚(女性)未婚(女性)1600滥用药物滥用药物9030%超重超重1300一般工作,事故一般工作,事故7420%超重超重900自然放射性自然放射性8吸烟(女性)吸烟(女性)800喝咖啡喝咖啡6抽雪茄抽雪茄300医疗医疗x-射线射线6第三种方式是用统计图来表示,结果如
3、下第三种方式是用统计图来表示,结果如下第一节第一节 统计整理的基本问题统计整理的基本问题一、统计整理的概念一、统计整理的概念统计整理是对统计调查所搜集到的各种数据统计整理是对统计调查所搜集到的各种数据进行分类和汇总,使之进行分类和汇总,使之条理化、系统化条理化、系统化的过的过程。程。例:某单位例:某单位30名职工的月工资额为:名职工的月工资额为:1060、840、1100、1090、910、1050、1110、1060、1110、2070、990、1190、870、1050、940、2380、970、1030、1280、1060、850、1060、1010、910、1010、960、1050、
4、1070、1210、950二、统计整理的步骤二、统计整理的步骤1、对调查资料进行预处理、对调查资料进行预处理数据审核数据审核(完整性、准确性)(完整性、准确性)2、统计分组、统计分组3、统计汇总、统计汇总4、编制统计图表、编制统计图表姓名姓名性性别别年年龄龄与被调与被调查者的查者的关系关系工作工作单位单位参加工参加工作年月作年月职务职务级级别别张华张华男男 26本人本人新华厂新华厂 1954.7干部干部20陈玉芳陈玉芳 男男 53针织厂针织厂 1957.3工人工人5张丽英张丽英 女女 20长女长女待业待业1990.4无无6张志平张志平 男男 18长子长子医学院医学院 1992.1学生学生无无女
5、女5656妻子妻子无无无无无无对某单位职工家庭基本情况进行调查,其对某单位职工家庭基本情况进行调查,其中一户家庭的相关数据如下:中一户家庭的相关数据如下:第二节第二节 统计分组统计分组1.1.概概念:将总体按照某个标志(或几个标念:将总体按照某个标志(或几个标志)划分成为若干个不同性质的志)划分成为若干个不同性质的组成部分。组成部分。一、一、统计分组的概念统计分组的概念分组的实质:对总体来说是分,分组的实质:对总体来说是分,对个体来说是合。对个体来说是合。1、穷尽原则穷尽原则:总体中的每一个单位都:总体中的每一个单位都应有组可归。应有组可归。2、互斥原则互斥原则:总体中的任何一个单位:总体中的
6、任何一个单位只能归属于某一组,不能同时或可能归只能归属于某一组,不能同时或可能归属于几个组。属于几个组。二、二、统计分组的原则统计分组的原则1 1.按分组标志的多少分按分组标志的多少分 :简简单分组单分组 按一个标志对总体进行分组按一个标志对总体进行分组复复合分组合分组 按两个或两个以上标志分组按两个或两个以上标志分组 三、统计分组的种类三、统计分组的种类高校学生高校学生理科理科文科文科女女男男专科专科本科本科女女男男女女男男专科专科本科本科女女男男高校学生高校学生女生女生男生男生简单分组简单分组复合分组复合分组品品质分组质分组 反映事物属性差异反映事物属性差异 2.2.按标志的性质不同分为按
7、标志的性质不同分为 :数数量分组量分组 反映事物数量差异反映事物数量差异划分社会经济现象的类型,反映各类型的特点。划分社会经济现象的类型,反映各类型的特点。(1)(1)类型分组类型分组 3 3.按分组标志的作用分按分组标志的作用分 :例例单位:亿元单位:亿元210871.0 82972.0 103162.0 24737.0 2006246619.096328.0121381.028910.02007183867.9 73432.9 87364.6 23070.4 2005159878.3 135822.8 合计合计64561.3 56004.7 第三产业第三产业73904.3 62436.3
8、第二产业第二产业21412.7 17381.7 第一产业第一产业20042003类型类型分产业我国国内生产总值分产业我国国内生产总值说明社会经济现象的内部结构。说明社会经济现象的内部结构。(2)(2)结构分组结构分组 年份年份20032004200520062007第一产业第一产业12.8 13.4 12.5 11.7 11.7 第二产业第二产业46.0 46.2 47.5 48.9 49.2 第三产业第三产业41.2 40.4 40.0 39.4 39.1 合计合计100.0100.0100.0100.0100.0例例我国国内生产总值构成(我国国内生产总值构成(%)研究经济现象之间的依存关系
9、。研究经济现象之间的依存关系。(3)(3)分析分组分析分组 耕作深度分组耕作深度分组(cm)地块数地块数平均收获率平均收获率(斤斤/亩亩)10-12 740012-141046014-161654016-1818-2012 5620680例例某乡某种农作物的耕作深度与收获率的关系某乡某种农作物的耕作深度与收获率的关系四、统计分组应注意的问题四、统计分组应注意的问题1、分组标志选择、分组标志选择统计分组的关键是统计分组的关键是选择分组标志选择分组标志2、分组界限的确定、分组界限的确定品质分组:品质分组:自然形成自然形成数量分组:数量分组:反映质的差别,最好是反映质的差别,最好是5或或10的的倍数
10、倍数第三节第三节 分配数列(分布数列)分配数列(分布数列)一一 分配数列的概念和种类分配数列的概念和种类 在统计分组的基础上把总体所有的单在统计分组的基础上把总体所有的单位按组排列,列出各组对应的位按组排列,列出各组对应的单位数单位数,并按一定得顺序排列,形成总体单位并按一定得顺序排列,形成总体单位数在数在各个组的分布各个组的分布,称,称分布数列,又分布数列,又可称分配数列或次数分布。可称分配数列或次数分布。1.1.概念概念 例例成绩成绩人数(人)人数(人)比重(比重(%)60分以下分以下21060-7052570-8084080-9031590以上以上210合计合计20100 组别组别(变量
11、变量)次数次数(频数频数)频率频率(比率、比重比率、比重)分配数列的两个基本要素分配数列的两个基本要素次数次数组别组别2.2.种类种类以分组标志特征不同分为:以分组标志特征不同分为:品质分配数列品质分配数列变量分配数列变量分配数列例例 某班学生的性别构成情况某班学生的性别构成情况 按性别分组按性别分组人数人数比重比重(%)男男30 75女女10 25合计合计40100 组别组别 次数次数 频率频率 品品质分配数列质分配数列 变变量分配数列量分配数列 单单项数列项数列组组距数列距数列分类一:开口数列、闭口数列分类一:开口数列、闭口数列分类二:等距数列,异距数列分类二:等距数列,异距数列分类三:间
12、断组距数列、连续组距数列分类三:间断组距数列、连续组距数列某大学学生年看电影次数情况某大学学生年看电影次数情况按年看电影次数分组按年看电影次数分组(次)(次)人数人数(人)(人)0200150021500320004300合计合计4500单项数列单项数列成绩成绩人数(人)人数(人)比重(比重(%)50-6021060-7052570-8084080-9031590-100210合计合计20100某班学习成绩分布数列某班学习成绩分布数列等距分组数列等距分组数列连续组距数列连续组距数列闭口数列闭口数列我国人口的年龄分布我国人口的年龄分布按年龄分组(岁)按年龄分组(岁)人数(万人)人数(万人)0-1
13、428 97915-6488 79365及以上及以上8 811合计合计126 583异距分组数列异距分组数列间断组距数列间断组距数列开口数列开口数列下限下限一一个组的最小值个组的最小值 上限上限一一个组的最大值个组的最大值 组限组限组组距两端的数值。分为上限和下限。距两端的数值。分为上限和下限。组距组距上上限与下限之差限与下限之差二二 组距数列的编制组距数列的编制(一)组距数列的基本概念(一)组距数列的基本概念全距全距所所有数据中的最大值与最小值之差。有数据中的最大值与最小值之差。二二 组距数列的编制组距数列的编制组中值组中值组组的上限和下限的中间值。的上限和下限的中间值。按数列两端组限形式不
14、同分:按数列两端组限形式不同分:开口式组距开口式组距:成绩:成绩6060分以下,分以下,9090分以上。分以上。闭口式组距闭口式组距:40-6040-60分,分,90-10090-100分。分。作用作用:它可以作为各组变量取值的代表值,:它可以作为各组变量取值的代表值,但只是一个近似值但只是一个近似值 组中值的计算组中值的计算闭口式分组的组中值求法:闭口式分组的组中值求法:开口式分组的组中值求法:开口式分组的组中值求法:组中值的计算组中值的计算某班某班20人的学生成绩分布人的学生成绩分布1001015402510比重(比重(%)75870-8085380-90-20合计合计95290分以上分以
15、上65560-7055260分以下分以下组中值组中值人数(人)人数(人)成绩成绩离散型变量:看电影次数离散型变量:看电影次数0-2,3-5连续性变量:成绩连续性变量:成绩60-70,70-80,“上上组限不在内原则组限不在内原则”当出现异常值时设立当出现异常值时设立开口组开口组第一组的下限应低于最小值,最后一组第一组的下限应低于最小值,最后一组的上限应高于最大值的上限应高于最大值分组时注意分组时注意1、将原始数据按由小到大顺序排列、将原始数据按由小到大顺序排列2、计算全距、计算全距 全距全距=最大值最大值-最小值最小值3、确定组距与组数、确定组距与组数组距:为便于计算,组距一般取组距:为便于计
16、算,组距一般取5或或10的倍数的倍数组数组数:应以能够显示数据的分布特征和规律为目的:应以能够显示数据的分布特征和规律为目的(二)组距数列编制的步骤(二)组距数列编制的步骤 5、根据分组整理成频数分布表、根据分组整理成频数分布表例:某单位例:某单位30名职工的月工资额为:名职工的月工资额为:1060、840、1100、910、1090、910、1110、1070、990、940、1190、870、1180、970、1030、1060、850、1060、1110、1050、960、1050、1070、1210、1050、950、1060、1280、1110、1010第一步:将原始数据按大小顺序排
17、列第一步:将原始数据按大小顺序排列840、850、870、910、910、940、950、960、970、990、1010、1010、1030、1050、1050、1050、1060、1060、1060、1060、1070、1170、1090、1100、1110、1110、1180、1190、1210、1280第二步:计算全距第二步:计算全距全距全距=最大值最大值-最小值最小值=1280-840=440第三步:确定组数或组距第三步:确定组数或组距组距组距=100组数组数=440/100=4.4 5组组840、850、870、910、910、940、950、960、970、990、1010、10
18、10、1030、1050、1050、1050、1060、1060、1060、1060、1070、1170、1090、1100、1110、1110、1180、1190、1210、1280月工资额(元)月工资额(元)职工人数职工人数(人)(人)比率(比率(%)800-900310.0900-1000723.31000-11001343.31100-1200516.71200-130026.7合计合计30100.0840、850、870、910、910、940、950、960、970、990、1010、1010、1030、1050、1050、1050、1060、1060、1060、1060、1070
19、、1170、1090、1100、1110、1110、1180、1190、1210、1280 分成分成5组,每组组距组,每组组距100第四步:编制频数分布表第四步:编制频数分布表某班某班20名学生的考试成绩资料如下:名学生的考试成绩资料如下:60、61、62、63、74、76、77、79、79、80、80、81、84、85、86、89、90、91、97、99、试编制频数分布表试编制频数分布表(1)全距)全距 =99-60=39(2)确定组距为)确定组距为10(3)计算组数)计算组数=3.9/10=3.94组组(4)编制频数分布表)编制频数分布表成绩(分)成绩(分)人数(人)人数(人)比率比率(%
20、)60-7042070-8052580-9073590-100420合计合计20100某班考试成绩频数分布表某班考试成绩频数分布表第四节第四节 统计图统计图数数据据的的类类型型品质数据品质数据数值型数据数值型数据直方图直方图折线图折线图曲线图曲线图条形图条形图饼图饼图环形图环形图一、品质数据的图示一、品质数据的图示(一一)条条 形形 图图(bar Chart)用用宽宽度度相相同同的的条条形形的的高高度度或或长长度度来来表表示示品品质数列的图形质数列的图形条形图条形图【例例】一一家家市市场场调调查查公公司司为为研研究究不不同同品品牌牌饮饮料料的的市市场场占占有有率率,对对随随机机抽抽取取的的一一
21、家家超超市市进进行行了了调调查查。调调查查员员在在某某天天对对5050名名顾顾客客购购买买饮饮料料的的品品牌牌进进行行了了记记录录,如如果果一一个个顾顾客客购购买买某某一一品品牌牌的的饮饮料料,就就将将这这一一饮饮料料的的品品牌牌名名字字记记录录一一次次 。右右边边就就是是记记录录的的原原始始数数据。据。不同品牌饮料的频数分布表不同品牌饮料的频数分布表饮料品牌饮料品牌频数频数频率(频率(%)可口可乐可口可乐151530 30 旭日升冰茶旭日升冰茶111122 22 百事可乐百事可乐9 918 18 汇源果汁汇源果汁6 612 12 露露露露9 918 18 合计合计5050100 100 当类
22、别在横轴时,也可称为柱形图当类别在横轴时,也可称为柱形图当类别放在纵轴时,称为条形图当类别放在纵轴时,称为条形图两组数据进行对比时,可画对比条形图两组数据进行对比时,可画对比条形图(二)(二)饼图(圆形图)饼图(圆形图)1.用用角角度度来来表表示示数数值大小的图形值大小的图形2.说说明明各各部部分分所所占占比例和结构比例和结构不同品牌饮料的频数分布表不同品牌饮料的频数分布表饮料品牌饮料品牌频数频数频率(频率(%)可口可乐可口可乐151530 30 旭日升冰茶旭日升冰茶111122 22 百事可乐百事可乐9 918 18 汇源果汁汇源果汁6 612 12 露露露露9 918 18 合计合计505
23、0100 100 饼图饼图(三)环形图(三)环形图8%36%31%15%7%33%26%21%13%10%非常不满意 不满意 一般 满意 非常满意 甲乙两城市家庭对住房状况的评价(内圈为甲)甲乙两城市家庭对住房状况的评价(内圈为甲)二、数值型数据的图示Excel直方图直方图折线图折线图曲线图曲线图(一)直方图(一)直方图 用矩形的用矩形的 高度表示频数高度表示频数,宽度表示组距宽度表示组距某单位职工月工资额情况某单位职工月工资额情况月工资额(元)月工资额(元)职工人数职工人数(人)(人)比率(比率(%)800-900310.0900-1000723.31000-11001343.31100-1
24、200516.71200-130026.7合计合计30100.0分组数据的图示分组数据的图示(直方图的绘制直方图的绘制)某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图频频数数(天天)80080090090013001300120012001000100011001100151512129 96 63 350504040303020201010频频率率(%)月工资额月工资额直方图与条形图的区别直方图与条形图的区别1.条条形形图图宽宽度度(表表示示类类别别),固定,无意义,固定,无意义2.直直方方图图宽宽度度表表示示各各组组的组距,有意义的组距,有意义3.条条形形图图各各矩矩形形分分开开
25、排排列,直方图连续排列,列,直方图连续排列,4.条条形形图图用用于于品品质质数数据据,直直方方图图用用于于数数值值型型数数据据(二)折线图(二)折线图1.折线图也称次数分布多边图折线图也称次数分布多边图2.是是在在直直方方图图的的基基础础上上,把把直直方方图图顶顶部部的的中中点点(组组中中值值)用用直直线线连连接接起起来来,再再把把原原来来的的直方图抹掉直方图抹掉折线图折线图某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图频频数数(天天)80080090090013001300120012001000100011001100151512129 96 63 350504040303020
26、201010频频率率(%)月工资额月工资额曲线图曲线图曲线图是组数趋向于无限多时折线曲线图是组数趋向于无限多时折线图的极限描绘,是一种理论曲线。图的极限描绘,是一种理论曲线。频频数数(天天)80080090090013001300120012001000100011001100151512129 96 63 350504040303020201010频频率率(%)月工资额月工资额频数分布曲线的类型频数分布曲线的类型对称分布对称分布对称分布对称分布右偏分布右偏分布右偏分布右偏分布左偏分布左偏分布左偏分布左偏分布几种常见的频数分布几种常见的频数分布1、钟型分布曲线、钟型分布曲线频数分布的类型频数分
27、布的类型U UU型分布型分布型分布型分布型分布型分布2、U型分布型分布如:人口死亡率如:人口死亡率频数分布的类型频数分布的类型正正正正正正J J J型分布型分布型分布型分布型分布型分布反反反反反反J J J型分布型分布型分布型分布型分布型分布3、J型分布型分布供给供给需求需求分组分组总产值总产值(万元万元)职工人数职工人数(人人)劳动生产率劳动生产率(元元/人人)大型大型中型中型小型小型合计合计 20052005年某月某公司各企业劳动生产率统计表年某月某公司各企业劳动生产率统计表 单位:单位:总标题总标题纵纵栏栏标标题题:指指标标指标数值指标数值第五节第五节 统计表统计表一、一、统计表的结构和
28、内容统计表的结构和内容横横行行标标题题:分分类类主词主词宾词宾词从从形式上看形式上看:统计表由总标题、横行标统计表由总标题、横行标题、纵栏标题、指标数值构成。题、纵栏标题、指标数值构成。从从内容上看内容上看:统计表由主词和宾词两部统计表由主词和宾词两部分构成。分构成。主词主词说明总体及其组成部分说明总体及其组成部分宾词宾词各个统计指标及其数值。各个统计指标及其数值。二二 统计表的分类统计表的分类简单表简单表总体未分组总体未分组 简单分组表简单分组表总体按一个标志进行分组总体按一个标志进行分组复合分组表复合分组表总体按二个或二个以上标志进行复合总体按二个或二个以上标志进行复合分组分组按主词的结构
29、分类按主词的结构分类某年某公司所属两企业自行车合格品数量表某年某公司所属两企业自行车合格品数量表厂别厂别合格品数量(辆)合格品数量(辆)甲厂甲厂 5000乙厂乙厂 7000合合 计计 12000例例简单分组表简单分组表某年某地区工业增加值和职工人数某年某地区工业增加值和职工人数项目项目增加值(万元)增加值(万元)职工人数(人)职工人数(人)内资企业内资企业 大型大型9 750 13 800 中型中型8 600 45 000 小型小型4 200 10 050外商投资外商投资经营企业经营企业 大型大型7 300 7 500 中型中型5 200 10 400 小型小型4 400 4 500例例复合分
30、组表复合分组表三三 统计表的设计统计表的设计1.1.总总标题:标题:简练、准确简练、准确2.2.指指标数值:标数值:位数对齐,位数对齐,无法计算用无法计算用“”“”表示表示3.3.计量单位计量单位:必须标注:必须标注4 4、注释与资料来源注释与资料来源:最好标注:最好标注5.5.通常情况下,统计表的通常情况下,统计表的左右两边不封口左右两边不封口;6.6.表表的上下边线(基线)用的上下边线(基线)用粗实线或双线粗实线或双线;总原则总原则:简明、清晰、实用、美观。:简明、清晰、实用、美观。项目项目单位单位19991999年年 2000 2000年年调查户数调查户数 户户 40044 40044
31、42220 42220平均每户家庭人口平均每户家庭人口 人人3.143.14 3.13 3.13平均每户就业人口平均每户就业人口 人人1.771.77 1.68 1.68平均每户就业面平均每户就业面%56.4356.43 53.67 53.67平均一就业者负担人数平均一就业者负担人数 元元1.771.77 1.86 1.86平均每人全部年收入平均每人全部年收入 元元5888.775888.77 6316.81 6316.811999199920002000年城镇居民家庭抽样调查资料年城镇居民家庭抽样调查资料资料来源:中国统计年鉴资料来源:中国统计年鉴20012001,中国统计出版社,中国统计出版社,20012001,第,第305305页页注:本表为城市和县城的城镇居民家庭抽样调查材料。注:本表为城市和县城的城镇居民家庭抽样调查材料。pThe end of chapter3