《数据整理与图表展示.pptx》由会员分享,可在线阅读,更多相关《数据整理与图表展示.pptx(71页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、表表3-1 3-1 不同原因引起的寿命不同原因引起的寿命损失损失原因寿命减少天数原因寿命减少天数未结婚(男性)3500危险工作300惯用左手3285交通事故200吸烟(男性)2250饮酒130未结婚(女性)1600滥用药物9030%超重1300一般事故7420%超重900自然放射性8吸烟(女性)800喝咖啡6抽雪茄300医疗X射线6第1页/共71页图3-1 不同原因引起的寿命损失第2页/共71页第三章第三章 数据整理与图表展示数据整理与图表展示学习目标学习目标了解统计数据的预处理方法掌握非数值型数据的分类整理和图示掌握数值型数据的分组整理和图示重点:频数分布表绘制;各种统计图的绘制,并能解释其
2、含义第3页/共71页一、数据审核一、数据审核(data auditing)原始数据数据审核的内容和方式二、数据筛选二、数据筛选(data filter)举例 表3-2是8名学生4门课程的成绩数据。请找出统计学成绩等于87分的学生,英文成绩前5名的学生,四门课成绩均大于70分的学生。3.1 数据的预处理第4页/共71页表表3-2 83-2 8名学生的成绩数据名学生的成绩数据姓名统计学数学英文经济学A69688486B91759594C54886778D81608664E75968183F83726671G75587690H87769277第5页/共71页三、数据排序o举例 n财富 2011全球5
3、00强企业n福布斯 2011全球富豪排行榜n2011 中国大学排行榜四、数据透视表(Pivot Table)o按使用者要求对数据表重要信息进行汇总后的结果 Note:Excel的特色功能(举例)第6页/共71页n 财富 2011全球500强企业单位:百万美元排名排名公司名称公司名称营业收入营业收入利润利润201120112010201011沃尔玛(Wal-Mart Stores)421,84916,38922皇家壳牌(Royal Dutch Shell)378,15220,12733埃克森美孚(Exxon Mobil)354,67430,46044英国石油公司(BP)308,928-3,719
4、57中国石油化工中国石油化工 集团公司集团公司(Sinopec)273,4227,629610中国石油天然气集团公司中国石油天然气集团公司(China National Petroleum)240,19214,36778中国国家电网公司中国国家电网公司(State Grid)226,2944,55685丰田汽车(Toyota Motor)221,7604,76696日本邮政控股(Japan Post Holdings)203,9584,8911011雪佛龙(Chevron)196,33719,024第7页/共71页一、数据分组一、数据分组(Data Grouping)(P31)o根据研究现象特
5、点和数据分析目的,将原始数据按照总体单位的某一特征分为不同的组别。o分组数据o分组标志o非数值型数据分组和数值型数据分组3.2 非数值型数据的分类整理和展示第8页/共71页二、非数值型数据分组(分类)二、非数值型数据分组(分类)(P32)o反映事物自然属性的非数值型数据的分组o反映事物社会经济属性的非数值型数据的分组oo城镇家庭城镇家庭“可支配收入可支配收入”分组分组3.2 非数值型数据的分类整理和展示第9页/共71页表表3-33-3 2000200920002009年年 江苏省城镇家庭可支配收入分组表江苏省城镇家庭可支配收入分组表 (单位:元)(单位:元)年份年份平均可平均可支配收支配收入入
6、最低收最低收入户入户10%低收入低收入户户10%中等偏中等偏下户下户20%中等收中等收入户入户20%中等偏中等偏上户上户20%高收入高收入户户 10%最高收最高收入户入户10%20006800.232771.13843.774929.736349.988229.5710790.6914949.0920017375.12798.984072.35217.856599.28784.0111746.1217556.1820028177.672023.233616.364976.836938.89646.8913191.0924335.2120039262.462478.463980.565575.8
7、57804.6810904.6415135.6124568.26200410481.932771.82-6247.948788.5512297.75-29684.13200512318.573354.905179.427259.6110294.5914400.9819983.5433699.29200614084.263802.315967.87 8377.37 11864.25 16396.50 22745.82 38526.86 200716378.014456.096926.27 9758.20 13575.39 18980.36 26273.41 45532.64 200818679.
8、525659.78389.33 11574.74 15909.83 21504.71 29368.12 49612.44 200920551.73 6148.82 9081.23 12627.06 17330.50 23593.67 32991.38 55834.47 第10页/共71页 图3-4 20002009年江苏省城镇家庭可支配收入水平折线图第11页/共71页三、三、定类数据的整理和展示定类数据的整理和展示 1.1.频数与频数分布(频数与频数分布(Frequency Distribution)(P38)o频数o频数分布表o频率(比例)o举例-1(P38P38)按性别的人口构成(表3-4
9、)3.2 非数值型数据的分类整理和展示第12页/共71页表表3-4 2001-20033-4 2001-2003年我国按性别分人口数及构成年我国按性别分人口数及构成资料来源:2004中国统计年鉴.北京.中国统计出版社 2004 Q:统计学中怎么称呼分配在各组的单位数及其相对形式?统计分组分配在各组的单位数及其相对形式第13页/共71页1.1.频数与频数分布(频数与频数分布(Frequency Distribution)o举例-2 表3-5是调查员随机观察的50名顾客购买的饮料类型及购买者性别记录。要求:生成频数分布表,观察饮料类型和顾客性别的分布状况,并进行描述性分析。三、三、定类数据的整理和
10、展示定类数据的整理和展示第14页/共71页说明:F女;M男;ts碳酸;lc绿茶;kqs矿泉水;gz果汁;qt其它表3-5 顾客性别及购买的饮料类型性别性别饮料饮料性别性别饮料饮料性别性别饮料饮料性别性别饮料饮料FtsMlcMkqsFgzMlcMtsFlcFtsMkqsFqtFtsFgzFkqsMkqsFkqsMkqsMtsFtsMqtFtsMkqsMlcMtsFlcFtsMqtFgzFqtFlcFtsMkqsFgzMgzMlcFqtMlcMtsMlcFtsFqtFkqsFtsFqtFkqsFqtMtsFgz-MtsFlcMlc-第15页/共71页Excel结果:结果:表表3-6 3-6 不同类
11、型饮料和顾客性别的频数分布不同类型饮料和顾客性别的频数分布计数项:饮料类型性别饮料类型男女总计果汁156矿泉水6410绿茶7411其它268碳酸饮料6915总计222850第16页/共71页2.2.定类数据的图示定类数据的图示(1 1)条形图()条形图(Bar ChartBar Chart)o 用宽度相同的条形的高度或长短表示数据频数。图图3-5 3-5 饮料类型的条形图饮料类型的条形图第17页/共71页图图3-6 3-6 饮料类型和顾客性别的复式条形图饮料类型和顾客性别的复式条形图第18页/共71页2.2.定类数据的图示定类数据的图示(2 2)饼图()饼图(Pie ChartPie Char
12、t)o 主要用于说明一个样本各部分所占比例,或者总体 内部结构分析。第19页/共71页图图3-7 3-7 不同类型饮料构成的饼图不同类型饮料构成的饼图第20页/共71页2.2.定类数据的图示定类数据的图示(3 3)环形图()环形图(Doughnut ChartDoughnut Chart)o 主要用于显示多个样本各部分所占的相应比例,有助于构成的比较研究。o 举例表3-7是某年北京、上海和天津地区按收入法计算的地区生产总值(按当年价格计算)数据。请绘制环形图比较三个地区的生产总值构成。第21页/共71页表3-7 某年北京、上海和天津地区生产总值构成 单位:亿元地区劳动者报酬生产税净额固定资产折
13、旧营业盈余北京3496.571161.551251.091961.07天津1383.36775.09595.091605.61上海3756.561623.361730.513255.94第22页/共71页图3-8 北京、上海和天津地区生产总值构成 的环形图第23页/共71页四、四、定序数据的整理和展示定序数据的整理和展示 1.1.累积频数与累积频率(累积频数与累积频率(P38P38)o累积频数 o向上/向下累积o累积频率o举例 关于城市住房问题的研究中,研究人员对两个城市各抽样调查300户,其中一个问题是:“您对家庭目前的住房状况是否满意?”调查结果的频数分布表如表3-8、表3-9。3.2 非
14、数值型数据的分类整理和展示第24页/共71页表表3-8 3-8 甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别户数 百分比()向上累计向下累计(户)户数百分比户数百分比非常不满意248248300100不满意108361324427692一般93312257516856满意4515270907525非常满意30103001003010合计合计300100第25页/共71页表表3-9 3-9 乙城市家庭对住房状况评价的频数分布乙城市家庭对住房状况评价的频数分布回答类别户数 百分比()向上累计向下累计(户)户数百分比户数百分比非常不满意217.0217.0300100
15、.0不满意9933.012040.027993.0一般7826.019866.018060.0满意6421.326287.310234.0非常满意3812.7300100.03812.7合计合计300100第26页/共71页2.2.定序数据的图示定序数据的图示 举例:根据表3-7的数据绘制累积频数分布图。图图3-9 3-9 甲城市家庭对住房状况评价的累积频数分布图甲城市家庭对住房状况评价的累积频数分布图第27页/共71页一、数值型一、数值型数据分组与频数分布数据分组与频数分布 1.1.数值型数值型数据数据分组分组o根据统计研究需要,将原始数据按某种标准分成不同的组别。n关键:选择分组变量和划分
16、各组界限 2.数值型数值型数据数据分组的结果分组的结果o形成频数分布表o两个构成要素n各组的分组界限n每组中的频数、频率3.3 数值型数据的整理和图示第28页/共71页频数分布举例(表3-10)成绩人数频率60以下37.14%60-70819.05%70-801228.57%80-901535.71%90以上49.52%合计42100.00%第29页/共71页3.3.数值型数据分组方法(数值型数据分组方法(P33P33)一、数值型一、数值型数据分组与频数分布数据分组与频数分布等距分组不等距分组单变量值分组组距分组数据分组方法第30页/共71页(1)单变量值分组 每一个变量值作为一组的分组方式。
17、举例 某学院某年毕业研究生发表论文篇数的频数分布表(表3-11)发表论文篇数人数2345668532合计24第31页/共71页(2)组距分组 将全部变量值依次划分为若干个区间,将每一区间的变量值作为一组。适合于连续变量或变量值较多时。遵循“不重不漏”的原则。等距与不等距分组。第32页/共71页o基本概念n组限n上限(U)/下限(L)n组距(d)n间断/重合组限n闭口/开口组限n闭口组/开口组 Note:在采用重合组限场合,一般采用“上限不在内”的统计惯例。(P35)第33页/共71页怎样进行等距分组(结合例子)确定取值范围确定组数:Sturges 经验公式计算组距:确定各组祖限(多种形式)No
18、te:三种常用的等距分组表(表1315)根据分组整理成频数分布表第34页/共71页已知某电脑公司2009年912月每天的销售量数据。要求进行数据分组。确定取值范围(R=96)确定组数(H=10)计算组距(d=10)确定各组祖限根据分组整理成频数分布表等距分组等距分组 举例举例第35页/共71页表表3-123-12 某电脑公司销售量的频数分布等距分组等距分组 举例举例销售量销售量频数频数频率频率140-15032.5150-16097.5160-1701714.17170-1802823.33180-1902016.67190-2001512.5200-210119.17210-22075.83
19、220-23054.17230-24054.17合计合计120100第36页/共71页等距分组表(上下组限间断)等距分组表(上下组限间断)表表3-13 3-13 某车间某车间5050名工人日加工零件数分组表名工人日加工零件数分组表按零件数分组按零件数分组频数(人)频数(人)频率(频率(%)105109110114115119120124125129130134135139358141064610162820128合计合计5050100100第37页/共71页等距分组表等距分组表(上下组限重叠,上组限不在内)上下组限重叠,上组限不在内)表表3-14 3-14 某车间某车间5050名工人日加工零件
20、数分组表名工人日加工零件数分组表按零件数分组按零件数分组频数(人)频数(人)频率(频率(%)105110110115115120120125125130130135135140358141064610162820128合计合计5050100100第38页/共71页等距分组表(使用开口组)等距分组表(使用开口组)表表3-15 3-15 某车间某车间5050名工人日加工零件数分组表名工人日加工零件数分组表按零件数分组按零件数分组频数(人)频数(人)频率(频率(%)110以下110114115119120124125129130134135以上358141064610162820128合计合计505
21、0100100第39页/共71页4.4.组中值(Class Midpoint)(P36)o如何计算及举例 (P36-37)n对于重合组限分组:(上限+下限)/2n对于间断组限分组:(上组下限+本组下限)/2n对于重合组限开口组:缺少下限的组中值=本组上限-邻组组距/2 缺少上限的组中值=本组下限+邻组组距/2n对于间断组限开口组:缺少下限的组中值=邻组下限-邻组组距/2 缺少上限的组中值=本组下限+邻组组距/2一、数值型一、数值型数据分组与频数分布数据分组与频数分布第40页/共71页表3-16 2003年我国按年龄和性别分人口数及组中值第41页/共71页Note:数据分组的要点和基本概念统计分
22、组基本概念:R、K、d、组中值;祖限、间断祖限、重合组限、开口组、闭口组;频数、频数分布、频率、累积频数、累积频率。非数值型数据分组非数值型数据分组数值型数据分组单变量分组组距分组等距分组异距分组第42页/共71页5.等距分组的应用(教材:P46)例3.1 某学期某班35名学生的统计学考试成绩的原始数据如下:92,87,75,74,65,91,98,78,84,83,78,96,62,84,76,52,69,84,81,88,70,91,89,87,75,79,82,86,79,82,64,90,56,84,89 问题:对该班学生的统计学考试成绩,采用重合组限和开口组限设置进行等距分组、计算组
23、中值和频数分布,编制统计表和统计图。一、数值型一、数值型数据分组与频数分布数据分组与频数分布第43页/共71页Excel 应用 例3.1 某学期某班35名学生的统计学考试成绩的原始数据如下:92,87,75,74,65,91,98,78,84,83,78,96,62,84,76,52,69,84,81,88,70,91,89,87,75,79,82,86,79,82,64,90,56,84,89 1.计算取值范围 排序、确定最大值和最小值为98和52,计算得R=46(分)2.确定组数和组距 H=5,d=46/5=9.11(分),取整,d为10分 3.计算频数分布 4.计算组中值 5.绘制直方图
24、和折线图第44页/共71页 3.计算频数分布(上限不在内)98、96、92、91、91、90(共6人)89、89、88、87、87、86、84、84、84、84、83、82、82、81(共14人)79、79、78、78、76、75、75、74、70(共9人)69、65、64、62(共4人)56、52(共2人)4.计算组中值第45页/共71页表表3-173-17 35名学生统计学成绩统计表第46页/共71页常用统计图常用统计图数据类型品质数据数值型数据条形图饼 图直方图线 图箱线图茎叶图二、二、数值型数据的图示数值型数据的图示第47页/共71页二、数值型数据的图示二、数值型数据的图示1.1.分组
25、数据:直方图分组数据:直方图(Histogram)用来展示数值型分组数据分布的常用图形。在统计分组的基础上,用矩形的宽度和高度表示频数分布。注意对不等距分组:纵轴必须表示为频数密度频数密度=频数/组距(面积之和=总频数)举例 等距分组 不等距分组第48页/共71页某会计师事务所对20家公司进行年终审计所需时间(天)的频数分布表(表3-18)直方图(等距分组)审计时间(天)频数10-15415-20820-25525-30230-351合计20第49页/共71页直方图(等距分组)我我 一一 眼眼 就就 看看 出出来来 了了,审审 计计 时时间间 在在 1515 2020天天之之 间间 的的 公公
26、 司司 数数最多最多!图3-10 审计时间直方图(等距分组)第50页/共71页某会计师事务所对20家公司进行年终审计所需时间(天)的频数分布表(表3-19)直方图(不等距分组)审计时间(天)频数频数密度10-1540.815-2081.620-2551253530.3合计20-图3-11 审计时间直方图(不等距分组)第51页/共71页二、数值型数据的图示二、数值型数据的图示2.2.折线图折线图(Frequency polygonFrequency polygon)在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再将原来的直方图抹掉。折线图的两个终点应与横轴相交。组数越多,组据就越
27、小,折线图就越光滑,趋近于一条平滑曲线,即频数分布曲线。举例第52页/共71页折线图与直方图折线图与直方图折线图与直方图下的面积相等!下的面积相等!下的面积相等!图3-12 审计时间折线图第53页/共71页图3-13 学生统计学成绩直方图第54页/共71页图3-14 在直方图基础上绘制的折线图第55页/共71页图3-15 学生统计学成绩折线图第56页/共71页二、数值型数据的图示二、数值型数据的图示3.3.未分组数据:茎叶图未分组数据:茎叶图 (Stem-and-Leaf Display)用于显示未分组的原始数据的分布。由“茎”和“叶”两部分构成,其图形是由数字组成的。通常以数据的高位数值作树
28、茎,低位数字作树叶。举例第57页/共71页 原始数据:24,26,24,21,27,27,30,41,32,38 从小到大排序后的数据:21,24,24,26,27,27,30,32,38,41 茎叶图(图3-16):3 0 2 84 12 1 4 4 6 7 7茎叶图茎叶图30第58页/共71页40名教师的年龄的数据:40,41,48,51,37,35,36,50,33,42,28,33,36,29,28,29,34,35,27,36,28,29,34,26,35,40,27,43,45,39,42,41,48,55,43,42,42,51,52,64 Stem-and-Leaf Plot
29、Frequency Stem&Leaf 9.00 2.677888999 4.00 3.3344 8.00 3.55566679 1 0.00 4.0011222233 3.00 4.588 4.00 5.0112 1.00 5.5 1.00 Extremes (=64)Stem width:10.00 Each leaf:1 case(s)SPSS SPSS 生成的一个茎叶图生成的一个茎叶图生成的一个茎叶图生成的一个茎叶图第59页/共71页4.4.时间序列数据:线图时间序列数据:线图(Line(Line Chart)Chart)图3-17 1996年-2003年城乡居民人民币储蓄存款年底余额
30、 二、数值型数据的图示二、数值型数据的图示第60页/共71页Note:增长速度?3.4 绘制图表的要点o(不恰当)统计图举例第61页/共71页不必要的三维效果:三维图形可能比二维图形更能吸引读者的注意,但只能用来反映变化的趋势,不能用来进行精确的比较。第62页/共71页Note:避免选用不恰当图形类避免选用不恰当图形类型型1960:$1.001970:$1.601980:$3.101990:$3.80Minimum Wage不好的图形Minimum Wage0241960 1970 1980 1990$好的图形第63页/共71页Quarterly Sales不好的图形0100200Q1Q2Q3
31、Q4$Quarterly Sales02550Q1 Q2 Q3 Q4$好的图形Note:避免压缩纵轴第64页/共71页Monthly Sales不好的图形36394245JFMAM J$好的图形Note:避免纵轴无零点Monthly Sales 0394245JFMAMJ$36第65页/共71页一、一、一、一、统计图绘制要点统计图绘制要点统计图绘制要点统计图绘制要点图形类型选择恰当,刻度、长宽比例合理,能准确显示数据中包含的信息。图形尽量简约。图形应该有清楚的标题和必要的说明。反复加工和修改是获得优秀统计图形的重要步骤。3.4 绘制图表的要点第66页/共71页二、统计表设计要求二、统计表设计要
32、求市区农业总产值工业总产值建筑业总产值固定资产投资交通运输邮电业产值批零贸易餐饮业产值金融保险业总产值南昌市 59400530607609798444273838243494671393383170景德镇市 15901964953822215984454163341139763880327萍乡市 1961769237918998910255810483841377942028九江市 55415512451525220012713793426651189051434454新余市 181000619000118400854288025357100574015鹰潭市 1554884166283037
33、81170834911530059413430赣州市 11260499465033502283253342482701068561450835吉安市 7427904940372945561314301581791078621029173宜春市 8855869533831615881895871995831153801027284抚州市 630100619309240417895315956140856888795上饶市 70820896751821950815983929281174265.1379343Q:如何评价该统计表?:如何评价该统计表?第67页/共71页1.统计表的构成统计表的构成
34、表 3-20 2003年我国就业基本情况 项目项目20012002 2003经济活动人口 (万人)就业人员合计 (万人)城镇登记失业人数(万人)城镇登记失业率 ()74 43273 0256813.6 75 36073 7407704.0 76 07574 4328004.3 资料来源:2004年统计年鉴.中国统计出版社注:19902000年,就业人员总计、城镇和乡村就业人员小计资料根据第五次全国人口普查资料重新调整,2001年及以后资料根据人口变动抽样调查资料推算,因此分地区、分类型、分行业的分项资料相加不等于总计。行标题列标题数字资料附加表头二、统计表设计要求二、统计表设计要求第68页/共71页2.统计表的制作要求原则:科学、实用、美观、简练。统计表为“开口式”;表的上下两条横线一般用粗线,其他线用细线结构合理,长宽比例要适当。表头:包括表号、总标题或表中数据的单位等。第69页/共71页(续)2.统计表的制作要求列标题之间用竖线分开,行标题之间不必用横线隔开。表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一。对于没有数字、缺某项或免填的表格单元,应使用特定符号标出。必要时可在表的下方加上注释。第70页/共71页谢谢您的观看!第71页/共71页