《3第3章数据的描述.ppt》由会员分享,可在线阅读,更多相关《3第3章数据的描述.ppt(141页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第三章 数据的描述概括数据的特征概括数据的特征数据的描述如同给人画像一样数据的描述数据的描述n我我们们通通过过一一张张人人体体素素描描画画像像(当当然然不不是是那那种种写写意意的的或或抽抽象象派派作作品品)就就基基本本能能看看出出这这个个人人的的长长相相,尽尽管管由由于于画画师师水水平平的的差差异异,画画像像与与真真人人可可能有些误差。能有些误差。数据的描述数据的描述n当我们面对一大堆数据时,往往使人眼花缭乱。n没有人能够记住那些巨大的数据中的所有数值,但总是可以对数据形成一些印象。n有些特征大略了解一下就可以得到:n这些数据的大致范围,n是定性还是定量,n有多少变量,n收集该数据的目的等等。
2、数据的描述数据的描述n本章介绍如何来简单用图表和少数的一些数字来概括数据的某些特征。n当然,由于数据是从总体中产生的,其特征也反映了总体的特征。对数据的描述也是对其总体的一个近似的描述。描述性统计n n某次统计学考试某次统计学考试,甲班平均分数为甲班平均分数为8080分分,标准差为标准差为20,20,乙班平均分为乙班平均分为7575分分,标准差为标准差为5,5,哪一班成绩较优哪一班成绩较优?甲班甲班乙班乙班n全班35位同学统计学考试成绩86,77,91,60,35,76,92,47,88,67,23,59,72,75,83,77,68,8297,89,81,75,74,39,67,79,83,
3、70,78,91,68,49,56,94,81 n根据统计显示根据统计显示,多数车祸发生在车多数车祸发生在车子子行使于行使于一般一般车速车速的时候,的时候,只有只有少数车祸发生在车速少数车祸发生在车速超超过时过时速速150公里。公里。开快车较安全。n研究显示研究显示,有,有个个城市死城市死于心脏于心脏病的人病的人数与数与口香糖的消口香糖的消費量同時費量同時递增递增。嚼口香糖导致心脏病。多数人都以一般車速开车,自多数人都以一般車速开车,自然多數車禍发生于一般车速。然多數車禍发生于一般车速。这两类数这两类数字的增加是因字的增加是因为为人人口快速成長的結果。口快速成長的結果。用图来表示数据用图来表示
4、数据 统计分组与频数分布表统计分组:简单分组与平行分组体系 复合分组与复合分组体系频数(频率分布表)注意:组数的确定,组距、组限的确定用图表示数据用图表示数据n变量分为定性变量和定量变量:n定性变量主要反映现象的分类情况,n定量变量主要反映现象的数值大小;n因此对不同的变量采用的图形表示也不相同定量变量图表示定量变量图表示(Scale data)表示定量变量常用的图形:n直方图n盒型图n茎叶图n散点图直方图直方图n对于一个定量变量,比如某个地区(地区1)学校高三男生的身高;有163个度量。n如何用图形来表示这个数据,使人们能够看出这个数据的大体分布或“形状”呢?一个办法就是画一个直方图直方图(
5、histogram)(histogram)。Spss选项选项:Graphs-Histogram(图(图3.1)直方图直方图n该图的横坐标是身高区间,这里每每一一格格代代表表5cm5cm的的身身高高范范围围(格子宽度因不同的数据或要求而定),而纵坐标为各各种种身身高高区区间间的的身身高高的的频数。频数。n比如在170cm左右5cm范围的观测值有34个(最高的一个矩形条),而165cm附近5cm内有28个(第二高的矩形),在175cm附近5cm范围有26个,而在2米附近的区间只有4个观测等等。n直方图的纵坐标也可以是百分比,即把频数除以样本量。显然用百分比得到的图形和用频数所得到的形状一样;只是量
6、纲不同而已。数量型数据的整理【例例例例】某某电电脑脑公公司司20022002年年前前四四个个月月各各天天的的销销售售量量数数据据(单单位位:台台)。试试对对数据进行分组。数据进行分组。频数(频率)分布表数据的图示140140 150150210210某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图我我一一眼眼就就看看出出来来了了,销销售售量量在在 170 180之之间间的的天天数数最最多多!190190 200200180180160160 170170频频频频频频数数数数数数(天天天天天天)25252020151510105 5
7、3030220220 230230 240240数据的图示折线图与直方图折线图与直方图下的面积相等!下的面积相等!140140 150150210210某电脑公司销售量分布的折线图某电脑公司销售量分布的折线图某电脑公司销售量分布的折线图某电脑公司销售量分布的折线图190190 200200180180160160 170170220220 230230240240频频频频频频数数数数数数(天天天天天天)25252020151510105 53030几种常用的统计图几种常用的统计图直方图(直方图(直方图(直方图(Histogram )用于显示连续型变量的次数分布用于显示连续型变量的次数分布用于显
8、示连续型变量的次数分布用于显示连续型变量的次数分布由直方图看次数分布特征钟形的对称分布 观测无限增多,组数无限增多,组距无限缩小,分布特征不变,则图形趋近平滑曲线。钟形的右偏分布由直方图看次数分布特征钟形的左偏分布由直方图看次数分布特征正J形分布由直方图看次数分布特征反J形分布由直方图看次数分布特征U形分布由直方图看次数分布特征盒型图n比直方图简单一些的是盒盒形形图图(boxplot(boxplot,又称箱箱图图、箱箱线线图图、盒盒子子图图)。图3.2的左边一个是根据地区1高三男生的身高数据所绘的盒形图;其右边的图代表另一个地区(地区2)的高三学生的身高(SPSS数据文件为:height.sa
9、vheight.sav)。n盒子的中间横线是数据的中中位位数数(median)(median),它是下节要引进的量之一。顾名思义,中位数是数据中占据中间位子的数,即数据中有一半大于中位数(在其之上),另一半小于中位数(在其之下)。数据的图示单批数据箱线图中位数中位数中位数中位数4 46 68 810101212QQU UUQ QL LLX X最大值最大值X X最小值最小值最小值简单箱线图简单箱线图数据的图示单批数据箱线图最小值最小值141141最大值最大值237237中位数中位数182182下四分位数下四分位数170.25170.25上四分位数上四分位数197197140 150 160 17
10、0 180 190 200 210 220 230 240140 150 160 170 180 190 200 210 220 230 240140 150 160 170 180 190 200 210 220 230 240某电脑公司销售量数据的箱线图某电脑公司销售量数据的箱线图分布的形状与箱线图 对称分布对称分布对称分布对称分布对称分布对称分布Q QQL LL中位数中位数中位数中位数中位数中位数 Q QQU UU左偏分布左偏分布左偏分布左偏分布左偏分布左偏分布Q QQL LL中位数中位数中位数中位数中位数中位数 Q QQU UU右偏分布右偏分布右偏分布右偏分布右偏分布右偏分布Q QQL
11、 LL 中位数中位数中位数中位数中位数中位数 Q QQU UU不同分布的箱线图不同分布的箱线图不同分布的箱线图不同分布的箱线图数据的图示多批数据箱线图【例】从某大学经济管理专业二年级学生中随机抽取11人,对8门主要课程的考试成绩进行调查,所得结果如表。试绘制各科考试成绩的批比较箱线图,并分析各科考试成绩的分布特征1111名学生各科的考试成绩数据名学生各科的考试成绩数据名学生各科的考试成绩数据名学生各科的考试成绩数据课程名称课程名称学生编号学生编号1234567891011英语英语经济数学经济数学西方经济学西方经济学市场营销学市场营销学财务管理财务管理基础会计学基础会计学统计学统计学计算机应用基
12、础计算机应用基础76659374687055859095818775739178975176857092688171748869846573957078669073788470936379806087816786918377769070828382928481706972787578918866948085718674687962818155787075687177数据的图示多批数据箱线图8 8门课程考试成绩的箱线图门课程考试成绩的箱线图门课程考试成绩的箱线图门课程考试成绩的箱线图1111名学生名学生名学生名学生8 8门课程考试成绩的箱线图门课程考试成绩的箱线图门课程考试成绩的箱线图门课程考试
13、成绩的箱线图Min-Max25%-75%Median value455565758595105学生1学生2学生3学生4学生5学生6学生7学生8学生9学生10学生11数据的图示多批数据箱线图编号英语数学经济学营销学统计17665937455290958187913975176856847174886973570786690846936379808178691837770883829284699787578919410857186746211815578707111名学生各科成绩1111111111n=统计学营销学经济学数学英语110100908070605040 盒形图便于变量间频数分特征的比较
14、。11名学生各科成绩频数分布盒形图盒型图n在盒子上下两边分别各有一条纵向的线段,表明盒子外面点的分布。n若干个盒形图往往放在一个图中比较。从图中可以看出左面的度量比右边的分散得多,但总的来说似乎地区1的学生要高一些。盒型图n按照SPSS的默认选项,如果所有样本中的数目如果所有样本中的数目都在离四分位点都在离四分位点1.51.5倍盒子长度之内,则线的倍盒子长度之内,则线的端点为最大和最小值。端点为最大和最小值。n距离四分位数大于1.5倍盒子长度的数值点则被软件认为是离群点离群点(outlier)(outlier),单独点出,单独点出;n而超过盒长三倍的被认为是极端值(extreme)。当然不同的
15、软件及不同选项所生成的盒形图两头线长的定义不尽相同,但封闭盒子长度的定义基本一样。茎叶图茎叶图n在上面介绍的直方图和盒形图中,已经看不到数值,因此很难恢复数据的原貌。n下面引进另一种图:茎茎叶叶图图(stem-and-leaf(stem-and-leaf plots)plots)。n。数据的图示茎叶图数据的图示扩展的茎叶图序号身高x体重y序号身高x体重y123456789101112131415156.0155.0144.6161.5161.3158.0161.0162.0164.3144.0157.9176.1168.0164.5153.047.537.838.641.643.347.347
16、.147.033.833.849.254.550.044.058.0161718192021222324252627282930164.7160.5147.0153.2157.9166.0169.0170.0165.1172.0159.4161.3158.0158.6169.044.153.036.430.140.457.058.551.058.055.044.745.444.342.851.1三十名学生的身高与体重数据18017016015014060504030身高体重三十名学生的身高与体重二维散点图(scater)在没有丢失任何数字信息的前提下,直观地显示了两个变量的关系。散点图散点图
17、三个变量,两两之间的散点图构成了一个散点图矩阵。对角线左下(或右上)的三个散点图,已经给出了数据集的全部信息。三岁儿童身高、体重和体表面积数据的散点图矩阵体表面积身高体重 食品 衣着 居住 家庭设备用品及服务 医疗保健 交通通信 教育文化娱乐服务 杂项商品与服务0.002000.004000.006000.008000.0010000.00低收入户中等收入户中等偏上户高收入户最高收入户雷达图定性变量的图定性变量的图 示示分类性数据的图【例】一家市场调查公司为研究不同品牌饮料的市场占有率,对随机抽取的一家超市进行了调查。调查员在某天对50名顾客购买饮料的品牌进行了记录,如果一个顾客购买某一品牌的
18、饮料,就将这一饮料的品牌名字记录一次。右边就是记录的原始数据绿色绿色绿色绿色健康饮品健康饮品健康饮品健康饮品数据的图示条形图(Bar图)图)用于显示分类变量的次数分布用于显示分类变量的次数分布用于显示分类变量的次数分布用于显示分类变量的次数分布饼形图的组数不宜太多10,0%10,0%16,0%26,0%38,0%360038%38%10,0%10,0%16,0%26,0%38,0%地区一10%地区二22%地区三29%地区四39%图表表标题数据的图示饼图数据的图示饼图圆形图(圆形图(圆形图(圆形图(饼图饼图 Pie )主要用于显示定类变量的次数主要用于显示定类变量的次数主要用于显示定类变量的次数
19、主要用于显示定类变量的次数分布分布分布分布数据的图示饼图圆形图(圆形图(圆形图(圆形图(饼图饼图 Pie )主要用于显示定类变量的次数主要用于显示定类变量的次数主要用于显示定类变量的次数主要用于显示定类变量的次数分布分布分布分布01020可口可乐雪碧 杏仁露 新 骑士 醒目条形图(bar chart)定类数据频数分布的图示可采用饼形图或条形图饼形图(pie chart)用饼形图表示频率分布频数02040频率%38%10,0%10,0%16,0%26,0%38,0%定类数据的图表描述可口可乐雪碧 杏仁露 新 骑士 醒目0102001020可口可乐雪碧 杏仁露 新 骑士 醒目阿拉伯人的观赏习惯中国
20、人的观赏习惯01020雪碧 新 骑士 醒目频数可口可乐杏仁露欧美人的观赏习惯定类数据的图表描述甲乙两城市家庭对住房状况评价频数分布条形图非常不满意不满意一般满意非常满意120100806040200非常不满意不满意一般满意非常满意甲城市乙城市定序数据的图表描述甲城市乙城市甲乙两城市家庭对住房状况评价频数分布饼形图10,0%15,0%31,0%36,0%8,0%12,7%21,3%26,0%33,0%7,0%定序数据的图表描述SPSS选项选项:Graphs-Pie(图图3.5)n n我没办法有效率的我没办法有效率的分配人手分配人手销售销售浮动太大了浮动太大了!n n 生产经理生产经理生产经理声称
21、:营销经理演示:36394245J M M J S N0 204060J M M J S N 问题问题:无 相 对 基 准No Relative Basis按年级统计的A按年级统计的A0100200300大一大一大二大二 大三大三 大四大四频数频数0%10%20%30%大一大一大二大二 大三大三 大四大四%压缩纵轴Compressing Vertical Axis好的表示好的表示季度销售季度销售025501季季2季季3季季 4季季$01002001季季 2季季3季季 4季季$n合理使用统计图n,根据数据类型,选择图n,注意统计图的刻度n,要注意图中的信息标识的使用n,根据统计图的作用,选用统计
22、图纵轴无零点No Zero Point on Vertical Axis好的表示好的表示月销售量月销售量0204060一一 三三 五五 七七 九九 十一十一$36394245一一 三三 五五 七七 九九 十一十一$用少量数字来概括用少量数字来概括数据的特征数据的特征几个基本概念n总体参数(参数参数)n样本统计量(统计量统计量)从样本数据计算得来的,是样本的函数(不包含总体的未知参数)。由于样本是随机的,因而决定了样本的统计量是随机的统计量是随机的。用少量数字概括数据特征用少量数字概括数据特征n用一两个数字概括大量数字是日常生活用一两个数字概括大量数字是日常生活中常见的。中常见的。n比如:比如:
23、北京人的平均收入是多少;北京人的平均收入是多少;东西部的收入差距是多少东西部的收入差距是多少;高收入的人占人口的百分比等。高收入的人占人口的百分比等。n这些这些“平均平均”,“差距差距”或百分比都是或百分比都是用来概括的数字。用来概括的数字。数据的特征和测度数据的特征和测度数据的特征和测度分布的形状分布的形状离散程度离散程度众 数中位数均 值离散系数方差和标准差峰 度四分位差异众比率偏 态集中趋势集中趋势数据的位置位置统计量n1,均值n2,中位数n3,分位数n4,众数注意:各位置统计量的特点、适用的对象。一、均值n最常用的位置统计量就是小学时所学到的算数平均值,它在统计中叫做均值均值(mean
24、)(mean);n严格地说叫做样样本本均均值值(sample(sample mean)mean),以区别于总体均值。n样本均值是把一个变量的所有观测值相加再除以观测值的数目。85简单算术平均数(例子)n某企业的工会随机调查了某企业的工会随机调查了20名工人名工人2005年年6月加班的小时数,结果如下:月加班的小时数,结果如下:n该组数据算术平均数等于该组数据算术平均数等于(13+18+12)/20=11.6(小时)(小时)13131818121215157 715155 5121217177 7121210109 91313121219196 67 71111121286加权算术平均数(例子)
25、n在前面的例子中,假设我们只得到了分组后的资料:在前面的例子中,假设我们只得到了分组后的资料:n该组数据算术平均数等于多少?该组数据算术平均数等于多少?分组分组人数人数5-105-106 610-1510-159 915-2015-205 5合计合计202087加权算术平均数(例子)n在前面的例子中,假设我们只得到了分组后的资料:在前面的例子中,假设我们只得到了分组后的资料:n该组数据算术平均数等于该组数据算术平均数等于245/20=12.25(小时)。(小时)。分组分组人数人数组中值组中值xfxf5-105-106 67.57.5454510-1510-159 912.512.5112.51
26、12.515-2015-205 517.517.587.587.5合计合计2020-245245根据原始数据和分组资料计算的结果一般不会完全相等,根据原始数据和分组资料计算的结果一般不会完全相等,根据分组数据只能得到近似结果。根据分组数据只能得到近似结果。只有各组数据在组内呈对称或均匀分布时,根据分组资只有各组数据在组内呈对称或均匀分布时,根据分组资料的计算结果才会与原始数据的计算结果一致。料的计算结果才会与原始数据的计算结果一致。二、中位数1.数据排序后处于中间位置上的值数据排序后处于中间位置上的值,典型的典型的位置位置平均数平均数2.不受极端值的影响不受极端值的影响 (稳健性)3.主要用于
27、顺序数据,也可用数值型数据,但不能用于分主要用于顺序数据,也可用数值型数据,但不能用于分类数据类数据凡是可以排序的数据均可以计算中位数。凡是可以排序的数据均可以计算中位数。Me50%50%90中位数计算:nn为奇数时等于第为奇数时等于第(n+1)/2个数。个数。nn为偶数时等于第为偶数时等于第n/2和和n/2+1个数的平均值个数的平均值1,2,5,9,11中位数中位数=51,2,5,9,11,18中位数中位数=(5+9)/2=791三、四分位数n数据按大小顺序排序后把分割成四等分的三个分割点数据按大小顺序排序后把分割成四等分的三个分割点上的数值上的数值 n对原始数据,四分位数的位置一般为对原始
28、数据,四分位数的位置一般为(n+1)/4,2(n+1)/4,3(n+1)/4。n如果四分位数的位置不是整数,则四分位数等于前后如果四分位数的位置不是整数,则四分位数等于前后两个数的加权平均两个数的加权平均QQL LQQMMQQU U25%25%25%25%92四分位数计算(例子)排序后的数据排序后的数据:2,5,6,7,8,9,10,12,15,16不能整除时需加权平均:不能整除时需加权平均:位置位置 2 2.75 3 数值数值 5 60.75(6-5)=0.75四、众数n一组数据中出现次数最多的变量值一组数据中出现次数最多的变量值(位置平均数位置平均数)n不受极端值的影响不受极端值的影响n有
29、的数据无众数或有多个众数有的数据无众数或有多个众数n对未分组定量资料很少使用对未分组定量资料很少使用某城市居民关注广告类型的频数分布某城市居民关注广告类型的频数分布 广告类型广告类型人数人数(人人)比例比例频率频率(%)商品广告商品广告 服务广告服务广告 金融广告金融广告 房地产广告房地产广告 招生招聘广告招生招聘广告 其他广告其他广告112519161020.5600.2550.0450.0800.0500.01056.025.54.58.05.01.0合计合计2001100甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)百分
30、比百分比 (%)非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意24108934530836311510合计合计300100.096众数、中位数和平均数的关系对称分布对称分布 均值均值=中位中位数数=众数众数左偏分布左偏分布均值均值 中位数中位数 众数众数右偏分布右偏分布众数众数 中位数中位数均值均值 0为右偏分布n4.偏态系数 0为左偏分布n5.计算公式为偏态(实例)【例例 4.17】已 知1997年我国农村居民家庭按纯收入分组的有关数据如表4.9。试计算偏态系数表表4-10 19974-10 1997年年农村居民家庭纯收入数据农村居民家庭纯收入数据按纯收入分组(元)
31、户数比重(%)500以下500100010001500150020002000250025003000300035003500400040004500450050005000以上2.2812.4520.3519.5214.9310.356.564.132.681.814.94户户户户户户数数数数数数比比比比比比重重重重重重(%(%(%)252520201 15 51 10 05 5农村居民家庭村收入数据的直方图农村居民家庭村收入数据的直方图农村居民家庭村收入数据的直方图农村居民家庭村收入数据的直方图偏态与峰度(从直方图上观察)按纯收入分组按纯收入分组按纯收入分组按纯收入分组按纯收入分组按纯收入
32、分组(元元元元元元)1001000 050050015001500 2002000 02502500 03003000 03503500 04004000 04504500 05005000 0结论结论结论结论:1.1.为右偏分布为右偏分布 2.2.峰度适中峰度适中峰 度峰度(概念要点)n1.数据分布扁平程度的测度n2.峰度系数=0扁平程度适中n3.偏态系数0为尖峰分布n5.计算公式为由Excel输出的描述统计量2008年8月数据分布的特征数据水平数据水平数据水平数据水平 (位置位置位置位置)分布形状分布形状分布形状分布形状(偏态和峰态偏态和峰态偏态和峰态偏态和峰态)数据差异数据差异数据差异数据差异 (分散程度分散程度分散程度分散程度)数据的特征和测度数据的特征和测度数据的特征和测度分布的形状分布的形状离散程度离散程度众 数中位数均 值离散系数方差和标准差峰 度四分位差异众比率偏 态集中趋势集中趋势