《统计学数据的描述幻灯片.ppt》由会员分享,可在线阅读,更多相关《统计学数据的描述幻灯片.ppt(38页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、统计学数据的描述第1页,共38页,编辑于2022年,星期二第三章数据的描述第2页,共38页,编辑于2022年,星期二在在对对数数据据进进行行深深入入加加工工之之前前,总总应该对数据有所印象。应该对数据有所印象。可可以以借借助助于于图图形形和和简简单单的的运运算算,来了解数据的一些特征。来了解数据的一些特征。由由于于数数据据是是从从总总体体中中产产生生的的,其其特特征征也也反反映映了了总总体体的的特特征征。对对数数据据的的描描述述也也是是对对其其总总体体的的一一个个近近似的描述。似的描述。第3页,共38页,编辑于2022年,星期二3.1 如何用图来表示数据?如何用图来表示数据?第4页,共38页,
2、编辑于2022年,星期二3.1.1 定量变量的图表示定量变量的图表示:1.直方图直方图对于一个定量变量,比如某个地区(地对于一个定量变量,比如某个地区(地区区1)测量了)测量了163个高三男生的身高个高三男生的身高(S3height1.txt)。用图形来表示这个数据,使人们能够看用图形来表示这个数据,使人们能够看出这个数据的大体分布或出这个数据的大体分布或“形状形状”的一的一个办法是画个办法是画直方图直方图(histogram)。图图3.1就是利用这个数据由就是利用这个数据由SPSS软件所软件所画的直方图。画的直方图。第5页,共38页,编辑于2022年,星期二该图的横坐标是身高区间,这里每一格
3、代表该图的横坐标是身高区间,这里每一格代表5cm的身高范围(格子宽的身高范围(格子宽度因不同的数据性质或要求而定,这里的格子宽度为度因不同的数据性质或要求而定,这里的格子宽度为5cm),而纵坐标),而纵坐标为各种身高区间的身高的频数。为各种身高区间的身高的频数。直方图直方图第6页,共38页,编辑于2022年,星期二3.1.1 定量变量的图表示定量变量的图表示:2.盒型图盒型图简单一些的是简单一些的是盒形图盒形图(boxplot,又称箱,又称箱图、箱线图、盒子图图、箱线图、盒子图)。图图3.2的左边一个是根据地区的左边一个是根据地区1高三男生高三男生的身高数据所绘的盒形图;其右边的图的身高数据所
4、绘的盒形图;其右边的图代表另一个地区(地区代表另一个地区(地区2)的高三学生的)的高三学生的身高身高(height.txt,height.sav,第三章例,第三章例.xls)。第7页,共38页,编辑于2022年,星期二盒型图盒型图盒子的中间横线是数据的中位数盒子的中间横线是数据的中位数(median),封闭盒子的上下两横线(边)为,封闭盒子的上下两横线(边)为上下四分位数(点);按照上下四分位数(点);按照SPSS的默认选项,如果所有样本中的数目都在的默认选项,如果所有样本中的数目都在离四分位点离四分位点1.5倍盒子长度之内,则线的端点为最大和最小值,否则线长就是倍盒子长度之内,则线的端点为最
5、大和最小值,否则线长就是1.5倍的盒子长度(盒子长度称为四分位间距),在其外面的度量单独倍的盒子长度(盒子长度称为四分位间距),在其外面的度量单独点出点出第8页,共38页,编辑于2022年,星期二3.1.1 定量变量的图表示定量变量的图表示:3.茎叶图茎叶图 在直方图和盒形图中,很难恢复数据在直方图和盒形图中,很难恢复数据的原貌。而另一种图:的原貌。而另一种图:茎叶图茎叶图(stem-and-leaf plots)可以恢复数据可以恢复数据以地区以地区1高三男生身高为例(图高三男生身高为例(图3.3),),茎叶图既展示了分布形状又有原始数据。茎叶图既展示了分布形状又有原始数据。它象一片带有茎的叶
6、子。茎为较大位数它象一片带有茎的叶子。茎为较大位数的数字,叶为较小位数的数字。的数字,叶为较小位数的数字。第9页,共38页,编辑于2022年,星期二茎叶图茎叶图其中茎叶图中茎的单位为其中茎叶图中茎的单位为10cm,而叶子单位为,而叶子单位为1cm。比如,由于第一行茎。比如,由于第一行茎为为150cm,因此叶子中的九个数字,因此叶子中的九个数字001223344代表九个数目代表九个数目150、150、151、152、152、153、153、154、154cm等。每行左边有一个频数(比如第一行等。每行左边有一个频数(比如第一行有有9个数目,第二行有个数目,第二行有17个等等);可以看出最长的一行为
7、从个等等);可以看出最长的一行为从165cm到到169cm的一段(有的一段(有35个数)。个数)。第10页,共38页,编辑于2022年,星期二3.1.1 定量变量的图表示定量变量的图表示:4.散点图散点图 数据会有两个变量,如美国男士和女士数据会有两个变量,如美国男士和女士初婚年限数据(初婚年限数据(marriage.txt)。)。该数据描述了自该数据描述了自1900年到年到1998年男女第年男女第一次婚姻延续的时间。一次婚姻延续的时间。这里年份是一个变量,婚姻延续时间是第这里年份是一个变量,婚姻延续时间是第二个变量。由于不可能将所有人的婚姻年二个变量。由于不可能将所有人的婚姻年限都给出来,所
8、以每年就取了一个中间的限都给出来,所以每年就取了一个中间的值值(中位数中位数)作为代表。作为代表。第11页,共38页,编辑于2022年,星期二散点图散点图第12页,共38页,编辑于2022年,星期二3.1.2 定性变量的图表示:饼图定性变量的图表示:饼图定性变量(或属性变量,分类变量)定性变量(或属性变量,分类变量)不能点出直方图、散点图或茎叶图,不能点出直方图、散点图或茎叶图,但可以描绘出它们各类的比例。但可以描绘出它们各类的比例。下面用下面用SPSS绘的图绘的图3.5(饼图,(饼图,pie chart)表示了说世界各种主要语言表示了说世界各种主要语言人数的比例人数的比例(language.
9、txt).第13页,共38页,编辑于2022年,星期二饼图饼图第14页,共38页,编辑于2022年,星期二3.1.2 定性变量的图表示:条形图定性变量的图表示:条形图而用同样数据画的图而用同样数据画的图3.6称为称为条条形图(形图(bar chart)。从每一条可以看出讲各种语言的从每一条可以看出讲各种语言的实际人数,而且分别给出了每个实际人数,而且分别给出了每个语种中母语和日常使用的人数语种中母语和日常使用的人数(在图中并排放置)。条形图显(在图中并排放置)。条形图显示比例不如饼图直观。示比例不如饼图直观。第15页,共38页,编辑于2022年,星期二条形图条形图第16页,共38页,编辑于20
10、22年,星期二3.2 如何用少量数字来概括数据?如何用少量数字来概括数据?大量的数字既繁琐又不直观;需要对大量的数字既繁琐又不直观;需要对数据做人们时间和耐心所允许的简化数据做人们时间和耐心所允许的简化我们可以用我们可以用“平均平均”,“差距差距”或或百分比等来概括大量数字。百分比等来概括大量数字。由于定性变量主要是计数,比较简由于定性变量主要是计数,比较简单,常用的概括就是比例或百分比。单,常用的概括就是比例或百分比。下面主要介绍关于定量变量的数字下面主要介绍关于定量变量的数字描述。描述。第17页,共38页,编辑于2022年,星期二3.2 如何用少量数字来概括数据?如何用少量数字来概括数据?
11、可用少量所谓汇总统计量或可用少量所谓汇总统计量或概括统概括统计量计量(summary statistic)来描述定来描述定量变量的数据。量变量的数据。这些数字是从样本数据得来的,因而这些数字是从样本数据得来的,因而也是样本的函数,也是样本的函数,任何样本的函数,只要不包含总体任何样本的函数,只要不包含总体的未知参数,都称为的未知参数,都称为统计量统计量(statistic)。样本的随机性决定统计量的随机性样本的随机性决定统计量的随机性(统计量也是随机变量)(统计量也是随机变量)第18页,共38页,编辑于2022年,星期二3.2 如何用少量数字来概括数据?如何用少量数字来概括数据?概括统计量经常
12、对应于总体概括统计量经常对应于总体的无法观测到的某些参数。的无法观测到的某些参数。这时,统计量可作为这些参这时,统计量可作为这些参数的估计。一些统计量还可数的估计。一些统计量还可以用来检验样本和假设的总以用来检验样本和假设的总体是否一致。体是否一致。第19页,共38页,编辑于2022年,星期二3.2 如何用少量数字来概括数据?如何用少量数字来概括数据?注:注:一些统计量前面有时加上一些统计量前面有时加上“样本样本”二字,以区别于总体二字,以区别于总体的同名参数。如的同名参数。如“样本均值样本均值”和和“样本标准差样本标准差”,以区别于,以区别于总体均值和总体标准差;但在总体均值和总体标准差;但
13、在不会混淆时可以只说不会混淆时可以只说“均值均值”和和“标准差标准差”。第20页,共38页,编辑于2022年,星期二3.2.1 数据的数据的“位置位置”数据有位置吗?数据有位置吗?这里三个数据的位置一样吗?这里三个数据的位置一样吗?第21页,共38页,编辑于2022年,星期二3.2.1 数据的数据的“位置位置”“位置位置”一般是关于数据中某变量观一般是关于数据中某变量观测值的测值的“中心位置中心位置”或者数据分布的或者数据分布的中心(中心(center或或center tendency)。)。和这种和这种“位置位置”有关的统计量就称有关的统计量就称为为位置统计量位置统计量(location s
14、tatistic)。位置统计量当然不一定都是描述位置统计量当然不一定都是描述“中中心心”了,比如后面要讲的了,比如后面要讲的k百分位数百分位数(或(或k分位数)。分位数)。第22页,共38页,编辑于2022年,星期二3.2.1 数据的数据的“位置位置”最最常常用用的的位位置置统统计计量量就就是是小小学学时时所所学学到到的的算算术术平平均均数数,它它在在统统计计中中叫叫做做均均值值(mean);严严格格地地说说叫叫做做样样本本均均值值(sample mean),以区别于总体均值。,以区别于总体均值。如如果果记记样样本本中中的的观观测测值值为为x1,xn,则则样样本均值定义为本均值定义为第23页,
15、共38页,编辑于2022年,星期二(样本样本)中位数中位数(median)是是数据按照大小排列之后位数据按照大小排列之后位于中间的那个数于中间的那个数(如果样本如果样本量为奇数量为奇数),或者中间两,或者中间两个数目的平均个数目的平均(如果样本如果样本量为偶数量为偶数)。由于中位数不易被极端值由于中位数不易被极端值影响,所以中位数比均值影响,所以中位数比均值稳健稳健(robust)。3.2.1 数据的数据的“位置位置”第24页,共38页,编辑于2022年,星期二上下四分位数(或分别称为第一四分位数和第三四分位数,first quantile,third quantile)则分别位于(按大小排列
16、的)数据的上下四分之一的地方。3.2.1 数据的数据的“位置位置”第25页,共38页,编辑于2022年,星期二3.2.1 数据的数据的“位置位置”一般地还称上四分位数为一般地还称上四分位数为75百分位数百分位数(75 pecentile,有,有75的观测值小于它)的观测值小于它),下四分位数为,下四分位数为25百分位数百分位数(有(有25的的观测值小于它)。观测值小于它)。一般地,一般地,k百分位数百分位数(k-pecentile)意味)意味着有着有k的观测值小于它。的观测值小于它。如果令如果令a a=k%,则则k百分位数也称为百分位数也称为a a分分位数位数(a a-quantile)。样本
17、中出现最多的数目,称为样本中出现最多的数目,称为众数众数(mode)第26页,共38页,编辑于2022年,星期二3.2.2 数据的数据的“尺度尺度”这两个数据“胖瘦”一样吗?第27页,共38页,编辑于2022年,星期二3.2.2 数据的数据的“尺度尺度”数据中数目的分散程度由尺度统计量(scale statistic)来描述。尺度统计量是描述数据散布,即描述集中与分散程度或变化(spread或variability)的度量。第28页,共38页,编辑于2022年,星期二3.2.2 数据的数据的“尺度尺度”从前面两个高三男生身高数据的盒形图。从前面两个高三男生身高数据的盒形图。左边的数据平均要高些
18、,但右边的数据左边的数据平均要高些,但右边的数据散布范围要小得多。散布范围要小得多。统计中有许多尺度统计量。一般来说,数据越分散,尺度统计量的值越大。第29页,共38页,编辑于2022年,星期二3.2.2 数据的数据的“尺度尺度”极差极差(range);就是极大值和极小值之;就是极大值和极小值之间的差。间的差。前面两个高三男生身高数据的极差分前面两个高三男生身高数据的极差分别为别为50cm和和32cm。盒形图盒子的长度为两个四分位数之差,盒形图盒子的长度为两个四分位数之差,称为称为四分位数极差或四分位间距四分位数极差或四分位间距(interquantile range);它描述了中间半;它描述
19、了中间半数观测值的散布情况。极差和四分位极数观测值的散布情况。极差和四分位极差实际上各自只依赖于两个值,信息量差实际上各自只依赖于两个值,信息量太少。太少。第30页,共38页,编辑于2022年,星期二3.2.2 数据的数据的“尺度尺度”另另一一个个常常用用的的尺尺度度统统计计量量为为(样样本本)标标准准差差(standard deviation)。度度量量样样本本中各数值到均值距离的一种平均。中各数值到均值距离的一种平均。标标准准差差实实际际上上是是方方差差(variance)的的平平方方根根。如如果果记记样样本本中中的的观观测测值值为为x1,xn,则样本方差为则样本方差为第31页,共38页,
20、编辑于2022年,星期二3.2.2 数据的数据的“尺度尺度”两个均值一样,但右边的要两个均值一样,但右边的要“胖胖”些,方差为左边的一倍些,方差为左边的一倍第32页,共38页,编辑于2022年,星期二3.2.3 数据的标准得分数据的标准得分假假定定两两个个水水平平类类似似的的班班级级(一一班班和二班)上同一门课,和二班)上同一门课,但但是是由由于于两两个个任任课课老老师师的的评评分分标标准准不不同同,使使得得两两个个班班成成绩绩的的均均值值和和 标标 准准 差差 都都 不不 一一 样样(数数 据据:grade.txt)。第33页,共38页,编辑于2022年,星期二3.2.3 数据的标准得分数据
21、的标准得分一一班班分分数数的的均均值值和和标标准准差差分分别别为为78.53和和9.43,而而二二班班的的均均值值和和标标准差分别为准差分别为70.19和和7.00。那那么么得得到到90分分的的一一班班的的张张颖颖是是不不是是比比得得到到82分分的的二二班班的的刘刘疏疏成成绩绩更好呢?怎么比较才能合理呢?更好呢?怎么比较才能合理呢?第34页,共38页,编辑于2022年,星期二3.2.3 数据的标准得分数据的标准得分虽虽然然这这种种均均值值和和标标准准差差不不同同的的数数据据不不能能够够直直接接比比较较,但但是是可可以以把把它它们们进进行行标标准准化,再比较标准化后的数据。化,再比较标准化后的数
22、据。一一个个标标准准化化的的方方法法是是把把某某样样本本原原始始观观测测值值(亦亦称称得得分分,score)和和该该样样本本均均值值之之差差除除以以该该样样本本的的标标准准差差;得得到到的的度度量量称称为为标标准准得得分分(standard score,又又称称为为z-score)。第35页,共38页,编辑于2022年,星期二3.2.3 数据的标准得分数据的标准得分即,某观测值xi的标准得分定义为第36页,共38页,编辑于2022年,星期二3.2.3 数据的标准得分数据的标准得分在在我我们们的的例例子子中中,张张颖颖的的标标准准得得分分为为(90-78.53)/9.431.22,而而刘刘疏疏的
23、的标标准准得得分分为为(82-70.19)/71.69。显显然然如如果果两两个个班班级级平平均均水水平平差差不不多多,刘刘疏疏的的成成绩绩应应该该优优于于张张颖颖的的成成绩绩;这这是是在在标标准准化化之之前前的的数数据据中不易看到的。中不易看到的。第37页,共38页,编辑于2022年,星期二可以看出,原始数据是在各自的均值附近,而散布也不一样。可以看出,原始数据是在各自的均值附近,而散布也不一样。但它们的标准得分则在但它们的标准得分则在0 0周围散布,而且散布也差不多。实际周围散布,而且散布也差不多。实际上,任何样本经过这样的标准化后,就都变换成均值为上,任何样本经过这样的标准化后,就都变换成均值为0 0、方差为方差为1 1的样本。标准化后不同样本观测值的比较只有相对的样本。标准化后不同样本观测值的比较只有相对意义,没有绝对意义。意义,没有绝对意义。第38页,共38页,编辑于2022年,星期二