as描述性统计分析.ppt-淘文阁

资源描述

《as描述性统计分析.ppt》由会员分享，可在线阅读，更多相关《as描述性统计分析.ppt（45页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、描述性统计分析描述性统计分析East China JiaoTong UniversityEast China JiaoTong University数据的描述如同给人画像一样在在对对数数据据进进行行深深入入加加工工之之前前，总总应该对数据有所印象。应该对数据有所印象。可可以以借借助助于于图图形形和和简简单单的的运运算算，来了解数据的一些特征。来了解数据的一些特征。由由于于数数据据是是从从总总体体中中产产生生的的，其其特特征征也也反反映映了了总总体体的的特特征征。对对数数据据的的描描述述也也是是对对其其总总体体的的一一个近似的描述。个近似的描述。如何用图来表示数据？如何用图来表示数据？定量变量的

2、图表示定量变量的图表示:直方图直方图对于一个定量变量，比如某个地区测量对于一个定量变量，比如某个地区测量了了163163个高三男生的身高。个高三男生的身高。用图形来表示这个数据，使人们能够看用图形来表示这个数据，使人们能够看出这个数据的大体分布或出这个数据的大体分布或“形状形状”的的一个办法是画一个办法是画直方图直方图(histogram)(histogram)。定量变量的图表示定量变量的图表示:盒型图盒型图简单一些的是简单一些的是盒形图盒形图(boxplot(boxplot，又称箱，又称箱图、箱线图、盒子图图、箱线图、盒子图)。右图是根据地区右图是根据地区1 1高三男生的身高数据高三男生的身

3、高数据所绘的盒形图；所绘的盒形图；盒型图盒型图盒子的中间横线是数据的中位数盒子的中间横线是数据的中位数(median)，封闭盒子的上下两横线，封闭盒子的上下两横线（边）为上下四分位数（点）。（边）为上下四分位数（点）。定量变量的图表示定量变量的图表示:茎叶图茎叶图在直方图和盒形图中，很难恢复数据的在直方图和盒形图中，很难恢复数据的原貌。而另一种图：原貌。而另一种图：茎叶图茎叶图(stem-(stem-and-leaf plots)and-leaf plots)可以恢复数据可以恢复数据以地区以地区1 1高三男生身高为例（图高三男生身高为例（图3.33.3），），茎叶图既展示了分布形状又有原始数

4、茎叶图既展示了分布形状又有原始数据。它象一片带有茎的叶子。茎为较据。它象一片带有茎的叶子。茎为较大位数的数字，叶为较小位数的数字。大位数的数字，叶为较小位数的数字。茎叶图茎叶图其中茎叶图中茎的单位为其中茎叶图中茎的单位为10cm，而叶子单位为，而叶子单位为1cm。比如，由于。比如，由于第一行茎为第一行茎为150cm，因此叶子中的九个数字，因此叶子中的九个数字001223344代表九个数代表九个数目目150、150、151、152、152、153、153、154、154cm等。每等。每行左边有一个频数（比如第一行有行左边有一个频数（比如第一行有9个数目，第二行有个数目，第二行有17个等等）；个等

5、等）；可以看出最长的一行为从可以看出最长的一行为从165cm到到169cm的一段（有的一段（有35个数）。个数）。定量变量的图表示定量变量的图表示:散点图散点图数据会有两个变量，如美国男士和女士数据会有两个变量，如美国男士和女士初婚年限数据。初婚年限数据。该数据描述了自该数据描述了自19001900年到年到19981998年男女第年男女第一次婚姻延续的时间。一次婚姻延续的时间。这里年份是一个变量，婚姻延续时间是这里年份是一个变量，婚姻延续时间是第二个变量。由于不可能将所有人的第二个变量。由于不可能将所有人的婚姻年限都给出来，所以每年就取了婚姻年限都给出来，所以每年就取了一个中间的值一个中间的

6、值(中位数中位数)作为代表。作为代表。散点图散点图定性变量的图表示：饼图定性变量的图表示：饼图定性变量（或属性变量，分类变量）定性变量（或属性变量，分类变量）不能点出直方图、散点图或茎叶不能点出直方图、散点图或茎叶图，但可以描绘出它们各类的比图，但可以描绘出它们各类的比例。例。饼图饼图定性变量的图表示：条形图定性变量的图表示：条形图从每一条可以看出讲各种语言的从每一条可以看出讲各种语言的实际人数，而且分别给出了每实际人数，而且分别给出了每个语种中母语和日常使用的人个语种中母语和日常使用的人数（在图中并排放置）。条形数（在图中并排放置）。条形图显示比例不如饼图直观。图显示比例不如饼图直观。条形图

7、条形图如何用少量数字来概括数据？如何用少量数字来概括数据？大量的数字既繁琐又不直观；需要对大量的数字既繁琐又不直观；需要对数据做人们时间和耐心所允许的数据做人们时间和耐心所允许的简化简化我们可以用我们可以用“平均平均”，“差距差距”或或百分比等来概括大量数字。百分比等来概括大量数字。由于定性变量主要是计数，比较简单，由于定性变量主要是计数，比较简单，常用的概括就是比例或百分比。常用的概括就是比例或百分比。下面主要介绍关于定量变量的数下面主要介绍关于定量变量的数字描述。字描述。如何用少量数字来概括数据？如何用少量数字来概括数据？可用少量所谓汇总统计量或可用少量所谓汇总统计量或概括统计概括统计量量

8、(summary statistic)(summary statistic)来描述定来描述定量变量的数据。量变量的数据。这些数字是从样本数据得来的，因而这些数字是从样本数据得来的，因而也是样本的函数，也是样本的函数，任何样本的函数，只要不包含总体的任何样本的函数，只要不包含总体的未知参数，都称为未知参数，都称为统计量统计量(statistic)(statistic)。样本的随机性决定统计量的随机性样本的随机性决定统计量的随机性（统计量也是随机变量）（统计量也是随机变量）如何用少量数字来概括数据？如何用少量数字来概括数据？概括统计量经常对应于总体的概括统计量经常对应于总体的无法观测到的某些参数。

9、无法观测到的某些参数。这时，统计量可作为这些参数这时，统计量可作为这些参数的估计。一些统计量还可以的估计。一些统计量还可以用来检验样本和假设的总体用来检验样本和假设的总体是否一致。是否一致。如何用少量数字来概括数据？如何用少量数字来概括数据？注：注：一些统计量前面有时加上一些统计量前面有时加上“样本样本”二字，以区别于总二字，以区别于总体的同名参数。如体的同名参数。如“样本均样本均值值”和和“样本标准差样本标准差”，以，以区别于总体均值和总体标准区别于总体均值和总体标准差；但在不会混淆时可以只差；但在不会混淆时可以只说说“均值均值”和和“标准差标准差”。数据的数据的“位置位置”数据有位置吗？数

10、据有位置吗？这里三个数据的位置一样吗？这里三个数据的位置一样吗？数据的数据的“位置位置”“位置位置”一般是关于数据中某变量观一般是关于数据中某变量观测值的测值的“中心位置中心位置”或者数据分或者数据分布的中心（布的中心（centercenter或或center center tendencytendency）。）。和这种和这种“位置位置”有关的统计量就称为有关的统计量就称为位置统计量位置统计量(location(location statistic)statistic)。位置统计量当然不一定都是描述位置统计量当然不一定都是描述“中中心心”了，比如后面要讲的了，比如后面要讲的k k百分位百分位数

11、（或数（或k k分位数）。分位数）。数据的数据的“位置位置”最最常常用用的的位位置置统统计计量量就就是是小小学学时时所所学学到到的的算算术术平平均均数数，它它在在统统计计中中叫叫做做均均值值(mean)(mean)；严严格格地地说说叫叫做做样样本本均均值值(sample mean)(sample mean)，以区别于总体均值。，以区别于总体均值。如如果果记记样样本本中中的的观观测测值值为为x x1 1,x,xn n，则则样本均值定义为样本均值定义为(样本样本)中位数中位数(median)(median)是是数据按照大小排列之后数据按照大小排列之后位于中间的那个数位于中间的那个

12、数(如如果样本量为奇数果样本量为奇数)，或，或者中间两个数目的平均者中间两个数目的平均(如果样本量为偶数如果样本量为偶数)。由于中位数不易被极端值由于中位数不易被极端值影响，所以中位数比均影响，所以中位数比均值稳健值稳健(robust)(robust)。数据的数据的“位置位置”上下四分位数（或分别称为第一四分位数和第三四分位数，first quantile,third quantile）则分别位于（按大小排列的）数据的上下四分之一的地方。数据的数据的“位置位置”数据的数据的“位置位置”一般地还称上四分位数为一般地还称上四分位数为7575百分位数百分位数（75 pecentile75 pecen

13、tile，有，有7575的观测值小的观测值小于它），下四分位数为于它），下四分位数为2525百分位数百分位数（有（有2525的观测值小于它）。的观测值小于它）。一般地，一般地，k k百分位数百分位数（k-pecentilek-pecentile）意）意味着有味着有k k的观测值小于它。的观测值小于它。如果令如果令a a=k%=k%，则则k k百分位数也称为百分位数也称为a a分分位数位数(a a-quantile)-quantile)。样本中出现最多的数目，称为样本中出现最多的数目，称为众数众数(mode)(mode)数据的数据的“尺度尺度”这两个数据“胖瘦”一样吗？数据的数据的“尺度尺度”数

14、据中数目的分散程度由尺度统计量（scale statistic）来描述。尺度统计量是描述数据散布，即描述集中与分散程度或变化（spread或variability）的度量。数据的数据的“尺度尺度”从前面两个高三男生身高数据的盒形从前面两个高三男生身高数据的盒形图。左边的数据平均要高些，但右图。左边的数据平均要高些，但右边的数据散布范围要小得多。边的数据散布范围要小得多。统计中有许多尺度统计量。一般来说，数据越分散，尺度统计量的值越大。数据的数据的“尺度尺度”极差极差(range)(range)；就是极大值和极小值之间；就是极大值和极小值之间的差。的差。前面两个高三男生身高数据的极差分别前面两个

15、高三男生身高数据的极差分别为为50cm50cm和和32cm32cm。盒形图盒子的长度为两个四分位数之差，盒形图盒子的长度为两个四分位数之差，称为称为四分位数极差或四分位间距四分位数极差或四分位间距(interquantile range)(interquantile range)；它描述了；它描述了中间半数观测值的散布情况。极差和中间半数观测值的散布情况。极差和四分位极差实际上各自只依赖于两个四分位极差实际上各自只依赖于两个值，信息量太少。值，信息量太少。数据的数据的“尺度尺度”另另一一个个常常用用的的尺尺度度统统计计量量为为（样样本本）标标准准差差(standard(standard dev

16、iation)deviation)。度度量量样样本中各数值到均值距离的一种平均。本中各数值到均值距离的一种平均。标标准准差差实实际际上上是是方方差差(variance)(variance)的的平平方方根根。如如果果记记样样本本中中的的观观测测值值为为x x1 1,x,xn n，则样本方差为，则样本方差为-3-2-10123020406080 x-3-2-10123020406080y数据的数据的“尺度尺度”两个均值一样，但右边的要两个均值一样，但右边的要“胖胖”些，方差为左边的一些，方差为左边的一倍倍两个尺度不同的数据的直方图，左边的标准差大约只有右边的一半两个尺度不同的

17、数据的直方图，左边的标准差大约只有右边的一半为了了解某地区居民家庭收入状况，现从这一地区家庭中随机抽为了了解某地区居民家庭收入状况，现从这一地区家庭中随机抽查了查了100100户居民，调查其家庭人均收入，调查结果如下（单位：百户居民，调查其家庭人均收入，调查结果如下（单位：百元）：元）：271 396 287 399 466 269 295 330 425 324 228 113 271 396 287 399 466 269 295 330 425 324 228 113 226 176 320 230 404 487 127 74 234 523 164 336 226 176 320

18、230 404 487 127 74 234 523 164 336 343 330 436 141 388 293 464 200 392 265 403 343 330 436 141 388 293 464 200 392 265 403 259 426 262 221 355 324 374 347 261 287 113 259 426 262 221 355 324 374 347 261 287 113 135 291 176 342 443 239 302 483 231 292 373 135 291 176 342 443 239 302 483 231 292 373 3

19、46 293 236 223 371 287 400 314 468 337 308 346 293 236 223 371 287 400 314 468 337 308 359 352 273 267 277 184 286 214 351 270 330 359 352 273 267 277 184 286 214 351 270 330 238 248 419 330 319 440 427 314 414 299 265 238 248 419 330 319 440 427 314 414 299 265 318 415 372 238 323 412 493 286 313 4

20、12 318 415 372 238 323 412 493 286 313 412 试根据以上数据计算：这试根据以上数据计算：这100100户家庭的平均人均收入，并据此推断户家庭的平均人均收入，并据此推断该地区人均收入水平；该地区人均收入水平；这这100100户家庭的人均收入的离散程度；户家庭的人均收入的离散程度；这这100100户家庭人均收入的分布形状：偏度和峰度。户家庭人均收入的分布形状：偏度和峰度。变量的概括描述过程过程UNIVARIATEUNIVARIATE的一般形式的一般形式：PROC UNIVERIATE DATAPROC UNIVERIATE DATA=NOPRINT PLOT

21、 NORMAL NOPRINT PLOT NORMAL；VAR VAR；B BY ；IDID ；OUTPUT OUTOUTPUT OUT=PCTLPTS PCTLPTS=p PCTLPRE,PCTLPRE=；RUNRUN；变量的概括描述过程过程MEANSMEANS的一般形式的一般形式：PROC MEANS DATAPROC MEANS DATA=MAXDEC=MAXDEC=位数 NOPRINT NOPRINT 输出统计量名列；VAR VAR；CLASSCLASS；B BY ；IDID ；OUTPUT OUTOUTPUT OUT=；RUNRUN；输出或记入数据集的统计量可用以下的输出或记入数据集

22、的统计量可用以下的关键名关键名：CSS MIN SKEWNESS SUMWGTCSS MIN SKEWNESS SUMWGTCV N STD TCV N STD TKURTOSIS NMISS STDERR USSKURTOSIS NMISS STDERR USSMEAN PRT SUM VARMEAN PRT SUM VARMAX RANGEMAX RANGE 过程过程SUMMARYSUMMARY与与MEANSMEANS的用法是完全类似的，只是的用法是完全类似的，只是过程过程MEANSMEANS不写选项不写选项NOPRINTNOPRINT时就自动显示分析结果，时就自动显示分析结果，而过程而过

23、程SUMMARYSUMMARY不写选项不写选项PRINTPRINT时就不显示分析结果；时就不显示分析结果；PROC CAPABILITY DATAPROC CAPABILITY DATA=GRAPHICS NOPRINT GRAPHICS NOPRINT；VAR VAR；HISTOGRAMHISTOGRAM；/MIDPOINTSMIDPOINTS=NORMALNORMAL(MUMU=SIGMASIGMA=)EXPEXP(THETATHETA=)LOGNORMALLOGNORMAL(THETATHETA=)；CDFPLOT CDFPLOT /NORMALNORMAL(MUMU=SIGMASIGM

24、A=)EXPEXP(THETATHETA=)LOGNORMALLOGNORMAL(THETATHETA=)；INSET=；B BY ；IDID ；RUNRUN；过程过程CAPABILITYCAPABILITY的一般形式的一般形式：变量分布的图形描述变量的分类计数前面介绍的数据分析方法有的只适用于数值型变量，例如对字符型变量就无法计算它的均值，也有时数值型变量的联欢会只是某些特征的代号，对这些变量均值的意义不大。这时更重要的是要不了解这些变量取了那些值和取不同值的频数。过程FREQ就提供了这些方面的功能。PROC FREQ 选项；TABLES 请求式/选项；必需必需，指定行变量和列变量WEIG

25、HT；指定频数指定变量BY；FREQ过程程序步选项】DATA数据集规定PROC FREQ语句使用的数据集 ORDERFREQ 按频数递减顺序排列 ORDERDATA 按数据集中出现的顺序排列 ORDERINTERNAL 按内部值排列(缺省)ORDERFORMATTED 按外部格式值排列【TABLES语句】请求式由一个或多个用“*”连接起来的变量名组成。几个变量可放在括号中，如：TABLES A*(B C)；等价于TABLES A*B A*C；TABLES(A-C)*D；等价于TABLES A*D B*D C*D；下列选项可用于TABLES语句中“/”的后面：1.普通选项2.OUT数据集建立

26、一个包含变量值和频数计数的输出数据集。如果TABLES语句中不止一个请求式，数据集的内容相应于TABLES语句中最后一个请求。2.统计分析选项CHISQ 对每层作c 2检验，包括Pearson c 2、似然比c 2和Mantel-Haenszel c 2。此外还给出与c 2检验有关的关联指标包括Phi系数、列联系数和Cramers V。对于22表，给出Fisher精确概率。AGREE 进行配对c 2检验。EXACT 对大于22的列联表计算Fisher精确概率。同时也给出CHISQ选项的全部统计量。MEASURES 对每层的二维表计算一系列关联指标及相应的标准误，包括Pearson和Spearm

27、an相关系数，以及Gamma和Kendall系数等。对于22表，还给出常用的危险度指标及其标准误。CMH 给出Cochran-Mantel-Haenszel统计量，可检验在调整了TABLES语句中其它变量后，行变量与列变量之间的关联程度。对于22表，FREQ过程给出相对危险度估计及其可信区间，还给出各层关联度指标是否齐性的Breslow检验。ALL 给出CHISQ、MEASURES、CMH所请求的全部统计量。ALPHAp 给出检验水准。缺省为0.05。3.有关表格信息选项EXPECTED 给出期望频数 DEVIATION 给出每格的实际频数与期望频数的差值 CELLCHISQ 给出每格对总c

28、2的贡献，即计算每格的(实际频数-期望频数)2/期望频数。CUMCOL 给出累积列百分数4.禁止输出选项NOFREQ 不给出列联表中的格频数 NOPERCENT 不给出列联表中的格百分数 NOROW 不给出列联表中各格的行百分数 NOCOL 不给出列联表中各格的列百分数 NOCUM 不给出频数表的累积频数和累积百分数 NOPRINT 不给出表格，但给出CHISQ、MEASURES或CMH等语句所指定的统计量。【WEIGHTWEIGHT语句语句】通常每个观察值提供数值通常每个观察值提供数值1 1给频数计数，当给频数计数，当WEIGHTWEIGHT语句出现语句出现时，每个观察值提供的是该观察值的加权变量值。该值必时，每个观察值提供的是该观察值的加权变量值。该值必须非负，但可不必为整数。只能使用一个须非负，但可不必为整数。只能使用一个WEIGHTWEIGHT语句，且语句，且该语句作用于所有的表。该语句作用于所有的表。

展开阅读全文