《数据分析方法第一章.ppt》由会员分享,可在线阅读,更多相关《数据分析方法第一章.ppt(111页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第一章第一章 数据描述性分析数据描述性分析 数据的描述性分析数据的描述性分析即从数据出发概括数据即从数据出发概括数据特征,主要包括数据的位置特性、分散性、特征,主要包括数据的位置特性、分散性、关联性等数字特征和反映数据整体结构的关联性等数字特征和反映数据整体结构的分布特征,它是数据分析的第一步,也进分布特征,它是数据分析的第一步,也进一步分析的基础。一步分析的基础。n1.1一一维维数据的数字特征数据的数字特征n1.2数据的分布数据的分布n2.3多维数据的数字特征与相关分析多维数据的数字特征与相关分析1第一章 概述1.1.1 表示位置的数字特征表示位置的数字特征1.1.2 表示分散性的数字特征表
2、示分散性的数字特征1.1.3 表示分布形状的数字特征表示分布形状的数字特征n1.1一一维数据的数字特征维数据的数字特征n设有一维数据:设有一维数据:x1,x2,xn是研究对象的样本观是研究对象的样本观测值,数据分析的测值,数据分析的任务任务是对样本观测值进行分析,提是对样本观测值进行分析,提取数据中所包含的有用的信息,进一步对总体的信息取数据中所包含的有用的信息,进一步对总体的信息做出推断;首先用某些简单的量概括它的主要信息或做出推断;首先用某些简单的量概括它的主要信息或特征特征数字特征:数字特征:数据的集中位置、分散程度、数数据的集中位置、分散程度、数据分布的形状特征据分布的形状特征等等。等
3、等。2第一章 概述n n1.1.1 1.1.1 1.1.1 1.1.1 表示位置的数字特征(统计量)表示位置的数字特征(统计量)表示位置的数字特征(统计量)表示位置的数字特征(统计量)n n 如果要用简单的数字来概括一组观测数据如果要用简单的数字来概括一组观测数据如果要用简单的数字来概括一组观测数据如果要用简单的数字来概括一组观测数据x x x x1 1 1 1,.,x x x xn n n n,可以使用,可以使用,可以使用,可以使用“位置统计量位置统计量位置统计量位置统计量”来作为数据的总体代来作为数据的总体代来作为数据的总体代来作为数据的总体代表,常见的位置表,常见的位置表,常见的位置表,
4、常见的位置统计量统计量统计量统计量有:有:有:有:均值、中位数、分位数、均值、中位数、分位数、均值、中位数、分位数、均值、中位数、分位数、众数众数众数众数等。等。等。等。1.1.均值均值(Mean):是所有观测值的平均值,是所有观测值的平均值,是描述数据取值中心位置的一个度量是描述数据取值中心位置的一个度量:n均值能够概括反映所有各项数据的均值能够概括反映所有各项数据的平均水平平均水平。n有许多的优良的统计性质,但当数据中存在有许多的优良的统计性质,但当数据中存在异常值时,它则缺乏异常值时,它则缺乏抗扰性抗扰性(稳健性稳健性)易受异常易受异常值的影响而使其值有较大变化。值的影响而使其值有较大变
5、化。3第一章 概述n n设设设设x x1 1,.,x xn n是是是是n n个观测值个观测值个观测值个观测值,它们的次序统计量,它们的次序统计量,它们的次序统计量,它们的次序统计量为为为为x x(1)1),x x(2)2),x x(n)n),即即即即n nx x(1)1)x x(2)2)x x(n)n)n nx x(1)1)为最小次序统计量,为最小次序统计量,为最小次序统计量,为最小次序统计量,x x(n)n)为最大次序统计量,为最大次序统计量,为最大次序统计量,为最大次序统计量,4第一章 概述n n2.中位数(中位数(Median或或Med)表示一组数据按表示一组数据按照大小的顺序排列时中间
6、位置的数值照大小的顺序排列时中间位置的数值n n中位数中位数是描述观测值数据中心位置的统计量,是描述观测值数据中心位置的统计量,大体上比中位数大(小)的数据为观测值的大体上比中位数大(小)的数据为观测值的一半。中位数的一个优点具有一半。中位数的一个优点具有稳健性稳健性。计算计算方法方法是:首先将数据从小到大排序为:是:首先将数据从小到大排序为:x(1),.,x(n),然后计算,然后计算5第一章 概述n n3.3.3.3.分位数(分位数(分位数(分位数(PercentilePercentilePercentilePercentile)根据变量值由小到大的顺序排根据变量值由小到大的顺序排根据变量值
7、由小到大的顺序排根据变量值由小到大的顺序排列分割成若干等分,其分界位置上的各个数值实际上是列分割成若干等分,其分界位置上的各个数值实际上是列分割成若干等分,其分界位置上的各个数值实际上是列分割成若干等分,其分界位置上的各个数值实际上是一种分割值。一种分割值。一种分割值。一种分割值。n n分位数分位数分位数分位数也是描述数据分布和位置的统计量。对也是描述数据分布和位置的统计量。对也是描述数据分布和位置的统计量。对也是描述数据分布和位置的统计量。对0p1,0p1,0p1,0p1,数据数据数据数据x x1 1,.,x xn n的的的的p p p p分位数是分位数是分位数是分位数是n0.50.5分位数
8、就是中位数,分位数就是中位数,0.750.75分位数和分位数和0.250.25分位数分位数又分别称为上、下四分位数,并分别记为又分别称为上、下四分位数,并分别记为QQ3 3=M=M0.750.75和和QQ1 1=M=M0.250.25 。4.4.三均值三均值 n各各数字特征从不同侧重点反映了数据的位置特征,数字特征从不同侧重点反映了数据的位置特征,结合应用可以研究数据某些更本质的特性,如利用结合应用可以研究数据某些更本质的特性,如利用中位数与各分位数可以考察数据的对称性中位数与各分位数可以考察数据的对称性6第一章 概述n n设数据是总体设数据是总体设数据是总体设数据是总体X X X X的样本,
9、总体的分布函数是的样本,总体的分布函数是的样本,总体的分布函数是的样本,总体的分布函数是F(F(x x),),设总体设总体设总体设总体的均值为的均值为的均值为的均值为=E(X)=E(X),由大数定律,当,由大数定律,当,由大数定律,当,由大数定律,当n n较大时,样本均值较大时,样本均值较大时,样本均值较大时,样本均值可以作为总体均值的估计:可以作为总体均值的估计:可以作为总体均值的估计:可以作为总体均值的估计:设总体分布设总体分布F(x)是连续分布是连续分布,0p1,称满足称满足的的p为总体分布为总体分布F(x)的的p分位数,分位数,当总体当总体p分位数为分位数为唯一的情况时,在一定条件下,
10、样本的唯一的情况时,在一定条件下,样本的p分位数分位数Mp是总体分位数是总体分位数p相合估计,即当相合估计,即当n充分大时,充分大时,pMp7第一章 概述n n1.1.2 1.1.2 表示分散性的数字特征表示分散性的数字特征表示分散性的数字特征表示分散性的数字特征n n1.1.1.1.方差方差方差方差(Variance(Variance(Variance(Variance或或或或Var)Var)Var)Var):是由各观测值到均值距离是由各观测值到均值距离是由各观测值到均值距离是由各观测值到均值距离的平方和除以观测量组数减的平方和除以观测量组数减的平方和除以观测量组数减的平方和除以观测量组数减
11、1 1 1 1,是数据对于均值的偏,是数据对于均值的偏,是数据对于均值的偏,是数据对于均值的偏差平方和的平均,方差的量纲是原变量的平方;差平方和的平均,方差的量纲是原变量的平方;差平方和的平均,方差的量纲是原变量的平方;差平方和的平均,方差的量纲是原变量的平方;n n方差的开方称为方差的开方称为方差的开方称为方差的开方称为标准差标准差标准差标准差(Standard deviation(Standard deviation或或或或Std Std Dev):Dev):n n标准差的量纲与原变量一致。标准差的量纲与原变量一致。标准差的量纲与原变量一致。标准差的量纲与原变量一致。8第一章 概述n n变
12、异系数(变异系数(Coefficient of Variation或或CV):是将是将标准差表示为均值的百分数,是观测数据相对标准差表示为均值的百分数,是观测数据相对分散性的一个度量,它在比较用不同单位测量分散性的一个度量,它在比较用不同单位测量的数据的分散性时是有用的的数据的分散性时是有用的,无量纲量:无量纲量:变异系变异系数的值越大,说明数据集中相对于均值的变化数的值越大,说明数据集中相对于均值的变化就越大。就越大。2.极差(极差(Range)与半极差()与半极差(Interquartilerange)极差就是数据中的最大值和最小值之间的差:极差就是数据中的最大值和最小值之间的差:极差极差
13、=x(n)-x(1)=maxximinxi上上、下下四四分分位位数数之之差差R R3 3=Q=Q3 3 QQ1 1称称为为四四分分位位极极差差或或半半极极差差,它它描描述述了了中中间间半半数数观观测测值值的的散散布布情情况况,具具有有抗抗扰扰性性稳稳健健性性;极极差差有有许许多多特特殊殊的的应应用用,如如质质量控制图中的极差图,提供证券市场行情等。量控制图中的极差图,提供证券市场行情等。9第一章 概述设数据是总体设数据是总体X的样本,则数据的方差的样本,则数据的方差s2、标准差标准差s、变异系数变异系数CV分别是总体方差分别是总体方差2=Var(X)、总体标总体标准差准差、总体变异系数总体变异
14、系数r=/的相合估计:即当样的相合估计:即当样本容量本容量n充分大时,有充分大时,有2 s2,s,rCV 正态总体正态总体N(,2)的上、下四位数分别为的上、下四位数分别为 0.75=+0.6745,0.25=-0.6745 总体的总体的四分位极差四分位极差四分位极差四分位极差为为为为r r r r1 1 1 1=0.75-0.25=1.349,则有则有 =r r r r1 1 1 1/1.349 总体标准差总体标准差的一个抗扰性的估计的一个抗扰性的估计四分位数四分位数标准差:标准差:10第一章 概述3 3.上、下截断点上、下截断点:用来用来判断异常值判断异常值的简便方法:的简便方法:Q3+1
15、.5 R1 ,Q1-1.5 R1大于上截断点的数据为特大值,小于下截断点的数大于上截断点的数据为特大值,小于下截断点的数据为特小值,都视为异常值。据为特小值,都视为异常值。总体为总体为正态分布正态分布N(,2)时,上、下截断点分别时,上、下截断点分别为为 0.75+1.5 r1 =-2.698,0.25-1.5 r1 =-2.698 数据落在上、下截断点之外的概率为数据落在上、下截断点之外的概率为0.00698,即对即对容量容量n较大的数据,异常值的比率约为较大的数据,异常值的比率约为0.0069811第一章 概述n n1.1.3 1.1.3 表示数据分布形状的统计量表示数据分布形状的统计量表
16、示数据分布形状的统计量表示数据分布形状的统计量n n 偏度和峰度偏度和峰度偏度和峰度偏度和峰度是描述数据分布形状的指标。是描述数据分布形状的指标。是描述数据分布形状的指标。是描述数据分布形状的指标。n n1.1.偏度(偏度(偏度(偏度(skewnessskewness):偏度是刻画数据对称性的指标。偏度是刻画数据对称性的指标。偏度是刻画数据对称性的指标。偏度是刻画数据对称性的指标。偏度的计算公式为:偏度的计算公式为:偏度的计算公式为:偏度的计算公式为:n n关于均值对称的数据其偏度为关于均值对称的数据其偏度为g1=0;n n左侧更为分散的数据,其偏度为负(左侧更为分散的数据,其偏度为负(g10
17、),称为右偏。称为右偏。12第一章 概述n n2.2.峰度峰度kurtosiskurtosis:峰度描述数据向分布尾端散布峰度描述数据向分布尾端散布的趋势的趋势 n n利用峰度研究数据分布的形状是以正态分布为标准利用峰度研究数据分布的形状是以正态分布为标准利用峰度研究数据分布的形状是以正态分布为标准利用峰度研究数据分布的形状是以正态分布为标准(假定正态分布的方差与所研究分布的方差相等)比(假定正态分布的方差与所研究分布的方差相等)比(假定正态分布的方差与所研究分布的方差相等)比(假定正态分布的方差与所研究分布的方差相等)比较两端极端数据的分布情况,若较两端极端数据的分布情况,若较两端极端数据的
18、分布情况,若较两端极端数据的分布情况,若1 1 1 1 近似于标准正态分布,则近似于标准正态分布,则近似于标准正态分布,则近似于标准正态分布,则峰度接近于零;峰度接近于零;峰度接近于零;峰度接近于零;2 2 2 2 尾部较正态分布更分散,则尾部较正态分布更分散,则尾部较正态分布更分散,则尾部较正态分布更分散,则峰度为正,称为轻尾;峰度为正,称为轻尾;峰度为正,称为轻尾;峰度为正,称为轻尾;3 3 3 3 尾部较正态分布更集中,则尾部较正态分布更集中,则尾部较正态分布更集中,则尾部较正态分布更集中,则峰度为负,称为厚尾。峰度为负,称为厚尾。峰度为负,称为厚尾。峰度为负,称为厚尾。13第一章 概述
19、14第一章 概述n n 设设设设x x1 1,.,x xn n是总体是总体是总体是总体X X的样本,的样本,的样本,的样本,3 3、4 4分别表示总体分别表示总体分别表示总体分别表示总体X X的的的的3 3、4 4阶中心矩,即阶中心矩,即阶中心矩,即阶中心矩,即 3 3=E=E(X-X-)3 3,4 4=E=E(X-X-)3 3其中其中其中其中=E=E(X X),则,则,则,则 总体偏度为总体偏度为总体偏度为总体偏度为:G:G 1 1=3 3/3 3 总体峰度为总体峰度为总体峰度为总体峰度为:G:G 2 2=(=(4 4/4 4)-3)-3且数据的偏度且数据的偏度且数据的偏度且数据的偏度g g
20、1 1和峰度和峰度和峰度和峰度g g2 2分别是总体偏度分别是总体偏度分别是总体偏度分别是总体偏度G G 1 1和总体峰度和总体峰度和总体峰度和总体峰度G G 2 2 的相合估计,即当的相合估计,即当的相合估计,即当的相合估计,即当n n充分大时,有充分大时,有充分大时,有充分大时,有 G G 1 1 g g1 1 ,G G 2 2 g g2 2总体偏度是总体偏度是总体偏度是总体偏度是度量总体分布是否偏向某一侧的指标;度量总体分布是否偏向某一侧的指标;度量总体分布是否偏向某一侧的指标;度量总体分布是否偏向某一侧的指标;总体峰度是总体峰度是总体峰度是总体峰度是以同方斋戒的正态分布为标准,比较总体
21、分以同方斋戒的正态分布为标准,比较总体分以同方斋戒的正态分布为标准,比较总体分以同方斋戒的正态分布为标准,比较总体分布尾部分散性的指标;结论与数据偏度与峰度相同布尾部分散性的指标;结论与数据偏度与峰度相同布尾部分散性的指标;结论与数据偏度与峰度相同布尾部分散性的指标;结论与数据偏度与峰度相同15第一章 概述n n在在SASSAS中计算一维数据的数字特征中计算一维数据的数字特征n n1 PROC MEANS过程过程n n2 PROC UNIVARIATE过程过程16第一章 概述n n1.1.1.1.MEANSMEANS过程过程过程过程n n(1)MEANS(1)MEANS过程的一般格式过程的一般
22、格式过程的一般格式过程的一般格式:n nPROC MEANS PROC MEANS 选择项选择项选择项选择项 统计量关键字列表统计量关键字列表统计量关键字列表统计量关键字列表;n nVAR VAR 变量表变量表变量表变量表;要分析的变量名列要分析的变量名列要分析的变量名列要分析的变量名列n nBY BY 变量表变量表变量表变量表;按变量名列分组统计,按变量名列分组统计,按变量名列分组统计,按变量名列分组统计,n n 要求数据集已按变量名列排序要求数据集已按变量名列排序要求数据集已按变量名列排序要求数据集已按变量名列排序n nCLASS CLASS 变量表变量表变量表变量表;按变量名列分组统计,
23、不要求数据集排序按变量名列分组统计,不要求数据集排序按变量名列分组统计,不要求数据集排序按变量名列分组统计,不要求数据集排序n nFREQ FREQ 变量表变量表变量表变量表;表明该变量为分析变量的频数表明该变量为分析变量的频数表明该变量为分析变量的频数表明该变量为分析变量的频数n nWEIGHT WEIGHT 变量表变量表变量表变量表;表明分析变量在统计时要按该变量权重表明分析变量在统计时要按该变量权重表明分析变量在统计时要按该变量权重表明分析变量在统计时要按该变量权重n nID ID 变量表变量表变量表变量表;输出时加上该变量作为索引输出时加上该变量作为索引输出时加上该变量作为索引输出时加
24、上该变量作为索引n nOUTPUT OUT=OUTPUT OUT=数据集数据集数据集数据集 统计关键字统计关键字统计关键字统计关键字=变量名变量名变量名变量名;n n 指定统计量的输出数据集名指定统计量的输出数据集名指定统计量的输出数据集名指定统计量的输出数据集名n n关键字关键字关键字关键字=.;.;指定统计量对应的新变量名指定统计量对应的新变量名指定统计量对应的新变量名指定统计量对应的新变量名 17第一章 概述n n二、选择项说明二、选择项说明二、选择项说明二、选择项说明 n nDATA=SASDATA=SAS数据集数据集数据集数据集 将计算出的统计量输出到一个数据将计算出的统计量输出到一
25、个数据将计算出的统计量输出到一个数据将计算出的统计量输出到一个数据集。所有集。所有集。所有集。所有PROC MEANSPROC MEANSPROC MEANSPROC MEANS语句中可用统计量均可在此指定。语句中可用统计量均可在此指定。语句中可用统计量均可在此指定。语句中可用统计量均可在此指定。n nNOPRINT NOPRINT 说明不输出任何描述性统计值。说明不输出任何描述性统计值。说明不输出任何描述性统计值。说明不输出任何描述性统计值。n nMAXDEC=n MAXDEC=n 指出指出指出指出MEANSMEANSMEANSMEANS用于输出结果的最大小数位(用于输出结果的最大小数位(用
26、于输出结果的最大小数位(用于输出结果的最大小数位(0 0 0 0),缺省值为),缺省值为),缺省值为),缺省值为7 7 7 7。n nFW=n FW=n n n n n为输出统计量时的字段宽度,缺省值为为输出统计量时的字段宽度,缺省值为为输出统计量时的字段宽度,缺省值为为输出统计量时的字段宽度,缺省值为12121212。n nVARDEF=N|DF|WGT|WDF VARDEF=N|DF|WGT|WDF 指定方差计算所用的分指定方差计算所用的分指定方差计算所用的分指定方差计算所用的分母。母。母。母。NN表示观察值的总数表示观察值的总数表示观察值的总数表示观察值的总数;WGTWGT表示权重和表示
27、权重和表示权重和表示权重和WDFWDF表示表示表示表示权重和减权重和减权重和减权重和减1 1;DFDF表示自由度表示自由度表示自由度表示自由度N-1N-1n nMISSING MISSING 指定指定指定指定MEANSMEANSMEANSMEANS过程将缺失值视为一个特殊分过程将缺失值视为一个特殊分过程将缺失值视为一个特殊分过程将缺失值视为一个特殊分组处理,否则缺失值将被剔除。组处理,否则缺失值将被剔除。组处理,否则缺失值将被剔除。组处理,否则缺失值将被剔除。n n统计量统计量统计量统计量 用来指定进行计算的描述性统计量。用来指定进行计算的描述性统计量。用来指定进行计算的描述性统计量。用来指定
28、进行计算的描述性统计量。缺省统计量缺省统计量缺省统计量缺省统计量选择项时,选择项时,选择项时,选择项时,只输出只输出只输出只输出N N N N、MINMINMINMIN、MAXMAXMAXMAX、MEANMEANMEANMEAN、STDSTDSTDSTD。18第一章 概述n n三、三、MEANSMEANS过程中常用的统计量关键字有:过程中常用的统计量关键字有:l l 基本统计量基本统计量基本统计量基本统计量NMEANSTDCVSUMVARRANGMINNMEANSTDCVSUMVARRANGMINMAXUSSCSSMAXUSSCSSl l 与假设检验有关的统计量与假设检验有关的统计量与假设检验
29、有关的统计量与假设检验有关的统计量STDERR(STDERR(标准误)标准误)标准误)标准误)TPRTTPRT(与与与与t t对应的对应的对应的对应的p p值值值值)LCLM()LCLM(可信区间下限可信区间下限可信区间下限可信区间下限)UCLM()UCLM(可信区可信区可信区可信区间上限间上限间上限间上限)四、四、PROCMEANS过程中的其他语句过程中的其他语句l lVAR语语句句:列列入入变变量量表表的的数数据据集集变变量量将将被被MEANS过过程程分分析析、若若无无次次句句,则则计计算算输输入入数数据据集集中中除除BY、ID、CLASS、FREQ、WEIGHT语语句句中中的的变变量量之
30、之外外的的所所有有变变量的统计量。量的统计量。l l BY语语句句:指指定定变变量量进进行行分分组组处处理理。(事事先先必必须须按按BY语句指定的变量将输入数据集按升序排序)语句指定的变量将输入数据集按升序排序)19第一章 概述 可以计算的描述性统计量关键字及其含义见下表。可以计算的描述性统计量关键字及其含义见下表。可以计算的描述性统计量关键字及其含义见下表。可以计算的描述性统计量关键字及其含义见下表。关键字关键字关键字关键字所代表的含义所代表的含义所代表的含义所代表的含义关键字关键字关键字关键字所代表的含义所代表的含义所代表的含义所代表的含义n n有效数据有效数据有效数据有效数据记录记录记录
31、记录数数数数rangerange极差极差极差极差nmissnmiss缺失数据缺失数据缺失数据缺失数据记录记录记录记录数数数数skewnessskewness偏度偏度偏度偏度meanmean均均均均值值值值kurtosiskurtosis峰度峰度峰度峰度stdstd标标标标准差准差准差准差t t分布位置假分布位置假分布位置假分布位置假设检验设检验设检验设检验之之之之t t统计统计统计统计量量量量stderrstderr标标标标准准准准误误误误probtprobt上述上述上述上述t t统计统计统计统计量量量量对应对应对应对应的概率的概率的概率的概率值值值值varvar方差方差方差方差q1q1第一四
32、分位数第一四分位数第一四分位数第一四分位数medianmedian中位数中位数中位数中位数q3q3第三四分位数第三四分位数第三四分位数第三四分位数modemode众数众数众数众数qrangeqrange四分位数四分位数四分位数四分位数间间间间距距距距cvcv变变变变异系数异系数异系数异系数p1p1第一百分位数第一百分位数第一百分位数第一百分位数maxmax最大最大最大最大值值值值p5p5第五百分位数第五百分位数第五百分位数第五百分位数minmin最小最小最小最小值值值值p10p10第十百分位数第十百分位数第十百分位数第十百分位数sumsum总计总计总计总计p90p90第九十百分位数第九十百分位
33、数第九十百分位数第九十百分位数sumwgtsumwgt加加加加权值总计权值总计权值总计权值总计p95p95第九十五百分位数第九十五百分位数第九十五百分位数第九十五百分位数csscss校正平方和校正平方和校正平方和校正平方和p99p99第九十九百分位数第九十九百分位数第九十九百分位数第九十九百分位数ussuss未校正平方和未校正平方和未校正平方和未校正平方和20第一章 概述n n(3)(3)使用使用CLASSCLASS语句和语句和BYBY语句语句n n 使用使用CLASSCLASS语句和语句和BYBY语句可以分组计算分语句可以分组计算分析变量的描述统计量值,由析变量的描述统计量值,由CLASSC
34、LASS语句和语句和BYBY语句指定的变量在分析中起分组(类)的语句指定的变量在分析中起分组(类)的作用,被称为分类变量。两个语句的区别作用,被称为分类变量。两个语句的区别是:是:使用使用BYBY语句时要求数据集须按语句时要求数据集须按BYBY变量排变量排序,使用序,使用CLASSCLASS语句无此要求。语句无此要求。使用使用BYBY语句时输出按语句时输出按BYBY变量的每个值分变量的每个值分别提供一个表,使用别提供一个表,使用CLASSCLASS语句则将所有结语句则将所有结果排列在一个表之中。果排列在一个表之中。21第一章 概述使用使用BY语句之前先排序,如下代码可以在上语句之前先排序,如下
35、代码可以在上例中按变量例中按变量R_Id分组统计:分组统计:procsortdata=mylib.sryzc;byR_Id;run;procmeansdata=mylib.sryzcnmeanmedianp1p5p95p99q1q3maxmin;varIncome;byR_Id;run;22第一章 概述n n 使用使用CLASS语句分组较为简单,如语句分组较为简单,如下代码也可以在上例中按变量下代码也可以在上例中按变量R_Id分分组统计:组统计:n nproc means data=mylib.sryzc n mean median p1 p5 p95 p99 q1 q3 max min;va
36、r Income;class R_Id;RUN;23第一章 概述l l FREQ FREQ语句:语句:指定某一变量,表示同一观察的指定某一变量,表示同一观察的指定某一变量,表示同一观察的指定某一变量,表示同一观察的出现次数。出现次数。出现次数。出现次数。l l l l OUTPUT OUT=OUTPUT OUT=数据集:数据集:数据集:数据集:将将将将MEANSMEANS过程的结过程的结过程的结过程的结果输出给指定的数据集中。果输出给指定的数据集中。果输出给指定的数据集中。果输出给指定的数据集中。八、缺失数据处理八、缺失数据处理1VAR变变量量:MEANS过过程程在在开开始始计计算算某某一一变
37、变量量的的描描述述性性统统计计之之前前,先先将将那那些些在在变变量量上上有有缺缺失失的的数数据据的的观观察察删删除除。被被删删除除的的观观察察若若在在其其它它变变量量上上没没有缺失数据,则会纳入其它变量的计算过程中。有缺失数据,则会纳入其它变量的计算过程中。2变变量量:若若观观察察在在BY变变量量上上有有缺缺失失数数据据,则则MEANS过过程程会会为为这这些些观观察察另另形形成成一一个个分分组组,同同样样进行计算分析。进行计算分析。24第一章 概述n n3.UNIVARIATE过程n n UNIVARIATE过程与过程与MEANS的功能大的功能大同小异,他们都可以可对数值变量进行一同小异,他们
38、都可以可对数值变量进行一般性的统计描述,但般性的统计描述,但UNIVARIATE过程还过程还给出变量的峰度、偏度、众数、中位数、给出变量的峰度、偏度、众数、中位数、四分位数、数据分布的正态性检验、符号四分位数、数据分布的正态性检验、符号秩检验等统计量。而且秩检验等统计量。而且UNIVARIATE过程过程中具有绘图功能。中具有绘图功能。n n 其中,其中,HISTOGRAM语句用来指示语句用来指示SAS对对其后所指定的变量绘制直方图,其后的选其后所指定的变量绘制直方图,其后的选项用来指示项用来指示SAS添加不同类型的拟合图形添加不同类型的拟合图形(如正态分布的分布密度曲线)(如正态分布的分布密度
39、曲线)25第一章 概述n nUNIVARIATEUNIVARIATE过程的一般格式为过程的一般格式为过程的一般格式为过程的一般格式为:n nPROC UNIVARIATE PROC UNIVARIATE 选择项选择项选择项选择项;n nVARVAR变量表变量表变量表变量表;指定要分析的变量名列指定要分析的变量名列指定要分析的变量名列指定要分析的变量名列n nBYBY变量表变量表变量表变量表;按变量名列分组统计,要求数据集已按按变量名列分组统计,要求数据集已按按变量名列分组统计,要求数据集已按按变量名列分组统计,要求数据集已按该变量名列排序该变量名列排序该变量名列排序该变量名列排序n nFREQ
40、FREQ变量变量变量变量;表明该变量为分析变量的频数表明该变量为分析变量的频数表明该变量为分析变量的频数表明该变量为分析变量的频数n nWEIGHTWEIGHT变量变量变量变量;表明分析变量在统计时要按该变量表明分析变量在统计时要按该变量表明分析变量在统计时要按该变量表明分析变量在统计时要按该变量权重权重权重权重n nIDID变量表变量表变量表变量表;输出时加上该变量作为索引输出时加上该变量作为索引输出时加上该变量作为索引输出时加上该变量作为索引n nOUTPUTOUT=SASOUTPUTOUT=SAS数据集数据集数据集数据集 关键字关键字关键字关键字=名称名称名称名称;指定统计指定统计指定统
41、计指定统计量的输出数据集名量的输出数据集名量的输出数据集名量的输出数据集名n n关键字关键字关键字关键字=.指定统计量对应的新变量名指定统计量对应的新变量名指定统计量对应的新变量名指定统计量对应的新变量名n nPCTLPTS=PCTLPTS=n nPCTLPRE=PCTLPRE=;指定所需百分位数对应指定所需百分位数对应指定所需百分位数对应指定所需百分位数对应的输出变量名的输出变量名的输出变量名的输出变量名26第一章 概述n n二、选择项说明二、选择项说明n nDATA=数据集数据集 该选择项指定该选择项指定PROC UNIVARIATE使用的使用的SAS数据集。缺省值数据集。缺省值为最新建立
42、的数据集。为最新建立的数据集。n nNOPRINT 指定抑制产生报表。指定抑制产生报表。n nPLOT 指定给出三幅数据图:指定给出三幅数据图:茎叶图(或水茎叶图(或水平棒图)、盒状图和正态概率图平棒图)、盒状图和正态概率图。n nFREQ 该选择项给出变量值、频数、百分该选择项给出变量值、频数、百分数、累计百分数组成的频数表。数、累计百分数组成的频数表。27第一章 概述n nNORMALNORMAL 指定假设输入数据来自正态分布总体,指定假设输入数据来自正态分布总体,指定假设输入数据来自正态分布总体,指定假设输入数据来自正态分布总体,然后给出统计检验量,并输出统计检验量的端值。然后给出统计检
43、验量,并输出统计检验量的端值。然后给出统计检验量,并输出统计检验量的端值。然后给出统计检验量,并输出统计检验量的端值。n n正态检验正态检验正态检验正态检验:若在过程中指定若在过程中指定若在过程中指定若在过程中指定NORMALNORMAL选择项时,选择项时,选择项时,选择项时,过程将数据视作取自正态分布的随机样本并给出过程将数据视作取自正态分布的随机样本并给出过程将数据视作取自正态分布的随机样本并给出过程将数据视作取自正态分布的随机样本并给出一个统计检验。当样本量小于一个统计检验。当样本量小于一个统计检验。当样本量小于一个统计检验。当样本量小于20002000时,计算时,计算时,计算时,计算S
44、hapiro-WilkShapiro-Wilk统计量统计量统计量统计量WW,WW值在值在值在值在0 0与与与与1 1之间,之间,之间,之间,WW值越值越值越值越小越拒绝小越拒绝小越拒绝小越拒绝H0H0假设;当样本容量假设;当样本容量假设;当样本容量假设;当样本容量n n大于大于大于大于6 6时,时,时,时,WW的显的显的显的显著水平由著水平由著水平由著水平由RoystonRoyston近似正态变换获得;当样本量大近似正态变换获得;当样本量大近似正态变换获得;当样本量大近似正态变换获得;当样本量大于于于于20002000时,计算时,计算时,计算时,计算KolomogorovKolomogorov
45、统计量。统计量。统计量。统计量。WW值值值值越大越表示数据来自正态分布。越大越表示数据来自正态分布。越大越表示数据来自正态分布。越大越表示数据来自正态分布。PrWPrW给给给给出了概率(出了概率(出了概率(出了概率(0P10P1)值)值)值)值P P,P P值越接近值越接近值越接近值越接近0 0,则表示越,则表示越,则表示越,则表示越拒绝数据来自正态分布的假设。拒绝数据来自正态分布的假设。拒绝数据来自正态分布的假设。拒绝数据来自正态分布的假设。28第一章 概述n nPCDLDEF=1|2|3|4|5 指定计算百分位数指定计算百分位数的方法。缺省此项,则的方法。缺省此项,则PCDLDEF=4。n
46、 nVARDEF=DF|N|WEIGHT或或WGT|WDF 指定计算方差时的分母。指定计算方差时的分母。DF是以自由度是以自由度N-1做分母;做分母;N是以观察值数是以观察值数N做分母;做分母;WGT是以权重和做分母;是以权重和做分母;WDF是以权重和减是以权重和减1做做分母。缺省值为分母。缺省值为VARDEF=DF。n nROUND=舍入单位。舍入单位。29第一章 概述n n三、过程中常用的统计量关键字三、过程中常用的统计量关键字n nSAS中用关键字来指定所需要的统计量,事中用关键字来指定所需要的统计量,事实上结果输出中用的就是各种关键字,常实上结果输出中用的就是各种关键字,常用的关键字有
47、:用的关键字有:n n基本统计量基本统计量 N MEAN STD(标准误标准误)CV SUM VAR(方差方差)RANG 等等n n百分位数描述百分位数描述 MIN P1 P5 P10 Q1 MEDIAN Q3 P90 P95 P99 MAX n n与假设检验有关的统计量与假设检验有关的统计量 STD MEAN(标准标准误误)T 30第一章 概述n n 输出包括五个部分。输出包括五个部分。n n 第一部分是矩统计量,各统计量已在第一部分是矩统计量,各统计量已在前面作了介绍。前面作了介绍。n n 第二部分为基本的位置和分散程度统第二部分为基本的位置和分散程度统计量,位置统计量包括均值、中位数、众
48、计量,位置统计量包括均值、中位数、众数,分散程度统计量包括标准差、方差、数,分散程度统计量包括标准差、方差、极差、四分位间距极差、四分位间距n n 第三部分为关于均值等于零的三种检第三部分为关于均值等于零的三种检验的结果,包括验的结果,包括t t检验、符号检验和符号秩检验、符号检验和符号秩检验。检验。n n 第四部分为各个重要的分位数。第四部分为各个重要的分位数。n n 第五部分是观测数据的五个最低值和五第五部分是观测数据的五个最低值和五个最高值。个最高值。31第一章 概述data examp1_1;data examp1_1;input x;input x;cards;cards;74.3
49、78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.574.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.579.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.079.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.075.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 69.7 68.075.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 69.7 68.073.5 75.0 7
50、2.0 64.3 75.8 80.3 69.7 74.3 73.5 73.573.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 73.5 73.575.8 75.8 68.8 76.5 70.4 71.2 81.2 75.0 70.4 68.075.8 75.8 68.8 76.5 70.4 71.2 81.2 75.0 70.4 68.070.4 72.0 76.5 74.3 76.5 77.6 67.3 72.0 75.0 74.370.4 72.0 76.5 74.3 76.5 77.6 67.3 72.0 75.0 74.373.5 79.5 73.5 74