《第四讲的描述统计课件.ppt》由会员分享,可在线阅读,更多相关《第四讲的描述统计课件.ppt(43页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第四讲的描述统计第1页,此课件共43页哦1 1、MEANSMEANS过程过程(均值过程均值过程)Proc means ;Output out=数据集名数据集名 ;Run;Proc means 主语句选项:主语句选项:1.1.DATASAS数据集数据集:指出指出SASSAS数据集的名称,若省略,则使用最近产生的数据集。数据集的名称,若省略,则使用最近产生的数据集。2.MAXDEC=数字数字 指定该过程输出结果中小数部分的最大位数指定该过程输出结果中小数部分的最大位数(0到到8).默认是默认是2。3.FW=域宽域宽 给出该过程用来打印每个统计量的字符长。给出该过程用来打印每个统计量的字符长。默认是
2、默认是12。4.ALPHA=置信水平为置信水平为1-.默认为默认为 =0.05.Means过程默认输出统计量只有五个过程默认输出统计量只有五个:N,Mean,Std,Min,Max(1)语法格式语法格式第2页,此课件共43页哦(2).应用举例应用举例例例1:某单位对:某单位对100名健康的女大学生测定了血清总蛋白含量名健康的女大学生测定了血清总蛋白含量(g/L),试做单变量描述性统计分析。试做单变量描述性统计分析。data aa;input x;cards;74.3 78.8 70.4;proc means;proc means n min max mean std stderr cv max
3、dec=2;第3页,此课件共43页哦 MEANS 过程过程分析变量:分析变量:x N均值均值标准偏差标准偏差最小值最小值最大值最大值10073.66000003.940081564.300000084.3000000proc means;默认的默认的5个统计量个统计量其其SAS输出结果与说明输出结果与说明第4页,此课件共43页哦proc means n min max mean std stderr cv maxdec=2;输出结果:输出结果:MEANS 过程过程分析变量:分析变量:x N最小值最小值 最大值最大值均值均值标准偏差标准偏差 标准误差标准误差 偏差系数偏差系数10064.3084
4、.3073.663.940.395.35第5页,此课件共43页哦 例例2.下表为两个不同地区居民家庭收入和支出情下表为两个不同地区居民家庭收入和支出情 况的抽样调查(单位:元),试分别统计况的抽样调查(单位:元),试分别统计收入和收入和支出支出情况。情况。将下表中数据输入成将下表中数据输入成Excel文件文件sryzc.xls。4个变量名个变量名分别为:分别为:ID、R_ID、Income和和Outgo,该四个变量,该四个变量分别表示分别表示“家庭编号家庭编号”、“地区编号地区编号”、“家庭总收家庭总收入入”和和“家庭总支出家庭总支出”。首先将其导入为首先将其导入为SAS数据文件数据文件myl
5、ib.sryzc。第6页,此课件共43页哦IDR_IDIncomeOutgoIDR_IDIncomeOutgo12179415501622200206022171613651712730223631341027301812496145542176515301911760104052218419002012820236662205020502122250196672246021842213170240081197611702321200125091285024962421776135010142752760252198017941122010127526124552550121223618102
6、7210801380131330528202821986120014124001976291336923051522250197030215301316第7页,此课件共43页哦 对数据集对数据集mylib.sryzc中的中的Income变量计算简单统计量,用如下变量计算简单统计量,用如下MEANS过程即可:过程即可:proc means data=mylib.sryzc;var Income;run;SAS运行结果:运行结果:第8页,此课件共43页哦 在在PROC MEANS语句中使用统计量关键字列表。输出数据集语句中使用统计量关键字列表。输出数据集mylib.sryzc中收入中收入(Inco
7、me)的观测个数、均值、中位数、第一百分的观测个数、均值、中位数、第一百分位数、第五百分位数、第九十五百分位数、第九十九百分位数、第位数、第五百分位数、第九十五百分位数、第九十九百分位数、第一四分位数、第三四分位数、最大值、最小值。一四分位数、第三四分位数、最大值、最小值。proc means data=mylib.sryzc n mean median p1 p5 p95 p99 q1 q3 max min var Income;run;运行结果运行结果第9页,此课件共43页哦 可以计算的描述性统计量关键字及其含义见下表。可以计算的描述性统计量关键字及其含义见下表。关键字关键字所代表的含义所
8、代表的含义关键字关键字所代表的含义所代表的含义n有效数据有效数据记录记录数数skewness偏度偏度nmiss缺失数据缺失数据记录记录数数kurtosis峰度峰度mean均均值值t分布位置假分布位置假设检验设检验之之t统计统计量量std标标准差准差probt上述上述t统计统计量量对应对应的概率的概率值值stderr标标准准误误q1第一四分位数第一四分位数var方差方差q3第三四分位数第三四分位数median中位数中位数qrange四分位数四分位数间间距距mode众数众数p1第一百分位数第一百分位数cv变变异系数异系数p5第五百分位数第五百分位数max最大最大值值p10第十百分位数第十百分位数m
9、in最小最小值值p90第九十百分位数第九十百分位数sum总计总计p95第九十五百分位数第九十五百分位数sumwgt加加权值总计权值总计p99第九十九百分位数第九十九百分位数css校正平方和校正平方和CLM置信限置信限uss未校正平方和未校正平方和LCLM置信下限置信下限range极差极差UCLM置信上限置信上限第10页,此课件共43页哦(3)使用使用CLASS语句或语句或BY语句语句Class 分类变量名列分类变量名列 ;by 分类变量名列分类变量名列;两个语句的区别是:两个语句的区别是:使用使用BY语句时要求数据集须按语句时要求数据集须按BY变量排序,变量排序,使用使用CLASS语句无此要求
10、。语句无此要求。使用使用BY语句时输出按语句时输出按BY变量的每个值分别提供一个表,变量的每个值分别提供一个表,使用使用CLASS语句则将所有结果排列在一个表之中。语句则将所有结果排列在一个表之中。第11页,此课件共43页哦 例例3.1)使用使用BY语句语句,将上例中的数据按地区将上例中的数据按地区(R_Id)分分组组 计算统计量:计算统计量:Proc sort data=mylib.sryzc;by R_Id;run;proc means data=mylib.sryzc n mean median p1 p5 p95 p99 q1 q3 max min;var Income;by R_Id
11、;run;第12页,此课件共43页哦R_ID=1The MEANS Procedure Analysis Variable:INCOME Income N Mean Median 1st Pctl 5th Ptcl 95th Pctl 99th Pctl-14 2803.71 2775.00 1760.00 1760.00 4275.00 4275.00-Lower Upper Quartile Quartile Maximum Minimum-2400.00 3305.00 4275.00 1760.00-R_ID=2 Analysis Variable:INCOME Income N Me
12、an Median 1st Pctl 5th Ptcl 95th Pctl 99th Pctl16 1889.44 1983.00 1080.00 1080.00 2460.00 2460.00-Lower Upper Quartile Quartile Maximum Minimum-1740.50 2192.00 2460.00 1080.00-使用使用BY语句分区域输出统计量:语句分区域输出统计量:第13页,此课件共43页哦 2)使用使用CLASS语句语句,按地区按地区(R_Id)分组计算统计量:分组计算统计量:proc means data=mylib.sryzc n mean med
13、ian p1 p5 p95 p99 q1 q3 max min;var Income;CLASS R_Id;run;第14页,此课件共43页哦使用使用CLASSCLASS语句输出结果:语句输出结果:The MEANS Procedure Analysis Variable:INCOME IncomeR_ID Obs N Mean Median 1st Pctl 5th Ptcl 95th Pctl-1 14 14 2803.71 2775.00 1760.00 1760.00 4275.00 2 16 16 1889.44 1983.00 1080.00 1080.00 2460.00-Low
14、er UpperR_ID Obs 99th Pctl Quartile Quartile Maximum Minimum-1 14 4275.00 2400.00 3305.00 4275.00 1760.00 2 16 2460.00 1740.50 2192.00 2460.00 1080.00-第15页,此课件共43页哦(4)使用使用Output语句语句(输出语句)Output out=数据集名数据集名 ;输出统计量列表形式:输出统计量列表形式:1)统计量关键字统计量关键字=;新数据集中统计量用原变量名新数据集中统计量用原变量名2)统计量关键字统计量关键字=新名字列表新名字列表3)统计量
15、关键字统计量关键字(变量列表变量列表)=新名字列表新名字列表Proc means data=mylib.bclass noprint ;var height weight;output out=result2 mean=;Run;Proc print data=result2;run;例例4(1)把数据集mylib.bclass中中变量height和weight的均值输出到新数据集result2.第16页,此课件共43页哦 (2)把变量把变量height和和weight的均值的均值(新名分别取为新名分别取为hmean和和wmean)和标准差和标准差(新名字分别取为新名字分别取为hstd 和和w
16、std)输出到新数据集输出到新数据集result3.Proc means data=mylib.bclass noprint ;var height weight;output out=result3 mean=hmean wmean std=hstd wstd;Run;Proc print data=result3;run;Output ;输出统计量列表形式:输出统计量列表形式:1)统计量关键字统计量关键字=;新数据集中统计量用原变量名新数据集中统计量用原变量名2)统计量关键字统计量关键字=新名字列表新名字列表3)统计量关键字统计量关键字(变量列表变量列表)=新名字列表新名字列表第17页,此
17、课件共43页哦(3)把变量把变量height的均值、变量的均值、变量height 和和weight的标准差的标准差(新名字新名字分别取为分别取为hstd 和和wstd)和变量和变量weight的方差的方差(新名字取为新名字取为wvar)输出输出到新数据集到新数据集result4.Proc means data=mylib.bclass noprint ;var height weight;output out=result4 mean(height)=std=hstd wstd var(weight)=wvar;Run;Proc print data=result4;run;Output ;输
18、出统计量列表形式:输出统计量列表形式:1)统计量关键字统计量关键字=;新数据集中统计量用原变量名新数据集中统计量用原变量名2)统计量关键字统计量关键字=新名字列表新名字列表3)统计量关键字统计量关键字(变量列表变量列表)=新名字列表新名字列表第18页,此课件共43页哦2.UNIVARIATE2.UNIVARIATE过程过程(单变量过程单变量过程)UNIVARIATE过过程程和和MEANS过过程程的的格格式式非非常常相相似似,相相同同的的语语句句和和选选项项其其含含义义也也相相同同,所所不不同同的的是是某某些些统统计计量量只只能能在在UNIVARIATE过过程程中中计计算算(如如众众数数),而而
19、且且UNIVARIATE过程中具有过程中具有绘图功能绘图功能;MEANS过程过程默认输出统计量默认输出统计量只有五个只有五个;UNIVARIATE过程过程默认输出统计量默认输出统计量不只一页不只一页。第19页,此课件共43页哦UNIVARIATE过程一般格式:过程一般格式:Proc univariate ;Var 变量名列变量名列 ;/*分析所列变量分析所列变量*/Output out=数据集名数据集名 ;histogram 变量名变量名/;Run;Proc univariate 主语句中可使用的选项主语句中可使用的选项:1.Data=数据集名数据集名 若省略,用最近建立的若省略,用最近建立的
20、SAS数据集。数据集。2.Freq :生成包括变量值、频数、百分数和累计频数的频率表生成包括变量值、频数、百分数和累计频数的频率表3.Normal :计算关于输入数据服从正态分布假设的检验统计量及计算关于输入数据服从正态分布假设的检验统计量及P-值。值。4.Plot:生成一个茎叶图生成一个茎叶图(或水平直方图或水平直方图),箱线图和正态概率图。箱线图和正态概率图。5.Noprint:在在Output窗口不输出计算结果。窗口不输出计算结果。6.Mu0=数值数值 若省略,检验的均值为若省略,检验的均值为0。第20页,此课件共43页哦例例5:对数据集:对数据集bclass中变量中变量HEIGHT和和
21、WEIGHT计算常用描述性统计量计算常用描述性统计量Proc univariate data=mylib.bclass;Var height weight ;Run;使极值部分显示更直接使极值部分显示更直接.对最大和最小的几个纪录不仅显示对最大和最小的几个纪录不仅显示它们的观测序号它们的观测序号,还显示相应的还显示相应的Id变量值变量值(如姓名如姓名),使我们从使我们从输出结果就知道谁最高输出结果就知道谁最高,谁最矮等等谁最矮等等.利用利用Id 语句的例子语句的例子:Proc univariate data=mylib.bclass;Var height weight ;Id name;Run
22、;Id 语句语句:Id 识别变量名识别变量名;第21页,此课件共43页哦利用利用Id 语句前、后输出语句前、后输出(部分部分):Variable:HEIGHT (身高(厘米))Extreme Observations -Lowest-Highest-Value Obs Value Obs 125 3 167 12 127 27 167 20 135 25 167 21 137 30 169 14 142 6 172 22Variable:HEIGHT (身高(厘米))Extreme Observations -Lowest-Highest-Value NAME Obs Value NAME O
23、bs 125 ROBERT 3 167 EDWARD 12 127 LILLIE 27 167 PHILLIP 20 135 JANE 25 167 KIRK 21 137 SUSAN 30 169 JEFFERY 14 142 MICHAEL 6 172 LAWRENCE 22第22页,此课件共43页哦不用画图语句时不用画图语句时Univariate过程输出一般包括五个部分:过程输出一般包括五个部分:v 第一部分是矩统计量;第一部分是矩统计量;v 第二部分为基本的位置和分散程度统计量,位置统计第二部分为基本的位置和分散程度统计量,位置统计量包括均值、中位数、众数,分散程度统计量包括标准量包括
24、均值、中位数、众数,分散程度统计量包括标准差、方差、极差、四分位间距;差、方差、极差、四分位间距;v 第三部分为关于均值等于零的三种检验的结果,包括第三部分为关于均值等于零的三种检验的结果,包括t检验、符号检验和符号秩检验;检验、符号检验和符号秩检验;v 第四部分为各个重要的分位数;第四部分为各个重要的分位数;v 第五部分是观测数据的五个最低值和五个最高值。第五部分是观测数据的五个最低值和五个最高值。第23页,此课件共43页哦Histogram语句语句(画直方图语句画直方图语句),其一般格式:,其一般格式:histogram 变量名变量名 /;选项:选项:Midpoints=中点列中点列Vsc
25、ale=percent|count|proportion 直方图高度。默认是直方图高度。默认是percent。Cfill=颜色颜色 涂上直方图或拟合曲线下方的颜色涂上直方图或拟合曲线下方的颜色Nocurvel 隐藏不同曲线含义的图例隐藏不同曲线含义的图例第24页,此课件共43页哦Proc univariate data=mylib.sryzc plot;Var income ;histogram income /cfill=red ;Run;例例6 计算家庭总收入的描述统计量,并绘制其直方计算家庭总收入的描述统计量,并绘制其直方 图、图、盒形图及正态概率图。盒形图及正态概率图。Univaria
26、te过程输出过程输出的直方图的直方图绘制盒形图及正态概率图绘制盒形图及正态概率图选项选项画直方图语句画直方图语句第25页,此课件共43页哦茎叶图茎叶图 茎叶图又称茎叶图又称“枝叶图枝叶图”,它的思路是将数组中的数按位数进行比,它的思路是将数组中的数按位数进行比较,将数的大小基本不变或变化不大的位作为一个主干(茎),将变化较,将数的大小基本不变或变化不大的位作为一个主干(茎),将变化大的位数作为分枝(叶),列在主干的后面,这样就可以清楚地看到每大的位数作为分枝(叶),列在主干的后面,这样就可以清楚地看到每个主干后面的几个数,每个数具体是多少。个主干后面的几个数,每个数具体是多少。茎叶图是一个与直
27、方图相类似的特殊工具,但又与直方图不茎叶图是一个与直方图相类似的特殊工具,但又与直方图不同,茎叶图保留原始资料的资讯,直方图则失去原始资料的讯同,茎叶图保留原始资料的资讯,直方图则失去原始资料的讯息。将茎叶图茎和叶逆时针方向旋转息。将茎叶图茎和叶逆时针方向旋转9O9O度,实际上就是一个直度,实际上就是一个直方图,可以从中统计出次数,计算出各数据段的频率或百分比。方图,可以从中统计出次数,计算出各数据段的频率或百分比。从而可以看出分布是否与从而可以看出分布是否与正态分布正态分布或单峰或单峰偏态分布偏态分布逼近。逼近。第26页,此课件共43页哦茎叶图的优缺点茎叶图的优缺点v 1、用茎叶图表示数据有
28、两个优点:一是从统计图上、用茎叶图表示数据有两个优点:一是从统计图上没有原始数据信息的损失,所有数据信息都可以从茎叶图中没有原始数据信息的损失,所有数据信息都可以从茎叶图中得到;二是茎叶图中的数据可以随时记录,随时添加,方便得到;二是茎叶图中的数据可以随时记录,随时添加,方便记录与表示。记录与表示。v 2、茎叶图只便于表示两位有效数字的数据,而且茎叶图只、茎叶图只便于表示两位有效数字的数据,而且茎叶图只方便记录两组的数据,两个以上的数据虽然能够记录,但是没有方便记录两组的数据,两个以上的数据虽然能够记录,但是没有表示两个记录那么直观、清晰。表示两个记录那么直观、清晰。第27页,此课件共43页哦
29、茎叶图的案例分析茎叶图的案例分析 茎茎叶叶图图是是将将统统计计分分组组和和次次数数分分配配一一次次完完成成,是是探探索索性性数数据据分分析析中中对对数数据据的的初初步步形形象象描描绘绘。其其图图形形直直观观且且保保留留原原始始信信息息,均均值值、中中位位数数和和众众数数均均可可依依原原始始数数据据准准确确方方便便地地算算出。现以某班一次考试成绩为例,介绍茎叶图的作法。出。现以某班一次考试成绩为例,介绍茎叶图的作法。第28页,此课件共43页哦第29页,此课件共43页哦第30页,此课件共43页哦作图过程作图过程 先先作作“茎茎”后后填填“叶叶”,将将分分组组标标志志(组组距距)视视为为茎茎,按按数
30、数的的大大小小从从上上到到下下(也也可可从从下下到到上上)排排列列。将将每每一一个个观观察察值值视视为为一一个个树树叶叶,每每一一个个树树叶叶按按照照树树茎茎之之要要求求长长在在应应长长的的树树茎茎上上。对对于于百百分分制制的的考考试试分分数数,先先将将高高位位数数字字按按顺顺序序排排成成一一列列,后后将将每每个个分分数数的的个个位位数数为为叶叶长长在在相相应应的的茎茎上上,最最后后将将每每茎茎上上的的叶叶按按从从小小到到大大的的排排列列。若若人人数数较较多多,树树叶叶较较长长,可可将将高高位位数数重重复复两两次次,个个位位数数分分为为05一一枝枝,59一一枝枝。为了便于分析,可将为了便于分析
31、,可将1/4、3/4分位数及中位数用符号标出。分位数及中位数用符号标出。第31页,此课件共43页哦利用茎叶图对考试成绩进行评估利用茎叶图对考试成绩进行评估 1)将茎叶图茎和叶逆时针方向旋转)将茎叶图茎和叶逆时针方向旋转9O度,实际上就是一个班度,实际上就是一个班级成绩带有数字的直方图,可以从中统计出次数,计算出级成绩带有数字的直方图,可以从中统计出次数,计算出各分数段的频率或百分比,从它可以看出班级成绩的分布各分数段的频率或百分比,从它可以看出班级成绩的分布是否与正态分布或单峰偏态分布逼近。是否与正态分布或单峰偏态分布逼近。2)若茎叶图成绩表扁而宽,说明该班整体成绩较集中,成)若茎叶图成绩表扁
32、而宽,说明该班整体成绩较集中,成绩差异不大;如果茎叶图长而窄,说明该班成绩较分散,绩差异不大;如果茎叶图长而窄,说明该班成绩较分散,标准差标准差较大,高分低分差距大。这可使教师或校管理部门较大,高分低分差距大。这可使教师或校管理部门对学生成绩有所了解。对学生成绩有所了解。第32页,此课件共43页哦2.2.盒形图盒形图v 盒盒形形图图(boxplot,又又称称箱箱图图、箱箱线线图图、盒盒子子图图)是是用用更更为为简简洁洁的的方方法法表表现现数数据据在在数数轴轴上上的的分分布布及及其其特特点的图形。点的图形。v 左左图图是是根根据据居居民民家家庭庭的的收收入入情情况况所所绘绘的的盒盒形形图图;右图
33、是分地区居民家庭的收入情况所绘的盒形图。右图是分地区居民家庭的收入情况所绘的盒形图。第33页,此课件共43页哦 盒盒子子的的中中间间横横线线是是数数据据的的中中位位数数,封封闭闭盒盒子子的的上上下下两两横横线线分分别别为为上上,下下四四分分位位数数。盒盒子子的的长长度度就就是是分分布布的的四四分分位位间间距距,其其作作用用类类似似于于标标准准差差,可可以以反反映映数数据据分分布布的的分分散散程程度度。从从盒盒子子边边线线向向外外画画的的两两条条线线叫叫做做触触须须线线,最最长长可可以以延延伸伸到到四四分分位位间间距距的的1.51.5倍倍,但但是是如如果果已已经经到到了了数数据据的的最最小小值值
34、或或最最大大值值处处就就不不再再延延伸伸了了。如如果果有有些些数数据据值值超超出出了了触触须须线线的的范范围围,则则这这些些数数据据用用触触须须线线以以外外的的点点来来画画出出,一一般般认认为为这这样样的的点点可可能能是是异异常常点点,在在进进一一步步进进行行数数据据分分析析时时可可以以考考虑虑是是否否需需要剔除它。要剔除它。第34页,此课件共43页哦 Stem Leaf#Boxplot 4 3 1 0 3 3 2344 4|2 555788 6 +-+2 00000222224 11 *-+-*1 578888 6 +-+1 12 2|-+-+-+-+Multiply Stem.Leaf b
35、y 10*+3 Normal Probability Plot 4250+*+|+|*+*+*+*2750+*|+*+*|*+*1250+*+*+-+-+-+-+-+-+-+-+-+-+-2 -1 0 +1 +2UNIVARIATE过程输出过程输出的茎叶图、盒形图、正态的茎叶图、盒形图、正态概率图概率图正态概率图中正态概率图中“*”代表观测代表观测值值“+”代表参考直线。当观代表参考直线。当观测数据来自正态分布时,测数据来自正态分布时,“*”应与应与“+”较为接近或重较为接近或重合。本例中,两者较接近,合。本例中,两者较接近,数据可能来自正态分布。数据可能来自正态分布。可进一步利用检验统计量可
36、进一步利用检验统计量进行正态性检验。进行正态性检验。第35页,此课件共43页哦FREQFREQ过程过程(频数过程频数过程.可输出频数表可输出频数表)proc freq ;tables 变量名列变量名列 ;run;1)Data=数据集名数据集名 若省略,用最近建立的若省略,用最近建立的SAS数据集。数据集。2)Order=Freq|Data|Internal|Formatted 规定变量水平的记录次序(排列次序)。规定变量水平的记录次序(排列次序)。Order=Freq 表示按频数降序排列,因此最大频数的水平第一个出现;表示按频数降序排列,因此最大频数的水平第一个出现;Order=Data 表示
37、按输入数据集中值的出现次序排列;表示按输入数据集中值的出现次序排列;Order=Internal 表示按变量的值排序;表示按变量的值排序;Order=Formatted 表示按变量格式化值的次序。默认项。表示按变量格式化值的次序。默认项。proc freq 主语句中可使用的选项主语句中可使用的选项:3)Page 要求要求Freq过程每页只输出一张表。过程每页只输出一张表。第36页,此课件共43页哦Tables 语句语句tables 变量名列变量名列 ;变量名列变量名列:列出要输出频数表的变量名,变量名之间要留空格列出要输出频数表的变量名,变量名之间要留空格.在在PROC FREQ 的的一一次次
38、执执行行中中可可以以包包括括任任意意多多个个tables语语句句。如如果果没没有有tables语语句句,FREQ过过程程对对数数据据集集中中每每个个变变量量都都生生成成一一个个单单向频数表向频数表(如图如图1中两个变量的表分别为单向频数表中两个变量的表分别为单向频数表)。第37页,此课件共43页哦tables 变量名列变量名列 ;在在tables语句的斜杠语句的斜杠/后面能使用的后面能使用的选项选项有:有:NOCUM不输出单向频数表和列表格式下的累计频数和累计百不输出单向频数表和列表格式下的累计频数和累计百 分数分数;第38页,此课件共43页哦Proc freq data=sryzc ;tab
39、les R_Id Income;Run;输出变量输出变量 R_Id(地区编号地区编号)和和Income(家庭总收入家庭总收入)的单向频数表:的单向频数表:由地区编号由地区编号R_ID的频数表知,的频数表知,用用1表示的地区样本容量为表示的地区样本容量为14,用用2表示的地区样本容量为表示的地区样本容量为16,加起来加起来30,即抽样调查的家庭,即抽样调查的家庭为为30家。家。由家庭总收入由家庭总收入INCOME的频数的频数表知,因为不是分类变量,是表知,因为不是分类变量,是区间形变量,所以此频数表意区间形变量,所以此频数表意义不大。义不大。图图1第39页,此课件共43页哦例例7 输出输出bcl
40、ass中体重的频数表中体重的频数表Proc freq data=bclass;tables weight;Run;对对连连续续型型变变量量(如如weight),不不同同观观测测的的变变量量值值一一般般不不同同。因因此此直直接接作作频数表意义不大。频数表意义不大。通通常常按按变变量量取取值值范范围围分分成成若若干干组组后后,统统计计变变量量在在各各个个组组取取值值的的频频数数等。等。例例如如,数数据据集集bclass中中的的weight作作如如下下分分组组后后再再观观察察:由由46.5公公斤至斤至77.0公斤,每公斤,每4.5公斤为一组公斤为一组(每组不包括左端点每组不包括左端点):1.45.5
41、公斤公斤50.0 公斤;公斤;2.50.0公斤公斤54.5 公斤;公斤;3.54.5公斤公斤59.0 公斤;公斤;4.59.0公斤公斤63.5 公斤;公斤;5.63.5公斤公斤68.0 公斤;公斤;6.68.0公斤公斤72.5 公斤;公斤;7.72.5公斤公斤77.0 公斤公斤.第40页,此课件共43页哦FORMAT过程过程(格式化过程)(格式化过程)vFORMAT过程可以设定过程可以设定变量值的输出格式变量值的输出格式,对变量的不同值或不同范围的值设定不同,对变量的不同值或不同范围的值设定不同的的“标签标签”来显示。其一般形式:来显示。其一般形式:PROC FORMAT;VALUE 格式名格
42、式名 变量值或范围变量值或范围1=标签标签1 变量值或范围变量值或范围2=标签标签2 变量值或范围变量值或范围n=标签标签n;RUN;在在DATA步步 或或 PROC步通过如下步通过如下FORMAT语句语句声明要使用声明要使用FORMAT过程定过程定义的格式:义的格式:FORMAT 变量名变量名 格式名格式名.;格式名:是对格式表指定的格式名:是对格式表指定的SASSAS名。如果变量是字符型的,此名字必须以名。如果变量是字符型的,此名字必须以$开头开头,包包括括$在内不能超过在内不能超过8 8个字符个字符,以,以字母结尾字母结尾,中间的字符可以是字母、下划线或数字,中间的字符可以是字母、下划线
43、或数字;如果如果变量值变量值或或标签标签中含有字母或空格,一定要中含有字母或空格,一定要用单引号用单引号 括起来括起来;在在FORMAT语句中,在格式名后面语句中,在格式名后面必须紧跟一个点必须紧跟一个点.格式表格式表第41页,此课件共43页哦例例8.(1)对数据集对数据集sryzc中区域变量值作如下定义标签中区域变量值作如下定义标签:1标签为标签为第一地区第一地区,2标签为标签为第二地区第二地区,并求出该变量的频数表。,并求出该变量的频数表。proc format;value a 1=第一地区第一地区 2=第二地区第二地区;run;proc freq data=sryzc ;tables R_Id ;format R_Id a.;Run;第42页,此课件共43页哦(2)对收入变量值分组:对收入变量值分组:proc format;value incomeb 900-1500=900-1500 1500-2100=1500-21002100-2700=2100-27002700-3300=2700-33003300-3900=3300-3900 3900-4500=3900-4500;run;proc freq;tables income;format income incomeb.;run;第43页,此课件共43页哦