《SAS系统和数据分析SAS宏功能简介(共7页).doc》由会员分享,可在线阅读,更多相关《SAS系统和数据分析SAS宏功能简介(共7页).doc(7页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、精选优质文档-倾情为你奉上第十八课 SAS宏功能简介SAS系统提供了强大的宏功能(macro facility),通过创建宏变量和宏能方便地完成:l 重复分析任务,大大精减了程序量l 从系统获取一些如SAS启动时间、日期、版本号等信息l 有条件地执行数据步和过程步l 保持程序的独立性和移植性,产生与数据无关的程序l 用宏变量在不同数据步和过程步之间传递数据一、 SAS宏变量宏变量(也称符号变量)属于SAS宏语言的范畴,和数据步中的变量概念是不一样的。除了数据行外,可以在SAS程序的任何地方定义和使用宏变量。数据步变量是和数据集相联系的,而宏变量是独立于数据集的。数据集变量的值取决于正在处理的观
2、测,而一个宏变量的值总是保持不变,直到被明确改变。1. 宏变量的定义定义一个宏变量的最简单方法是使用宏语句%LET,它的一般形式如下: %LET 宏变量名=值 ;宏变量的命名遵从一般的SAS命名规则。宏变量的值不需要加引号,如果值加入引号,则引号被作为宏变量值的一部分。宏变量的值可以是固定的字符串、其他宏变量的引用、宏函数和宏调用。2. 宏变量的引用为了引用一个宏变量的值,在宏变量前加上一个符号&,格式如下: &宏变量名宏变量被引用的效果就是用宏变量的内容直接替代宏变量名。3. 宏变量的使用举例例如,我们想要打印、图示和分析几个数据集,但又希望避免重复键入每一个数据集名字以修改相同的程序代码。
3、解决方法是用%LET语句创建一个宏变量DSNAME,该宏变量赋值了一个数据集名SURVEY。然后,这个宏变量在PROC PRINT等许多过程和TITLE语句中被引用。程序如下:%Let dsname=survey ;Proc print data=&dsname ;Var name sex bdate income ;Title “Display of Data Set &dsname” ;Run ;要注意标题语句Title平时既可以用单引号又可以用双引号围住标题,但如果有宏变量引用,则必须用双引号,否则用单引号将当作字符串处理。上面的程序中,我们只要修改宏变量dsname的赋值,就能对多个数
4、据集执行相同的打印输出等操作。可用几个%LET语句来创建多个宏变量进一步增强过程的通用性。例如,我们可用WHERE语句来规定用作打印和分析的一个范围。如用%LET语句把宏变量START和END分别定义为开始和结束的日期。程序如下:%Let dsname=survey ;%Let start=01jan79d ;%Let end= 31dec80d ;Proc print data=&dsname ;Var name sex bdate income ;Where &startbdate&end ;Format bdate date7. ;Title “Display of Data Set &
5、dsname” ;Run ;这样,通过适当的%LET语句来简单改变起始和结束日期,就能替代在WHERE语句中的多处改动。提请大家注意宏变量赋值日期常数01jan79d的这种格式,也可以直接赋日期存储值,如改成%Let start=6940和%Let end=7670。二、 自动宏变量SAS的宏变量共有两种:一是用户定义的宏变量,如我们上面所定义的宏变量dsname、start、end。二是自动宏变量,由SAS系统定义。自动宏变量是在系统启动时就已经被创建,在SAS系统退出前一直保持有效,能够在SAS系统的任何地方被引用。下表列出一些用户常用的自动宏变量:自动宏变量作用值SYSDATE本次SAS
6、启动的日期如04AUG97SYSDAY本次SAS启动的星期如MondaySYSTIME本次SAS启动的时间如 11:18SYSLAST最新创建的数据集名字如STUDY.SURVEYSYSDSN最新创建的数据集两部分名字如STUDY SURVEYSYSVER使用SAS软件的版本如6.12SYSSCP返回用户主机系统的缩写如WIN例如,我们修改上面的程序,增加一个小标题,在小标题中引用自动宏变量,程序如下:%Let dsname=survey ;%Let start=01jan79d ;%Let end= 31dec80d ;%Let analyst= Zuxin.Deng ;Proc print
7、 data=&dsname ;Var name sex bdate income ;Where &startbdate&end ;Format bdate date7. ;Title “Display of Data Set &dsname” ;Title2 “&systime &sysday , &sysdate by &analyst” ;Run ;三、 创建一个宏宏是一个被存储的文本,用一个名字识别它。最简单的宏就像一个宏变量一样工作,但复杂的宏可以包括分支和循环等结构,能实现许多宏变量不能实现的功能。1. 宏的定义和调用宏定义的一般形式如下:%MACRO 宏名字(参数宏变量) ;宏实体
8、 ;%MEND 宏名字 ;%MACRO语句是每一个宏的开始,同时必须给出这个宏的名字。宏实体可为任一个文本,SAS语句或SAS步,宏变量、函数和这些实体的组合。%MEND语句必须围住每个宏并表示宏结束。参数宏变量是一些将要传递给宏调用的宏变量,不同参数宏变量之间用逗号隔开。SAS程序中可以包括任意多个宏,且在程序中可以多次调用一个宏。在SAS中引用宏调用的形式如下: %宏名字(参数值) ;例如,我们定义了一个简单通用的宏程序INVOKE,它有两个参数宏变量procname和dsname,用以传递给宏程序所需的过程名和数据集名。在调用这个宏程序时要将具体的参数宏变量值给出,其值分别为Print和
9、Study.Survey。程序如下:%MACRO INVOKE(procname,dsname) ;Proc &procname Data=&dsnmae ;Title “&procname of Data Set &dsname” ;Run ;%MEND INVOKE ;%INVOKE(Print , Study.survey) ;上面这段程序在执行时,将被宏处理器替换成下面这段程序:Proc Print Data=Study.survey ;Title “Print of Data Set Study.survey” ;Run ;2. 具有分支和循环的宏与SAS系统DATA步和PROC步中
10、可以使用分支和循环语句一样,也能在%MACRO和%MEND语句间,用条件%IF%THEN/%ELSE语句和用循环%DO%END、%DO %UNTIL%END、%DO %WHILE%END语句来产生更复杂的宏。虽然分支和循环的语句格式两者不相同,但两者的使用原理和方法却是相同的。通常SAS宏程序比一般的SAS语言程序要更难理解,主要的难点是宏程序中宏变量的传递和控制。例如,假设我们已有两个宏CREATE和PRINT,宏CREATE可以从参数宏变量SETDATA1指定的数据集中创建一个新的数据集STUDY.TEMP,宏PRINT可以打印一个参数宏变量SETDATA2指定的数据集。现在我们要定义一个
11、控制宏CONTROL,假定有时需要对指定的数据集先运行宏CREATE,创建一个新的数据集STUDY.TEMP后,再调用宏CREATE打印这个新产生的数据集;有时却只要直接打印指定的数据集。那么,我们可以用一个%IF%THEN语句来定义宏CONTROL。程序如下:%Macro create(setname1) ;Data study.temp ;Set &setname1 ;If sex=M;%Let dsname=study.temp ;Run ;%Mend create ;%Macro print(setname2) ;Proc print data=&setname2 ;Title Dis
12、play of Data Set &setname2 ;Run ;%Mend print ;%Macro control(getdata,dsname) ;%If %upcase(&getdata)=YES %Then %create(&dsname) ;%print(&dsname) ;%Mend control ;%control(no, study.survey) ;%control(yes,study.survey) ;当规定参数宏变量getdata的值为大写字符串YES或小写字符串yes时,%IF条件成立,宏处理器执行%THEN的分句,即调用宏%create(&dsname)。宏函数
13、%upcase的作用是转化小写文本为大写,因此当getdata的值为小写字符串yes时,%IF条件也成立。在调用宏%create时要给出参数宏变量setname1的值,使用宏变量&dsname中的值,其值为字符串study.survey。当规定参数宏变量getdata的值为字符串YES或yes以外的任何值时,%IF条件不成立,执行调用宏%print(&dsname)。提请注意的是,即使%IF条件成立,执行完%THEN分句后,也同样要执行调用宏%print(&dsname),但打印的数据集不同。因此调用宏%print(setname2) 执行时,参数宏变量setname2中的值有两种可能:当%I
14、F条件成立,执行完宏%create后,再执行宏%print(setname2) 时,setname2中的值应该为study.temp;当%IF条件不成立,直接执行宏%print(setname2) 时,setname2中的值应该为study.survey。正因为有如此要求,所以要在宏%create中增加一条%Let dsname=study.temp语句,只要执行了宏%create就修改宏变量dsname的值为新建数据集名study.temp。下面我们举一个宏循环语句的使用例子。假定用户想生成一系列变量名字用于某个SAS语句,如用在DATA、VAR和TITLE语句中。可以定义一个宏names来
15、产生具有相同前缀的一系列变量名字。我们可采用重复%DO循环语句来实现。程序如下:%MACRO names(varname,number) ;%Do n=1 %to &number ; &varname &n %Run ;%MEND names ;Proc print data=study.class ;Var name %names(Test,3) ;Title “%names(Test,3) generated by macro variable” ;Run ;第十九课 在数据集STUDY.CLASS中,有一组相同前缀TEST和数字1、2、3组成的字段变量名。打印过程PROC PRINT中,
16、采用调宏程序%names(Test,3)来为VAR语句指定分析变量TEST1、TEST2和TEST3。宏程序%names(Test,3)同样可以在TITLE语句的双引号中使用。提请注意,在宏程序%names中,&varname &n 语句的后面不应该有分号(;)。SAS系统的图形功能简介SAS系统强大的的图形功能主要由SAS/GRAPH软件模块的PLOT图形过程和CHART图表过程实现。SAS/GRAPH模块提供了许多产生图形的过程,并且能在图形输出GRAPH窗口中对产生的图形进行编辑。在绘制图表前,如何根据资料的性质和绘图的目的,从SAS系统提供的众多图表中,正确地选用统计图同样是至关重要的
17、。一、 统计图的基本概念SAS的统计图是用点、线、面、体来形象地表示数量资料的一种方式,目的是为了使用户能比直接看数据更方便、更直观地分析和发现问题,甚至还能揭示出数据中的内在规律进而可以推断和预测。当然,即使针对于同一个问题的同一张图表,不同的人根据各自的经验和学识也可能会作出不同的结论,有时还需要组合各种图表进行综合分析。常用的统计图有散布图、折线图、条形图、直方图、圆饼图、统计地图等。二、 图形表示方法的选择一般来说,借助于计算机的决策支持系统的最终输出结果总是以图表形式居多。然后根据图表进行决策和预测。显然看图表进行决策和预测比直接看数据要容易和方便得多。但是,一组结果数据却可以绘制出
18、各种各样的图表,许多图表并没有什么意义。如何根据结果数据所要分析的问题,正确地选用统计图并非是件容易的事,它也是整个分析决策中的一部分。例如,在股票技术分析中,有许多经过计算机画好的技术统计图表,一个有经验的技术分析者首先要能对不同的分析目的正确地选用不同的技术统计图表,如要分析股票的中长期趋势,选用中长期的移动平均线等;要分析股票的强和弱,选用相对强弱指标RSI等;要分析股票的短期交易信号,选用随机指标KDJ等。用计算机绘制出统计图其实并不难,SAS软件也一样。但现在许多计算机软件都无法自动根据资料选择输出的图表。都需要人工干预输出或输出所有可能需要的图表。但人们还是总结出一些最基本的选用统
19、计图的原则。1. 资料性质原则根据资料的类型和目的选用合适的统计图。资料的类型主要有两类:定性资料和定量资料。定性资料,可选用的统计图有条形图、圆饼图、统计地图等。定量资料,可选用的统计图有直方图、折线图、半对数图、散布图等。根据资料的目的选用统计图,最主要的还是要看具体的问题方可确定,如上面我们所举的股票技术分析的例子。2. 图形特征原则不同的统计图,以不同的角度或姿态来形象化地表达资料。因此,掌握各种统计图的特征,将有助于我们遇到不同资料和问题时正确地选用统计图。下面是一些常用统计图的特征:l 条形图用来表示各相互独立的统计指标的数量大小。通常纵轴表示数量,横轴表示分组标志。用绝对数或相对
20、数均可表示数量,其数量的大小用图中各长条的高度来反映。l 圆饼图用来表示事物内部的构成情况。必须用相对数,且各项之和为100%,图中各扇形面积的大小表示百分比数量大小,将360圆心角看成是100%,把每一部分所占的百分比数折算成圆心角的度数,画出对应的扇形。l 统计地图用来表示事物的数量在地域上的分布情况。如产品销售数量的地区分布。l 直方图用来表示计量资料各组段上的频数的分布情况。图中各长条的面积表示各组数量的大小。l 折线图用于资料中包含两个数量指标,放在横轴上的数量指标通常是时间。它分为普通折线图和半对数图。普通折线图,纵横轴上用算术尺度,适用于表示一个或多个事物随着时间的推移,在数量上的增减幅度。所谓半对数图,指纵轴上用对数尺度,横轴上用算术尺度。它适用于表示两个或多个事物随着时间的推移,在速度上(是指相对的百分比而不是绝对的数量)的变化快慢。l 散布图用于资料中包含两个数量指标,且两个变量之间有自变量和因变量之分。通常把自变量放在横轴上,因变量放在纵轴上。将成对的数据点(X,Y)在X和Y直角坐标系中用点表示出来,所以称为散布图或散点图。它可以形象地反映出有内部关系的两个连续变量之间的变化趋势,并可借助图形上显示的这种趋势,帮助判断是否值得进行直线相关和回归分析或拟合何种类型的曲线方程。专心-专注-专业