《第2章-SAS的描述统计功能课件.ppt》由会员分享,可在线阅读,更多相关《第2章-SAS的描述统计功能课件.ppt(87页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、1第三次课第三次课应用软件应用软件(SAS)2主要内容主要内容一、一、了解了解SAS中描述性统计量中描述性统计量 1. 了解描述性统计的概念了解描述性统计的概念 2. 掌握掌握SAS中常见的描述性统计量中常见的描述性统计量二、在二、在SAS中计算统计量中计算统计量 1. 用用“INSIGHT”计算统计量计算统计量 2. 用用“分析家分析家”计算统计量计算统计量 3. 编程计算统计量编程计算统计量第二章第二章 SASSAS的描述统计功能的描述统计功能第二章 SAS的描述统计功能n 2.1 描述性统计的基本概念描述性统计的基本概念n 2.2 在在SAS中计算统计量中计算统计量n 2.3 统计图形统
2、计图形第二章第二章 SASSAS的描述统计功能的描述统计功能2.1 描述性统计的基本概念描述性统计的基本概念n 一、统计学的基本概念一、统计学的基本概念n 二、表示数据位置的统计量二、表示数据位置的统计量n 三、表示数据分散程度的统计量三、表示数据分散程度的统计量n 四、表示数据分布形状的统计量四、表示数据分布形状的统计量n 五、其它统计量五、其它统计量5对数据进行频数统计、计算特征统计量、将数据图对数据进行频数统计、计算特征统计量、将数据图形化的过程。形化的过程。描述性统计:描述性统计:目的:目的:为了揭示数据的集中趋势、分散程度、和数据分布为了揭示数据的集中趋势、分散程度、和数据分布形态,
3、展示极端数据,形态,展示极端数据,最后作出说明现象本质的初步结论。最后作出说明现象本质的初步结论。一、统计学的基本概念一、统计学的基本概念1. 总体与样本总体与样本总体总体(population): 所研究对象的全体组成的集合。所研究对象的全体组成的集合。样本样本(sample): 从总体中抽取的部分对象(个体)组成的集合。从总体中抽取的部分对象(个体)组成的集合。 样本中包含个体的个数称为样本中包含个体的个数称为样本容量样本容量。 样本常用样本常用n个随机变量个随机变量X1,X2,Xn表示,表示, 其观测值(样本数据)则表示为其观测值(样本数据)则表示为x1,.,xn第二章第二章 2.1 描
4、述性统计的基本概念描述性统计的基本概念2. 参数与统计量参数与统计量参数参数(parameter): 是用来描述总体特征的概括性值。是用来描述总体特征的概括性值。 如总体平均值(如总体平均值()、总体方差()、总体方差( 2)。)。 统计量统计量(statistics):第二章第二章 2.1 描述性统计的基本概念描述性统计的基本概念是用来描述样本特征的概括性值。是用来描述样本特征的概括性值。x2s如样本均值(如样本均值( )、样本方差()、样本方差( )、)、样本比例(样本比例( P )等。)等。二、表示数据位置的统计量二、表示数据位置的统计量 一组观测数据一组观测数据x1,.,xn, 常见的
5、位置统计量:常见的位置统计量:均值,中位数,分位数,众数均值,中位数,分位数,众数1. 均值(均值(Mean) 均值是所有观测值的平均值,是描述数据取值中均值是所有观测值的平均值,是描述数据取值中心位置的一个度量:心位置的一个度量:nxxxnxnnii 111第二章第二章 2.1 描述性统计的基本概念描述性统计的基本概念2. 中位数(中位数(Median或或Med)中位数是描述观测值数据中心位置的统计量,中位数是描述观测值数据中心位置的统计量,大体上比中位数大(小)的数据为观测值的一半。大体上比中位数大(小)的数据为观测值的一半。优点:优点:它不受个别极端数据的影响,具有稳健性。它不受个别极端
6、数据的影响,具有稳健性。中位数的计算方法是:中位数的计算方法是:首先将数据从小到大排序为:首先将数据从小到大排序为:x(1),.,x(n),然后计算:然后计算: 为偶数为偶数为奇数为奇数中位数中位数nxxnxnnn )(21 )()()(12221第二章第二章 2.1 描述性统计的基本概念描述性统计的基本概念3. 众数(众数(Mode)观测值中出现观测值中出现最多最多的数称为众数。的数称为众数。4. 百分位数(百分位数(Percentile) 分位数也是描述数据分布和位置的统计量。分位数也是描述数据分布和位置的统计量。0.5分位数分位数就是中位数,就是中位数,0.75分位数和分位数和0.25分
7、位数又分别称为分位数又分别称为上、下四分上、下四分 位数位数,并分别记为,并分别记为Q3和和Q1。第二章第二章 2.1 描述性统计的基本概念描述性统计的基本概念三、表示数据分散程度的统计量三、表示数据分散程度的统计量1. 极差极差(Range)与)与半极差半极差(Interquartile range) 极差极差 = maxxi minxi 极差就是数据中的最大值和最小值之间的差极差就是数据中的最大值和最小值之间的差半极差半极差= Q3 Q1, 半极差描述了中间半数观测值的散布情况半极差描述了中间半数观测值的散布情况2. 方差方差(Variance或或Var) 方差反映了观测值与均值的偏离程度
8、方差反映了观测值与均值的偏离程度111221122 nxxxxxxnsnnii)(.)()(第二章第二章 2.1 描述性统计的基本概念描述性统计的基本概念3. 标准差标准差(Standard deviation或或Std Dev) 方差的开方称为标准差:方差的开方称为标准差: 标准差的量纲与原变量一致。标准差的量纲与原变量一致。4. 变异系数变异系数(Coefficient of Variation或或CV) 变异系数是将标准差表示为均值的百分数,是观变异系数是将标准差表示为均值的百分数,是观测数据分散性的一个度量,它在比较用不同单位测测数据分散性的一个度量,它在比较用不同单位测量的数据的分散
9、性时是有用的量的数据的分散性时是有用的.2ss (%)100 xsCV 第二章第二章 2.1 描述性统计的基本概念描述性统计的基本概念四、四、表示数据分布形状的统计量表示数据分布形状的统计量描述数据分布形状的指标:描述数据分布形状的指标:偏度偏度,峰度峰度1. 偏度(偏度(skewness) 偏度是刻画数据对称性的指标偏度是刻画数据对称性的指标 关于均值对称的数据其偏度为关于均值对称的数据其偏度为0; 左侧更为分散的数据,其偏度为负,称为左偏;左侧更为分散的数据,其偏度为负,称为左偏; 右侧更为分散的数据,其偏度为正,称为右偏。右侧更为分散的数据,其偏度为正,称为右偏。 niisxxnnnSK
10、1321)()(第二章第二章 2.1 描述性统计的基本概念描述性统计的基本概念2. 峰度(峰度(kurtosis) 峰度描述数据向分布尾端散布的趋势。峰度描述数据向分布尾端散布的趋势。 利用峰度研究数据分布的形状是以正态分布为标准利用峰度研究数据分布的形状是以正态分布为标准(假定正态分布的方差与所研究分布的方差相等假定正态分布的方差与所研究分布的方差相等))()()()()()(32133211214 nnnsxxnnnnnKnii第二章第二章 2.1 描述性统计的基本概念描述性统计的基本概念 近似于标准正态分布,则峰度接近于零;近似于标准正态分布,则峰度接近于零; 尾部较正态分布更分散,则峰
11、度为正,称为轻尾;尾部较正态分布更分散,则峰度为正,称为轻尾; 尾部较正态分布更集中,则峰度为负,称为厚尾。尾部较正态分布更集中,则峰度为负,称为厚尾。五、其它统计量五、其它统计量1. 均值的标准误差均值的标准误差(Std Error Mean或或Std Mean或或Std error)2. 校正平方和校正平方和(Corrected sum of squares) niixxnnns1211)()(Mean Std niixxCSS12)(第二章第二章 2.1 描述性统计的基本概念描述性统计的基本概念3. 未校正平方和未校正平方和(Uncorrected sum of squares) nii
12、xUSS12,.,2111 kxnAnikik,.,)(3211 kxxnBnikik第二章第二章 2.1 描述性统计的基本概念描述性统计的基本概念4. k阶原点矩阶原点矩其中其中A1即为均值即为均值x5. k阶中心矩阶中心矩第二章第二章 SASSAS的描述统计功能的描述统计功能2.2 在在SAS中计算统计量中计算统计量 n 一、一、 用用 INSIGHT 计算统计量计算统计量n 二、二、 用用“分析家分析家”计算统计量计算统计量n 三、三、 编程实现描述性统计编程实现描述性统计二、用二、用INSIGHT计算统计量计算统计量1. 实例数据实例数据【例例2-1】下表为两个不同地区居民家庭收入和支
13、出下表为两个不同地区居民家庭收入和支出情况的抽样调查(单位:元),情况的抽样调查(单位:元),试分别就两个地区的家庭收入和支出情况做描述统试分别就两个地区的家庭收入和支出情况做描述统计。计。家庭家庭编号编号地区地区编号编号家庭家庭总收入总收入家庭家庭总支出总支出家庭家庭编号编号地区地区编号编号家庭家庭总收入总收入家庭家庭总支出总支出1 12 2179417941550155016162 222002200206020602 22 2171617161365136517171 127302730223622363 31 1341034102730273018181 124962496145514
14、554 42 2176517651530153019191 117601760104010405 52 2218421841900190020201 128202820236623666 62 2205020502050205021212 222502250196619667 72 2246024602184218422221 131703170240024008 81 1197619761170117023232 212001200125012509 91 1285028502496249624242 2177617761350135010101 1427542752760276025252
15、 2198019801794179411112 2201020101275127526261 1245524552550255012121 1223622361810181027272 2108010801380138013131 1330533052820282028282 2198619861200120014141 1240024001976197629291 1336933692305230515152 2225022501970197030302 2153015301316131620 将数据通过将数据通过Excel导入到导入到SAS数据集数据集Sasuser.Exam2_1,4个变
16、量名分别为:个变量名分别为:ID、R_ID、Income和和Outgo,相应的标签名为家庭编号、地区编号、家庭总收入相应的标签名为家庭编号、地区编号、家庭总收入和家庭总支出。和家庭总支出。2. 在在INSIGHT中打开数据集中打开数据集 在菜单中选择在菜单中选择“Solution ”“Analysis”“Interactive Data Analysis ”,打开打开“SAS/INSIGHT Open”对话框,对话框,在对话框中选择数据集:在对话框中选择数据集: Sasuser.Exam2_1 ,单击单击“Open” ,即可在,即可在INSIGHT中打开数据窗口。中打开数据窗口。3. 计算统计
17、量计算统计量 选择菜单选择菜单“Analyze”“Distribution (Y)”,打开打开“Distribution (Y)”对话框。对话框。在数据集在数据集Exam2_1的变量列表中,的变量列表中,选择选择Income为分析变量,选择为分析变量,选择R_Id为分组变量。为分组变量。 选择选项选择选项矩统计量和分位数矩统计量和分位数,单击,单击“OK”按钮,按钮,可得到变量可得到变量Income按按“R_Id”分组的各种矩统计量分组的各种矩统计量(Moments)和分位数()和分位数(Quantiles)。)。24二、用二、用“分析家分析家”计算统计量计算统计量1. 启动启动“分析家分析家
18、”选择主菜单选择主菜单“Solutions(解决方案)(解决方案)”“Analysis(分析)(分析)”“Analyst(分析家)(分析家)”,打开打开“分析家分析家”窗口。窗口。 选择主菜单选择主菜单“File(文件)(文件)” “Open By SAS Name”,打开,打开“Select A Member”对话框,选择数据集对话框,选择数据集Sasuser.Exam2_1 。2. 通过通过Summary Statistics菜单计算描述性统计量菜单计算描述性统计量选择主菜单选择主菜单“Statistics(统计)(统计)” “Descriptive(描述性统计)(描述性统计)” “Sum
19、mary Statistics(汇总统计量)(汇总统计量)”,选择变量列表中的选择变量列表中的Income,单击,单击“Analysis”按钮,按钮,选定分析变量,如图所示。选定分析变量,如图所示。单击单击“Statistics”按钮,打开按钮,打开“Summary Statistics:Statistics”对话框。对话框。283. 通过通过Distributions菜单计算描述性统计量菜单计算描述性统计量 选择主菜单选择主菜单“Statistics(统计)(统计)” “Descriptive(描述性统计)(描述性统计)” “Distributions(分布)(分布)”,打开打开“Distr
20、ibutions”对话框,选择变量列表中的对话框,选择变量列表中的Income,单击,单击“Analysis”按钮,选定分析变量。按钮,选定分析变量。 三、编程实现描述性统计三、编程实现描述性统计 SAS提供有多个不同的过程来实现统计量的计算提供有多个不同的过程来实现统计量的计算 FREQ、 MEANS、 UNIVARIATE FREQ过程过程常用来计算分类变量取值的常用来计算分类变量取值的频数频数, MEANS和和UNIVARIATE过程过程则对数值型变量计则对数值型变量计算算均值、标准差均值、标准差等统计量。等统计量。1. FREQ过程过程 FREQ过程格式如下:过程格式如下: PROC
21、FREQ DATA = ; TABLES ; RUN; PROC FREQ语句调用语句调用FREQ过程,标志过程,标志FREQ过过程的开始;程的开始; TABLES语句语句用于创建有关变量所构成的各种表用于创建有关变量所构成的各种表格并进行相应的假设检验和计算。格并进行相应的假设检验和计算。例如,统计数据集例如,统计数据集Sasuser.Exam2_1中变量中变量R_Id和和Income频数的代码如下:频数的代码如下:proc freq data = sasuser.Exam2_1; tables R_Id Income;run; 332. MEANS过程过程(1)MEANS过程的一般格式过程
22、的一般格式:PROC MEANS DATA=; VAR ; BY ; CLASS ;RUN;注意:注意: (1) 默认情况下,默认情况下,MEANS过程会给出过程会给出频数、均数、频数、均数、标准差、最大值和最小值标准差、最大值和最小值等,等,其余统计量的计算均需要在选项中指定。其余统计量的计算均需要在选项中指定。 (2) VAR语句语句引导所要进行分析的所有变量的列引导所要进行分析的所有变量的列表,表,SAS将对将对VAR语句所引导的所有变量分别进行语句所引导的所有变量分别进行描述性统计分析。描述性统计分析。 (3) BY语句与语句与CLASS语句所指定的分类变量用来语句所指定的分类变量用来
23、进行分组统计,但输出格式不同。进行分组统计,但输出格式不同。 如对数据集如对数据集Sasuser.Exam2_1中的中的Income变量计变量计算简单统计量,只要用如下算简单统计量,只要用如下MEANS过程:过程:proc means data = Sasuser.Exam2_1; var Income;run; SAS中描述性统计量关键字及其含义见下表中描述性统计量关键字及其含义见下表关键字关键字所代表的含义所代表的含义关键字关键字所代表的含义所代表的含义n n有效数据记录数有效数据记录数rangerange极差极差nmissnmiss缺失数据记录数缺失数据记录数skewnessskewne
24、ss偏度偏度meanmean均值均值kurtosiskurtosis峰度峰度stdstd标准差标准差t t分布位置假设检验之分布位置假设检验之t t统计量统计量stderrstderr标准误标准误probtprobt上述上述t t统计量对应的概率值统计量对应的概率值varvar方差方差q1q1第一四分位数第一四分位数medianmedian中位数中位数q3q3第三四分位数第三四分位数modemode众数众数qrangeqrange四分位数间距四分位数间距cvcv变异系数变异系数p1p1第一百分位数第一百分位数maxmax最大值最大值p5p5第五百分位数第五百分位数minmin最小值最小值p10
25、p10第十百分位数第十百分位数sumsum总计总计p90p90第九十百分位数第九十百分位数sumwgtsumwgt加权值总计加权值总计p95p95第九十五百分位数第九十五百分位数csscss校正平方和校正平方和p99p99第九十九百分位数第九十九百分位数ussuss未校正平方和未校正平方和(2) 使用使用CLASS语句和语句和BY语句语句 使用使用CLASS语句和语句和BY语句可以分组计算分析变语句可以分组计算分析变量的描述统计量值,量的描述统计量值,两个语句的区别是:两个语句的区别是: BY语句要求数据集须按语句要求数据集须按BY变量排序,变量排序,CLASS语句无此要求。语句无此要求。 B
26、Y语句按语句按BY变量的每个值分别提供一个表,变量的每个值分别提供一个表,CLASS语句则将所有结果排列在一个表之中。语句则将所有结果排列在一个表之中。 使用使用BY语句之前先排序,如下代码可以在上例中语句之前先排序,如下代码可以在上例中按变量按变量R_Id分组统计:分组统计:proc sort data = Sasuser.Exam2_1; by R_Id;run;proc means data = Sasuser.Exam2_1 n mean median p1 p5 p95 p99 q1 q3 max min; var Income; by R_Id;run; 使用使用CLASS语句分组
27、较为简单,如下代码也可以语句分组较为简单,如下代码也可以在上例中按变量在上例中按变量R_Id分组统计:分组统计:proc means data = Sasuser.Exam2_1 n mean median p1 p5 p95 p99 q1 q3 max min; var Income; class R_Id;run;3. UNIVARIATE过程过程 UNIVARIATE的一般格式的一般格式:PROC UNIVARIATE DATA = ; VAR ; BY | CLASS ; HISTOGRAM /; OUTPUT OUT = = ;RUN;注意注意: (1) UNIVARIATE过程和过
28、程和MEANS过程的格式非常过程的格式非常相似,相同的语句和选项其含义也相同,相似,相同的语句和选项其含义也相同,不同的是某些统计量只能在不同的是某些统计量只能在UNIVARIATE过程中过程中计算(如众数)计算(如众数)(2) UNIVARIATE过程中具有绘图功能过程中具有绘图功能HISTOGRAM语句用来指示语句用来指示SAS对其后所指定的对其后所指定的变量绘制直方图,变量绘制直方图,其后的选项用来指示其后的选项用来指示SAS添加不同类型的拟合图形添加不同类型的拟合图形(如正态分布的分布密度曲线)。(如正态分布的分布密度曲线)。 输出包括五个部分:输出包括五个部分: 1. 矩统计量矩统计
29、量 2. 基本的位置和分散程度统计量,位置统计量包基本的位置和分散程度统计量,位置统计量包括均值、中位数、众数,分散程度统计量包括标准括均值、中位数、众数,分散程度统计量包括标准差、方差、极差、四分位间距差、方差、极差、四分位间距 3. 关于均值等于零的三种检验的结果,包括关于均值等于零的三种检验的结果,包括t检检验、符号检验和符号秩检验。验、符号检验和符号秩检验。 4. 各个重要的分位数。各个重要的分位数。 5. 观测数据的五个最低值和五个最高值。观测数据的五个最低值和五个最高值。44第二章第二章 SASSAS的描述统计功能的描述统计功能n2.3 统计图形n2.3.1 定量变量的图形表示n2
30、.3.2 分类变量的图形表示2.3.1 定量变量的图形表示1. 直方图 对于数值型变量,常用直方图(histogram)来展示变量取值的分布。将变量取值的范围分成若干区间,在等间隔区间的情况,每个区间的长度称为组距。考察数据落入每一区间的频数与频率,在每个区间上画一个矩形,它的宽度是组距,它的高度可以是频数、频率或密度(频率组距),在高度是密度的情况,每一矩形的面积恰是数据落入区间的频率,这种直方图可以估计总体的概率密度。图图2-22 密度直方图与频数直方图密度直方图与频数直方图SAS软件会根据样本容量在样本取值范围内自动地确定一个分组方式,另外也提供了设定分组的方法。 2. 盒形图 盒形图(
31、boxplot,又称箱图、箱线图、盒子图)是用更为简洁的方法表现数据在数轴上的分布及其特点的图形。 图2-23的左边是根据居民家庭的收入情况所绘的盒形图;右边是分地区情况所绘的盒形图。 3. 散点图 通常得到的数据可能有两个变量,比如家庭的收入和支出情况的数据,这里家庭总收入是一个变量,而家庭总支出是第二个变量。希望通过图形了解收入和支出的关系,这时可以用一个变量为横坐标(如家庭总收入),另一个为纵坐标(这里是家庭总支出)来作图(图2-24)。这种图称为散点图(Scatter Plot)。 4. 线图 线图(Line Plot)用来表示变量间的取值变化情况,有单式和复式两种(图2-25)。 在
32、复式线图中可用不同颜色的实线来标志区别,如图2-25右所示。 2.3.2 分类变量的图形表示 分类变量也可以通过图形直观地描绘出它们各类的数量和所占比例,常用的有条形图、饼图和马赛克图。1. 条形图 条形图(Bar Chart)给出分类变量取每个值的频数,如图2-26所示为变量R_ID取值的条形图。2. 饼图 通常,饼图(Pie Chart)可以对分类变量描述其频数取值的比例,对于数值变量,则像直方图那样应先计算各区间取值的频数,再按比例画出。 图2-27中给出的是家庭支出分组频数的饼图。要注意的是,如果有太多的分组,那么饼图就不那么好看了。3. 马赛克图 马赛克图(Mosaic Plot)一
33、般不对单个变量作,而是对两个分类变量来作。这种图的好处是直观显示了两个变量每种取值组合的观测个数和比例,如图2-28所示。第二章第二章 SASSAS的描述统计功能的描述统计功能n2.4 用SAS绘制统计图形n2.4.1 用INSIGHT绘制统计图形n2.4.2 用“分析家”绘制统计图形n2.4.3 编程绘制统计图n2.4.4 图形的调整与输出2.4.1 用INSIGHT绘制统计图形 INSIGHT模块可以画出多种统计图形,而且图形清晰、美观。1. 绘制直方图 选择菜单“Analyze(分析)”“Histogram/Bar Chart (Y)(直方图/条形图)”,打开“Histogram/Bar
34、 Chart (Y)”对话框。在数据集的变量列表中,选择变量,然后单击“Y”按钮。 单击“Output(输出)”按钮,在打开的对话框中选择“Labels(标签)”选项,如图所示,以便输出的图形显示中文标签名。单击“OK”按钮返回对话框。 单击“OK”按钮,即可得到直方图如图2-30左所示。 单击图形框左下角处的三角形,在打开的菜单中选择“Values(值)”,即可在图中显示频数值,如图2-30右所示。 2. 绘制条形图 INSIGHT模块对分类变量绘制条形图。首先单击R_Id变量名上边的变量作用按钮,在弹出的菜单中选择“Nominal(列名型)”,如图左所示。 选择菜单“Analyze”“Hi
35、stogram/Bar Chart (Y)”,打开“Histogram/Bar Chart (Y)”对话框。在数据集的变量列表中选择变量,然后单击“Y”按钮,如图右所示。 单击“Output(输出)”按钮,在打开的对话框中选择“Labels(标签)”选项,单击“OK”按钮返回对话框。 单击“OK”按钮,即可得到条形图如图2-34左所示。如果选择Income_freq(见2.2.2节)作为分析变量,则可以得到图2-34右所示的条形图。 3. 绘制盒形图 选择菜单“Analyze”“Box Plot/Mosaic Plot (Y)”,可以对区间型变量作盒形图,对分类型变量作马赛克图。打开“Box
36、Plot/Mosaic Plot (Y)”对话框。在数据表sryzc的变量列表中,选择income变量,然后单击“Y”按钮,income变量被选定,如图左所示。 单击“Output”按钮,在打开的对话框中选择“Labels”选项,取消“Y Axis Vertical”如图右所示。 单击“OK”按钮,即可得到盒形图如图2-36左所示。 在“Box Plot/Mosaic Plot (Y)”对话框中选定多个分析变量,可以将多个盒形图画在一个坐标系下,这样便于比较变量的取值情况,如图所示。 图形分析:从图中可以看到支出数据在均值两边的分布近似对称,说明低于和高于平均支出的家庭几乎各占一半;收入数据的
37、二分之一分位数在均值的左边,说明大部分人的收入低于平均收入。另外,10号家庭的收入是一个极端值,它不具有代表性。 4. 绘制马赛克图 选择“Analyze(分析)”“Box Plot/Mosaic Plot (Y)(盒形图/马赛克图)”命令,可以对分类变量作马赛克图。下面以2.2.2中修改过的数据集sryzc为例,作出R_Id变量和Income_freq变量的马赛克图。4. 绘制马赛克图首先将R_Id变量改为“列名型”(参见图2-33左)。 选择菜单“Analyze(分析)”“Box Plot/Mosaic Plot (Y)(盒形图/马赛克图)”,打开“Box Plot/Mosaic Plot
38、 (Y)”对话框。在数据集sryzc的变量列表中,选择R_Id变量,然后单击“Y”按钮,R_Id变量被选定,单击“OK”按钮,得到结果如图2-38所示。5. 绘制散点图 选择菜单“Analyze”“Scatter Plot (Y X)”,打开“Scatter Plot (Y X)”对话框。在变量列表中,选择Income,单击“Y”按钮,Income变量被选定为Y轴变量,选择Outgo,单击“X”按钮,Outgo变量被选定为X轴变量,如图左所示。 单击“OK”按钮,即可得到散点图如图右所示。可以看出收入与支出有一定的线性相关关系。 在数据集窗口选中所有1号地区的观测号,图2-40是在散点图中区分
39、两个地区的情况,细点为2号地区,粗点为1号地区。从该图可以看出1号地区比2号地区在收入和支出水平上都要高出许多。6. 绘制线图 选择菜单“Analyze(分析)”“Line Plot (Y X)(分布)”,打开“Line Plot (Y X)”对话框。在数据集sryzc的变量列表中,选择ID变量,单击“X”按钮,ID变量被选定为X轴,然后选择Income变量,单击“Y”按钮,如图左所示。单击“OK”按钮,即可得到线图如图右所示。 若在“Line Plot (Y X)”对话框中,将ID变量选定为X轴,选择Income变量和Outgo变量,单击“Y”按钮。单击“Output(输出)”按钮,在打开的
40、对话框中选择“Labels(标签)”选项,如图左所示,以便输出的图形显示中文标签名。两次单击“OK”按钮,得到关于Income变量和Outgo变量的复式线图(图右)。 2.4.2 用“分析家”绘制统计图形1. 绘制饼图 在“分析家”中打开数据集mylib.sryzc。 选择主菜单“Graphs”“Pie Chart”,打开“Pie Chart”对话框,选择变量列表中的Income,单击“Chart”按钮,选定分析变量,如图左所示。所得饼图如图右所示。 2. 绘制条形图 选择主菜单“Graphs”“Bar Chart”“Horizontal”,打开“Horizontal Bar Chart”对话
41、框,选择变量列表中的INCOME,单击“Chart”按钮,选定分析变量,选择R_ID变量,单击“Stack By”按钮,再选中3-D选项,如图左所示。单击“OK”按钮,得到水平条形图,如图右所示。 2.4.3 编程绘制统计图 SAS可以把存贮在SAS数据集中的数据以图形的方式形象直观地显示出来。在SAS/GRAPH模块的支持下,SAS可以作散点图、曲线图、直方图、扇形图、三维曲面图、等高线图、地图,等等。1. GCHART过程(1) 语法格式 GCHART过程用于绘制直方图、饼形图(扇形图)、三维直方图等表示变量分布的图形。其语法格式为:PROC GCHART DATA = ; /RUN; G
42、CHART过程可以使用的图形关键字及其所绘制的图形类型见表2-5。 图形关键字后的变量名用以指定进行图形描述时的分组变量,可以是数值型的(此时以各组的组中值为分组的标志),也可以是字符型的。图形关键字图形关键字绘制的图形类型绘制的图形类型图形关键字图形关键字绘制的图形类型绘制的图形类型blockblock方块图方块图piepie饼形图饼形图hbarhbar水平的条形图水平的条形图pie3dpie3d三维饼形图三维饼形图hbar3dhbar3d水平的三维条形图水平的三维条形图donutdonut环形图环形图vbarvbar竖立的条形图竖立的条形图starstar星形图星形图vbar3dvbar3
43、d竖立的三维条形图竖立的三维条形图选项比较重要的有: T Y P E = 统 计 量 关 键 字 , 表 示 以 图 形 对 变 量(SUMVAR所指定的变量)的哪一种统计量进行描述,比如频数(FREQ)、均数(MEAN)、总计(SUM)、频数百分比(PCTN)等; SUBGROUP = 变量名(分组变量),指定要进行分组(各组段内再分组)的变量; SUMVAR = 变量名(数值变量),指定要进行统计计算的变量,也就是“TYPE = 统计量关键字”选项中统计量的计算所依据的变量。(2) 画条形图(直方图) 使用VBAR关键字可以画条形图。例如,画出数据集Mylib.sryzc中Income变量
44、的条形图的代码如下:proc gchart data = mylib.sryzc; vbar Income;run; 结果如图所示。 其中绘图用的变量用VBAR语句给出,如果把VBAR改成HBAR则条形方向变为横向。用GCHART绘制的条形图和在INSIGHT中绘制的直方图有所不同,它在横轴标的是区间的中点值,而在INSIGHT中横轴标的是区间的端点值。 可以指定分组的变量,例如在每个区段内再分段,可以用如下代码:proc gchart data = mylib.sryzc; vbar Income / subgroup = R_Id;run; 结果如图所示。 (3) 画三维条形图 使用BLO
45、CK关键字可以画三维条形图。例如,画出数据集mylib.sryzc中Income变量的三维条形图的代码如下:proc gchart data = mylib.sryzc; block Income/ group = R_Id;run; 结果如图所示。(4) 画饼形图 使用PIE关键字可以画饼形图,PIE3D关键字可以画三维饼形图。例如,画出数据集mylib.sryzc中Income变量的三维饼形图的代码如下:proc gchart data = mylib.sryzc; PIE3D Income;run; 结果如图所示。2. 使用GPLOT过程绘制散点图和连线图 通常用散点图和连线图可以表示:
46、 一个变量随另一个变量的变化; 变量之间的关系; 数据值的分布。(1) GPLOT过程的一般格式PROC GPLOT DATA = ; PLOT * = /; SYMBOLn ;RUN;常用的选项见表2-6。表2-6 PLOT语句的选项选项选项意义意义说明说明FRAM | NOFRAMFRAM | NOFRAM在图形四周加入或不加入边框在图形四周加入或不加入边框缺省为加入缺省为加入CFRAM = CFRAM = 颜色颜色边框内的颜色边框内的颜色缺省为白色缺省为白色AUTOHREF(AUTOVEREF)AUTOHREF(AUTOVEREF)在水平在水平( (垂直垂直) )轴的每个主刻度处加入水平
47、轴的每个主刻度处加入水平( (垂直垂直) )参考线参考线NOAXISNOAXIS取消坐标轴及相关的图形元素取消坐标轴及相关的图形元素CAXIS = CAXIS = 颜色颜色设定轴的颜色设定轴的颜色CTEXT = CTEXT = 颜色颜色设定与轴相关字符的颜色设定与轴相关字符的颜色HAXIS = HAXIS = 值列举值列举设定水平轴主刻度的值设定水平轴主刻度的值VAXIS = VAXIS = 值列举值列举设定垂直轴主刻度的值设定垂直轴主刻度的值 SYMBOL语句用来控制表示点的符号和点间的连线。其中n是不同SYMBOL语句的序号,可以是1-99,缺省为1。选项见表2-7。表2-7 SYMBOL
48、语句的选项选项选项意义意义取值取值V = V = 符号符号表示点使用的符号表示点使用的符号plus, x, star, square, diamond, triangle, plus, x, star, square, diamond, triangle, hash, y, z, paw, point, dot, circlehash, y, z, paw, point, dot, circleC = C = 颜色颜色表示点的符号及连线的颜色表示点的符号及连线的颜色black, red, green, blue, cyan, magenta, black, red, green, blue,
49、cyan, magenta, gray, pink, orange, brown, yellowgray, pink, orange, brown, yellowCV =CV =颜色颜色专指点的符号的颜色专指点的符号的颜色H = nH = n 指名符号的大小指名符号的大小单位有:单位有:cell, cm, pct, pt, incell, cm, pct, pt, inPOINTLABELPOINTLABEL在点的附近表明在点的附近表明Y Y轴变量的值轴变量的值i = i = 连线方式连线方式指明连线的方式指明连线的方式none, join, none, join, splinespline,
50、 needle, needleCI = CI = 颜色颜色专指连线的颜色专指连线的颜色L = nL = nn n为线型的序号为线型的序号0 0 空白线,空白线,1 - 1 - 实线,实线,2 2 虚线虚线 W = nW = nn n表示线的宽度表示线的宽度(2) 散点图 绘制家庭总收入对家庭总支出的散点图,代码如下:proc gplot data = mylib.sryzc; plot Income*outgo;run; 结果显示了一个GRAPHICS窗口,绘出了以Income为纵轴、以Outgo为横轴的散点图(见图)。 可以在图中按第三个变量分组画出散点图(如图2-48右),代码如下:pro