《sas软件教程精华.pptx》由会员分享,可在线阅读,更多相关《sas软件教程精华.pptx(118页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、一、概述SAS系统全称为StatisticsAnalysisSystem,最早由北卡罗来纳大学的两位生物统计学研究生编制,并于1976年成立了SAS软件研究所,正式推出了SAS软件。SAS是用于决策支持的大型集成信息系统,但该软件系统最早的功能限于统计分析,至今,统计分析功能也仍是它的重要组成部分和核心功能。SAS现在的版本为9.0版,大小约为1G。经过多年的发展,SAS已被全世界120多个国家和地区的近第1页/共118页三万家机构所采用,直接用户则超过三百万人,遍及金融、医药卫生、生产、运输、通讯、政府和教育科研等领域。在英美等国,能熟练使用SAS进行统计分析是许多公司和科研机构选材的条件之
2、一。在数据处理和统计分析领域,SAS系统被誉为国际上的标准软件系统,并在9697年度被评选为建立数据库的首选产品。堪称统计软件界的巨无霸。在此仅举一例如下:在以苛刻严格著称于世的美国FDA新药审批程序中,新药试验结果的统计分析规定只能用SAS进行,其他软件的计算结果一律无效!哪怕只是简单的均数和标准差也不行!由此可见SAS的权威地位。第2页/共118页SAS系统是一个组合软件系统,它由多个功能模块组合而成,其基本部分是BASESAS模块。BASESAS模块是SAS系统的核心,承担着主要的数据管理任务,并管理用户使用环境,进行用户语言的处理,调用其他SAS模块和产品。也就是说,SAS系统的运行,
3、首先必须启动BASESAS模块,它除了本身所具有数据管理、程序设计及描述统计计算功能以外,还是SAS系统的中央调度室。它除可单独存在外,也可与其他产品或模块共同构成一个完整的系统。各模块的安装及更新都可通过其安装程序非常方便地进行。第3页/共118页SAS系统具有灵活的功能扩展接口和强大的功能模块,在BASESAS的基础上,还可以增加如下不同的模块而增加不同的功能:SAS/STAT(统计分析模块)、SAS/GRAPH(绘图模块)、SAS/QC(质量控制模块)、SAS/ETS(经济计量学和时间序列分析模块)、SAS/OR(运筹学模块)、SAS/IML(交互式矩阵程序设计语言模块)、SAS/FSP
4、(快速数据处理的交互式菜单系统模块)、SAS/AF(交互式全屏幕软件应用系统模块)等等。SAS有一个智能型绘图系统,不仅能绘各种统计图,还能绘出地图。SAS提供多个统计过程,每个过程均含有极丰富的任选项。用户还可以通过对数据集的一连串加工,实现更为复杂的统计分析。此外,SAS还提供了各类概率分析函数、分位数函数、样本统计函数和随机数生成函数,使用户能方便地实现特殊统计要求。第4页/共118页二、初识SAS 安装SAS哪位要是连软件的安装和打开都要我啰嗦的话,我劝您还是买一套洪恩的开天辟地好好热热身吧。不过,安装SAS时,应首先将系统时间改到2002年以前,安装完以后,再crack,然后将时间修
5、改还原,切记!第5页/共118页启动SAS第6页/共118页启动后,出现如图的SAS运行界面,术语称为SAS工作空间(SASApplicationWorkSpace)。它象其它Windows应用程序一样,在一个主窗口内,包含若干个子窗口,并有菜单条、工具栏、状态栏等。SAS有三个最重要的子窗口:程序窗口(PROGRAMEDITOR)、运行记录窗口(LOG)、输出窗口(OUTPUT)。ProgramEditor的窗口(窗口标签为Editor)就是用来输入SAS语句的,编程操作的所有内容都是在该窗口内完成的,各位还是要跟它先多熟悉一下。第7页/共118页简单运行样例假设我们有一个班学生的数学成绩和
6、语文成绩,数学满分为100,语文满分为120,希望计算学生的平均分数(按百分制)并按此排名,可以在程序窗口输入此程序:第8页/共118页title0401班学生成绩排名;datac0401;inputname$1-10sex$mathchinese;avg=math*0.5+chinese/120*100*0.5;cards;李明男9298张红艺女89106王思明男8690张聪男98109刘颍女80110;run;procprint;run;procsortdata=c0401;bydescendingavg;run;procprint;run;第9页/共118页实际上,上述程序是文本,完全可
7、以在任何文本编辑工具中输入,比如Windows中的记事本,甚至Word也可用来输入这样包含中文的程序。输入后使用复制复制、粘贴命令将输入的程序粘贴到SAS系统程序窗口。(即在记事本中复制输入的程序,然后在SAS系统程序窗口中使用粘贴命令,把程序复制到SAS中)。要运行此程序,只要用鼠标单击工具栏的提交(Submit)图标,或用Run菜单下的Submit命令,或者直接按下F8键,就可运行程序。如果选中某一段程序,然后进行调用,则系统只执行被选中的部分。第10页/共118页运行后,输出窗口出现如下结果:0401班学生成绩排名111:40Saturday,November10,2004Obsname
8、sexmathchineseavg1李明男929886.83332张红艺女8910688.66673王思明男869080.50004张聪男9810994.41675刘颍女8011085.8333运行记录窗口则记录每段程序的运行情况、所用时间、生成数据保存情况。如果有错误还会用红色指示错误。第11页/共118页三、SAS程序的使用常识 从上面的例子程序可以看出SAS程序的一些特点。SAS程序的基本结构SAS程序由语句组成,语句用分号结束。语句一般由特定的关键词开始,语句中可包含变量名、运算符等,它们以空格分隔。SAS对语句所占的行数无限制,一个语句可占多行,同样,多个语句也可占一行。第12页/共
9、118页SAS程序的程序组成SAS程序可以非常复杂,但其基本结构一般由数个完成单个动作的程序步和环境设置语句构成。而程序步分为两种,一种叫数据步(datastep),一种叫过程步(procstep),分别以DATA语句和PROC语句开始。数据步和过程步由若干个语句组成,一般以RUN语句结束。前者用来创建和修改用于统计分析的数据集,后者则利用已创建的数据集完成特定的统计分析任务。比如下面的例子:第13页/共118页libnamead:sysdata;dataa.aaaa;inputx;cards;12345;procprint;varx;run;quit;第1句就是一个环境设置语句,其作用是设定
10、一个逻辑库,逻辑库名称为a,第26句构成数据步,其功能是新建一个数据集,数据集名称为aaaa,并且输入数据,第79句构成过程步,其功能是将数据集aaaa中变量x的数值在output窗口中输出。第14页/共118页SAS程序的书写规则与程序注释前面已经提到,SAS对程序的书写格式比较灵活,大小写一般不区分(字符串中要区分大小写),但我们仍提倡SAS程序与其它编程语言相似,采用缩进格式,使得源程序结构清楚,容易读懂。SAS程序的程序注释有以下两种格式:注释语句:以星号“*”开始,可占多行,以分号“;”结束。注释段落:用“/*”和“*/”包括起来的任何字符,可占多行。同样,我们提倡在程序中要有适当的
11、注释,使程序的可读性强。第15页/共118页四、SAS程序的数据步 数据集(dataset)和库SAS数据集(SASDatasets)可以看作由若干行和若干列组成的表格,类似于一个矩阵,但各列可以取不同的类型值,比如整数值、浮点值、时间值、字符串、货币值等等。比如,前面的例子生成了一个名为C0401的数据集,它的逻辑形式如下表:第16页/共118页NAMESEXMATHCHINESEAVG李明男929886.8333张红艺女8910688.6667王思明男869080.5000张聪男9810994.4167刘颍女8011085.8333表1数据集的逻辑形式第17页/共118页数据集的每一行叫做
12、一个观测(Observation),每列叫做一个变量(Variable)。SAS数据集等价于关系数据库系统中的一个表,实际上一个SAS数据集有时也称作一个表。在数据库术语中一个观测称作一个记录,一个变量称作一个域。在C0401数据集中有5个观测,分别代表5个学生的情况,而每个学生有5个数据,分别为姓名、性别、数学成绩、语文成绩、平均分,所以此数据集有5个变量,变量名依次为NAME、SEX、MATH、CHINESE和AVG。第18页/共118页从上面看出,数据集要有名字,变量要有名字,所以SAS中对名字(数据集名、变量名、数据库名,等等)有约定:SAS名字由英文字母、数字、下划线组成,第一个字符
13、必须是字母或下划线,名字最多用8个字符,大写字母和小写字母不区分。比如,name,abc,aBC,x1,year12,_NULL_等是合法的名字,且abc和aBC是同一个名字,而class-1(不能有减号)、abit(不能有空格)、serial#(不能有特殊字符)、Documents(超长)等不是合法的名字。第19页/共118页逻辑库SAS系统将所使用的文件以库的形式组织起来,而数据集则存放在一个库中,这个库就称为逻辑库。前面见到过的libname命令就用于指定库标记。其一般格式为:Libname库名称文件夹位置选项;例如libnamead:sysdata;dataa.aaaa;inputx;
14、cards;12345;procprint;varx;run;quit;第一行就指定d:sysdata为逻辑库位置,其名称为a.第20页/共118页引用在逻辑库中数据集时要使用两级名称来指定,第一级为库名称,第二级为数据集名,中间用句点“.”隔开。即用库名称.数据集名的格式来引用该数据集。仍然是上面的例子,第26句新建一个数据集,数据集名称为aaaa,就可用a.aaaa来引用该数据集。第21页/共118页数据步的基本结构数据步均以DATA语句开始,用于创建和处理数据集。数据步中常用的语句如下表:表2数据步的常用语句语句格式功能DATA语句DATA数据集名;数据步的开始,同时命名将要创建的数据集
15、INPUT语句INPUT变量名;确定变量的读入格式,即确定输入的数据所对应的变量第22页/共118页语句格式功能CARDS或DATALINES语句与数据块CARDS;数据块;或DATALINES;数据块;CARDS与DATALINES功能相同,均用于标志数据块的开始INFILE语句INFILE文件名选项;从外部文件中读入数据块OUTPUT语句将所读入的数据存放在缓存中,也可用OUTPUT语句强制输出一条新记录SET语句对数据集中的数据进行编辑,也可将指定数据集的内容复制到新建数据集中第23页/共118页下面是几个例子。Data语句:Dataabc;datawork.abcdatasasuser
16、.abc;dataa.abc;INPUT语句:Inputxyz;/*输入变量x,y,z*/Inputx1-x10;/*输入10个变量x1到x10*/Inputx$y;/*输入变量x,y,符号$指明x为字符变量,表示数据是连续读入*/第24页/共118页完整例子:libnamead:sysdata;/*设定逻辑库,库名为a*/dataa.aaaa;/*建立数据集,其名为aaaa*/inputx;/*输入变量x,表示数据是连续读入*/cards;/*准备输入数据*/123.5;/*输入数据,注意有缺失值(缺失值用单独的小数点代表)*/第25页/共118页五、SAS程序的过程步 通俗地说,SAS程序
17、的过程步就是用于实现各种统计分析功能的SAS命令,我们只需要按照其格式调用它们。过程步总是以一个proc语句开始,后面紧跟着过程步名。下表列出一些常用的过程步名及功能。第26页/共118页过程步名功能Sort将数据集按指定变量排序Print将数据集中数据列表输出Gchart绘统计图Univariate对指定的数值变量作详细的统计描述Means对指定的数值变量作简单的统计描述Freq对指定的分类变量作统计描述和检验Npar1way非参数检验Ttest进行t检验Anova进行方差分析GLM拟合一般线性模型REG拟合线性回归模型Corr进行相关分析Logistic拟合Logistic回归模型Phre
18、g拟合cox比例风险模型第27页/共118页过程步的基本结构SAS过程步的一般形式为:PROC过程名DATA=输入数据集选项;过程语句/选项;过程语句/选项;RUN;其中PROC语句的选项是可选的,用来规定过程运行的一些设置,如果有多个选项用空格分开。DATA=输入数据集也是可选的,如果缺省的话使用最近生成的数据集。过程步一般以RUN语句结束。通常情况下,过程语句与数据步中的语句不同,数据步中的语句不能用在过程步中。过程步语句一般以某一个关键字开头,比如VAR、BY、TABLES、WEIGHT等,语句中有一些有关说明,如果有选择项的话要写在斜杠后。第28页/共118页SAS过程步常用语句本小节
19、简单介绍几个在SAS过程步中常见的语句,更具体的用法可以在以后实际用到时再仔细体会。1.DATA选项用于指明所需要处理的数据集,如果缺省的话使用最近生成的数据集。2.VAR语句VAR语句在很多过程中用来指定分析变量。在VAR后面给出变量列表:VAR变量名1变量名2变量名n;变量名列表可以使用省略的形式,如X1-X3,MATH-CHINESE等。例如:Procprint;varmathchinese;run;第29页/共118页3.MODEL语句MODEL语句在一些统计建模过程中用来指定模型的形式。其一般形式为MODEL因变量自变量表/选项;比如,将下列语句放在某一过程步中modelmath=c
20、hinese;则用语文成绩预测数学成绩。4.BY语句和CLASS语句5.OUTPUT语句6.FREQ语句和WEIGHT语句7.ID语句8.WHERE语句9.LABEL语句和FORMAT语句第30页/共118页六、SAS语言入门 SAS是一种专用的数据处理、统计计算语言,但是它也包含一般的高级语言编程能力并扩充了许多数学、统计等方面的函数。由于SAS的数据处理功能非常强大,我们并不提倡用它来编复杂的程序,因此,我们只介绍SAS语言用来进行一般编程计算的功能。SAS语言的编程计算能力主要由SAS数据步提供(另外SAS还提供了一个SAS/IML模块可以进行向量、矩阵运算,读者有兴趣可以自己学习)。所
21、以,下面给出的例子如果没有写DATA语句实际应该在例子前面加上DATA语句,在后面加上RUN语句才能运行。注意DATA语句总是以关键字DATA 开头,后面给出一个数据集名,就是本数据步要生成的数据集的名字,例如:datatmp1;也可以省略数据集名,这时SAS自动生成一个临时数据集名。第31页/共118页1赋值语句在SAS中用赋值语句计算一个值并存放到变量中。格式为变量名表达式;例如:avg=(math+chinese/120*100)/2;/*计算平均分数,赋值给变量avg*/isfem=(sex=女);/*先生成一个取值为0或1的值,性别为女时为1,否则为0*,然后赋值给变量isffem*
22、/newv=.;/*将变量赋了缺失值*/注意想试验上述语句要把它们放入数据步中,并且等号右边的表达式中的各变量应该是存在的,否则会得到缺失值结果。第32页/共118页2.输出语句SAS数据步的输出一般是数据集,用赋值语句计算的结果会自动写入数据集。SAS也提供了一个PUT语句,可以象其它语言程序的PRINT、WRITE(*,*)、printf等语句一样立即打印输出结果。PUT的基本语法很多,只举几例:第33页/共118页data;x=0.5;y=sin(x);putSinefunctionvalueofxisy;run;结果将在运行记录窗口显示一行Sinefunctionvalueof0.5i
23、s0.4794255386第34页/共118页在PUT语句中使用“变量名”来指定输出项可以显示带有变量名的输出结果,比如把上程序中的PUT语句改为putx=y=;则结果在LOG窗口显示为X=0.5Y=0.4794255386第35页/共118页分支结构如果需要在某条件满足时执行某一操作,可以用IF条件THEN程序块ELSE程序块的结构,其中Else语句及其后的程序块可以省略。需要注意的是,如果程序块只有一句,则可直接写出,否则应以DO开始,以END结束。第36页/共118页比如,ifmax(a)20thenp=0;elsep=1;上述程序当max(a)0THENDO;PUTX为正数;x=2*x
24、;PUTx=;END;注意SAS的分支结构的写法与其它语言有些不同,它不用ENDIF结束。第37页/共118页循环结构SAS数据步可以使用循环结构,主要的是两种:计数DO循环和当型、直到型循环。计数DO循环的写法是:DO计数变量起始值TO结束值BY步长;循环体语句END;在循环体中可以用LEAVE语句跳出循环,相当于C语言的break语句;用CONTINUE语句可以立即结束本轮循环并转入下一轮循环的判断与执行.第38页/共118页当型循环的语法是:DOWHILE(循环继续条件);循环体语句END;程序先判断循环继续条件是否成立,成立时执行循环体语句,再判断循环继续条件,如此重复,直到循环继续条
25、件不再成立。直到型循环的写法是:DOUNTIL(循环退出条件);循环体语句END;程序先执行循环体,然后判断循环退出条件是否成立,成立则结束循环,否则继续。注意每轮循环都是先执行循环体再判断是否退出。第39页/共118页如:data;DOi=1TO20BY2;j=i*3;puti3.j5.;END;run;可以输出一个1,3,5,7,19的立方表。第40页/共118页七、SAS的基本统计分析功能 SAS Analysis 模块前面我们已经对SAS系统进行了简要的介绍,下面我们讲如何利用SASAnalysis模块计算描述统计量、进行假设检验、拟合曲线以及进行回归分析第41页/共118页1、启动A
26、nalyst模块选择Solutions菜单下的Analysis,然后再选择下面的Analyst,如图:第42页/共118页得到Analyst界面第43页/共118页2、数据集相关操作一、依分布产生数据利用Data菜单中RandomVariates可以产生服从特定分布的随机数,可以选择的分布类型包括:正态分布均匀分布二项分布卡方分布泊松分布指数分布Beta分布Gama分布几何分布极值分布第44页/共118页例1、利用Analyst模块生成100个服从标准正态分布的数据,并把生成的数据命名为Normal保存在Sasuser下。操作步骤:(1)在Data菜单中选择RandomVariates,然后选
27、择分布类型Normal(正态分布),则弹出现一对话框:第45页/共118页(2)在Number of values to generate中填100,在New column name(变量名称)中填 X,在Mean中填0,在Standard deviation 中填1,单击OK第46页/共118页(3)可以看到数据集中产生了新的一列,在File菜单中选SaveAsBySASName,保存数据集第47页/共118页(4)在弹出的对话框中双击Sasuser,并在MemberName中填数据集名称Normal,单击Save即可第48页/共118页二、随机抽样使用Data中RandomSample可以
28、从数据集中随机抽取记录。例:在刚才生成的正态数据集normal中随机抽取50个数据。步骤如下:(1)首先选择Data菜单下RandomSample命令,弹出对话框:第49页/共118页第50页/共118页(2)在Rows中填50,单击OK即可得到一个表格含有随机抽取的50个样本,如图:第51页/共118页3、绘制统计图一、绘制变量直方图并在图上拟合分布曲线利用Grphs中Histogram可以绘制变量直方图并拟合分布曲线。例:以上节normal数据集中X为对象绘制直方图,并在直方图上拟合正态分布曲线。操作步骤:(1)打开Normal文件:FileOpenBySASNameSasuserNorm
29、alOK第52页/共118页第53页/共118页(2)在Grphs下选Histogram,单击绘图变量X,再单击Analysis将其加入第54页/共118页(3)选择Fit在直方图上拟合正态分布曲线,单击Fit弹出对话框第55页/共118页(3)选择Normal,单击OK回到原对话框,再单击OK即得:第56页/共118页二、概率图在直方图基础上我们可以猜想变量是服从正态分布的,通过绘制概率图可以来证实我们的想法。概率图将数值排序,给出每个数值对应的分位数,然后打点作图。如果这些点呈现线性特征,说明他们与理论分布相符,同时又在图像上加上一条给定分布的曲线,并给出分布的系数。第57页/共118页例
30、:绘制Normal数据集中X的概率图,步骤如下:(1)首先选择Graphs下ProbalityPlot,弹出对话框第58页/共118页(2)单击X,再单击Analysis,然后选择分布为Normal,单击Ok得到概率图:第59页/共118页可以看到X的分布与正态分布基本吻合,图中还给出了正态分布的参数:均值为0.06217,标准差为0.996833。第60页/共118页一、绘制散点图使用Graphs下的ScatterPlot可以绘制散点图例:病人在服用某种放射性药物后,体内的放射性物质的含量y与时间x具有一定的关系,绘制二者的散点图,然后找出他们的关系,数据如下:x x1 12 23 34 4
31、5 56 67 78 89 910101111y y373714145 51.831.830.670.670.240.240.090.090.030.030.010.010.0040.0040.0010.001第61页/共118页1、首先将数据输入建立一个名为Test的数据集,然后在ANALYST模块下打开2、然后打开ScatterPlot对话框第62页/共118页3、在绘制散点图对话框中将x放在X轴,y放在Y轴,单击OK可以得到二者的散点图,为容易观察,可在Display中选择用线连接散点图第63页/共118页4、绘制的图形如下,可以看到放射性物质的含量和时间具有负指数衰减关系第64页/共1
32、18页4、统计分析与计算一、计算描述性统计量利用Statistics的Descriptive菜单可以计算描述性统计量,Descriptive下有4个选项:SummaryStatistics计算简单统计量Distribution计算分布信息Correlations计算变量间的相关系数FrequencyCounts统计变量的频数第65页/共118页第66页/共118页例1:计算上例Test中放射性物质y的简单统计量1、打开Test数据集,选StatisticsDescriptiveSummaryStatistics,出现对话框,选择y分析:第67页/共118页2、在Statistics中设置需要计
33、算哪些统计量,单击OK即可得所需统计量。第68页/共118页3、输出结果如下第69页/共118页例2:计算x与y间的相关系数1、打开Test数据集,选择StatisticsDescriptiveCorrelations,在对话框中将x与y选入Analysis,然后单击OK第70页/共118页2、输出结果如下,可见x与y间的相关系数为-0.70152第71页/共118页二、列联表分析使用Statistics菜单下的TableAnalysis可以进行列联表分析(即属性频数数据分析)例1:为了考察法院判决是否与被告种族有关,调查了326位被告的判决情况如表所示:黑人黑人白人白人有罪有罪1717191
34、9无罪无罪149149141141第72页/共118页1、首先建立数据集Datapanjue;InputABfreq;*其中A取1表有罪,2无罪;B取1表黑人,2表白人*Cards;111712192114922141;Run;第73页/共118页2、选择TableAnalysis,打开对话框第74页/共118页3、将A放在Row,将B放在Column,将freq放在CellCounts第75页/共118页4、在Statistics中设置ExactTest检验,单击OK第76页/共118页5、结果如下,大致分为3部分,第一部分是频数和列百分比表;第二部分是四种检验方法结果,p值都大于0.15水
35、平;第三部分是Fisher精确检验结果,p值位0.7246,远远大于0.15,可见判决情况与被告种族是没有关系的。第77页/共118页5、假设检验在Statistics菜单下的HypothesisTests 可以进行各种假设检验,大致可以分为单样本检验和两样本检验,其中单样本包括:单样本均值Z检验:One Sample Z Tests单样本均值t检验:One Sample t Tests单样本比例检验:OneSampleProportionTests单样本方差检验:OneSampletestforavariance第78页/共118页两样本的检验包括两样本均值t检验:TwoSampletTes
36、tForMeans成对样本均值t检验:TwoSamplepairedttestformeans两样本比例检验:TwoSampletestforproportions两样本方差检验:TwoSampletestforVariance第79页/共118页2.正态总体均值的假设检验一、单个总体N(,2)均值的检验1.已知时的检验(单样本均值Z检验:One Sample Z Tests)例2某车间用一台包装机包装葡萄糖。包得的袋装糖重是一个随机变量,它服从正态分布。当机器正常时,其均值为0.5公斤,标准差为0.015公斤。某日开工后为检验包装机是否正常,随机地抽取它所包装的糖9袋,称得净重为(公斤):0
37、.497 0.506 0.518 0.524 0.498 0.511 0.520 0.515 0.512问机器是否正常?第80页/共118页解按题意需检验假设操作步骤:(1)首先输入数据,程序为data u_weight;input weight;cards;0.497 0.506 0.518 0.524 0.498 0.511 0.520 0.515 0.512;run;运行上述程序。第81页/共118页(2)选择SolutionsAnalysisAnalyst菜单,(3)选择FileOpenBySASNameWorku_weight,(4)选择StatisticsHypothesis,(5
38、)选择One-Samplez-testforamean,出现图2,第82页/共118页图2u-检验的变量设置第83页/共118页(6)在图2的窗口中设置变量,我们选择变量为weight,Null:Mean处是零假设,填入0.5,Alternate处是备择假设,我们选,Tests按钮可以选择显著性水平,默认是0.05,Std.Dev.处填入标准差0.015。第84页/共118页(7)单击OK,产生输出结果。OneSampleZTestforaMeanSampleStatisticsforweightNMeanStd.Dev.Std.Error-90.510.010.00HypothesisTes
39、tNullhypothesis:Meanofweight=0.5Alternative:Meanofweight=0.5Withaspecifiedknownstandarddeviationof0.015ZStatisticProbZ-2.2440.0248第85页/共118页结果分析:由上可见,平均值为0.51,标准差为0.01,z统计量是2.244,ProbZ的值为0.0248=0.05,因此应该拒绝H0,即认为这天包装机不正常。第86页/共118页2.未知时的检验(One-Samplet-testforamean)例3.某种电子元件的寿命x(以小时计)服从正态分布,2均未知.现测得16
40、只元件的寿命如下:159280101212224379179264222362168250149260485170问是否有理由认为元件的平均寿命大于225(小时)?第87页/共118页解按题意需检验假设操作步骤:(1)首先输入数据,程序为datalifetest;inputlife;cards;0.4970.5060.5180.5240.4980.5110.5200.5150.512;run;运行上述程序。第88页/共118页(2)选择SolutionsAnalysisAnalyst菜单,(3)选择FileOpenBySASNameWorklifetest,(4)选择StatisticsHyp
41、othesis,(5)选择One-Samplet-testforamean,出现图3,第89页/共118页图3t-检验的变量设置第90页/共118页(6)在图3的窗口中设置变量,我们选择变量为life,Null:Mean处是零假设,填入225,Alternate处是备择假设,我们选=,Tests按钮可以选择显著性水平,默认是0.05。第91页/共118页(7)单击OK,产生输出结果。OneSamplet-testforaMeanSampleStatisticsforlifeNMeanStd.Dev.Std.Error-16241.5098.7324.68HypothesisTestNullhy
42、pothesis:Meanoflife225tStatisticDfProbt-0.669150.2570第92页/共118页结果分析:由上可见,平均值为241.50,标准差为98.73,标准偏差为24.68,t统计量是0.669,Probt的值为0.2570=0.05,因此应该接受H0,即认为元件的平均寿命不大于225小时。第93页/共118页二、两个正态总体均值差的检验例4.在平炉上进行一项试验以确定改变操作方法的建议是否会增加钢的得率,试验是在同一只平炉上进行的.每炼一炉钢时除操作方法外,其它条件尽可能做到相同.先用标准方法炼一炉,然后用建议的新方法炼一炉以后交替进行,各炼了10炉,其得
43、率分别为:1.标准方法78.172.476.274.377.478.476.075.576.777.32.新方法79.181.077.379.180.079.179.177.380.282.1设这两个样本相互独立,且分别来自正态总体N(1,2)和N(2,2),1,2,2均未知.问建议的新的操作方法能否提高得率?(取=0.05)(Two-SamplePairedt-testforamean)第94页/共118页解按题意需检验假设操作步骤:(1)首先输入数据,程序为datamydata;inputolddatanewdata;cards;0.4970.5060.5180.5240.4980.511
44、0.5200.5150.512;run;运行上述程序。第95页/共118页(2)选择SolutionsAnalysisAnalyst菜单,(3)选择FileOpenBySASNameWorkmydata,(4)选择StatisticsHypothesis,(5)选择Two-SamplePairedt-testforamean,出现图4第96页/共118页图4两个样本u-检验的变量设置第97页/共118页(6)在图4的窗口中设置变量,依次选择两个变量,零假设处填入0,Alternate处是备择假设,我们选0,Tests按钮可以选择显著性水平,默认是0.05。第98页/共118页(7)单击OK,产
45、生输出结果。TwoSamplePairedt-testfortheMeansofolddataandnewdataSampleStatisticsGroupNMeanStd.Dev.Std.Error-olddata1076.231.82330.5766newdata1079.431.49150.4717HypothesisTestNullhypothesis:Meanof(olddata-newdata)=0Alternative:Meanof(olddata-newdata)t-4.20290.0012第99页/共118页结果分析:由上可见,t统计量是-4.202,Probt的值为0.00
46、12=0.05,因此应该拒绝H0,即认为新方法比标准方法为优。第100页/共118页3.正态总体方差的假设检验由于在SAS中,单个总体与两个总体的情况在操作上差不多,下面只举两个总体的情况。例5对例4中的数据检验假设(取=0.01)(Two-SampleTestforVariances)第101页/共118页操作步骤:(1)首先输入数据,我们就利用前面输入的数据集mydata。(2)选择SolutionsAnalysisAnalyst菜单,(3)选择FileOpenBySASNameWorkmydata,(4)选择StatisticsHypothesis,(5)选择Two-SampleTest
47、forVariances,出现图5第102页/共118页图5两个样本的方差检验第103页/共118页(6)在图5的窗口中设置变量,选择Twovariables(两个变量),依次选一个变量,按Group1按钮及Group2按钮,Alternate处是备择假设,我们选1,Intervals按钮可以选择显著性水平,默认是0.05,我们选0.01。第104页/共118页(7)单击OK,产生输出结果。TwoSampleTestforVariancesofolddataandnewdataSampleStatisticsGroupNMeanStd.Dev.Variance-olddata1076.231.
48、82333.324556newdata1079.431.49152.224556HypothesisTestNullhypothesis:Variance1/Variance2=1Alternative:Variance1/Variance2=1-DegreesofFreedom-FNumer.Denom.PrF-1.49990.5590第105页/共118页结果分析:由上可见,F统计量是1.49,PrF的值为0.5590=0.01,因此应该接受H0,即认为两总体方差相等。第106页/共118页6、回归分析利用Statistics菜单下的Regression可以进行回归分析,包括:Simple
49、回归:单一的自变量,单一的因变量,但自变量次数可以是一次、二次或三次Linear回归:多个自变量,多个因变量,但是对因变量分别进行回归第107页/共118页一、Simple回归例1:著名统计学家K.Pearson收集大量父亲身高x与儿子身高y的资料,其中10对数据如下:X 60 62 64 65 66 67 68 70 72 74Y 63.6 65.2 66.0 65.5 66.9 67.1 67.4 68.3 70.1 70.0假设对给定的x,y为正态变量,且方差与x无关,求回归方程y=a+bx,并指出回归效果是否显著。(显著水平取0.05)第108页/共118页1、首先建立数据集:data
50、 sasuser.reg;input x y;cards;60 63.6 62 65.2 64 66.0 65 65.5 66 66.9 67 67.1 68 67.4 70 68.3 72 70.1 74 70.0;run;2、再利用菜单完成回归分析:(1)选择SolutionsAnalysisAnalyst菜单,(2)选择FileOpen By SAS Namesasuserreg(3)选择StatisticsRegression,(4)选择Simple Linear Regression出现一窗口第109页/共118页(5)在出现的窗口中设置变量,我们选择变量dependent为y,选择