《sas课件第5讲 SAS系统与基础统计分析.ppt》由会员分享,可在线阅读,更多相关《sas课件第5讲 SAS系统与基础统计分析.ppt(146页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第第5讲讲 SASSAS系统系统与基础统计分析1.1.统计基本概念统计基本概念2.2.频率分布和常用描述统计量频率分布和常用描述统计量3.3.计算描述统计量的常用过程计算描述统计量的常用过程4.4.直方图和分布的拟合检验直方图和分布的拟合检验5.5.参数估计参数估计6.6.假设检验假设检验SAS分析的特点分析的特点(1)SAS 将常用的统计方法用过程实现将常用的统计方法用过程实现,是一个是一个高品位的程序系统高品位的程序系统;(2)SAS 是一个迅速发展的系统:融入最新的是一个迅速发展的系统:融入最新的方法,不断适应用户的新需求方法,不断适应用户的新需求;(3)SAS 既可由编程也可用图形界面
2、交互地实既可由编程也可用图形界面交互地实现分析功能现分析功能;(4)SAS 将各种专门分析方法融入为用户提供将各种专门分析方法融入为用户提供的直接使用的专用系统中的直接使用的专用系统中-应用系统应用系统.如何学习如何学习SAS统计分析的功能统计分析的功能 会找会找:针对问题和数据选用合适的分析工针对问题和数据选用合适的分析工具具.会用:会用:选选PROC(过程过程),选,选Option(选项选项),写写Statement(语句语句),或选用菜单系统或选用菜单系统.会解释:对会解释:对SAS提供的计算结果给出解释和提供的计算结果给出解释和 分析分析.用用SAS完成常规统计的常用方法和过程完成常规
3、统计的常用方法和过程 (1)用编程实现各种任务用编程实现各种任务;(2)用用SAS提供的菜单系统实现各种任务提供的菜单系统实现各种任务:用用SAS/INSIGHT:发命令发命令insight 用分析员应用用分析员应用(ANALYST)发命令发命令analyst 用用SAS/ASSIST等等.用用SAS系统系统作常规统计分析作常规统计分析,在交互式在交互式运行方式下常用的做法有:运行方式下常用的做法有:SAS 系统内七种常用的描述性统计程序系统内七种常用的描述性统计程序 旨在形容样本旨在形容样本(Sample)的平均数标准差偏度的平均数标准差偏度峰度等统计值或为样本的数据绘图、制表格。峰度等统计
4、值或为样本的数据绘图、制表格。1=PROC MEANS2=PROC SUMMARY3=PROC UNIVARIATE4=PROC CHART5=PROC TABULATE6=PROC CORR7=PROC PLOT完成基础统计分析的几个常用过程基础统计分析的几个常用过程FREQ:计算变量取值的频数计算变量取值的频数;MEANS:分类计算变量的常用统计量分类计算变量的常用统计量;SUMMARY:分类计算变量的常用统计量分类计算变量的常用统计量;UNIVARIATE:计算单变量的统计量和分计算单变量的统计量和分 布的拟合检验布的拟合检验;CORR:计算变量间的相关系数计算变量间的相关系数.频率分布
5、和常用描述统计量频率分布和常用描述统计量进行统计分析首先应该对我们手头上的数据进行统计分析首先应该对我们手头上的数据特征有一个比较明确的了解,比如数据的频特征有一个比较明确的了解,比如数据的频率分布或者其他对数据的描述的统计量,这率分布或者其他对数据的描述的统计量,这有助于我们对数据的特征,可能的分布有一有助于我们对数据的特征,可能的分布有一个比较全面的了解,用于帮助我们决定进一个比较全面的了解,用于帮助我们决定进一步的研究方法和方向步的研究方法和方向.我们将介绍如何用编程我们将介绍如何用编程进行描述性数据分析进行描述性数据分析.FREQ 过程(频数过程)FREQ过程用于产生1至N维的频数和交
6、叉表。FREQ语句格式:PROC PREQ 选择项;TABLES 变量名;WEIGHT 变量名;BY 变量名;RUN;5.WEIGHT语句统计计算中我们统称假设每条观测记录对频数计算的贡献为 1,使用WEIGHT语句可以定义每个观测值出现的频数为这个观测对应的权重(权重不能为负)。6.BY语句对由BY变量定义的几组观测分别进行分析。但要求先按BY变量排序。频率分布和常用描述统计量频率分布和常用描述统计量 FREQ(频数频数)过程过程-频数表是变量取值分布的描述频数表是变量取值分布的描述 PROC FREQ DATA=数据集名数据集名;TABLES 变量变量;RUN;PROC FREQ DATA
7、=数据集名数据集名;TABLES 变量变量*变量变量 变量变量*变量变量./nocol norow nocum nofreq nopercent missing list out=数据集数据集 outpct;WETGHT 变量名变量名;BY 变量名变量名;RUN;一般是分类变量一般是分类变量 频率分布和常用描述统计量频率分布和常用描述统计量 FREQ(频数频数)过程过程-定义输出格式的定义输出格式的FORMAT过程过程 PROC FORMAT library=DST;VALUE 格式名格式名 范围范围1=格式化值格式化值1.范围范围n=格式化值格式化值n;RUN;例例:proc format;
8、value agefmt low-39=YOUNG 39-50=MIDDLE 50-high=OLD;run;把自定义的格式存把自定义的格式存放到永久库放到永久库DSTDST中中当当age39 YOUNG当当39age50 MIDDLE当当age50 OLD频率分布和常用描述统计量频率分布和常用描述统计量 FREQ(频数频数)过程过程-定义输出格式的定义输出格式的FORMAT过程过程proc format;(用于用于Fitness数据集数据集)value oxyfmt 32.5-37.5=32.5-37.7 37.5-42.5=37.5-42.5 42.5-47.5=42.5-47.547.5
9、-52.5=47.5-52.5 52.5-57.5=52.5-57.5 57.5-62.5=57.5-62.5;run;当当37.5oxygen42.5 37.5-42.5Proc freq data=fitness;format age agefmt.oxygen oxyfmt.;tables group age/nocum;tables age*oxygen/nocum;tables group*age/list nocum;tables group*age/out=out outpct;run;proc print data=out;run;(bstat21.sas)要求输出集中还包含列
10、百分数和行百分数要求输出集中还包含列百分数和行百分数 频率分布和常用描述统计量频率分布和常用描述统计量 描述统计量描述统计量使用各种统计量描述变量取值的不同特征使用各种统计量描述变量取值的不同特征:均值、中位数均值、中位数-描述变量取值的中心位置描述变量取值的中心位置;方差、标准差、极差方差、标准差、极差-描述变量取值的离描述变量取值的离散程度散程度;峰度、偏度峰度、偏度-描述变量取值分布的形状描述变量取值分布的形状;次序统计量、分位数次序统计量、分位数-可描述变量取值的可描述变量取值的分布分布.频率分布和常用描述统计量频率分布和常用描述统计量 描述统计量描述统计量-次序统计量次序统计量样本样
11、本(Sample):次序统计量次序统计量(Order Statistics):4,3,11,3,1 5,81,3,3,4,5,8,11 频率分布和常用描述统计量频率分布和常用描述统计量 描述统计量描述统计量-描述数据中心位置的统计量描述数据中心位置的统计量样本观测值:4,3,11,3,1,5,8 频率分布和常用描述统计量频率分布和常用描述统计量 描述统计量描述统计量-描述数据离散程度的统计量描述数据离散程度的统计量样本观测值:4,3,11,3,1,5,8 (n=7)频率分布和常用描述统计量频率分布和常用描述统计量 5 描述统计量描述统计量-与均值方差有关的统计量与均值方差有关的统计量标准差标准
12、差(Std Dev):标准误标准误(Std Error):变异系数变异系数(CV):未校平方和未校平方和(USS):校正平方和校正平方和(CSS):X标准差标准差 的估计的估计 频率分布和常用描述统计量频率分布和常用描述统计量描述统计量描述统计量-偏度偏度(Skewness)偏度偏度:(Skewness)精确地精确地 0=0 频率分布和常用描述统计量频率分布和常用描述统计量 描述统计量描述统计量-峰度峰度(Kurtosis)峰度:(Kurtosis)精确地精确地 0 0|t|权重总和权重总和 -RUNTIME Min.to run 1.5 miles 0.2491869 42.48 .0001
13、 31.0000000 OXYGEN Oxygen consumption 0.9567988 49.51|t|=|M|=|S|t|=|M|0.0010 符号秩符号秩 S 33 Pr=|S|0.0010 SAS 系统系统 2005年年05月月01日日 星期日星期日 上午上午11时时30分分09秒秒 26-Experimental group=2-UNIVARIATE 过程过程 变量变量:WEIGHT (Weight in kg)分位数(定义分位数(定义 5)分位数分位数 估计值估计值 100%最大值最大值 91.63 99%91.63 95%91.63 90%82.78 75%Q3 79.38
14、 50%中位数中位数 73.71 25%Q1 67.25 10%61.24 5%59.08 1%59.08 0%最小值最小值 59.08 极值观测极值观测 -最小值最小值-最大值最大值-值值 观测观测 值值 观测观测 59.08 28 76.32 23 61.24 30 76.32 29 67.25 25 79.38 22 70.87 24 82.78 31 73.37 21 91.63 26proc univariate data=Hbs.fitness plot normal;var weight;run;proc univariate data=Hbs.fitness PLOTS;var
15、 Group;run;统计检验的基本原理与方法假设检验的基本概念1问题的提出2假设检验的步骤一个完整的假设检验过程,通常包括以下四个步骤:1)提出原假设(Null Hypothesis)和备择假设(Alternative Hypothesis);2)确定适当的检验统计量并计算检验统计量的值;3)规定显著性水平;4)做出统计决策。4 p值的进一步说明5实际显著性性和常识进行综合考虑,作出最后的判断。6关于实际显著性和统计显著性的重要一点7.参数方法与非参数方法样本平均数的检验u检验与t检验非参数检验1 检验2符号检验3秩和检验法 直方图和分布的拟合检验直方图和分布的拟合检验 概念和定理概念和定理
16、-总体分布函数和样本经验分布总体分布函数和样本经验分布对母体和样本都可考虑它们各自的分布对母体和样本都可考虑它们各自的分布:样本直方图总体分布密度样本经验分布总体累计分布 直方图和分布的拟合检验直方图和分布的拟合检验 概念和定理概念和定理-中心极限定理中心极限定理 直方图和分布的拟合检验直方图和分布的拟合检验 概念和定理概念和定理-中心极限定理中心极限定理样本容量足够大时,样本均值接近正态分布样本容量足够大时,样本均值接近正态分布.样本均值接近总体均值,样本均值接近总体均值,样本标准差为样本标准差为 直方图和分布的拟合检验直方图和分布的拟合检验 标准正态分布密度标准正态分布密度 直方图和分布的
17、拟合检验直方图和分布的拟合检验 检验样本是否为某个分布的图示法检验样本是否为某个分布的图示法-QQ图图 检验样本是否为正态分布的图法检验样本是否为正态分布的图法:(类似地可检验样本是否为对数正态,指数和Weibull分布)87 直方图和分布的拟合检验直方图和分布的拟合检验 UNIVARIATE过程过程-变量分布的图形描述变量分布的图形描述 PROC UNIVARIATE DATA=数据集名数据集名 noprint;VAR 变量名列变量名列;HISTOGRAM 变量名列变量名列/midpoints=中点列中点列 normal(mu=均值均值 sigma=标准差标准差 图象选项图象选项)exp(t
18、heta=阈值阈值 图象选项图象选项)lognormal(theta=阈值阈值 图象选项图象选项);INSET 统计量关键名统计量关键名=显示名显示名 格式格式;QQPLOT 变量名列变量名列/square.;PROBPLOT 变量名列变量名列/.;BY 变量名列变量名列;ID 变量名变量名;RUN;直方图和分布的拟合检验直方图和分布的拟合检验 UNIVARITE过程过程-例子例子proc univariate data=Hbs.fitness;var oxygen;id age;run;proc univariate data=Hbs.fitness;var oxygen;histogram
19、;run;proc univariate data=Hbs.fitness noprint;histogram oxygen;title Histogram;run;直方图和分布的拟合检验直方图和分布的拟合检验 UNIVARITE过程过程-例子例子proc univariate data=HBs.fitness noprint;histogram oxygen/midpoints=32 to 60 by 4 normal(L=2 color=orange w=4);inset n mean(4.1)std(4.2);Run;proc univariate data=Hbs.fitness;va
20、r group;histogram;run;proc univariate data=HBs.fitness noprint;histogram oxygen/midpoints=32 to 60 by 2 normal(L=2 color=orange w=4);inset n mean(4.1)std(4.2);Run;直方图和分布的拟合检验直方图和分布的拟合检验 UNIVARITE过程过程-例子例子proc univariate data=Hbs.fitness noprint;histogram oxygen/midpoints=32 to 60 by 4 normal(L=1 w=2
21、)lognormal(L=2 w=3 theta=30)exponential(L=8 w=4 theta=30);run;quit;(Bstat41.sas)Histogram 2005年年05月月01日日 星期日星期日 上午上午11时时30分分09秒秒 33 UNIVARIATE 过程过程 Fitted Distributions for OXYGEN “正态正态”分布的参数分布的参数 参数参数 符号符号 估计值估计值 均值均值 Mu 47.37581 标准偏差标准偏差 Sigma 5.327231 “正态正态”分布的拟合优度检验分布的拟合优度检验 检验检验 -统计量统计量-P 值值-Ko
22、lmogorov-Smirnov D 0.14046087 Pr D 0.119 Cramer-von Mises W-Sq 0.08473813 Pr W-Sq 0.179 Anderson-Darling A-Sq 0.54053923 Pr A-Sq 0.157 “正态正态”分布的分位数分布的分位数 -分位数分位数-百分比百分比 观测值观测值 估计值估计值 1.0 37.3880 34.9828 5.0 39.2030 38.6133 10.0 39.4420 40.5487 25.0 44.8110 43.7826 50.0 46.7740 47.3758 75.0 50.3880 5
23、0.9690 90.0 54.2970 54.2029 95.0 59.5710 56.1383 99.0 60.0550 59.7688 Histogram 2005年年05月月01日日 星期日星期日 上午上午11时时30分分09秒秒 33 UNIVARIATE 过程过程 Fitted Distributions for OXYGEN “对数正态对数正态”分布的参数分布的参数 参数参数 符号符号 估计值估计值 阀值阀值 Theta 30 比例比例 Zeta 2.806582 形状形状 Sigma 0.325986 均值均值 47.45656 标准偏差标准偏差 5.845174 “对数正态对数
24、正态”分布的拟合优度检验分布的拟合优度检验 检验检验 -统计量统计量-P 值值-Kolmogorov-Smirnov D 0.18946559 Pr D W-Sq 0.041 Anderson-Darling A-Sq 0.76778476 Pr A-Sq 0.043 “对数正态对数正态”分布的分位数分布的分位数 -分位数分位数-百分比百分比 观测值观测值 估计值估计值 1.0 37.3880 37.7541 5.0 39.2030 39.6831 10.0 39.4420 40.9006 25.0 44.8110 43.2860 50.0 46.7740 46.5532 75.0 50.38
25、80 50.6240 90.0 54.2970 55.1372 “指数指数”分布的参数分布的参数 参数参数 符号符号 估计值估计值 阀值阀值 Theta 30 比例比例 Sigma 17.37581 均值均值 47.37581 标准偏差标准偏差 17.37581 “指数指数”分布的拟合优度检验分布的拟合优度检验 检验检验 -统计量统计量-P 值值-Kolmogorov-Smirnov D 0.40733003 Pr D W-Sq A-Sq 0.001 “指数指数”分布的分位数分布的分位数 -分位数分位数-百分比百分比 观测值观测值 估计值估计值 1.0 37.3880 30.1746 5.0
26、39.2030 30.8913 10.0 39.4420 31.8307 25.0 44.8110 34.9987 50.0 46.7740 42.0440 75.0 50.3880 54.0880 90.0 54.2970 70.0093 95.0 59.5710 82.0533 99.0 60.0550 110.0185直方图和分布的拟合检验直方图和分布的拟合检验练习题练习题 1.1.打开打开FITNESSFITNESS数据集,编程完成以下分析数据集,编程完成以下分析计算:计算:(1)(1)计算变量计算变量OXYGENOXYGEN和和RUNTIMERUNTIME的均值、的均值、方差、标准差
27、、偏度和峰度;指定方差、标准差、偏度和峰度;指定GROUPGROUP为为BYBY变量后,分别计算三组数据的以上几变量后,分别计算三组数据的以上几个描述统计量个描述统计量;(2)(2)画画RUNTIMERUNTIME的直方图中,拟合一条正态分的直方图中,拟合一条正态分布曲线;布曲线;直方图和分布的拟合检验直方图和分布的拟合检验练习题练习题(3)(3)对变量对变量WeightWeight绘制直方图和绘制直方图和QQQQ图,并检图,并检验该变量的分布是否为正态分布验该变量的分布是否为正态分布(=0.05(=0.05和和=0.15)?=0.15)?(4)(4)变量变量WeightWeight的标准差和
28、极差是什么的标准差和极差是什么?这些这些值说明什么值说明什么?.打开打开CLASSCLASS数据集,可类似完成题数据集,可类似完成题1 1中的练中的练习习.这里分类变量为这里分类变量为SEXSEX或或AGEAGE,数值变量为,数值变量为WEIGHTWEIGHT和和HEIGHT.HEIGHT.另要求:另要求:(1)(1)计算计算AGEAGE的频数分布表的频数分布表,并要求输出按年龄由并要求输出按年龄由大到小的频数表大到小的频数表;(2)(2)绘制绘制AGEAGE的条形图的条形图.参数估计参数估计 点估计点估计总体的特征量总体的特征量(参数参数)用样本相应的特用样本相应的特征量征量(统计量统计量)
29、来估计称为参数的点估来估计称为参数的点估计计.用样本均值估计总体均值,用样本方差用样本均值估计总体均值,用样本方差估计总体方差估计总体方差.像这种用样本的统计量估计总体的参像这种用样本的统计量估计总体的参数,称为点估计。数,称为点估计。注意到注意到,样本是具有随机性的样本是具有随机性的,不同的样本将不同的样本将产生总体均值的不同的估计值产生总体均值的不同的估计值,这些估计值之这些估计值之间的差异就是总体均值估计量的差异间的差异就是总体均值估计量的差异,所以不所以不能把样本均值作为总体均值绝对精确的估计能把样本均值作为总体均值绝对精确的估计,而是需要用总体均值的置信区间来估计总体均而是需要用总体
30、均值的置信区间来估计总体均值值.我们把具有一定可靠性和精度的估计称为我们把具有一定可靠性和精度的估计称为置信估计置信估计.中心极限定理告诉我们中心极限定理告诉我们,对几乎任何总体的对几乎任何总体的独立随机样本独立随机样本,当样本容量足够大时:当样本容量足够大时:样本均值的分布接近于正态分布;样本均值的分布接近于正态分布;样本均值接近于总体均值样本均值接近于总体均值.参数估计参数估计 点估计点估计参数估计参数估计正态分布正态分布 参数估计正态分布 正态分布描述落入不同范围的概率正态分布描述落入不同范围的概率.例如例如,近似近似地有地有(“3 3”原则原则):):68%68%的数据落入以均值为中心
31、一倍标准差的范围内的数据落入以均值为中心一倍标准差的范围内;95%95%的数据落入以均值为中心两倍标准差的范围内;的数据落入以均值为中心两倍标准差的范围内;99%99%的数据落入以均值为中心三倍标准差的范围内;的数据落入以均值为中心三倍标准差的范围内;若样本均值的分布为正态的若样本均值的分布为正态的,当构造置信区间当构造置信区间时就可用正态分布给定的概率时就可用正态分布给定的概率,这一概率对应于这一概率对应于置信水平置信水平.所以所以,构造一个构造一个95%95%的置信区间的置信区间,这个置这个置信区间就有信区间就有95%95%的概率包括总体均值的概率包括总体均值.95%.95%就为置就为置信
32、水平信水平.参数估计参数估计 置信区间置信区间(Confidence Interval)双侧:置信区间置信区间置信下限置信上限置信水平或置信度(称为显著性水平)单侧:或区间估计:以一定的置信度(概率)给出参数区间估计:以一定的置信度(概率)给出参数的范围。它是带有一定可靠度和精度的估计的范围。它是带有一定可靠度和精度的估计.参数估计参数估计置信区间置信区间(Confidence Interval)的求法的求法()假设总体为假设总体为N(,2)置信区间置信区间(Confidence Interval)的求法的求法 上述图形是样本均值的分布密度曲线,铃型区域上述图形是样本均值的分布密度曲线,铃型区
33、域包含了分布密度曲线下的区域面积的包含了分布密度曲线下的区域面积的95%95%。当构造一个当构造一个95%95%的置信区间时,这个置信区间的置信区间时,这个置信区间 包含以总体均值为中心的样本均值分布密度包含以总体均值为中心的样本均值分布密度 曲线下面积的曲线下面积的95%95%;它应以它应以95%95%的概率包含总体均值。的概率包含总体均值。所以所以,若样本均值若样本均值X落入样本均值所服从分落入样本均值所服从分布的铃型区域时布的铃型区域时,所构造的置信区间包含总体所构造的置信区间包含总体的均值的均值(置信度为置信度为95%).95%).置信区间置信区间(Confidence Interva
34、l)的求法的求法 (2)(2)SASSAS软件用以下公式生成均值的置信区间软件用以下公式生成均值的置信区间其中其中:X 是样本均值;是样本均值;t /2/2是对应于置信水平是对应于置信水平 和样本容量和样本容量n有关有关 的一个的一个t分布的临界值;分布的临界值;是均值是均值X的标准误的标准误.置信区间置信区间(Confidence Interval)的求法的求法 t 分布是一个自由度为分布是一个自由度为n-1-1的对称的分布,的对称的分布,SASSAS软件中有专门的函数计算它的分位数软件中有专门的函数计算它的分位数.置信区间的长度取决于置信水平、数据置信区间的长度取决于置信水平、数据的波动和
35、样本容量:的波动和样本容量:*置信水平置信水平1-1-越高,置信区间长度越大;越高,置信区间长度越大;*样本方差样本方差s2 2越大,置信区间长度越大;越大,置信区间长度越大;*在相同的置信水平和方差的情况下,增加在相同的置信水平和方差的情况下,增加样本的容量样本的容量n可以减少置信区间的长度可以减少置信区间的长度.置信区间置信区间(Confidence Interval)的求法的求法 选择置信水平和样本容量使置信区间有实用选择置信水平和样本容量使置信区间有实用价值是重要的,一个很高的置信水平和很小的价值是重要的,一个很高的置信水平和很小的样本容量可使置信区间长得毫无实用价值样本容量可使置信区
36、间长得毫无实用价值.计算置信区间的两种方法:计算置信区间的两种方法:当总体方差未知时,使用当总体方差未知时,使用t值法;值法;当总体方差已知时,使用当总体方差已知时,使用z值法;值法;由于总体方差一般不知道,所以大多使用由于总体方差一般不知道,所以大多使用t值法,值法,SASSAS中均值的置信区间也是使用此法求中均值的置信区间也是使用此法求出出.用编程方法计算总体均值用编程方法计算总体均值 置信区间置信区间1.PROC MEANS:正态均值正态均值,alpha=0.05,双侧双侧(CLM)或单侧或单侧(LCLM,UCLM);2.PROC UNIVARIATE:正态均值正态均值及标准差及标准差,
37、双侧双侧(CIBASIC)或单侧或单侧(CIBASIC (type=Lower|Upper),任任选选(ALPHA=值值);3.直接计算:直接计算:112 置信区间或置信上置信区间或置信上,下限的计算下限的计算-MEANS过程过程PROC MEANS DATA=数据集名数据集名 输出统输出统计量名列计量名列 maxdecmaxdec=位数位数 fw=域宽 noprint alpha=0.1 LCLM UCLM;VAR 变量名列变量名列;CLASS 变量名列变量名列;BY 变量名列变量名列;ID 变量名变量名;OUTPUT OUT=数据集名数据集名 记入数据集统计量名列记入数据集统计量名列;RU
38、N;113 参数估计参数估计 置信区间和置信限的计算置信区间和置信限的计算-UNIVARIATE过程过程PROC UNIVARIATE DATA=PROC UNIVARIATE DATA=数据集数据集 CIBASIC();VARVAR 变量名列变量名列;BY BY 变量名列变量名列;RUN;RUN;UNIVARIATE过程语句还有一些其它的选项过程语句还有一些其它的选项,用于求分位数的置信限用于求分位数的置信限,检验检验H0:=0 等等.注注 意意 事事 项项 遗漏数据的处理遗漏数据的处理(1)VAR 指令中的变量指令中的变量 则该观察体将被排除在这个变量的计算过程之外。则该观察体将被排除在这
39、个变量的计算过程之外。然而若在其他然而若在其他变量上无遗漏数据仍会被纳入其他变量上无遗漏数据仍会被纳入其他 VAR 变量的计算过程内。变量的计算过程内。这些含遗漏数据的观察体个数及它们占总观察体数的百分比将这些含遗漏数据的观察体个数及它们占总观察体数的百分比将被纳入报表输出文件被纳入报表输出文件(2)WEIGHT 指令中的变量指令中的变量 观察体的加权变量值就是观察体的加权变量值就是 0。这些观察体仍然而会被纳入百分。这些观察体仍然而会被纳入百分位数的计算以及极端分数的挑选位数的计算以及极端分数的挑选(3)FREQ 指令中的变量指令中的变量 观察体将被剔除在所有计算过程之外观察体将被剔除在所有
40、计算过程之外(4)BY 指令中的变量指令中的变量 观察体在分析的过程中自成一个分组观察体在分析的过程中自成一个分组(5)ID 指令中的变量指令中的变量 需要识别观察体的地方仍以遗漏值需要识别观察体的地方仍以遗漏值(.)呈现呈现115 参数估计参数估计 练习练习练习练习1 1:打开数据集:打开数据集FITNESS,FITNESS,用MEANS过程求变量求变量OXYGENOXYGEN均值的点估计和置信度为均值的点估计和置信度为95%95%、97.5%97.5%的置信的置信区间区间.proc means data=Hbs.fitness n mean stdstderr t maxdec=4 fw=
41、6 alpha=0.025 CLM LCLM UCLM;var OXYGEN;run;116proc means data=Hbs.fitness n mean stdstderr t maxdec=4 fw=6 alpha=0.025 CLM;var OXYGEN;run;proc means data=Hbs.fitness n mean stdstderr t maxdec=4 fw=6 alpha=0.025 LCLM UCLM;var OXYGEN;run;proc means data=Hbs.fitness n mean stdstderr t maxdec=4 fw=6 alp
42、ha=0.025 LCLM;var OXYGEN;run;117proc means data=Hbs.fitness n mean stdstderr t maxdec=4 fw=6 alpha=0.05 CLM;var OXYGEN;run;proc means data=Hbs.fitness n mean stdstderr t maxdec=4 fw=6 alpha=0.05 LCLM UCLM;var OXYGEN;Run;118练习练习2 2:打开数据集:打开数据集FITNESS,FITNESS,用univariate过程求变量求变量OXYGENOXYGEN均值的点估计和置信度为
43、均值的点估计和置信度为95%95%、97.5%97.5%的置信的置信区间区间.proc univariate data=Hbs.fitness CIBASIC(type=Twosided ALPHA=0.05);var OXYGEN;run;proc univariate data=Hbs.fitness CIBASIC(type=Lower ALPHA=0.025);var OXYGEN;run;proc univariate data=Hbs.fitness CIBASIC(type=Twosided ALPHA=0.025);var OXYGEN;run;119 参数估计参数估计 练习练
44、习.打开打开CLASSCLASS数据集,计算变量数据集,计算变量HEIGHTHEIGHT均值的均值的90%90%和和97.5%97.5%的置信区间的置信区间.120作业作业1 参数估计参数估计1.1.打开数据集打开数据集FITNESS,FITNESS,用univariate过程求变量求变量RUNTIMERUNTIME均值的点估计和置信度为均值的点估计和置信度为95%95%、97.5%97.5%的置的置信区间信区间;.打开打开CLASSCLASS数据集,数据集,用means过程计算变量计算变量WEIGHTWEIGHT均值的均值的90%90%和和97.5%97.5%的置信区间的置信区间.假设检验的
45、基本思想假设检验的基本思想-投钱币的例子投钱币的例子 统计假设检验的两类错误统计假设检验的两类错误一般,P(第I类错误)=P以真当假=mO H1:m mO或 H0:m mO 单总体均值的单总体均值的t 检验检验(SAS 版本版本8)正态总体正态总体,检验检验H0:=O O,使用的统计量为使用的统计量为:proc univariate data=hbs.class mu0=110;var weight;Run;proc univariate data=Hbs.class CIBASIC(type=Twosided ALPHA=0.05);var weight height;run;proc un
46、ivariate data=Hbs.class mu0=110;var height;Run;proc univariate data=Hbs.class mu0=110 60;var weight height;Run;练习练习3 3:打开:打开CLASSCLASS数据集,检验数据集,检验:H0:H0:=60=60,对立假设,对立假设H1:H1:60 60。其中其中 表示表示height的均值的均值(显著水平显著水平=0.05)。proc univariate data=Hbs.bclass MU0=110 60;var weight height;Run;练习练习4 4:打开:打开CLAS
47、SCLASS数据集,检验数据集,检验:H0:H0:1 1=110=110,对立假设,对立假设H1:H1:1 1110110。其中其中 1 1 表示表示WEIGHTWEIGHT的均值的均值(显著水平显著水平=0.05)。H0:H0:2 2=60=60,对立假设,对立假设H1:H1:2 26060。其中其中 2 2 表示表示HEIGHTHEIGHT的均值的均值(显著水平显著水平=0.05)。proc univariate data=Hbs.bclass CIBASIC(type=Twosided ALPHA=0.05);histogram weight/midpoints=32 to 60 by
48、4 normal(L=1 w=2);histogram height/midpoints=50 to 160 by 4 normal(L=1 w=2);var weight height;run;proc univariate data=Hbs.bclass MU0=110 60;var weight height;Run;练习练习5 5:打开打开CLASSCLASS数据集,检验数据集,检验:H0:H0:1 1=110=110,对立假设,对立假设H1:H1:1 1110110。其中其中 1 1 表示表示WEIGHTWEIGHT的均值的均值(显著水平显著水平=0.05),使用使用t t检验时请验
49、证数据是否为正态数据。检验时请验证数据是否为正态数据。139两组比较两组比较-成对组均值的比较成对组均值的比较成对组均值的比较问题可化为单总体均值的 t 检验(n1=n2)两组比较两组比较-两独立样本均值的两独立样本均值的t 检验检验 141用用TTEST过程进行两独立组的过程进行两独立组的t检验检验PROC TTEST DATA=数据集数据集名名;VAR 变量名列变量名列;CLASS 变量名变量名;BY 变量名列变量名列;RUN;proc ttest data=dst.bclass alpha=0.1 ci=equal;/*ci=umpu|none */class sex;var weigh
50、t height;run;(Bstat62.sas)例例:proc ttest data=Hbs.bclass alpha=0.1 ci=equal;class sex;var weight height;run;练习练习6 6:打开:打开bCLASSbCLASS数据集,检验男女两组学数据集,检验男女两组学生的身高和体重是否有显著差异。生的身高和体重是否有显著差异。(1)(1)首先检验两组身高首先检验两组身高(或体重或体重)的分布是否的分布是否为正态分布。为正态分布。(2)(2)检验检验 H0:H0:(男男h)=h)=(女女h)h),H1:H1:(男男h)h)(女女h).h).(显著水平显著水