章SAS系统基本统计分析功能.pptx

上传人:莉*** 文档编号:88438450 上传时间:2023-04-26 格式:PPTX 页数:88 大小:1.68MB
返回 下载 相关 举报
章SAS系统基本统计分析功能.pptx_第1页
第1页 / 共88页
章SAS系统基本统计分析功能.pptx_第2页
第2页 / 共88页
点击查看更多>>
资源描述

《章SAS系统基本统计分析功能.pptx》由会员分享,可在线阅读,更多相关《章SAS系统基本统计分析功能.pptx(88页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、某学校在新生中随机抽出某学校在新生中随机抽出2525名学生做名学生做IQIQ测试,测试的平均成绩为测试,测试的平均成绩为120120分;若分;若新生的新生的IQIQ成绩服从正态分布,且其标准差为成绩服从正态分布,且其标准差为5 5分,在显著性水平为分,在显著性水平为0.050.05条件条件下,试建立下,试建立IQIQ平均成绩的置信区间。平均成绩的置信区间。datadata IQSCORE1IQSCORE1;n=n=2525;mean=;mean=120120;sigma=;sigma=5 5;alpha=;alpha=0.050.05;z=probit(z=probit(1 1-alpha/-

2、alpha/2 2););lc=mean-z*sigma/sqrt(n);lc=mean-z*sigma/sqrt(n);uc=mean+z*sigma/sqrt(n);uc=mean+z*sigma/sqrt(n);procproc printprint;runrun;例例4.14.1总体均值的区间估计总体均值的区间估计(给定显著性水平(给定显著性水平 )(标准正态分布左侧标准正态分布左侧p p分位数分位数)第1页/共88页例例4.24.2若例若例4.14.1中,新生总体中,新生总体IQIQ成绩的标准差未知,其样本标准差的计算结果为成绩的标准差未知,其样本标准差的计算结果为5 5分,在显著性

3、水平为分,在显著性水平为0.050.05条件下,试建立条件下,试建立IQIQ平均成绩的置信区间。平均成绩的置信区间。datadata IQSCORE2IQSCORE2;n=n=2525;mean=;mean=120120;s=;s=5 5;alpha=;alpha=0.050.05;t=tinv(t=tinv(1 1-alpha/-alpha/2 2),n-),n-1 1););lc=mean-t*s/sqrt(n);lc=mean-t*s/sqrt(n);uc=mean+t*s/sqrt(n);uc=mean+t*s/sqrt(n);procproc printprint;runrun;总体

4、均值的区间估计总体均值的区间估计(给定显著性水平(给定显著性水平 )(t(t分布的左侧分布的左侧p p分位数分位数)第2页/共88页总体方差的区间估计总体方差的区间估计(给定显著性水平(给定显著性水平 )某种零件的直径服从正态分布,随机抽出某种零件的直径服从正态分布,随机抽出100100个进行测量得到方差个进行测量得到方差 ,在显著性水平为在显著性水平为0.010.01条件下,试建立总体方差的置信区间。条件下,试建立总体方差的置信区间。例例4.34.3datadata E3E3;n=n=100100;s2=;s2=9 9;alpha=;alpha=0.010.01;chi1=cinv(alph

5、a/chi1=cinv(alpha/2 2,n-,n-1 1););chi2=cinv(chi2=cinv(1 1-alpha/-alpha/2 2),n-),n-1 1););lc=(n-lc=(n-1 1)*s2/chi2;uc=(n-)*s2/chi2;uc=(n-1 1)*s2/chi1;)*s2/chi1;procproc printprint;runrun;(卡方分布的左侧卡方分布的左侧p p分位数分位数)第3页/共88页对于正态分布总体,当已知样本的原始数据时,可以利用对于正态分布总体,当已知样本的原始数据时,可以利用CapabilityCapability过程过程的的Inter

6、valsIntervals语句语句计算总体均值和方差的置信区间,或者利用计算总体均值和方差的置信区间,或者利用MeansMeans过程过程的的CLMCLM统统计量计量计算总体均值计算总体均值9595的置信区间。的置信区间。proc means data=sunny.bclass mean var clm;var height weight;run;例例4.44.4输出结果输出结果:第4页/共88页INTERVALSINTERVALS语句的选项:语句的选项:MethodMethod=1|2|3|4|5|6 1|2|3|4|5|6 设定区间估计统计量(设定区间估计统计量(4 4为均值,为均值,6

7、6为标准差,为标准差,缺省则提供缺省则提供6 6种不同统计量的置信区间);种不同统计量的置信区间);AlphaAlpha=值值 设定显著性水平(缺省为设定显著性水平(缺省为 ););Type=lower|twosided|upper Type=lower|twosided|upper 设定估计类型(分别为置设定估计类型(分别为置 信下限、区间和上限,缺省为置信区间)。信下限、区间和上限,缺省为置信区间)。PROCPROC CAPABILITYCAPABILITY DATA=DATA=数据集;数据集;INTERVALSINTERVALS 变量名列变量名列/选项;选项;RUNRUN;CAPABIL

8、ITYCAPABILITY过程过程的一般形式:的一般形式:第5页/共88页procproc capability capability datadata=sunny.bclass=sunny.bclass noprintnoprint;intervalsintervals height weight/height weight/method=method=4 4,6 6 alpha=alpha=0.100.10;intervalsintervals height/height/method=method=4 4,6 6 type=type=lower;lower;runrun;例例4.54.5

9、第6页/共88页用用SAS/INSIGHTSAS/INSIGHT作置信区间作置信区间(调用方法:调用方法:Solutions Analysis Interactive Data Analysis Solutions Analysis Interactive Data Analysis)步骤步骤选定数据集选定数据集 Analyze DistributionAnalyze Distribution 选定分析变量选定分析变量 Output Output basic confidence intervalsbasic confidence intervals输出结果输出结果:第7页/共88页用用分析员

10、应用分析员应用作置信区间作置信区间(调用方法:调用方法:Solutions Analysis Analyst Solutions Analysis Analyst)步骤步骤选定数据集选定数据集 Statistics Hypothesis testsStatistics Hypothesis tests One-Sample t-test for a mean One-Sample t-test for a mean 选定分析变量选定分析变量 testtest intervalinterval输出结果输出结果:第8页/共88页4.1 参数估计4.2 假设检验4.3 相关分析4.4 回归分析第四章

11、 SAS系统的基本统计分析功能第9页/共88页假设检验指利用样本的实际观测资料来检验事先对总体某些数量特征所作的假指利用样本的实际观测资料来检验事先对总体某些数量特征所作的假设是否可信的统计分析方法。设是否可信的统计分析方法。(这里只讨论单变量检验问题)(这里只讨论单变量检验问题)正态性检验正态性检验用用编程编程作正态性检验作正态性检验在在PROC UNIVARIATEPROC UNIVARIATE语句中加上语句中加上NORMALNORMAL选项选项PROC PROC UNIVARIATE UNIVARIATE DATA=SUNNY.BCLASS NORMALDATA=SUNNY.BCLASS

12、 NORMAL;VAR VAR HEIGHTHEIGHT;RUN;RUN;例例4.54.5输出结果(部分)输出结果(部分)第10页/共88页步骤步骤选定数据集选定数据集 Analyze DistributionAnalyze Distribution 选定分析变量选定分析变量 Output Test For Normality.Output Test For Normality.步骤步骤选定数据集选定数据集 Statistics Descriptive DistributionsStatistics Descriptive Distributions 选定分析变量选定分析变量 Fit Fit

13、Normal.Normal.用用SAS/INSIGHTSAS/INSIGHT作正态性检验作正态性检验用用分析员应用分析员应用作正态性检验作正态性检验第11页/共88页两独立样本的均值检验两独立样本的均值检验用用编程编程作两独立样本的均值检验作两独立样本的均值检验设设 和和 分别是来自两个正态分布总体分别是来自两个正态分布总体 和和 的独立的独立样本,检验假设:样本,检验假设:PROCPROC TTESTTTEST DATA=DATA=数据集;数据集;CLASSCLASS分类变量名;分类变量名;VARVAR分析变量名列;分析变量名列;RUNRUN;TTESTTTEST过程过程的一般形式:的一般形

14、式:第12页/共88页proc ttest data=sunny.bclass;class sex;var height weight;run;例例4.64.6输出结果输出结果:第13页/共88页用用分析员应用分析员应用作两独立样本的均值检验作两独立样本的均值检验步骤步骤选定数据集选定数据集 Statistics Hypothesis testsStatistics Hypothesis tests Two-Sample t-test for means Two-Sample t-test for means 选定分析变量和分类变量选定分析变量和分类变量 OK.OK.(作均值检验前需先检验两样

15、本方差是否相等)(作均值检验前需先检验两样本方差是否相等)(SAS/INSIGHTSAS/INSIGHT未提供两独立样本均值检验的功能)未提供两独立样本均值检验的功能)输出结果输出结果?第14页/共88页检验两独立样本检验两独立样本的方差是否相等:的方差是否相等:选定数据集选定数据集 Statistics Hypothesis testsStatistics Hypothesis tests Two-Sample t-test for variances Two-Sample t-test for variances 选定分析变量和分类变量选定分析变量和分类变量 OK.OK.步骤步骤方差检验输

16、出结方差检验输出结果果第15页/共88页若样本呈若样本呈非正态分布非正态分布,则,则t t检验检验无效,可使用非参数检验中的无效,可使用非参数检验中的WilcoxonWilcoxon秩和秩和检验检验方法方法检验两独立样本的中心位置是否相同。检验两独立样本的中心位置是否相同。PROCPROC NPAR1WAY NPAR1WAY DATA=DATA=数据集数据集 WilcoxonWilcoxon;CLASSCLASS分类变量名;分类变量名;VARVAR分析变量名列;分析变量名列;RUNRUN;编程编程分析员分析员应用应用选定数据集选定数据集 Statistics ANOVAStatistics A

17、NOVA Nonparametric One-Way ANOVA Nonparametric One-Way ANOVA 选定分析变量选定分析变量 Tests Wilcoxon.Tests Wilcoxon.第16页/共88页procproc npar1waynpar1way datadata=sunny.bclass=sunny.bclass wilcoxonwilcoxon;classclass sex;sex;varvar age;age;runrun;例例4.64.6输出结果输出结果第17页/共88页配对样本的均值检验配对样本的均值检验设设 为第为第 个样本单位实验前后的对比测量值,且

18、个样本单位实验前后的对比测量值,且 ,为为 总体的均值,则检验假设:总体的均值,则检验假设:先构造每对观测值的差值变量,然后利用先构造每对观测值的差值变量,然后利用MEANMEAN或或UNIVARIATEUNIVARIATE过程检验该过程检验该变量均值是否为零变量均值是否为零.编程编程分析员分析员应用应用选定数据集选定数据集 Statistics Hypothesis testsStatistics Hypothesis tests Two-Sample paired t-test for means Two-Sample paired t-test for means 选定分析变量选定分析变

19、量 OK.OK.第18页/共88页datadata tempulse;tempulse;setset sunny.pulse;sunny.pulse;d=pre-postd=pre-post;runrun;procproc meansmeans mean stderr prtmean stderr prt maxdecmaxdec=4 4;var dvar d;runrun;输出结果输出结果例例4.74.7数据集数据集PULSEPULSE是对是对1515个试验者服用某种减缓心跳药物前后每分钟心跳次数所个试验者服用某种减缓心跳药物前后每分钟心跳次数所作的记录(作的记录(PREPRE为服药前,为服

20、药前,POSTPOST为服药后),考察该种药物的疗效。为服药后),考察该种药物的疗效。第19页/共88页datadata tempulse;tempulse;setset sunny.pulse;sunny.pulse;d=pre-postd=pre-post;runrun;procproc univariateunivariate;var dvar d;runrun;例例4.84.8输出结果输出结果(部分部分)第20页/共88页4.1 参数估计4.2 假设检验4.3 相关分析4.4 回归分析第四章 SAS系统的基本统计分析功能第21页/共88页相关关系相关关系指客观现象间确实存在,但数量上不

21、是严格对应的依存关系指客观现象间确实存在,但数量上不是严格对应的依存关系.在在直线相关直线相关条件下,用以反映条件下,用以反映两变量两变量间间线性相关线性相关密切程度的统密切程度的统计指标计指标.相关系数相关系数正态分布等间隔测度的变量正态分布等间隔测度的变量X X与与Y Y之间的相关关系,可用之间的相关关系,可用皮尔逊皮尔逊(PearsonPearson)相关系数相关系数来测算,即:来测算,即:第22页/共88页有序变量或不满足正态分布假设的变量有序变量或不满足正态分布假设的变量X X与与Y Y之间的相关关系,可用之间的相关关系,可用斯皮尔曼斯皮尔曼(SpearmanSpearman)等级相

22、关系数等级相关系数来测算,即:来测算,即:式中,分别为变量 秩次,分别为 的平均。第23页/共88页相关系数的计算相关系数的计算编程编程PROCPROC CORR CORR DATA=DATA=数据集数据集 OPTIONSOPTIONS;VAR VAR 变量名列;变量名列;WITH WITH 变量名列;变量名列;PARTIAL PARTIAL 变量名列;变量名列;RUNRUN;CORRCORR过程过程的一般形式:的一般形式:语句说明:语句说明:WITHWITH语句语句用来指定与用来指定与VARVAR语句语句配对的变量名,即计算配对的变量名,即计算WITHWITH指定变量与指定变量与VARVAR

23、指定指定变量间的相关系数;变量间的相关系数;PARTIALPARTIAL语句用来计算指定变量的偏相关系数。语句用来计算指定变量的偏相关系数。第24页/共88页常用常用选项选项有有:PEARSONPEARSON 计算皮尔逊相关系数(缺省值);计算皮尔逊相关系数(缺省值);SPEARMAN SPEARMAN 计算斯皮尔曼等级相关系数;计算斯皮尔曼等级相关系数;NOSIMPLE NOSIMPLE 不打印输出各变量的描述性统计量;不打印输出各变量的描述性统计量;NOPROB NOPROB 省略检验统计量省略检验统计量p-p-值;值;COV(COVARIANCE)COV(COVARIANCE)打印协方差

24、矩阵;打印协方差矩阵;NOCCORRNOCCORR 储存时省略相关系数;储存时省略相关系数;OUTP=OUTP=指定皮尔逊相关系数存储的数据集;指定皮尔逊相关系数存储的数据集;OUTS=OUTS=指定斯皮尔曼相关系数存储的数据集。指定斯皮尔曼相关系数存储的数据集。第25页/共88页数据集数据集SUNNY.CARSSUNNY.CARS是关于不同类型汽车的价格和性能的数据资料,各变量含义如下:是关于不同类型汽车的价格和性能的数据资料,各变量含义如下:MANUFACMANUFAC(制造商制造商)、MODEL MODEL(型号型号)、MIDPRICE MIDPRICE(中间价中间价)、CITYMPG

25、CITYMPG(市内每加仑油市内每加仑油平均行驶哩数平均行驶哩数)、HWYMPGHWYMPG (高速公路每加仑油平均行驶哩数高速公路每加仑油平均行驶哩数)、CYLINDERCYLINDER (汽缸数汽缸数)、EGNSIZEEGNSIZE (配置引擎容量配置引擎容量:升升)、RPM RPM(达到最大功率时每分钟转数达到最大功率时每分钟转数)、REVLTNSREVLTNS (最最高速行驶一哩时引擎转数高速行驶一哩时引擎转数)、FUELTNKFUELTNK (储油箱容量:加仑储油箱容量:加仑)、PERFORMPERFORM (使用效率:使用效率:功率与车重之比功率与车重之比)。例例4.94.9第26

26、页/共88页输出结果输出结果procproc corrcorr datadata=sunny.cars=sunny.cars nosimplenosimple noprobnoprob;varvar midprice citympg hwympg midprice citympg hwympg cylinder egnsize;cylinder egnsize;withwith rpm perform;rpm perform;runrun;第27页/共88页相关系数的计算相关系数的计算步骤步骤SAS/INSIGHTSAS/INSIGHT方式方式选定数据集选定数据集AnalyzeAnalyzeR

27、otating Plot(Z Y X)Rotating Plot(Z Y X)Scatter Plot(Y X)Scatter Plot(Y X)Multivariate(Y X)Multivariate(Y X)(制作散点图或散点图阵)(制作散点图或散点图阵)(建立旋转图)(建立旋转图)(计算相关系数)(计算相关系数)分析员应用分析员应用方式方式选定数据集选定数据集 Statistics DescriptiveStatistics DescriptiveCorrelationsCorrelations 选定分析变量选定分析变量 OK.OK.步骤步骤第28页/共88页4.1 参数估计4.2 假

28、设检验4.3 相关分析4.4 回归分析第四章 SAS系统的基本统计分析功能第29页/共88页4.4 回归分析4.4.1 回归分析概述4.4.2 线性回归及其实现4.4.3 非线性回归及其实现4.4.4 回归诊断第30页/共88页回归分析回归分析指根据相关关系的数量表达式(回归方程式)与给定的指根据相关关系的数量表达式(回归方程式)与给定的自变自变量量x x,揭示,揭示因变量因变量y y在数量上的平均变化和求得因变量的预测在数量上的平均变化和求得因变量的预测值的统计分析方法值的统计分析方法现象之间的相互联系,在许多情况下表现为一定的因果关系,将这些现象数量化则成为变量:其中一个或若干个起着影响作

29、用的变量称为其中一个或若干个起着影响作用的变量称为自变量,通常,通常用用X表示,它是引起另一现象变化的原因,是可以控制、给定的值;表示,它是引起另一现象变化的原因,是可以控制、给定的值;而受自变而受自变量影响的变量称为量影响的变量称为因变量,通常用,通常用Y表示,它是自变量变化的结果,是不确定表示,它是自变量变化的结果,是不确定的值。的值。第31页/共88页常用常用常用常用SASSASSASSAS过程过程过程过程回归类型回归类型回归类型回归类型资料类型资料类型资料类型资料类型因变量因变量因变量因变量自变量自变量自变量自变量REGREGREGREG线性回归线性回归线性回归线性回归数值变量数值变量

30、数值变量数值变量数值变量数值变量数值变量数值变量GLMGLMGLMGLM协方差模型协方差模型协方差模型协方差模型一般线性模型一般线性模型一般线性模型一般线性模型数值变量数值变量数值变量数值变量数值变量数值变量数值变量数值变量分类变量分类变量分类变量分类变量LOGISTICLOGISTICLOGISTICLOGISTICLogisticLogisticLogisticLogistic回归回归回归回归分类变量分类变量分类变量分类变量数值变量数值变量数值变量数值变量分类变量分类变量分类变量分类变量CATMODCATMODCATMODCATMODLogisticLogisticLogisticLogi

31、stic回归回归回归回归PoissonPoissonPoissonPoisson回归回归回归回归分类变量分类变量分类变量分类变量数值变量数值变量数值变量数值变量分类变量分类变量分类变量分类变量NLINNLINNLINNLIN非线性回归非线性回归非线性回归非线性回归数值变量数值变量数值变量数值变量数值变量数值变量数值变量数值变量各类回归分析的各类回归分析的SASSAS过程过程及对资料的要求及对资料的要求第32页/共88页4.4 回归分析4.4.1 回归分析概述4.4.2 线性回归及其实现4.4.3 非线性回归及其实现4.4.4 回归诊断第33页/共88页线性回归分析线性回归分析式中:式中:分别为

32、因变量和自变量的第分别为因变量和自变量的第 次观测值;次观测值;为待估参数;为待估参数;为残差(假设满足相互独立、正态分布、零均值、同方差)。为残差(假设满足相互独立、正态分布、零均值、同方差)。一元线性回归模型:一元线性回归模型:利用最小二乘法利用最小二乘法(LSELSE)估计未知参数估计未知参数 ,有:,有:即回归趋势方程为:即回归趋势方程为:第34页/共88页qq只有通过统计检验的回归方程才可以用来解释只有通过统计检验的回归方程才可以用来解释 之间的关系,并根之间的关系,并根据据 的取值对相应的的取值对相应的 进行预测;进行预测;qq检验回归方程拟合程度的统计量及参数主要有:检验回归方程

33、拟合程度的统计量及参数主要有:用来检验回归系数显用来检验回归系数显著性的著性的 值及其概率值及其概率 和标准差,用来检验回归方程整体拟合优度及显著性的和标准差,用来检验回归方程整体拟合优度及显著性的 值及其值及其概率概率 、判定系数、判定系数 、标准差、标准差 、自由度、自由度 等。等。线性回归分析线性回归分析第35页/共88页点预测点预测线性回归分析线性回归分析单个预测值的置信区间单个预测值的置信区间(CLICLI)预测值均值(回归均值)的置信区间预测值均值(回归均值)的置信区间(CLM)(CLM)预测预测(已知(已知 预测预测 )第36页/共88页线性回归分析线性回归分析则多元线性回归模型

34、为:则多元线性回归模型为:记记利用最小二乘法(利用最小二乘法(LSELSE)估计未知参数)估计未知参数 ,有:,有:第37页/共88页qq为消除自变量个数及样本容量的大小对判定系数的影响,需使用为消除自变量个数及样本容量的大小对判定系数的影响,需使用调整调整后的判定系数后的判定系数 来反映自变量对因变量的解释程度;来反映自变量对因变量的解释程度;qq在回归方程中,若遗漏了应加入的变量,将使所有的回归系数估计量在回归方程中,若遗漏了应加入的变量,将使所有的回归系数估计量产生偏差,若加入了不该加入的变量,又将加大所有回归系数估计量的产生偏差,若加入了不该加入的变量,又将加大所有回归系数估计量的方差

35、,所以建立多元回归模型需要进行方差,所以建立多元回归模型需要进行变量选择变量选择,即在所有独立变量中,即在所有独立变量中找出合适的子集,用以描述模型和进行预报。找出合适的子集,用以描述模型和进行预报。建立多元线性回归模型应注意的问题:建立多元线性回归模型应注意的问题:第38页/共88页线性回归分析线性回归分析变量选择准则变量选择准则主要有主要有None None 全部进入,不加选择全部进入,不加选择Forward Forward 顺向选择法(逐个加入)顺向选择法(逐个加入)Backward Backward 反向淘汰法(全部加入后逐个剔除)反向淘汰法(全部加入后逐个剔除)Stepwise St

36、epwise 逐步排除法(边进边出)逐步排除法(边进边出)cp cp CpCp法(选最先满足法(选最先满足 的模型)的模型)Rsquare Rsquare 复相关系数平方法(对不同个数自变量复相关系数平方法(对不同个数自变量 分别选择分别选择 最大的模型)最大的模型)Adjrsq Adjrsq 调整后的复相关系数平方法调整后的复相关系数平方法(选择选择 最最 大的模型大的模型)第39页/共88页点预测点预测线性回归分析线性回归分析单个预测值的置信区间单个预测值的置信区间(CLICLI)预测预测(已知(已知 ,预测预测 )预测值均值(回归均值)的置信区间预测值均值(回归均值)的置信区间(CLM)

37、(CLM)第40页/共88页PROCPROC REG REG DATA=DATA=OPTIONSOPTIONS;VAR VAR 变量名列;变量名列;BY BY 变量名列;变量名列;FREQ FREQ 变量名列;变量名列;MODELMODEL 因变量因变量=自变量自变量/OPTIONSOPTIONS;OUTPUT OUTPUT OUT=OUT=关键字关键字=;RUNRUN;REG过程的一般形式:REGREG过程过程可以计算回归函数的各种参数、显著性检验、方差分析、置信区可以计算回归函数的各种参数、显著性检验、方差分析、置信区间、残差分析等。间、残差分析等。线性回归分析线性回归分析第41页/共88

38、页PROC REGPROC REG过程的常用过程的常用选项选项有:有:SIMPLE SIMPLE 计算并打印各变量的基本描述性统计量;计算并打印各变量的基本描述性统计量;SXORR SXORR 打印各变量的相关行列式;打印各变量的相关行列式;NOPRINTNOPRINT 不打印输出;不打印输出;OUTEST=OUTEST=数据集名数据集名 指定回归值输出的数据集;指定回归值输出的数据集;COVOUT=COVOUT=数据集名数据集名 将所估计的协方差阵存入数据集;将所估计的协方差阵存入数据集;OUTSSCP=OUTSSCP=数据集名数据集名 指定相关矩阵输出的数据集。指定相关矩阵输出的数据集。线

39、性回归分析线性回归分析第42页/共88页MODELMODEL语句常用语句常用选项选项有:有:NOPRINTNOPRINT 不打印不打印MODELMODEL语句所界定的分析结果;语句所界定的分析结果;ALL ALL 打印打印MODELMODEL语句所有分析结果。语句所有分析结果。1.1.关于报表打印的选项:关于报表打印的选项:MODELMODEL语句语句用来设定回归模型中因变量、自变量及有关回归计算、估计、预测值和用来设定回归模型中因变量、自变量及有关回归计算、估计、预测值和残差等内容。残差等内容。2.2.界定参数估计值的选项:界定参数估计值的选项:STBSTB 打印标准化回归系数;打印标准化回

40、归系数;COVBCOVB 输出估计值的协方差阵;输出估计值的协方差阵;VIF VIF 输出方差膨胀因子;输出方差膨胀因子;COLLIN COLLIN 进行多元共线性分析;进行多元共线性分析;第43页/共88页3.3.关于预测值、预测误差的选项:关于预测值、预测误差的选项:P P 计算每一个观测值计算每一个观测值y y的期望值及其标准误;的期望值及其标准误;R R 在在P P选项选项的基础上对预测误差做进一步分析;的基础上对预测误差做进一步分析;CLI CLI 输出单个预测值输出单个预测值9595的置信区间;的置信区间;CLMCLM 输出预测值均值输出预测值均值9595的置信区间;的置信区间;I

41、NFLUENCE INFLUENCE 分析观测值对参数估计和模型预测值的分析观测值对参数估计和模型预测值的 影响。影响。4.4.关于界定回归模型的选项:关于界定回归模型的选项:SELECTION=SELECTION=nonenone|forwardforward|backwardbackward|stepwisestepwise|cpcp|rsquarersquare|adjrsq adjrsq 指定自动进指定自动进行变量选择的方法;行变量选择的方法;NOINTNOINT 规定回归模型中不包含截距项规定回归模型中不包含截距项.MODELMODEL语句常用语句常用选项选项有:有:第44页/共88

42、页回归线的作图回归线的作图使用REG过程在在PROC REGPROC REG语句语句中加入中加入GRAPHICSGRAPHICS选项选项,再利用,再利用PLOTPLOT语句语句指明作图的纵指明作图的纵轴变量和横轴变量轴变量和横轴变量使用GPLOT过程PROCPROC GPLOTGPLOT DATA=DATA=数据集数据集 ;PLOT PLOT 纵轴变量名纵轴变量名*横轴变量名;横轴变量名;SYMBOLSYMBOL V=V=符号符号 C=C=颜色颜色 I=none|rl|rq|rcI=none|rl|rq|rc 其他选项其他选项;RUNRUN;散点间不连线散点间不连线线性回归线性回归 三次回归三

43、次回归二次回归线二次回归线第45页/共88页procproc regreg datadata=sunny.bclass;=sunny.bclass;modelmodel weight=height/weight=height/CLMCLM;runrun;procproc gplotgplot datadata=sunny.bclass;=sunny.bclass;plotplot weight*height;weight*height;symbolsymbol v=star h=0.7 i=rl v=star h=0.7 i=rl c=orange ci=blue w=2;c=orange c

44、i=blue w=2;runrun;例例4.104.10根据数据集根据数据集sunny.bclasssunny.bclass,建立,建立weightweight对对heightheight的简单线性回归模型并绘出的简单线性回归模型并绘出回归拟合线,同时给出回归均值回归拟合线,同时给出回归均值9595 的置信区间。的置信区间。第46页/共88页DataData new;new;inputinput height;height;cardscards;170 173 174 175 170 173 174 175 ;proc sortproc sort datadata=sunny.bclass=s

45、unny.bclass outout=sorted;=sorted;byby height;height;DataData new;new;SetSet sorted new;sorted new;proc regproc reg datadata=new;=new;modelmodel weight=height/weight=height/p p;idid height;height;runrun;例例4.114.11若若4 4名同学的身高分别为名同学的身高分别为170,173,174170,173,174和和175175厘米厘米,根据上例所建立的回归模根据上例所建立的回归模型预测他们的体

46、重。型预测他们的体重。第47页/共88页例例4.124.12根据数据集根据数据集sunny.carssunny.cars,建立,建立midpricemidprice对变量对变量citympgcitympg,hwympghwympg,cylindercylinder,egnsizeegnsize,rpmrpm,revltnsrevltns,fueltnkfueltnk及及performperform的回归分析模型的回归分析模型(采用逐步(采用逐步排除法自动选择自变量)排除法自动选择自变量)。procproc regreg datadata=sunny.cars;=sunny.cars;model

47、model midpricemidprice=citympg hwympg cylindercitympg hwympg cylinder egnsize rpm revltns fueltnk egnsize rpm revltns fueltnk perform perform/selection=stepwise/selection=stepwise;runrun;第48页/共88页例例4.134.13同前例要求,建立回归分析模型同前例要求,建立回归分析模型(直接建立直接建立)。proc regproc reg datadata=sunny.cars;=sunny.cars;modelm

48、odel midprice=citympg hwympg cylinder midprice=citympg hwympg cylinder egnsize rpm revltns fueltnk perform;egnsize rpm revltns fueltnk perform;runrun;/*/*delete delete citympg hwympg fueltnk perform;citympg hwympg fueltnk perform;print print;runrun;*/*/选择自变量的方法不同,可能会导致进入模型的自变量也不同。选择自变量的方法不同,可能会导致进入模

49、型的自变量也不同。注意:注意:REGREG过程具有连续交互性,执行了部分语过程具有连续交互性,执行了部分语句后,仍可继续提交语句让它执行,直句后,仍可继续提交语句让它执行,直至提交至提交quitquit语句或因执行其它过程而终语句或因执行其它过程而终止止.第49页/共88页SAS/INSIGHTSAS/INSIGHT方式方式分析员应用分析员应用方式方式线性回归分析线性回归分析选定数据集选定数据集 Analyze Analyze fit(YX)fit(YX)选分析变量选分析变量 利用利用OutputOutput和和MethodMethod菜单项选择统计量菜单项选择统计量.选定数据集选定数据集 S

50、tatistics RegressionStatistics Regression Simple Simple linear linear Logistic Logistic(简单线性回归)(简单线性回归)(多元)(多元)线性回归)线性回归)(LogisticLogistic线性回归)线性回归)第50页/共88页4.4 回归分析4.4.1 回归分析概述4.4.2 线性回归及其实现4.4.3 非线性回归及其实现4.4.4 回归诊断第51页/共88页非线性回归分析非线性回归分析qq当两变量呈非线性关系时,可对变量作变换后再作线性回归分析,也可以利当两变量呈非线性关系时,可对变量作变换后再作线性回归

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > PPT文档

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁