SAS应用基础6-2-相关分析课件.ppt

上传人:可**** 文档编号:91510494 上传时间:2023-05-27 格式:PPT 页数:40 大小:1.95MB
返回 下载 相关 举报
SAS应用基础6-2-相关分析课件.ppt_第1页
第1页 / 共40页
SAS应用基础6-2-相关分析课件.ppt_第2页
第2页 / 共40页
点击查看更多>>
资源描述

《SAS应用基础6-2-相关分析课件.ppt》由会员分享,可在线阅读,更多相关《SAS应用基础6-2-相关分析课件.ppt(40页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、相关分析是讨论分析变量之间是否有明显相关关系的相关分析是讨论分析变量之间是否有明显相关关系的相关分析是讨论分析变量之间是否有明显相关关系的相关分析是讨论分析变量之间是否有明显相关关系的重要工具,主要用于测定两变量在数量关系上的密重要工具,主要用于测定两变量在数量关系上的密重要工具,主要用于测定两变量在数量关系上的密重要工具,主要用于测定两变量在数量关系上的密切程度和性质。切程度和性质。切程度和性质。切程度和性质。相关关系是指在一定范围内相关关系是指在一定范围内相关关系是指在一定范围内相关关系是指在一定范围内,一个变量任一取值一个变量任一取值一个变量任一取值一个变量任一取值xi,xi,虽然虽然虽

2、然虽然没有另一变量的某个确定值没有另一变量的某个确定值没有另一变量的某个确定值没有另一变量的某个确定值yiyi与之对应与之对应与之对应与之对应,但却有一个但却有一个但却有一个但却有一个特定的特定的特定的特定的yiyi的条件概率分布与之对应的条件概率分布与之对应的条件概率分布与之对应的条件概率分布与之对应,只要有这种关系只要有这种关系只要有这种关系只要有这种关系存在存在存在存在,我们就称变量我们就称变量我们就称变量我们就称变量x,yx,y有相关关系。有相关关系。有相关关系。有相关关系。相关模型中相关模型中相关模型中相关模型中,没有自变量与依变量的区别没有自变量与依变量的区别没有自变量与依变量的区

3、别没有自变量与依变量的区别,不具有预测不具有预测不具有预测不具有预测特性特性特性特性,仅表示两变量的偕同变异。仅表示两变量的偕同变异。仅表示两变量的偕同变异。仅表示两变量的偕同变异。SASSAS系统的系统的系统的系统的CORRCORR过程能计算变量间的相关系数过程能计算变量间的相关系数过程能计算变量间的相关系数过程能计算变量间的相关系数,包括包括包括包括Pearson,Spearman,Hoeffding,KendallPearson,Spearman,Hoeffding,Kendall等相关系数及等相关系数及等相关系数及等相关系数及其他统计量。其他统计量。其他统计量。其他统计量。1三种相关系

4、数Pearson相关系数:线性相关系数。它一般用字母r表示.Kendall相关系数:把所有的样本点配对,看每一对中的x和y是否都增加来判断总体模式.Spearman秩相关系数:把点的坐标换成各自样本的秩.2CORR 过程一般格式:一般格式:一般格式:一般格式:PROC CORR DATA=PROC CORR DATA=数据集名称数据集名称数据集名称数据集名称 选项选项选项选项;VAR VAR 变量表;变量表;变量表;变量表;/*/*列出相关矩阵上部出现的变量列出相关矩阵上部出现的变量列出相关矩阵上部出现的变量列出相关矩阵上部出现的变量*/*/WITHWITH变量表变量表变量表变量表;/*;/*

5、列出相关矩阵左侧出现的变量列出相关矩阵左侧出现的变量列出相关矩阵左侧出现的变量列出相关矩阵左侧出现的变量*/*/PARTIAL PARTIAL 变量表变量表变量表变量表;/*;/*指明求偏相关时受控制的变量指明求偏相关时受控制的变量指明求偏相关时受控制的变量指明求偏相关时受控制的变量*/*/WEIGHT WEIGHT 变量变量变量变量;FREQ FREQ 变量变量变量变量;BY BY 变量变量变量变量;RUN;RUN;注意:在注意:在注意:在注意:在SASSAS分析家中分析家中分析家中分析家中Descriptive-CorrelationsDescriptive-Correlations选选选

6、选项下项下项下项下,可交互式的完成可交互式的完成可交互式的完成可交互式的完成corrcorr过程。过程。过程。过程。3CORR 过程示例例:利用例:利用例:利用例:利用SCORE SCORE 数据集计算语文成绩与英语成绩的相数据集计算语文成绩与英语成绩的相数据集计算语文成绩与英语成绩的相数据集计算语文成绩与英语成绩的相关关系。程序如下:关关系。程序如下:关关系。程序如下:关关系。程序如下:proc corr data=sasuser.score;proc corr data=sasuser.score;var chinese english;var chinese english;run;ru

7、n;结果可以分为结果可以分为结果可以分为结果可以分为2 2 个部分个部分个部分个部分,第第第第1 1 部分是简单统计量部分是简单统计量部分是简单统计量部分是简单统计量,第第第第2 2 部部部部分是相关系数及其分是相关系数及其分是相关系数及其分是相关系数及其P P 值。相关系数以矩阵的形式给出值。相关系数以矩阵的形式给出值。相关系数以矩阵的形式给出值。相关系数以矩阵的形式给出,变量与自身的相关系数当然为一变量与自身的相关系数当然为一变量与自身的相关系数当然为一变量与自身的相关系数当然为一,不为不为不为不为1 1 的地方的地方的地方的地方,上面上面上面上面的值是相关系数的值是相关系数的值是相关系数

8、的值是相关系数,下面的是下面的是下面的是下面的是P P 值。例如语文成绩与英值。例如语文成绩与英值。例如语文成绩与英值。例如语文成绩与英语成绩的相关系数为语成绩的相关系数为语成绩的相关系数为语成绩的相关系数为0.72379,0.72379,相关系数为相关系数为相关系数为相关系数为0 0 的概率值的概率值的概率值的概率值为为为为0.00150.0015。4示例的SAS程序data iq;data iq;input no math chinese IQ input no math chinese IQ;cards;cards;1 78 83 951 78 83 952 84 76 1002 84

9、76 1003 61 70 1003 61 70 1004 52 58 754 52 58 755 93 82 1055 93 82 1056 89 78 976 89 78 977 98 89 1107 98 89 1108 98 95 1208 98 95 1209 65 61 769 65 61 7610 73 75 9210 73 75 9211 48 53 6111 48 53 6112 45 43 6012 45 43 6013 67 70 8813 67 70 8814 75 78 9614 75 78 9615 95 97 12515 95 97 12516 88 92 113

10、16 88 92 11317 99 92 12517 99 92 12518 81 88 10218 81 88 102run;run;symbol1 v=dot cv=red h=1;symbol1 v=dot cv=red h=1;symbol2 v=star cv=green h=2;symbol2 v=star cv=green h=2;proc gplot;proc gplot;plot chinese*IQ=1plot chinese*IQ=1math*IQ=2/overlay;math*IQ=2/overlay;run;run;proc corr pearson kendall

11、proc corr pearson kendall spearman;spearman;var math chinese IQ;var math chinese IQ;run;run;6三种相关系数的说明分析变量中两两之间的简单相关分析,用corr过程;当两变量都服从正态分布时,计算pearson相关系数;当变量不服从正态分布或为等级数据时,应采用Kendall或Spearman相关系数;Spearman相关可用于双向有序分类变量之间是否有关联的分析,也称为秩相关。7偏相关去除第三个变量对两变量之间相关的影响去除第三个变量对两变量之间相关的影响proc corr nosimple;proc c

12、orr nosimple;var chinese;var chinese;with math;with math;run;run;proc corr nosimple;proc corr nosimple;var math chinese;var math chinese;partial IQ;partial IQ;run;run;8一元线性回归模型1 1:收集数据:收集数据:收集数据:收集数据:n n个样本点个样本点个样本点个样本点(x(x1 1,y,y1 1),(x),(x2 2,y,y2 2),(x),(xn n,y,y n n).即即即即(x(x i i,y ,y i i),i=1,2

13、,n.),i=1,2,n.2 2:散点图:散点图:散点图:散点图scatterscatter:3 3:观察散点图:观察散点图:观察散点图:观察散点图,变量变量变量变量x,yx,yx,yx,y具有明显具有明显具有明显具有明显的线性关系。故的线性关系。故的线性关系。故的线性关系。故经过这些样本点经过这些样本点经过这些样本点经过这些样本点画一条画一条画一条画一条适当的适当的适当的适当的直直直直线。线。线。线。10一元线性回归的概念与术语y=y=0 0+1 1x+x+Y Y称为被解释变量,称为被解释变量,称为被解释变量,称为被解释变量,x x称为解释变量称为解释变量称为解释变量称为解释变量 表示除表示

14、除表示除表示除x x外,影响外,影响外,影响外,影响y y的其他一切因素的其他一切因素的其他一切因素的其他一切因素.(error,disturbanceerror,disturbance)是不可观测的,称为随机误差)是不可观测的,称为随机误差)是不可观测的,称为随机误差)是不可观测的,称为随机误差项或随机干扰项项或随机干扰项项或随机干扰项项或随机干扰项y y与与与与x x之间的关系用两部分来描述之间的关系用两部分来描述之间的关系用两部分来描述之间的关系用两部分来描述:a.a.一部分一部分一部分一部分 0 0+1 1x x,由由由由x x的变化引起的变化引起的变化引起的变化引起y y变化变化变化

15、变化b.b.另一部分另一部分另一部分另一部分,由除由除由除由除x x外的其他一切因素引起外的其他一切因素引起外的其他一切因素引起外的其他一切因素引起y y变化变化变化变化 1 1称为回归系数称为回归系数称为回归系数称为回归系数(slope)(slope)0 0 称为回归常数(称为回归常数(称为回归常数(称为回归常数(interceptintercept)11示例的散点图13最小二乘法名称的由来样本点最靠近回归直线样本点最靠近回归直线,就是使离差平方和最就是使离差平方和最小。小。所谓的最小二乘法,就是寻找参数所谓的最小二乘法,就是寻找参数 0,1的估的估计值,使定义的离差平方和达到极小计值,使定

16、义的离差平方和达到极小15最小二乘估计公式的推导利用二元微积分求极值的知识知:利用二元微积分求极值的知识知:0、1 作为作为极值问题解的必要条件是:在极值问题解的必要条件是:在 0、1取值时,取值时,Q(0,1)关于关于 0,1的偏导数必须为的偏导数必须为0:以上方程组称为以上方程组称为first order conditions(FOC)16REG 过程最常用的回归过程是最常用的回归过程是REG 过程过程,它的使用方法是它的使用方法是:PROC REG DATA=输入数据集输入数据集 选项选项;VAR 变量列表变量列表;MODEL 因变量自变量列表因变量自变量列表;PRINT 输出结果输出结

17、果;PLOT 诊断图形诊断图形;RUN;18Reg示例对数据集对数据集对数据集对数据集stockstock分析股价分析股价分析股价分析股价priceprice与每股收益与每股收益与每股收益与每股收益epseps、流通量、流通量、流通量、流通量scalescale的线性关系。调用的线性关系。调用的线性关系。调用的线性关系。调用REG REG 过程:过程:过程:过程:proc reg data=stock;proc reg data=stock;var eps scale price;var eps scale price;model price=eps scale;model price=eps

18、 scale;run;run;Root MSERoot MSE:残差标准差,反映回归方程的精度,其值:残差标准差,反映回归方程的精度,其值越小说明回归效果越好;越小说明回归效果越好;R-squareR-square:说明所有自变量能解释:说明所有自变量能解释Y Y变化的百分比,其变化的百分比,其值越接近值越接近1 1,说明模型越好。,说明模型越好。19Reg示例的结果20分析结果解释回归的结果在最后一部分回归的结果在最后一部分,第第1 行是常数项行是常数项,也叫也叫做截距项做截距项,估计值为估计值为16.09763,P值为值为0.0001。第第2 行是某股收益行是某股收益eps 的系数的系数,

19、估计值为估计值为18.30654,P值为值为0.1465。第第3行是流通盘行是流通盘scale 的系数的系数,估计值为估计值为-0.00050472,P 值为值为0.0001。因为因为eps 的的P 值大于值大于0.05,所以不能拒绝零假设所以不能拒绝零假设,即即eps 变量的作用是不显著的。为了得到更好变量的作用是不显著的。为了得到更好的拟和结果的拟和结果,应当去掉应当去掉eps 变量重新进行回归。变量重新进行回归。21Reg的补充说明实际上实际上,REG 过程中提供了自动选择最优自变量过程中提供了自动选择最优自变量的选项。在的选项。在MODEL 语句中加上语句中加上SELECTION=优化

20、方法优化方法 就可以自动挑选变量就可以自动挑选变量,可供选择的优化方法有可供选择的优化方法有 NONE(全用全用)、FORWARD(前进法前进法,逐步引入法逐步引入法)、BACKWARD(后退法后退法,逐步消去法逐步消去法)、STEPWISE(逐步法逐步法,智能消除法智能消除法)等等。如果等等。如果对上面的问题使用对上面的问题使用STEPWISE 方法方法proc reg data=sasuser.stock;var scale price eps;model price=scale eps/selection=stepwise;run;22NLIN 过程非线性回归非线性回归(NLIN)也是一

21、种重要的回归方法。也是一种重要的回归方法。所谓非线性回归所谓非线性回归,就是指因变量的表达式是非就是指因变量的表达式是非线性的。可以用非线性回归过程对上面的问题线性的。可以用非线性回归过程对上面的问题进行回归。由于非线性回归的模型比较复杂进行回归。由于非线性回归的模型比较复杂,为了估计系数而需要进行的计算量也很大为了估计系数而需要进行的计算量也很大,所所以在过程中需要指明模型的表达式并且给定系以在过程中需要指明模型的表达式并且给定系数的初值。数的初值。24NLIN 过程示例例例例例:对数据集对数据集对数据集对数据集stock,stock,利用非线性回归过程进行回归分析。利用非线性回归过程进行回

22、归分析。利用非线性回归过程进行回归分析。利用非线性回归过程进行回归分析。首先假设模型为首先假设模型为首先假设模型为首先假设模型为:price=b0*eps+b1*scale+b2*eps*scale+b3price=b0*eps+b1*scale+b2*eps*scale+b3设定参数设定参数设定参数设定参数b0 b1 b2 b3 b0 b1 b2 b3 的初值分别为的初值分别为的初值分别为的初值分别为1 1 1 10 1 1 1 10 然后编辑过程如下然后编辑过程如下然后编辑过程如下然后编辑过程如下:proc nlin data=sasuser.stock;proc nlin data=sa

23、suser.stock;model price=b0*eps+b1*scale+b2*eps*scale+b3;model price=b0*eps+b1*scale+b2*eps*scale+b3;parameters b0=1 b1=1 b2=1 b3=10;parameters b0=1 b1=1 b2=1 b3=10;run;run;25计算结果输出表计算结果包括计算结果包括计算结果包括计算结果包括5 5 个表格个表格个表格个表格,它们的含义如下:它们的含义如下:它们的含义如下:它们的含义如下:Iterative PhaseIterative Phase:主要介绍计算中的迭代情况:主要

24、介绍计算中的迭代情况:主要介绍计算中的迭代情况:主要介绍计算中的迭代情况,给出了给出了给出了给出了迭代序号以及每次迭代中的系数值。在此例中一共迭代序号以及每次迭代中的系数值。在此例中一共迭代序号以及每次迭代中的系数值。在此例中一共迭代序号以及每次迭代中的系数值。在此例中一共只迭代了两次。只迭代了两次。只迭代了两次。只迭代了两次。Estimation SummaryEstimation Summary:回归过程的总结:回归过程的总结:回归过程的总结:回归过程的总结,使用了什么使用了什么使用了什么使用了什么方法方法方法方法,哪些数据。哪些数据。哪些数据。哪些数据。方差分析表:介绍各部分方差的来源方

25、差分析表:介绍各部分方差的来源方差分析表:介绍各部分方差的来源方差分析表:介绍各部分方差的来源,给出回归模型给出回归模型给出回归模型给出回归模型的的的的P P 值值值值,可以检验回归出的模型是否有效。在此例子可以检验回归出的模型是否有效。在此例子可以检验回归出的模型是否有效。在此例子可以检验回归出的模型是否有效。在此例子中中中中,回归模型的回归模型的回归模型的回归模型的P P 值是值是值是值是0.0004,0.0004,小于小于小于小于0.05,0.05,所以说模型是所以说模型是所以说模型是所以说模型是显著的。显著的。显著的。显著的。近似系数表:给出系数的估计值、估计标准差、近似系数表:给出系

26、数的估计值、估计标准差、近似系数表:给出系数的估计值、估计标准差、近似系数表:给出系数的估计值、估计标准差、95%95%的置信上限、的置信上限、的置信上限、的置信上限、95%95%的置信下限。的置信下限。的置信下限。的置信下限。近似相关系数矩阵:给出模型中参数的相关系数矩近似相关系数矩阵:给出模型中参数的相关系数矩近似相关系数矩阵:给出模型中参数的相关系数矩近似相关系数矩阵:给出模型中参数的相关系数矩阵的估计值。阵的估计值。阵的估计值。阵的估计值。26方差分析方差分析是用来研究试验因素对试验结果的影响。方方差分析是用来研究试验因素对试验结果的影响。方方差分析是用来研究试验因素对试验结果的影响。

27、方方差分析是用来研究试验因素对试验结果的影响。方差分析在实际中具有重要意义差分析在实际中具有重要意义差分析在实际中具有重要意义差分析在实际中具有重要意义,科研生产中很多问题科研生产中很多问题科研生产中很多问题科研生产中很多问题都要用到方差分析。都要用到方差分析。都要用到方差分析。都要用到方差分析。例如例如例如例如,在农业试验中在农业试验中在农业试验中在农业试验中,对两块种有小麦的完全相同的土对两块种有小麦的完全相同的土对两块种有小麦的完全相同的土对两块种有小麦的完全相同的土地地地地,第第第第1 1 块施以化肥块施以化肥块施以化肥块施以化肥A,A,第第第第2 2 块施以化肥块施以化肥块施以化肥块

28、施以化肥B;B;第第第第1 1 块使用块使用块使用块使用种子种子种子种子C,C,第第第第2 2 块使用种子块使用种子块使用种子块使用种子D D。在两块土地中。在两块土地中。在两块土地中。在两块土地中,又分别分为又分别分为又分别分为又分别分为10 10 小块小块小块小块,这样经过一段时间后得到了这样经过一段时间后得到了这样经过一段时间后得到了这样经过一段时间后得到了20 20 个不同的亩个不同的亩个不同的亩个不同的亩产值。如何通过这些值来判断化肥、种子是否具有产值。如何通过这些值来判断化肥、种子是否具有产值。如何通过这些值来判断化肥、种子是否具有产值。如何通过这些值来判断化肥、种子是否具有明显差

29、异呢明显差异呢明显差异呢明显差异呢?这就是一个典型的方差分析问题。化肥、这就是一个典型的方差分析问题。化肥、这就是一个典型的方差分析问题。化肥、这就是一个典型的方差分析问题。化肥、种子便是其中的因素种子便是其中的因素种子便是其中的因素种子便是其中的因素,每个因素的取值只有几个。每个因素的取值只有几个。每个因素的取值只有几个。每个因素的取值只有几个。使用方差分析使用方差分析使用方差分析使用方差分析,可以找出哪些因素对于实验结果具有明可以找出哪些因素对于实验结果具有明可以找出哪些因素对于实验结果具有明可以找出哪些因素对于实验结果具有明显影响显影响显影响显影响,还可以确定因素的哪个取值导致的结果更好

30、还可以确定因素的哪个取值导致的结果更好还可以确定因素的哪个取值导致的结果更好还可以确定因素的哪个取值导致的结果更好一些。一些。一些。一些。28方差分析的核心思想方差分析的方差分析的核心思想核心思想是是,把样本与平均值的离差把样本与平均值的离差平方和分解为两部分平方和分解为两部分,一部分来源于不同因素一部分来源于不同因素之间的差异之间的差异,另一部分来源于同组之内的差异另一部分来源于同组之内的差异。如果来自于不同因素之间的差异占到一个比较如果来自于不同因素之间的差异占到一个比较大的比例大的比例,那么就有理由相信各个因素之间是那么就有理由相信各个因素之间是具有明显差异的。具有明显差异的。方差分析中

31、所作的方差分析中所作的原假设原假设H0是是“各个因素之间各个因素之间无明显差异无明显差异”,可用,可用F检验检验对其进行判断。对其进行判断。29ANOVA 过程如果观测是彼此独立且服从正态分布如果观测是彼此独立且服从正态分布如果观测是彼此独立且服从正态分布如果观测是彼此独立且服从正态分布,并且每组内的观并且每组内的观并且每组内的观并且每组内的观测数量相同测数量相同测数量相同测数量相同,那么可以使用那么可以使用那么可以使用那么可以使用ANOVA ANOVA 过程来进行方差过程来进行方差过程来进行方差过程来进行方差分析。分析。分析。分析。ANOVA ANOVA 过程的一般用法是:过程的一般用法是:

32、过程的一般用法是:过程的一般用法是:PROC ANOVA DATA=PROC ANOVA DATA=数据集名称数据集名称数据集名称数据集名称;CLASS CLASS 因素因素因素因素;MODEL MODEL 实验结果实验结果实验结果实验结果=因素因素因素因素;MEANS MEANS 因素因素因素因素/t;/t;/*/*针对因素的各水平针对因素的各水平针对因素的各水平针对因素的各水平,比较各组结果间平均值高低差异比较各组结果间平均值高低差异比较各组结果间平均值高低差异比较各组结果间平均值高低差异是否明显是否明显是否明显是否明显*/*/RUN;RUN;31ANOVA过程示例例例例例:有有有有6 6

33、 种品牌的饲料种品牌的饲料种品牌的饲料种品牌的饲料,每一品牌分别随机抽取每一品牌分别随机抽取每一品牌分别随机抽取每一品牌分别随机抽取5 5 袋袋袋袋,检测检测检测检测其中的营养含量其中的营养含量其中的营养含量其中的营养含量,该数据集名为该数据集名为该数据集名为该数据集名为brandbrand。试用。试用。试用。试用ANOVA ANOVA 过程分析不同品牌饲料的营养含量是否具有显著差异过程分析不同品牌饲料的营养含量是否具有显著差异过程分析不同品牌饲料的营养含量是否具有显著差异过程分析不同品牌饲料的营养含量是否具有显著差异?proc anova data=brand;proc anova data

34、=brand;class brand;class brand;model Nitrogen=brand;model Nitrogen=brand;means brand/t;means brand/t;run;run;32结果输出表检验结果首先说明了检验结果首先说明了检验结果首先说明了检验结果首先说明了检验的对象是营养含量检验的对象是营养含量检验的对象是营养含量检验的对象是营养含量(Nitrogen),(Nitrogen),然后声明了然后声明了然后声明了然后声明了t t 检验控制的是单次比较的检验控制的是单次比较的检验控制的是单次比较的检验控制的是单次比较的第第第第1 1 类错误类错误类错误类

35、错误,而不是总的第一类错误而不是总的第一类错误而不是总的第一类错误而不是总的第一类错误。然后给出一些。然后给出一些。然后给出一些。然后给出一些检验指标检验指标检验指标检验指标,AlphaAlpha是控制单次比较的第是控制单次比较的第是控制单次比较的第是控制单次比较的第1 1 类错误概率类错误概率类错误概率类错误概率,Error Degrees of Freedom Error Degrees of Freedom 是误差的自由度是误差的自由度是误差的自由度是误差的自由度,MSEMSE是误是误是误是误差均方差均方差均方差均方,Critical Value of T Critical Value

36、of T 是是是是T T 检验的临界值检验的临界值检验的临界值检验的临界值,如果如果如果如果t t 统计量的值大于这个值则被认为两组之间具有显著统计量的值大于这个值则被认为两组之间具有显著统计量的值大于这个值则被认为两组之间具有显著统计量的值大于这个值则被认为两组之间具有显著差异。差异。差异。差异。Least Significant Difference Least Significant Difference 是最小显著差异是最小显著差异是最小显著差异是最小显著差异,如果两族均值的差大于这个值也被认为是具有显著如果两族均值的差大于这个值也被认为是具有显著如果两族均值的差大于这个值也被认为是具

37、有显著如果两族均值的差大于这个值也被认为是具有显著差异。差异。差异。差异。下面的表格是检验结果下面的表格是检验结果下面的表格是检验结果下面的表格是检验结果,第第第第1 1 列是列是列是列是t t 检验分组检验分组检验分组检验分组,第第第第2 2 列是列是列是列是均值均值均值均值,第第第第3 3 列是观测数量列是观测数量列是观测数量列是观测数量,第第第第4 4 列是因素取值列是因素取值列是因素取值列是因素取值。表格上。表格上。表格上。表格上方注明了使用方法:方注明了使用方法:方注明了使用方法:方注明了使用方法:具有相同字母的品牌没有显著具有相同字母的品牌没有显著具有相同字母的品牌没有显著具有相同

38、字母的品牌没有显著差异差异差异差异。也就是说。也就是说。也就是说。也就是说,如果没有相同字母如果没有相同字母如果没有相同字母如果没有相同字母,那么均值大的那么均值大的那么均值大的那么均值大的将显著优于均值小的。从结果可以观测到:在所有将显著优于均值小的。从结果可以观测到:在所有将显著优于均值小的。从结果可以观测到:在所有将显著优于均值小的。从结果可以观测到:在所有品牌中品牌中品牌中品牌中,第第第第1 1 行的行的行的行的3DOK13DOK1品牌是优于其他所有品牌的。品牌是优于其他所有品牌的。品牌是优于其他所有品牌的。品牌是优于其他所有品牌的。33多因素方差分析在实际工作中遇到的更多的情形可能是

39、影响实验结果在实际工作中遇到的更多的情形可能是影响实验结果在实际工作中遇到的更多的情形可能是影响实验结果在实际工作中遇到的更多的情形可能是影响实验结果的有两个或两个以上的因素的有两个或两个以上的因素的有两个或两个以上的因素的有两个或两个以上的因素,这时就需要对因素的作这时就需要对因素的作这时就需要对因素的作这时就需要对因素的作用以及因素之间的交叉作用进行分析用以及因素之间的交叉作用进行分析用以及因素之间的交叉作用进行分析用以及因素之间的交叉作用进行分析,这样的分析过这样的分析过这样的分析过这样的分析过程就叫做多因素方差分析。程就叫做多因素方差分析。程就叫做多因素方差分析。程就叫做多因素方差分析

40、。多因素方差分析的核心与单因素的基本类似多因素方差分析的核心与单因素的基本类似多因素方差分析的核心与单因素的基本类似多因素方差分析的核心与单因素的基本类似,都是考察都是考察都是考察都是考察来自于因素的方差占总的方差的比例来自于因素的方差占总的方差的比例来自于因素的方差占总的方差的比例来自于因素的方差占总的方差的比例,如果这个比例如果这个比例如果这个比例如果这个比例较大较大较大较大,那么说明因素具有显著作用那么说明因素具有显著作用那么说明因素具有显著作用那么说明因素具有显著作用;如果比例较小如果比例较小如果比例较小如果比例较小,说说说说明方差来源于样本自身误差明方差来源于样本自身误差明方差来源于

41、样本自身误差明方差来源于样本自身误差,与因素作用无关。与因素作用无关。与因素作用无关。与因素作用无关。SASSAS进行多因素方差分析的最常用过程是进行多因素方差分析的最常用过程是进行多因素方差分析的最常用过程是进行多因素方差分析的最常用过程是ANOVA ANOVA 过程过程过程过程和和和和GLM GLM 过程。过程。过程。过程。ANOVA ANOVA 过程具有运算快而准确的特过程具有运算快而准确的特过程具有运算快而准确的特过程具有运算快而准确的特点点点点,但是它只能对每组数据数目相等但是它只能对每组数据数目相等但是它只能对每组数据数目相等但是它只能对每组数据数目相等(Balanced data

42、)(Balanced data)的情形进行计算的情形进行计算的情形进行计算的情形进行计算;GLM;GLM 不受数据数目的限制不受数据数目的限制不受数据数目的限制不受数据数目的限制,但是结果但是结果但是结果但是结果不是很准确。不是很准确。不是很准确。不是很准确。34ANOVA过程示例疼痛程度疼痛程度疼痛程度疼痛程度(painlevel),(painlevel),服用可卡因次数服用可卡因次数服用可卡因次数服用可卡因次数(Codeine),(Codeine),针针针针刺疗法次数刺疗法次数刺疗法次数刺疗法次数(Acupuncture)(Acupuncture)对减疼疗效的影响。对减疼疗效的影响。对减疼

43、疗效的影响。对减疼疗效的影响。data PainRelief;/*data PainRelief;/*建立疗效数据集建立疗效数据集建立疗效数据集建立疗效数据集*/*/input PainLevel Codeine Acupuncture Relief;input PainLevel Codeine Acupuncture Relief;datalines;datalines;1 1 1 0.0 1 2 1 0.5 1 1 2 0.6 1 2 2 1.21 1 1 0.0 1 2 1 0.5 1 1 2 0.6 1 2 2 1.22 1 1 0.3 2 2 1 0.6 2 1 2 0.7 2 2

44、 2 1.32 1 1 0.3 2 2 1 0.6 2 1 2 0.7 2 2 2 1.33 1 1 0.4 3 2 1 0.8 3 1 2 0.8 3 2 2 1.63 1 1 0.4 3 2 1 0.8 3 1 2 0.8 3 2 2 1.64 1 1 0.4 4 2 1 0.7 4 1 2 0.9 4 2 2 1.54 1 1 0.4 4 2 1 0.7 4 1 2 0.9 4 2 2 1.55 1 1 0.6 5 2 1 1.0 5 1 2 1.5 5 2 2 1.95 1 1 0.6 5 2 1 1.0 5 1 2 1.5 5 2 2 1.96 1 1 0.9 6 2 1 1.4 6

45、 1 2 1.6 6 2 2 2.36 1 1 0.9 6 2 1 1.4 6 1 2 1.6 6 2 2 2.37 1 1 1.0 7 2 1 1.8 7 1 2 1.7 7 2 2 2.17 1 1 1.0 7 2 1 1.8 7 1 2 1.7 7 2 2 2.18 1 1 1.2 8 2 1 1.7 8 1 2 1.6 8 2 2 2.48 1 1 1.2 8 2 1 1.7 8 1 2 1.6 8 2 2 2.4run;run;35续(疗效分析)及说明proc anova;proc anova;class PainLevel Codeine Acupuncture;class Pai

46、nLevel Codeine Acupuncture;model Relief=PainLevel Codeine|Acupuncture;model Relief=PainLevel Codeine|Acupuncture;means painlevel codeine|acupuncture;means painlevel codeine|acupuncture;run;run;需要注意的是需要注意的是需要注意的是需要注意的是,在模型中使用了在模型中使用了在模型中使用了在模型中使用了|这个符号这个符号这个符号这个符号,在这里它具在这里它具在这里它具在这里它具有特殊的含义有特殊的含义有特殊的

47、含义有特殊的含义:A|B=A B A*BA|B=A B A*B;而而而而A*B A*B 代表的则是因代表的则是因代表的则是因代表的则是因素素素素A A 和因素和因素和因素和因素B B 的交互作用的交互作用的交互作用的交互作用,所以所以所以所以A|B A|B 代表的就是因素代表的就是因素代表的就是因素代表的就是因素A A 的作用、因素的作用、因素的作用、因素的作用、因素B B 的作用以及它们的交互作用的作用以及它们的交互作用的作用以及它们的交互作用的作用以及它们的交互作用,这是这是这是这是一种非常有用的一种非常有用的一种非常有用的一种非常有用的简写形式简写形式简写形式简写形式。注意:注意:注意:

48、注意:SASSAS分析家和分析家和分析家和分析家和INSIGHTINSIGHT模块中也提供模块中也提供模块中也提供模块中也提供ANOVAANOVA分分分分析的交互界面。析的交互界面。析的交互界面。析的交互界面。36多因素方差分析的结果输出结果输出大体可以分为结果输出大体可以分为结果输出大体可以分为结果输出大体可以分为4 4 个部分:个部分:个部分:个部分:第一部分是因素的取值情况第一部分是因素的取值情况第一部分是因素的取值情况第一部分是因素的取值情况,包括因素的名称包括因素的名称包括因素的名称包括因素的名称,每个因每个因每个因每个因素有几个取值水平素有几个取值水平素有几个取值水平素有几个取值水

49、平,分别可以取什么值。分别可以取什么值。分别可以取什么值。分别可以取什么值。第二部分是方差分析表第二部分是方差分析表第二部分是方差分析表第二部分是方差分析表,第一列是方差的各个来源第一列是方差的各个来源第一列是方差的各个来源第一列是方差的各个来源,第第第第二列是自由度二列是自由度二列是自由度二列是自由度,第三列是平方和第三列是平方和第三列是平方和第三列是平方和,第四列是平方和除第四列是平方和除第四列是平方和除第四列是平方和除以自由度后的值以自由度后的值以自由度后的值以自由度后的值,第五列是第五列是第五列是第五列是F F 统计量统计量统计量统计量,最后一列是检验最后一列是检验最后一列是检验最后一

50、列是检验的的的的P P 值。多因素方差分析的值。多因素方差分析的值。多因素方差分析的值。多因素方差分析的零假设零假设零假设零假设是是是是“模型是不显著模型是不显著模型是不显著模型是不显著的的的的”,”,而现在得到的而现在得到的而现在得到的而现在得到的P P 值为值为值为值为0.0001,0.0001,所以在所以在所以在所以在0.05 0.05 水平下水平下水平下水平下应当拒绝零假设。应当拒绝零假设。应当拒绝零假设。应当拒绝零假设。第三部分则是分别对模型的各个因素进行检验。第三部分则是分别对模型的各个因素进行检验。第三部分则是分别对模型的各个因素进行检验。第三部分则是分别对模型的各个因素进行检验

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 生活常识

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁