《SAS备课记录材料简单线性回归多元线性回归.doc》由会员分享,可在线阅读,更多相关《SAS备课记录材料简单线性回归多元线性回归.doc(40页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、-/回归分析-简单线性回归、多元线性回归比较:方差分析是处理试验数据的一类统计方法。这类统计方法的特点是所考察的指标(因变量)Y是测量得到的数值变量(连续变量),而影响指标的因子(自变量)水平是试验者安排的几个不同值(称这种因子为分类变量或离散变量)。试验的目的是找出影响指标的主要因子及水平。在实际问题中,还经常遇到这样一些数据,它们不是有意安排的试验得到的数据,而是对生产过程测量记录下来的数据。对它们进行分析,目的是想找出对我们所关心的指标(因变量)Y有影响为因素(也称自变量或回归变量),并建立用预报Y的经验公式。对于现实世界,不仅要知其然,而且要知其所以然。顾客对商品和服务的反映对于商家是
2、至关重要的,但是仅仅有满意顾客的比例是不够的,商家希望了解什么是影响顾客观点的因素,以及这些因素是如何起作用的。类似地,医疗卫生部门不能仅仅知道某流行病的发病率,而且想知道什么变量影响发病率,如何影响发病率的。发现变量之间的统计关系,并且用此规律来帮助我们进行决策才是统计实践的最终目的。一般来说,统计可以根据目前所拥有的信息(数据)来建立人们所关心的变量和其他有关变量的关系。这种关系一般称为模型(model)。假如用Y表示感兴趣的变量,用X表示其他可能与Y有关的变量(x也可能是若干变量组成的向量)。则所需要的是建立一个函数关系Y=f(X)。这里Y称为因变量或响应变量(dependent var
3、iable, response variable),而X称为自变量,也称为解释变量或协变量(independent variable,explanatory variable, covariate)。建立这种关系的过程就叫做回归(regression)。一旦建立了回归模型,除了对各种变量的关系有了进一步的定量理解之外,还可以利用该模型(函数或关系式)通过自变量对因变量做预测(prediction)。这里所说的预测,是用已知的自变量的值通过模型对未知的因变量值进行估计,它并不一定涉及先后的概念,更不必要有因果关系。回归分析是统计分析的一项重要内容,它可以帮助我们找出变量之间的数量关系。例如,影响
4、企业盈利情况的因素可能包括企业的资产负债率、银行的利率水平、所在国的GDP增长率。对一些企业进行调查之后,我们可以获得企业的盈利情况、资产负债率、利率水平、GDP增长率的数据。使用回归分析就可以得出由资产负债率、银行的利率水平、所在国的GDP增长率三个变量表示的企业盈利水平。作得到了回归结果后,就可以对企业的经营作出一些有用的决策。SAS/STAT中提供的关于回归的过程很多,包括REG(回归)过程、RSREG(二次响应面回归)过程、ORTHOREG(病态数据回归)过程、NLIN(非线性回归)过程、TRAANSREG(变换同归)过程、CALIS(线性结构方程和路径分析)过程、GLM(一般线性回归
5、)过程、GENMOD(广义线性回归)过程等等。一、回归分析知识点1. 一元线性回归分析这里所指的单变量,是针对自变量个数而言的,在不特别说明的情况下,应变量均为单个变量。单变量线性回归为回归分析中最为简单的情形,也是其它类型回归分析的基础。【例题1】 某医生为了探讨缺碘地区母婴TSH水平的关系,应用免疫放射分析测定了160名孕妇(15-17周)及分娩时脐带血TSH水平(mU/L),现随机抽取10对数据,见下表,分娩时脐带血TSH水平(mU/L)受母血TSH水平的影响,试进行回归分析。(数据编号:data7_01)10名孕妇及其分娩时脐带血TSH水平母血TSH1.211.301.391.421.
6、471.561.681.721.982.10脐带血TSH3.904.504.204.834.164.934.324.994.705.20此例资料中,脐带血TSH水平随母血TSH水平的变化而变化,前者应被看作为应变量,用y表示,后者为自变量,用x表示。编制如下程序。【SAS程序】data sasuser.data7_01; input x y; datalines; 1.21 3.90 1.30 4.50 1.39 4.20 1.42 4.83 1.47 4.16 1.56 4.93 1.68 4.32 1.72 4.99 1.98 4.70 2.10 5.20 ;proc reg; model
7、 y=x;run;虽然reg过程选项、语句复杂,但我们经常用到的一般比较简单,此例即为最简单的情形,达到了reg过程程序代码的最低限度。提交上述程序,结果如下。结果第一部分为模型的方差分析结果。第二部分给出模型的有关重要统计量,如R2(R-Square)、校正R2(Adj R-Sq)等指标。第三部分为模型的参数估计情况,分别给出截距项和自变量回归系数等的估计值以及对应的假设检验结果。2. 多元线性回归多元线性回归(multiple linear regression)为线性回归中自变量在两个以上的情形,此时回归模型的选择具有很大的灵活性。对于全部自变量,可以将它们全部放在模型中,也可以只选择其
8、中一部分进行回归分析,而选择变量的途径也有多种,一般常用的有前进法(forward)、后退法(backward)以及逐步回归法(stepwise)。我们先来看看全模型(将所有变量纳入模型)的回归分析方法。【例题2】某学校20名一年级女大学生体重(公斤)、胸围(厘米)、肩宽(厘米)及肺活量(升)实测值如下表所示,试对影响女大学生肺活量的有关因素作多元回归分析。(数据编号:data7_02)20名一年级女大学生肺活量及有关变量测量结果编号体重X1(公斤)胸围X2(厘米)肩宽X3(厘米)肺活量Y(升)151.373.636.42.99248.983.934.03.11342.878.331.01.9
9、1455.077.131.02.63545.381.730.02.86645.374.832.01.91751.473.736.52.98853.879.437.03.28949.072.630.12.521053.979.537.13.271148.883.833.93.101252.688.438.03.281342.778.230.91.921452.588.338.13.271555.177.231.12.641645.281.630.22.851751.478.336.53.161848.772.530.02.511951.378.236.43.152045.274.732.11.9
10、2【SAS程序】(先建立一个SAS数据集,存放上述数据,然后程序可以直接调用。)proc reg data=sasuser.data7_02; model y=x1 x2 x3;run; 从此例的结果中,我们看到并不是所有自变量的回归作用都具有统计学意义,这时我们需要建立一个最优模型,这就要涉及到自变量的选择问题。有关自变量的选择方法有许多种,这些方法也都有各自所依据的评优标准,我们所常用的就是前述的三种方法,其中逐步回归法更是最为常用。逐步回归法的SAS程序只需在上述程序的model语句后添加“selection=stepwise”选项以及“slentry=”和“slstay=”选项即可。此
11、处我们将进入模型和剔除出模型的门槛都定为=0.05,model语句如下。model y=x1 x2 x3 /selection=stepwise slentry=0.05 slstay=0.05;【SAS程序】proc reg data=sasuser.data7_02; model y=x1 x2 x3 /selection=stepwise slentry=0.05 slstay=0.05;run;【SAS程序运行结果】逐步回归的结果内容较多,涉及到每一步回归分析的详细信息。每一步的信息都有相应的标志来标识,如“Stepwise Selection: Step 1”表示逐步回归的第一步,每
12、一步都对当前的模型进行方差分析和参数的估计并对参数进行检验,这样整个模型选择的过程我们就会一目了然。最后给出模型选择的结果和选择过程的概略信息,籍此可以确定最终的回归方程。【例题3】下表是对32个企业的年赔偿费用y(单位:千元),年销售额x1(单位:百万元),年利润x2(单位:百万元)和雇佣人数x3的调查数据。 考虑建立如下模型:y=0+1 ln x1+2 ln x2+3 ln x3+i (数据编号:data7_03) No.yx1x2x3No.yx1x2x314504600.6128.1480017324724.790.339123879255.4733.9559018225578.963.
13、341433681526.2136.0137819254966.842.862642771683.2179.0277720208591.048.5106156762752.8231.53400215184933.1310.6653964542205.8329.52650224067613.2491.6894075072334.6331.83030233323457.4228.0552084962746.0237.9410024340545.354.678094871434.0222.325902569822862.83011.33371210383470.663.7860263062361.0
14、203.05200113111508.0149.52108276132611.1201.0505012271464.430.0687283021013.2121.31863135249329.3577.33900205404560.3194.69794144982377.5250.7343030203855.763.41230153431174.382.61941315281211.6352.1718016354724.761.5359324565440.1655.28770【SAS程序】二、回归分析SAS编程reg过程reg过程只是SAS中众多关于回归的过程之一,reg是用于一般目的回归分析
15、的过程,而其它过程则具有各自特殊的用途。reg过程涉及到较多的语句和选项,所以显得稍微复杂一些。下面我们来看看reg过程的语句和基本格式。PROC REG ; MODEL 应变量列表= ; BY 变量名列表 ; FREQ 变量名 ; ID 变量名列表 ; VAR 变量名列表 ; WEIGHT 变量名 ; ADD 变量名列表 ; DELETE 变量名列表 ; MTEST 方程式 ; OUTPUT keyword=变量名列表 ;PAINT | ; PLOT ; PRINT ; REFIT; RESTRICT 条件表达式, . , 条件表达式; REWEIGHT | ; TEST 变量表达式, ;P
16、roc reg语句标志reg过程的开始,其后的选项条目较多,功能复杂,这里的选项所具有的功能将会影响到此过程中的所有model语句。各选项及其功能详见下表。Proc reg语句各选项及其功能选项(依字母顺序)功能描述all执行所有选项的功能(特定语句环境下合法的选项)alpha=数值以指定的数值为水准计算各种可信区间annotate=数据集名指定包含注释信息的数据集用以向plot语句所绘图形添加特定信息corr指定SAS对model语句和var语句中的所有变量输出相关矩阵covout向outest选项指定的输出数据集输出协方差矩阵data=数据集名指定用于进行回归分析的数据集edf向outes
17、t选项指定的数据集输出自变量个数、误差自由度、R2等gout=图形目录指定输出图形元素保存的路径,默认值为work.gseglineprinter | lp以点阵方式(行式打印机方式)输出plot语句绘制的图形noprint禁止分析结果的输出outest=数据集名将参数估计值以及模型拟合过程统计量(可选)输出到指定的数据集outseb输出参数估计值的标准误到outest选项所指定的数据集outsscp=数据集名将SSCP矩阵内容输出到指定的数据集中outstb将标准化的参数估计值输出到outest选项指定的数据集中outvif将VIF(方差膨胀因子)输出到outest选项指定的数据集中pcom
18、it=数值列表对列表中每一个数值进行非完全主成分分析,并输出到outest数据集press计算并输出Press统计量到outest数据集ridge=数值列表以列表中的每一个数值为ridge常数K进行ridge回归分析,结果输出到outest数据集rsquare向outest选项指定的数据集输出自变量个数、误差自由度、R2等simple将合计、均数、方差、标准差、离均差平方和等输出到结果中singular=n控制用来检验变量奇异性的参数n,此选项较少用到tableout将参数估计值的标准误、可信区间、t值、P值输出到outest数据集usscp将reg过程中用到的所有变量的未校正的SSCP矩阵输
19、出到结果中model语句model语句用以指定所要拟合的回归模型。其最前面的标签为可选项,可以是不超过8个字符的字符串,用来对定义的模型进行标识,以便于在结果中分辨不同的模型,一般情况下系统会以默认的方式对模型进行标识,你可以省略此项。关键字model后所列的是模型表达式,和方差分析中anova过程的model语句相似。模型表达式中等号的左边为反应变量,等号的右边为自变量列表,自变量间以空格相分隔。这里所用到的所有变量必须存在于所分析的数据集中,而且是数值型的。如果要用到几个变量产生的综合变量,必须在数据步完成新变量的创建过程,model语句中的组合型变量将被视为非法。Model语句后可设定众
20、多的选项,选项数目比proc reg语句的要多,这里不再一一列出。不过大家不用担心,这里的选项相当一部分和proc reg语句的完全相同,功能也一样,只是作用的范围有所差别,这里的选项只作用于model语句所涉及的功能范围。但有一些选项这里需要介绍一下,因为他们非常常用并且行使重要的功能,见下表。Model语句常用选项及其功能选项(依字母顺序)功能描述adjrsq对每一个所选择的模型计算其自由度校正的R2b对于以R2、校正R2、Cp值为参数的选择模型,计算其回归系数clb计算并输出参数估计值的可信区间上、下限cli计算并输出单个预测值的可信区间上、下限clm计算并输出每条观测下应变量期望值(均
21、数)的可信区间上、下限collin对自变量之间的共线性进行分析collinoint对自变量之间的共线性进行分析,不包括截距项cp对每一个模型计算Mallows Cp统计量include=n指定每次模型拟合必须包含自变量中的前n个influence针对每一条观测,分析其对参数估计和预测值的影响maxstep=n限定逐步回归分析时最多进行的步数为nnoint要求模型拟合时不包含截距项p计算每一条观测应变量的预测值并输出到结果partial对每一个自变量(包括截距项)绘制对于应变量的偏回归残差图r进行残差分析并显示在结果中sbc计算每个模型的SBC统计量并显示在结果中selection=指定模型选择
22、的方法,可以是前进法(forward)、后退法(backward)、逐步法(stepwise)等等slentry=指定前进法和逐步法时变量进入模型的显著性水平,默认值前进法为0.5,逐步法为0.15slstay指定后退法和逐步法时变量留在模型内的显著性水平,默认值后退法为0.1,逐步法为0.15sp对每个模型计算Sp统计量ss1将I型平方和(SS1)与各参数估计值一并列出ss2将II型平方和(SS2)与各参数估计值一并列出sse计算并显示每个模型的误差平方和start=s在模型选择模式下,指定开始时包含在模型中的自变量个数(s个)stop=s指定包含在模型中的自变量个数为s个时停止模型选择过程
23、xpx计算并显示自变量交叉积和矩阵(XX)id语句指定用以标识观测的变量。如果某一条model语句指定了cli, clm, p, r, 或者influence选项,结果中会有针对每一条观测的输出,此时用id语句指定每一条观测的标识将会使结果更易于辨认或理解。如果没有id语句,SAS则用观测的编号来标识每一条观测。var语句var语句用来将那些未包括在model语句中但需要将其包含在交叉积和矩阵中的数值型变量。在随后的add语句中想交互地加入模型的变量以及要在plot语句中对其绘制散点图的变量也需在var语句中列出。另外,如果你只想利用proc reg语句后的选项执行某些特定的功能,而并不会用到
24、model语句的话,var语句则是必需的。add语句add语句用以将自变量交互地加入模型,以考察某个变量对模型拟合的影响。此处用到的变量必须为model语句或var语句中出现的变量,你可以交互地加入某个变量到模型中或将在delete语句中剔除的变量重新包含到模型中。对add语句的每一次执行都将改变模型的标签。delete语句delete语句的作用与add语句相反,用以交互地将某个变量剔除出模型。同样,对delete语句的每一次执行都会改变模型的标签。mtest语句mtest语句用以在有多个应变量时进行模型的多重检验。其最前面的标签项和model语句的完全相同。语句中的方程式用以指定多重检验的假
25、设模型,是一组以系数和变量名组成的线性方程式。此语句用在多元回归情况下,多个应变量对同一组自变量拟合线性模型时。此语句用以检验的检验假设与指定的方程式相对应,可理解为其中的自变量(未指定时则为所有自变量)对于其中的应变量(未指定时则为所有应变量)拟合线性模型时的参数估计值(即系数)为零。此语句后可设定三个选项,分别为“canprint”、“detail”、“print”。“canprint”选项要求对应变量组合与自变量组合之间进行典型相关分析并显示在结果中,“detail”选项要求显示多种中间计算过程的细节,“print”选项要求显示H(Hypothesis Effect,模型效应)和E(Er
26、ror Effect,误差效应)矩阵。reweight语句reweight语句用于重新指定各条用于拟合回归方程的观测的权重系数,它可以改变观测的权重系数,也可将观测的权重系数设置为0,等同于将相应的观测排除出模型拟合过程,但它并不会将这些观测删除。Reweight语句可被多次使用,reweight语句对其后面的语句发生作用,它产生作用的同时会改变模型的标签,以表示一个新的不同的模型。Reweight语句的内容格式与paint语句的完全相同,大家可参考paint语句来运用reweight语句,需要注意的是,reweight语句只改变符合条件的观测。另外语句后的选项“weight=数值”用以对符合
27、条件的观测指定新的权重系数,其中的“数值”须为非负实数。如果忽略此选项,新的权重系数将被默认地设置为零。Reweight语句不会对相应的统计量立即进行重新计算,所以其后的paint语句或其它reweight语句可能发挥不了原先设想的作用。比如以下语句:Reweight r.0;Reweight r.0;其设想的作用是用残差大于零的观测重新拟合模型,在此基础上再选出残差大于零的观测再重新拟合模型,但由于reweight语句不会立即对相应统计量重新计算,第二条语句所用的条件与第一条语句完全相同,因此不能起到应有的作用,即将新模型中残差小于等于零的观测剔除出去。解决的办法就是在两条语句之间加入其它可
28、以对新模型立即进行重新计算的语句,最常用的是refit语句,简单高效。output语句output语句用于将回归分析中产生的结果输出到指定的数据集中,它所对应的是最后一个model语句所定义的模型。新产生的数据集中,包括输入数据集(用以进行回归分析的数据集)的全部数据、回归分析过程中产生的各种统计量以及针对每一观测的回归诊断指标数据等。但如果输入数据类型为corr、cov或sscp等,output语句则会失效。Output语句需指定两个选项,“out=数据集名”选项指定输出数据集的名称(临时性或永久性均可),如果不指定此选项,SAS将用系统默认的名称(datan,n为按顺序排列的正整数)为数据
29、集命名。“keyword=变量名”选项用以指定要输出的统计量并对相应统计量在输出数据集中命名(即等号后的变量名),此选项可多次使用,每一次均指定一个需要输出的统计量。在对此选项的每一次使用中,等号后的变量名可有多个(之间以空格分开),分别对各应变量(一个模型有多个应变量时)的相应统计量命名,其顺序和各应变量在模型表达式中的顺序相对应。选项中的keyword关键字及其表示的具体统计量见下表。keyword关键字及其表示的具体统计量关键字代表的统计量COOKDCooks D影响值统计量COVRATIO每一观测对回归系数协方差的标准化影响值DFFITS每一观测对应变量预测值的标准化影响值H检验假设条
30、件下的模型效应,即xi(XX)xiLCL单个预测值可信区间的下限LCLM应变量期望值(均数)可信区间的下限PREDICTED|P应变量预测值(即Y)PRESS第i个观测对应的残差被(1-h)所除的商,h为模型效应RESIDUAL|R残差RSTUDENT不含该对应观测的模型所计算的student残差STDI单个预测值的标准误STDP预测值期望(均数)的标准误STDR残差的标准误STUDENTstudent残差,即残差除以它的标准误所得的商UCL单个预测值可信区间的上限UCLM应变量期望值(均数)可信区间的上限paint语句paint语句用于在散点图中突出显示符合条件的点,它仅对行式打印机方式(即
31、proc reg语句中指定了“lineprint”选项时)输出的图形有效。此语句自己并不产生图形,仅对随后的plot语句所产生的图形发挥作用,所以它必须和plot语句联合使用。同一个reg过程内可以使用多个paint语句,其作用将同时发挥到plot语句所产生的图形中。如果一个点被多条paint语句所影响,它的最终显示方式只由最后作用于它的paint语句所决定。所有符合paint语句中指定条件的观测对应的点都将被突出显示,也可以对所有观测突出显示,此时用“allobs”替代条件表达式。此处的条件表达式为如下的格式。变量 比较运算符 数值 “变量”为数据集中的任何一个变量,“比较运算符”即为“,
32、, =, =, =”中的一个,“数值”则为要和相应变量比较的具体值。“逻辑算符”为“and”或“or”之一。Paint语句后可设定相应的控制选项,有如下三条。Nolist:禁止对所选定观测的观测号、所用的显示标志等信息的输出;Reset:将默认的图形标志改变为你所指定的标志;Symbol=符号:指定作为突出显示标志的符号,如#或。Paint语句的选项除上述三条外,还有以下和上述选项相斥(不同时在一条语句中使用)的选项。Status:将选定观测的观测号、所用的显示标志等信息输出到log窗口;Undo:恢复最后一条paint语句对相应散点图的作用。plot语句用以对两个变量绘制散点图,表达式中位置
33、在前(在乘号“*”之前)的变量作为散点图的y轴,位置在后的变量作为散点图的x轴。等号后的符号为散点图中表示点的图形符号,此项内容可省略,SAS会用默认方式显示图形,但如需指定,符号要用单引号括起来。对于同一个模型可以指定多个plot语句,同一个plot语句中,也可以指定多个图形表达式,同时绘制多个散点图。图形表达式中的变量名必须成对地出现,变量的选择范围为model语句或var语句中的变量。此外,output语句中可以输出到数据集中的统计量、“outest=”选项指定的输出数据集中的统计量、其它SAS中产生的变量如obs(观测号)、npp(用以绘制PP图)及nqq(用以绘制QQ图)等,也可用于
34、组成图形表达式,进而绘制关于该统计量的散点图。图形表达式除可用y*x的形式外,还可用变量组合的表达形式,即用圆括号括起来的两组变量组成的表达式,它等同于两组变量之间所有可能的组合方式构成的表达式。如:(y1 y2)*(x1 x2 x3)等同于y1*x1 y1*x2 y1*x3 y2*x1 y2*x2 y2*x3。plot语句的选项,主要用于控制图形的显示,图形绘制的方式(即行式打印机方式或高分辨率图形方式)不同,可用的选项也不相同。但常用的基本选项两者都具有,用好这些基本的选项足够我们的需要,其它针对高分辨率图形的各种高级控制选项这里不再介绍,将在后面的有关SAS绘图功能的章节专门讨论。各条基
35、本选项及其功能见下表。plot语句的基本选项及其功能选项功能clear清除以前的所有图形累积,即collect选项产生的重叠显示效果collect将plot语句产生的散点图重叠显示在同一个坐标系中,以便于比较,此选项对于随后的plot语句将一直有效,直到出现nocollect选项为止。hplots=数值指定输出格式的每一页在横向上显示散点图的个数nocollect当前plot语句产生的散点图叠加显示后停止图形的叠加overlay将同一条plot语句产生的散点图叠加在同一坐标系中,效果和collect选项相同,不同的是overlay只针对相应plot语句,collect针对多个plot语句sym
36、bol=字符指定散点图中表示点的图形符号,图形表达式中对符号的指定优先于此选项vplots=数值指定输出格式的每一页在纵向上显示散点图的个数print语句用于交互地显示model语句中的有关选项,一般在模型经过修改后(add语句、delete语句以及reweight语句都会对模型进行修改)print语句就会非常有用,它将重新拟合的新模型的有关统计量显示在结果中。语句中的选项列表用于指定需在结果中显示的新模型的有关项目,需为model语句中所能使用的选项。此处可指定的选项有:ACOV, ALL, CLI, CLM, COLLIN, COLLINOINT, CORRB, COVB, DW, I,
37、INFLUENCE, P, PARTIAL, PCORR1, PCORR2, R, SCORR1, SCORR2, SEQB, SPEC, SS1, SS2, STB, TOL, VIF, or XPX等,这些选项的具体含义请参见model语句部分的内容。除指定以上选项外,print语句中还可指定anova和modeldata两个选项。前者用于显示关于当前模型(最后一个model语句指定的模型或经最近一次修改后的模型)的方差分析表,后者用来显示用于当前模型的数据。refit语句refit语句非常简单,仅含refit关键字和必需的分号,此语句对修改后的模型立即进行重新计算,以便于后面的语句对新模
38、型有关统计量的使用。比如在一个或多个reweight语句后使用refit语句,就可以试随后的paint语句或reweight语句在重新计算的有关统计量的基础上运行。restrict语句restrict语句用于对模型的参数估计设置限定条件,它对位于它之前最近的model语句发生作用,一条model语句后可跟多个restrict语句,但这些restrict语句不会同时起作用,运行时位置靠后者将会依次替代位置靠前者。如果一条语句中要指定多个限制条件,用逗号将它们隔开即可。限制条件为关于模型中自变量以及截距项的线性方程式,可以为含有等号(可以同时用多个等号表示多个限定条件)的方程式,也可以为不含有等号
39、的变量线性组合式,此时SAS将默认此式等于零。限定条件表达式中出现的变量必须是restrict语句所指向的model语句中出现过的,要用到截距项时,直接用关键字“intercept”即可。下式为一个正确的条件表达式的例子。有多个限制条件同时存在时,一定注意他们之间不能自相矛盾,否则语句无效。在有限制条件的情况下,参数估计值将会是那些满足限制条件的并能令残差平方和达到最小的参数值。每增加一个限制条件,模型的自由度(degree of freedom)就会减少1,此时限制条件的自由度显示为“-1”。如果限制条件无效,自由度会显示为“0”,参数估计值也都显示为“0”。注意:proc reg语句中如果
40、设置了“pcomit=”或“ridge=”选项,restrict语句将被忽略。reweight语句reweight语句用于重新指定各条用于拟合回归方程的观测的权重系数,它可以改变观测的权重系数,也可将观测的权重系数设置为0,等同于将相应的观测排除出模型拟合过程,但它并不会将这些观测删除。Reweight语句可被多次使用,reweight语句对其后面的语句发生作用,它产生作用的同时会改变模型的标签,以表示一个新的不同的模型。Reweight语句的内容格式与paint语句的完全相同,大家可参考paint语句来运用reweight语句,需要注意的是,reweight语句只改变符合条件的观测。另外语句
41、后的选项“weight=数值”用以对符合条件的观测指定新的权重系数,其中的“数值”须为非负实数。如果忽略此选项,新的权重系数将被默认地设置为零。Reweight语句不会对相应的统计量立即进行重新计算,所以其后的paint语句或其它reweight语句可能发挥不了原先设想的作用。比如以下语句:Reweight r.0;Reweight r.0;其设想的作用是用残差大于零的观测重新拟合模型,在此基础上再选出残差大于零的观测再重新拟合模型,但由于reweight语句不会立即对相应统计量重新计算,第二条语句所用的条件与第一条语句完全相同,因此不能起到应有的作用,即将新模型中残差小于等于零的观测剔除出去
42、。解决的办法就是在两条语句之间加入其它可以对新模型立即进行重新计算的语句,最常用的是refit语句,简单高效。test语句test语句用于对指定的假设进行检验。语句前面的标签为可选项,用以标识不同的假设检验。Test语句对指定的变量表达式(检验假设)进行检验,变量表达式具有与restrict语句中条件表达式完全相同的格式,为model语句中自变量及截距项之间的任何线性组合式,具体格式请参见restrict语句的内容。同一条test语句内可指定多个变量表达式用于检验,各表达式之间用逗号隔开。与restrict语句所不同的是,test语句变量表达式中的变量名代表自身的回归系数,而非自变量本身,如以
43、下语句:model y=x1 x2 x3;test x1=0, x2=x3;test语句所检验的假设为:变量x1的系数b1等于零,变量x2的系数等于变量x3的系数,即b2=b3。Test语句可以设置一个选项,即“print”选项,其功能是将假设检验过程中所有的中间计算过程输出到结果中加以显示。三、各种分析工具的回归分析用Analyst 计算回归方程Statistics Regression Simple以一元为例Statistics Regression Linear以多元为例Insight计算回归方程:Analyze Fit (Y X) 【案例1】 数据库中的数据是摘自世界卫生组织的数据,有
44、192个国家的21个变量。其中包括区域(这里把世界各国分成6个区域)、(在城镇和乡村)使用清洁水的百分比、生活污水处理的百分比、饮酒量(每年每人消费的纯酒精,单位升)、(每万人中)内科医生数目、护士和助产士数、卫生工作者数。病床数、护士助产士和内科医生之比、卫生开支占总开支的百分比、占政府开支的百分比、人均卫生开支、成人识字率、人均收入、每千个出生中5岁前死亡人数、人口增长率、(男女的)预期寿命(年)、每10万生育的母亲死亡数等。这些变量之间的相关性很大。作为例子,我们关注每1000个5岁之前儿童的死亡人数。(数据编号:Riskfac)首先通过用描述性的点图来看哪些变量和我们所关心的5岁前儿童的死亡率有关,有什么关系。我们发现,最相关的为女性的预期寿命(男性的预期寿命和女性的预期寿命密切相关,我们就不考虑了),以及区域这个定性变量。下面两个图分别给出了儿童死亡率