《第六章 回归分析.pdf》由会员分享,可在线阅读,更多相关《第六章 回归分析.pdf(121页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、6 回归分析回归分析的提出回归(regression)这一术语是1886年高尔顿(Galton)研究遗传现象时引进的,他发现:虽然高个子的先代会 有高个子的后代,但后代的增高并不与先代的增高等 量,后代的身高有向平均高度靠拢的趋势。他称这一现 象为“向平常高度的回归”“Regression toward mediocrity in heredity stature”。尔后,皮尔逊(Pearson)搜集了上千 个家庭或成员的身高数据,分析出儿子的身高y和父亲的 身高x大致可归结为以下关系:如今人们将回归分析理解为研究变量间统计依赖关 系的方法,而并非Galton的原意,但回归这一名词却一 直沿用
2、下来,成为统计中最常用的概念之一。0.51633.73yx=+6 回归分析回归分析的提出6 回归分析引例6-1 一条河流流经某地区,其降水量x和径流量y多年观测数据如表所示。试建立y与x的线性回归方程,并根据降水量预测径流量。一元线性回归xy110251848114536122331657014354782012944621413041168756 回归分析引例6-2 某流域年均径流深y、年均降水量x1和年均饱和差x2的14年观测资料如表所示,试求y对x1和x2的线性回归方程。二元线性回归yx1x22907201.301355532.672345751.751825482.071455722.
3、40694533.592055401.881515792.221315152.411065763.032005471.832245681.902717201.981307002.006 回归分析引例6-3对18个土样中的无机磷含量(X1),溶于K2CO3被溴酸物水解的有机磷含量(x2),溶于K2CO3不被溴酸物水解的有机磷含量(x3)和玉米吸收磷的含量(Y)进行测定,得数据如下表所示。试建立Y关于x1,x2,x3的线性回归方程,并对各个自变量的显著性进行讨论。多元线性回归yx1x2x3640.453158600.423163713.11937610.634157544.72459771.765
4、123819.444469310.1311179311.6291735112.6581127610.9371119623.1461147723.1501349321.644739523.156168541.93614316826.8582029929.9511246 回归分析6 回归分析6 回归分析-8-6-4-2020306090120150-8-6-4-2024050607080N addition levelY=128.29+25.13XAdded N R2=0.82,P=0.004N2 O flux(g m-2 h-1)N addtion level(kgN ha-1 yr-1)Enr
5、ichment factor(0/00)(a)N2O fluxY=67.03+5.53XN2O R2=0.88,P0.001 -8-6-4-202020406080100120-8-6-4-202020406080100120-8-6-4-20212345TIN lossY=120.1+26.17XNO3-N R2=0.87,P=0.001Y=119.3+23.85XTIN R2=0.85,P=0.002Inorganic N loss(kgN ha-1 yr-1)Enrichment factor(0/00)(b)NO3-N loss NH4+-N loss(kgN ha-1yr-1)NH4
6、+-N loss6 回归分析回归分析能解决的问题确定几个特定变量之间是否存在相关关系,如果 存在的话,找出它们之间合适的数学表达式;根据一个或几个变量的值,预报或控制另一个变 量的取值;进行因素分析,确定因素的主次以及因素之间 的相互关系6 回归分析6.1 一元线性回归6.2 多元线性回归6.3 曲线回归6.3 非线性回归6.5 Logistic回归主要内容?建立变量x与y之间的线性回归模型?估计回归系数(最小二乘法)并进行显著性检验?判断变量x和y之间是否存在线性关系?根据一个变量的值,预测或控制另一变量的取值6.1 一元线性回归一元线性回归模型设(X,Y)是反映两个总体特征的指标。对(X,
7、Y)进行n 次观察,获得观察值(xi,yi),得到平面上的n个点。在n较大的情况下,如果有一条曲线基本上通过这些 点,或使这些点的大部分偏离曲线不远,则称这条曲线 为观察值的拟合曲线,亦称此曲线为y对x的回归曲线。如果这条曲线的方程能够表示成yf(x),则称该方程 为y对x的回归方程。当此曲线是直线时,就称之为直线 回归。6.1 一元线性回归一元线性回归模型6.1 一元线性回归例6-1 一条河流流经某地区,其降水量x和径流量y多年观测数据如表所示。试建立y与x的线性回归方程,并根据降水量预测径流量。xy1102518481145361223316570143547820129446214130
8、4116875前提假设是可控自变量,即非随机变量;相互独立,且;是随机变量,相互独立,且;一元线性回归模型6.1 一元线性回归00 (1,)iiiyxyxin=+=+=?2N(0,)ii201(,)iiYNx+式中,为可控制自变量,为因变量,为回归常数(截 距),为回归系数(斜率),为测试样本的误差,随 机变量统计推断未知参数的估计;未知参数的检验;0 xy1ixiy未知参数的估计普通最小二乘法(OLS)6.1 一元线性回归01n201,i=1n20101i=1nn0101i=1i=10101nn21i=1i=1 min()(,)()2()0 2()0(x)()/(x)iiiiia biiii
9、iiiiiiybb xybb xQ b bybb xQQybb xybb x xbbbyb xbxyyx=+=平方和最小01 ybb x=+越小越好根据最小二乘法的求极小值原理回归系数的估计普通最小二乘法(OLS)在满足 独立性和正态性假设的前提下,可以 证明 是 的无偏估计量;6.1 一元线性回归i01,bb01,2200n2i=1211n2i=11,n(x)1(,(x)iixbNxbNx(+)从上可以看出,要使回归系数估计值更稳定,在收集数 据或设计试验时,一是尽可能x的取值分散一些;二是样本 量n尽可能大一些。回归系数的估计普通最小二乘法(OLS)6.1 一元线性回归无论y和x间的线性关
10、系是否密切,总可以求出回归系 数,得到经验回归方程但当模型的基本假定不成立时,所求得的经验回归方 程是无意义的。因此,必须检验“y与x间存在线性关系”这一假定是否合理。方差检验法t检验法可决系数法 检验拟合程度6.1 一元线性回归01 yx=+01:0 H=一元线性回归方程的检验001:0 0 H=一元线性回归方程的检验方差检验法6.1 一元线性回归回顾方差分析的内容:如何构造F统计量X X XYY)()(YY )()(YY)()(YY PYY)()(YY )()(YY)()(YY (X,Y)YY)()(YY )()(YY)()(YY 6.1 一元线性回归=+YY21()TNiiSSYY=21
11、()eNiiiSSYY=21()RNiiSSY Y=一元线性回归方程的检验方差检验法6.1 一元线性回归0122112211:0 ()()()()()1 1 2nnTiiiiiinniiiiieRTReHSSyyyyyyyyyySSSSfnffn=+=+=+=一元线性回归方程的检验方差检验法在原假设成立的情况下,可以证明:一元线性回归方程的检验方差检验法在原假设成立的情况下,可以证明:6.1 一元线性回归22222222222(1)(2)(1),2,/1 (1,2)/2/2eTReReRRReeSSSSSSnnSSSSnSSSSSSSSFFnSSSSnn=相互独立是的无偏估计统计量服从F分布6
12、.1 一元线性回归一元线性回归方程的检验F检验ANOVAb4472.22414472.22461.225.000a657.412973.0465129.63610RegressionResidualTotalModel1Sum ofSquaresdfMean SquareFSig.Predictors:(Constant),xa.Dependent Variable:yb.F检验结果表明:回归方程显著F检验结果表明:回归方程显著一元线性回归方程回归系数的检验t 检验法在原假设成立的情况下,可以证明:6.1 一元线性回归012211n22i=11112222nn22i=1i=1:0 (,(2)(
13、x)/(2)/(2)(2)(x)(x)iiiHSSebnxbbSSeSSetnnt nxx=)统计量服从 t 分布Coefficientsa-29.5829.852-3.003.015.570.073.9347.825.000(Constant)xModel1BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable:ya.6.1 一元线性回归一元线性回归方程回归系数的检验t 检验法基于SPSS软件分析结果t检验结果表明:回归常数和回归系数均显著t检验结果表明:回归常数和回归系数
14、均显著6.1 一元线性回归一元线性回归方程回归系数的检验t 检验法基于SPSS软件分析结果t检验结果表明:回归常数不显著回归系数显著t检验结果表明:回归常数不显著回归系数显著一元线性回归方程的检验(分析)6.1 一元线性回归可决系数R2(coefficient of determination)222222()()()()()()iiiRiiiTxxyyyySSRxxyyyySS=回归平方和总平方和表达式是相关系数的平方,但不同于相关系数该比值是自变量能解释y变异的百分比,反映了回归 拟合的优劣程度。拟合越好,可决系数越接近于1。由于可决系数不是对总体参数的估计,因此不能作任何显著性检验。一元
15、线性回归方程的检验(分析)6.1 一元线性回归调整的可决系数(adjusted R2)一元线性回归方程的检验(分析)6.1 一元线性回归可决系数R2(coefficient of determination)基于SPSS软件的可决系数分析结果Model Summary.934a.872.8588.547Model1RR SquareAdjustedR SquareStd.Error ofthe EstimatePredictors:(Constant),xa.拟合优度检验结果表明:拟合优度检验结果表明:R2=0.872 =0.858拟合效果很好,可以利用该经验回归方程进行预测和控制拟合效果很好
16、,可以利用该经验回归方程进行预测和控制一元线性回归方程的检验(分析)6.1 一元线性回归一元线性回归方程的检验(分析)6.1 一元线性回归6.1 一元线性回归一元线性回归方程6080100120140160180200102030405060708090RunoffPrecipitation y=-29.58+0.57x(R2=0.86,n=11,p0.01)一元线性回归模型的表达一元线性回归方程残差分析正态性检验(图示法和检验法)6.1 一元线性回归一元线性回归方程残差分析方差齐性的检验(图示法)6.1 一元线性回归一元线性回归方程残差分析6.1 一元线性回归独立性检验-DW检验(Durbi
17、n-Watson,序列相关检 验)一元线性回归方程残差独立性的检验6.1 一元线性回归DW检验(Durbin-Watson,序列相关检验)DW值在2附近,说明残差 是独立的查DW临界值表,获 得临界值dl和du一元线性回归方程残差分析6.1 一元线性回归独立性检验-DW检验(Durbin-Watson,序列相关检 验)Model Summaryb.934a.872.8588.5472.088Model1RR SquareAdjustedR SquareStd.Error ofthe EstimateDurbin-WatsonPredictors:(Constant),xa.Dependent
18、Variable:yb.Runs Test2.0837156118.671.502Test ValueaCases=Test ValueTotal CasesNumber of RunsZAsymp.Sig.(2-tailed)Unstandardized ResidualMediana.一元线性回归方程残差分析6.1 一元线性回归独立性检验-DW检验 适用条件一元线性回归方程残差独立性检验6.1 一元线性回归一元线性回归方程的预测和控制?点预测:当xx0时,相应地y0是一个随机变量,则就是y0的一个预测值。?区间预测:6.1 一元线性回归00 yabx=+预测0000(2)220022112
19、2000(2)0(2)2211(2)1()()1111()()()()111,1()()nnniiiinnnniiiiYyYytt nPtxxxxnnxxxxxxxxytytnnxxxx=+一元线性回归方程的预测和控制6.1 一元线性回归预测XY观测值Y估计值?观测值的置信区间要比估计值(回归值)的置信区间长;?预测点x0距样本均值越远,置信区间越长,预测的准确性降低。?观测值的置信区间要比估计值(回归值)的置信区间长;?预测点x0距样本均值越远,置信区间越长,预测的准确性降低。6.1 一元线性回归一元线性回归方程的预测和控制预测406080100120140160180200-30-20-1
20、00102030405060708090100110RunoffPrecipitation y=-29.58+0.57x(R2=0.86,n=14,p012p222222H.0()/(,1)/1(1)TReRReeSSSSSSSSSSppFF p npSSSSnpnp=+=:6.2 多元线性回归20(,)iyN回归方程的显著性检验F检验6.2 多元线性回归ANOVAb25.49238.497335.308.000a.1526.02525.6449RegressionResidualTotalModel1Sum ofSquaresdfMean SquareFSig.Predictors:(Con
21、stant),x3,x2,x1a.Dependent Variable:yb.F检验结果表明:回归方程显著。当,拒绝原假设,偏回归系数有意义。偏回归系数的显著性检验t检验6.2 多元线性回归0H0 1,2,iip=?:()2222(,)(1)11(1)11iieiiiieiiiiiiiNyye ee enpnpnptt npe ee enpnpccc=()t n-p-1 Sig.(p)6.2 多元线性回归偏回归系数的显著性检验t检验Coefficientsa11.675.28740.656.000-.362.031-.416-11.686.000-.419.046-.298-9.089.000
22、-.103.005-.677-18.894.000(Constant)x1x2x3Model1BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable:ya.t检验结果表明:回归常数和偏回归系数均显著。123211.6750.3620.4190.103 (0.991,10,0.01)yxxxRnp=x1x3?假定各变量的单位:说明偏回归系数b是带单位的量,其大小不可直接比较。同时,各个x的变异(标准差)不尽相同为此,提出“标准化系数”或“Beta系数”,它是把y和各个x替换为标
23、准化形式即减去均值后除以标准离差。6.2 多元线性回归xyS,SjijjiyxyjxxyyzzBetaB=12311.6750.3620.4190.103 yxxx=122 x x xygmgkgg标准化回归方程6.2 多元线性回归12312311.6750.3620.4190.103 0.416Z0.2980.677 yxxxZyxZxZx=Coefficientsa11.675.28740.656.000-.362.031-.416-11.686.000-.419.046-.298-9.089.000-.103.005-.677-18.894.000(Constant)x1x2x3Mode
24、l1BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable:ya.多元线性回归方程的前提条件检验多重共线性?当自变量高度相关,则称自变量之间存在共线性(colinearity)。?容许度(Tolerance):是检验共线性的指标之一。当容许度越接近于0,则变量之间有线性关系就越有可能。当容许度10,说明存在共线性问题;?条件指标(Condition index,CI):是检验共线性的另一个指标,其值越大则变量之间有线性关系越有可能。当CI30,说明存在共线性问题;?克服共线性
25、的方法:逐步回归、主成分回归6.2 多元线性回归多元线性回归方程的前提条件检验多重共线性6.2 多元线性回归Coefficientsa11.675.28740.656.000-.362.031-.416-11.686.000.7801.282-.419.046-.298-9.089.000.9191.088-.103.005-.677-18.894.000.7701.299(Constant)x1x2x3Model1BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.ToleranceVIFCollinear
26、ity StatisticsDependent Variable:ya.多重共线性检验表明:自变量之间不存在多重共线性。Collinearity Diagnosticsa3.7801.000.00.00.01.00.1724.690.01.05.79.01.02911.459.27.94.19.17.01913.957.73.01.00.82Dimension1234Model1EigenvalueConditionIndex(Constant)x1x2x3Variance ProportionsDependent Variable:ya.小于30多元线性回归方程的前提条件检验残差正态性检验6
27、.2 多元线性回归多元线性回归方程的前提条件检验残差方差齐性检验6.2 多元线性回归从图上可以看出,残差方差满足齐性。其含义是:给定X,对所有的观测,残差的方差相等,即因变量的方差对所有自变量的值是相同的。多元线性回归方程的前提条件检验残差独立性检验6.2 多元线性回归从表上可以看出,DW值为2.431,Runs检验的显著性概率为0.737,均说明满足残差独立性条件。Model Summaryb.997a.994.991.159192.431Model1RR SquareAdjustedR SquareStd.Error ofthe EstimateDurbin-WatsonPredictor
28、s:(Constant),x3,x2,x1a.Dependent Variable:yb.Runs Test.0100655105-.335.737Test ValueaCases=Test ValueTotal CasesNumber of RunsZAsymp.Sig.(2-tailed)Unstandardized ResidualMediana.最优回归方程选择标准回归方程中应包含尽量多的信息所有自变量均通过显著性检验选择方法移除(穷举)的回归分析方法(remove)逐步剔除的回归分析方法(backward)逐步引入的回归分析方法(forward)“有进有出”的回归分析方法(逐步回归分
29、析方法,stepwise)6.2 多元线性回归最优回归方程逐步引入的回归分析方法(forward)6.2 多元线性回归最优回归方程逐步剔除的回归分析方法(backward)6.2 多元线性回归最优回归方程逐步回归法(stepwise)?将所有自变量分别与y建立一元线性回归方程,将偏回归平方和最大以及通过显著性检验的变量引入方程。?将剩余变量再分别与y以及已引入方程的自变量建立二元回归方程,并检验回归方程,剔除不显著变量。?如果要在回归方程中剔除不显著的自变量,则首先应从已引入的变量中剔除对因变量贡献最小的,也就是偏回归平方和最小的一个自变量。?标准:F统计量的显著性概率sig.=0.10,变量
30、被移出回归方程。6.2 多元线性回归最优回归方程逐步回归法(stepwise)6.2 多元线性回归最优回归方程逐步回归法(stepwise)6.2 多元线性回归例6-3 某环境要素Y的变化可能受到环境因素x1,x2,x3,x4,x5,x6的综合影响,请根据样本观测数据,分析y与x之间是否存在线性关系,并建立其经验回归方程。最优回归方程逐步回归法(stepwise)6.2 多元线性回归最优回归方程逐步回归法(stepwise)6.2 多元线性回归Variables Entered/Removedax6.Stepwise(Criteria:Probability-of-F-to-enter=.10
31、0).x2.Stepwise(Criteria:Probability-of-F-to-enter=.100).x5.Stepwise(Criteria:Probability-of-F-to-enter=.100).Model123VariablesEnteredVariablesRemovedMethodDependent Variable:ya.Model Summary.903a.816.793.76747.955b.912.887.56641.997c.994.991.15919Model123RR SquareAdjustedR SquareStd.Error ofthe Esti
32、matePredictors:(Constant),x6a.Predictors:(Constant),x6,x2b.Predictors:(Constant),x6,x2,x5c.Coefficientsa9.9421.2368.044.000-.137.023-.903-5.961.00010.923.97811.164.000-.115.019-.760-6.163.000-.298.107-.342-2.773.02811.675.28740.656.000-.103.005-.677-18.894.000-.362.031-.416-11.686.000-.419.046-.298-
33、9.089.000(Constant)x6(Constant)x6x2(Constant)x6x2x5Model123BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable:ya.25625611.6750.3620.4190.103 0.416Z0.2980.677 yxxxZyxZxZx=补充说明相关系数复相关系数(multiple correlation)用来表示回归方程对原有数据拟合程度的好坏,衡量作为一个整体的x1,x2,xp与y的线性关系的大小。偏相关系数(Par
34、tial correlation)指其它变量被固定后,计算任意两个变量之间的相关系数,称为偏相关系数或净相关系数。部分相关系数(Part correlation)指在回归模型中添加或删除某自变量时,复相关系数R 的平方的变动。当变动大,说明该自变量是因变量的一 个较好的预测因子。6.2 多元线性回归补充说明相关系数6.2 多元线性回归Coefficientsa9.9421.2368.044.000-.137.023-.903-5.961.000-.903-.903-.9031.0001.00010.923.97811.164.000-.115.019-.760-6.163.000-.903-.
35、919-.689.8231.215-.298.107-.342-2.773.028-.661-.723-.310.8231.21511.675.28740.656.000-.103.005-.677-18.894.000-.903-.992-.594.7701.299-.362.031-.416-11.686.000-.661-.979-.367.7801.282-.419.046-.298-9.089.000-.360-.966-.286.9191.088(Constant)x6(Constant)x6x2(Constant)x6x2x5Model123BStd.ErrorUnstandar
36、dizedCoefficientsBetaStandardizedCoefficientstSig.Zero-orderPartialPartCorrelationsToleranceVIFCollinearity StatisticsDependent Variable:ya.小结6.2 多元线性回归思路思路:先假定条件满足,然后建立线性回归方程,接着用 最小二乘法求出回归系数,并用F检验或t检验判断回归方 程是否具有显著性,最后通过R2说明拟合优度,利用逐步 回归方差得到最优回归方程。回归方程的检验回归方程的检验:?F检验判断回归方程是否显著?t检验判断回归常数和偏回归系数是否显著?可决系
37、数R2判断回归方程拟合优度(一般应0.6)。最优回归方程最优回归方程逐步回归法逐步回归法6.2 多元线性回归前提条件:残差独立且服从正态分布前提条件:残差独立且服从正态分布?残差正态性检验方法:一是做图法,二是Shapiro-Wilk检验(小样本),三是K-S检验。?残差独立性检验:一是DW检验,二是Runs检验。?残差方差齐性检验:图示法6.3 曲线回归(拟合)问题的提出实际中,变量之间的关系往往不是简单的线性关系,而呈现某种曲线或非线性的关系。因此,选择适当的曲线拟合可以更准确地反映实际情况。曲线回归比线性回归更能充分地表达变量间的关系。线性回归之所以比曲线回归应用甚多,原因在于无论从数学
38、理论还是计算方法,线性回归都比曲线回归模型简单得多。对于曲线拟合方程,均是通过数据转换变形为线性方程,进而通过直线回归的方法进行线性回归方程的推导和回归关系的显著性检验。6.3 曲线回归(拟合)为了决定选择的曲线模型,常用的方法是根据数 据资料描绘出散点图,应用必要的专业知识和经 验分析变量之间的函数关系。在确定了变量之间的函数关系后,需要估计函数 关系中的未知参数,并对拟合效果进行显著性检 验。SPSS软件提供了11种不同的曲线估计回归模型。这些曲线模型,可以通过某种数学方法转换成线 性模型(非线性模型的线性化)。常用的曲线拟合模型Quadratic二次模型Compound复合模型Logar
39、ithmic对数曲线模型Growth生长曲线模型Cubic三次曲线模型S-curveS曲线模型Exponential指数曲线模型Inverse逆曲线模型Power幂指数曲线模型Logistic逻辑曲线模型6.3 曲线回归(拟合)曲线拟合模型6.3 曲线回归(拟合)曲线拟合模型6.3 曲线回归(拟合)例6-4 某环境要素Y的变化可能受到环境x的因素影响,请根据样本观测数据,建立其经验回归方程,并进行显著性检验。曲线回归模型的线性化?双曲线6.3 曲线回归(拟合)曲线回归模型的线性化?幂函数6.3 曲线回归(拟合)曲线回归模型的线性化?指数曲线6.3 曲线回归(拟合)曲线回归模型的线性化?对数曲线
40、6.3 曲线回归(拟合)曲线回归模型的线性化6.3 曲线回归(拟合)曲线回归模型的线性化6.3 曲线回归(拟合)曲线回归模型的线性化6.3 曲线回归(拟合)Model Summary.949.900.8943.096RR SquareAdjustedR SquareStd.Error ofthe EstimateThe independent variable is x.ANOVA1549.12011549.120161.650.000172.497189.5831721.61819RegressionResidualTotalSum ofSquaresdfMean SquareFSig.Th
41、e independent variable is x.Coefficients21.5841.698.94912.714.000-25.8235.097-5.067.000ln(x)(Constant)BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.221.58425.823ln (R=0.894,n=20,p0.01)yx=6.4 非线性回归问题的提出在自然科学中,y关于x 的数量关系多数都不是简单 的线性关系,而是各种各样的非线性关系,于是我们常 会遇到非线性回归模型。在非线性回归模型中,一种类型是
42、可以通过变量变换 化为线性模型,然后按线性模型加以解决,即曲线回归(曲线拟合);另一种类型的非线性模型是用任何变量 变换办法都不能或不方便直接化为线性模型求得参数的 估计值。6.4 非线性回归非线性回归6.4 非线性回归非线性回归线性、非线性和曲线回归的比较线性回归能建立因变量和自变量之间的简单线性关 系。曲线回归能建立因变量和自变量之间的非线性关 系,但这种非线性关系能够通过数学方法转换成线 性关系。非线性回归也能建立因变量和自变量之间的非线性 关系,但这种非线性关系通过简单数学转换不能转 变为线性关系。6.4 非线性回归问题的提出第四章介绍的方差分析属纯方差分析。为了提高试验结 果的精确性
43、和准确性,它对处理以外的条件都采取一定 的措施加以控制,使各处理处于尽可能一致的试验条件 下,这一做法在统计上叫做试验控制。但在有些情况下,试验控制不一定能实施。如果那些不 能很好地进行试验控制的因素是可测的,且又和试验结 果之间存在直线回归关系,那么就可利用这种直线回归 关系将各处理的观测值都矫正到初始条件相同时的状 态,使得处理间的比较能在相同基础上进行。这一做法 在统计上称为统计控制。6.5 协方差分析6.5 协方差分析协方差分析的意义协方差是用来度量两个变量之间“协同变异”大小的参 数,协方差的绝对值越大,两个变量相互影响越大。协方差分析(Analysis of Covariance)
44、是把线性回归分 析与方差分析结合起来,用于检验两个或多个修正均 数间有无显著性差异的方法。目的是把与结果变量(结果变量)Y呈直线关系的自 变量X(协变量)化成相等后,检验两个或多个修正均 数间有无显著性差异。因此,协方差也是分析多组均数间的差异有无显著性 意义,只是多考虑了一个协变量。1(,)()()1COV x yxxyyn=6.5 协方差分析协方差分析的前提条件假定正态性(Shaprio-Wilk检验)独立性(Runs检验)方差齐性(Levenes F检验)回归齐性(也称斜率同质假设,作图法),主要 检测自变量和协变量之间是否存在交互作用6.5 协方差分析协方差分析的前提条件假定6.5 协
45、方差分析协方差分析的数学模型(单因素)()(1,2,;1,2,)ijyiijxijyxikjn=+=?()ijijiyijxijyyx=+()ijijijxyiijyyx=+方差分析线性回归分析6.5 协方差分析协方差分析的主要步骤确定协变量X(即未加以控制或难以控制的因素)建立结果变量Y与协变量X之间的线性回归关系利用回归关系把协变量X化为相等后再分析各组结果变 量Y修正均值是否有显著性差异如果Y修正均值存在显著性差异,进行多重比较6.5 协方差分析案例分析6.5 协方差分析建立结果变量Y与协变量x的线性回归方程回归关系分析的意义是找出结果变量(y)与协变量(x)之间是否存在线性回归关系。计
46、算出回归系数并对线性回归关系进行显著性检验,若显著则说明两者间存在回归关系。这时就可应用线性回归关系来校正y值(结果变量)以消去协变量(x)不同对它的影响。然后根据校正后的y值来进行方差分析。如线性回归关系不显著,则无需继续进行分析。前提条件检验正态性检验前提条件检验独立性检验前提条件检验方差齐性检验6.5 协方差分析Runs Test7766585455445566101010106353.000-1.677-.211-1.6161.000.094.833.106Test ValueaCases=Test ValueTotal CasesNumber of RunsZAsymp.Sig.(2
47、-tailed)y1y2y3y4Mediana.Levenes Test of Equality of Error VariancesaDependent Variable:y.265336.850Fdf1df2Sig.Tests the null hypothesis that the error variance ofthe dependent variable is equal across groups.Design:Intercept+x+groupa.满足方差齐性满足独立性满足正态性6.5 协方差分析前提条件检验回归齐性检验回归齐性6.5 协方差分析前提条件检验回归齐性检验Test
48、s of Between-Subjects EffectsDependent Variable:y3215.625a7459.37510.919.0003031.12813031.12872.048.00038.662312.887.306.821427.7071427.70710.166.003128.732342.9111.020.3971346.2753242.071168658.000404561.90039SourceCorrected ModelInterceptgroupxgroup*xErrorTotalCorrected TotalType III Sumof Squares
49、dfMean SquareFSig.R Squared=.705(Adjusted R Squared=.640)a.回归齐性结果表明:自变量与协变量之间的交互作用不显著,就表示协变量与因变量 之间的关系不会因自变量处理水平的不同而有所差异,即协变量对因变 量的回归斜率相等。6.5 协方差分析建立结果变量Y与协变量x的线性回归方程Parameter EstimatesDependent Variable:y36.8385.6426.529.00025.38448.292.736.2193.361.002.2911.18020.5582.9067.074.00014.65926.45813.71
50、02.9134.706.0007.79519.6244.8892.9081.681.102-1.01610.7930a.ParameterInterceptxgroup=1group=2group=3group=4BStd.ErrortSig.Lower BoundUpper Bound95%Confidence IntervalThis parameter is set to zero because it is redundant.a.分析结果表明:线性回归关系显著。36.8380.736yx=+6.5 协方差分析协方差分析表Tests of Between-Subjects Effect