《筛选逐步回归幻灯片.ppt》由会员分享,可在线阅读,更多相关《筛选逐步回归幻灯片.ppt(75页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、筛选逐步回归第1页,共75页,编辑于2022年,星期一0 引引 言言 回归分析是确定变数间量化关系的统计分析方法,一元及多元线性回归广为应用。但广泛应用并不等于普遍适用,有些情况下可能存在较大的问题。这些情形包括:自变数(项)很多甚至多于观察值组数、自变数对依变数有复杂效应、结构矩阵列间存在共线性等情形时,传统的回归分析或难于实施、或失去应有功效。岭回归、MINQUE法、主成分回归等提供了部分解决此类问题的方法。但这些方法有一定的局限性,分析结果并非总是合理有效的。新的回归方法筛选逐步回归先进行基本自变数回归,然后采用剔1选1方式对其余自变数项进行循环筛选,鉴别最主要的效应分量,获得优化回归方
2、程。第2页,共75页,编辑于2022年,星期一1 多元线性回归模型及回归方法多元线性回归模型及回归方法 1.1 多元线性回归模型多元线性回归模型 若自变数与依变数具有线性关系,则一个m元线性回归模型为:这里 i=1,2,n 表示第 i 组观察值,j=1,2,m表示第 j 个自变数。用矩阵表示为:第3页,共75页,编辑于2022年,星期一 其中 Y 为依变数观察值向量;X 阵为结构矩阵或称设计矩阵;B为偏回归系数向量(习惯上也可用等式右端表示);E为误差向量,它们分别表示如下:第4页,共75页,编辑于2022年,星期一 值得指出的是,自变数对Y的作用可能还存在非线性主效 (k=23)及互作 效应
3、(u,v=1,2,q,最常见的 q 是13)。在多元线性回归分析中,需将该效应项按数据转换的方式转化成一个新的自变数,模型增加一项,结构矩阵中增加相应一列(数据变换列),并增加一个偏回归系数。总的自变数项相应增加至 p(pm)个,从而采用前述过程进行线性回归分析。第5页,共75页,编辑于2022年,星期一1.2 偏回归系数偏回归系数 B 的求解及测验的求解及测验 回归统计数的估计采用最小二乘法,即目标函数离回归平方和Q(RSS)为最小:将上述目标函数对偏回归系数向量求导,并使其为0:在matlab中:B=X*XX*Y,或B=AK,B=XY第6页,共75页,编辑于2022年,星期一 其中 为信息
4、阵,为常数阵,C=inv(A)为信息阵的逆阵,该矩阵的对角线元素是相应偏回归系数标准化的误差方差,非对角线元素是两个偏回归系数标准化的协方差。所谓标准化的含义是将离回归方差视为1,即回归系数方差与标准差:j=2,3,p+1第7页,共75页,编辑于2022年,星期一其中 为离回归平方和,对H0:Bj=0假设的 t 测验为:对H0:Bj=0假设的 F 测验为:其中,为Xj的偏回归平方和,具自由度1。偏回归关系的 t 测验和 F 测验等价(t2=F),鉴于F 测验的形式略简单,下文将用F 测验进行偏回归关系的测验,判断各自变数对依变数的作用显著性。第8页,共75页,编辑于2022年,星期一1.3 逐
5、步回归逐步回归 一个多变数资料,往往既有对依变数有显著线性效应的自变数,也含有没有显著效应的自变数。在多元线性回归分析时,需将没有显著效应的自变数予以剔除,使所得多元回归方程比较简化而又能较准确地分析和预测 Y 的反应。这一过程称为多元回归自变数的统计选择。逐步回归有两种基本方法逐个选入法与逐个剔除法。第9页,共75页,编辑于2022年,星期一1.3.1逐个选入法逐个选入法 逐个选入法以全模型相关系数阵 为基础,其中M为包括依变数在内的所有变数(项)的个数,其最后1行1列是各自变数(项)与依变数的相关系数。每次选入一个对依变数有显著作用且偏回归平方和最大的自变数,采用求解求逆的方式对相关系数矩
6、阵进行变换,并对先前已入选的自变数进行测验,若有变为不显著的,将其中偏回归平方和最小的一个自变数予以剔除。不断重复此过程,直至所有对依变数有显著作用的自变数均已选入。若已进行了k-1步,且有p-1个自变数选入,则逐个选入法第k步有下列4个步骤:第10页,共75页,编辑于2022年,星期一1)需进一步计算未入选自变数对依变数作用的统计数偏决定系数:2)比较并找出具有最大偏决定系数的自变数Xl,其 i 是指尚未被选入的一个自变数;第11页,共75页,编辑于2022年,星期一 3)对Xl的偏回归显著性进行测验:若F测验不显著,则没有Xi可供选入,逐个选入法逐步回归到此结束;若F测验显著,则将Xl选入
7、,并对 阵进行如下求解求逆变换成 第12页,共75页,编辑于2022年,星期一4)求算在Xl选入的条件下,其他先前入选的自变数Xi的偏决定系数:,对于Xl,此值必与式(10)计算所得相同。对前面已经入选的自变数Xi进行F测验:其 实为标准离回归平方和。对先前已入选的Xi进行测验若均为显著,则保留所有已入选的自变数,程序回复至步骤1)。若有不显著的,将其中偏决定系数最小的自变数定义为Xl并予以剔除,按式(11)将阵 重新变换,程序回复至步骤1)。第13页,共75页,编辑于2022年,星期一 上述过程循环往复,直至所有对依变数有显著作用的自变数均已选入,对依变数没有显著作用的自变数均已剔除,从而获
8、得简化而又较准确反应自变数与依变数关系的多元回归方程。第14页,共75页,编辑于2022年,星期一1.3.2 逐个剔除法 先将全部自变数对依变数作全模型回归分析,按式(5)求算回归统计数,并按式(8)进行偏回归关系的假设测验,剔除一个对依变数偏回归平方和最小且不显著的自变数,回归模型的设计矩阵中相应减少一列。此后继续进行子模型的回归分析和偏回归测验,直至所有的自变数项都对依变数有显著的偏回归作用。第15页,共75页,编辑于2022年,星期一1.3.3 两种逐步回归方法的比较 逐步回归的统计分析方法比较成熟,大多数统计软件都有这样的模块和命令,便于应用者使用。用这两种逐步回归方法分别处理同一多变
9、数资料时,在大多数情况下得到相同的结果,即最终的回归模型中包含的自变数项是一样的。但也有一些情况两者所得的结果并不完全相同。一般地说,如能预期要剔除的自变数不多,可用逐个剔除法;反之,如果倾向于选入较少自变数时,可用逐个选入法。这样相对简单且正确。第16页,共75页,编辑于2022年,星期一1.4 回归分析的基本假定及主要存在问题回归分析的基本假定及主要存在问题 多元线性回归分析除了假定误差是正态分布外,还假定每一自变数对依变数的作用仅为线性。假定不满足会对回归结果产生较大影响。同时,回归分析仅适用于自变数(项)的个数(p)少于观察值组数(n),并且自变数间不存在共线性的情形。否则结构阵不满秩
10、,信息阵是奇异的或病态的,逆阵不存在或有很大偏差,无法求解回归系数或有很大误差,难于对回归模型及回归统计数进行客观真实的假设测验。在多变数复杂效应回归分析时,结构阵不满秩,经典的逐个剔除法或逐个选入法均以信息阵为基础,逐步回归无法进行,或所得结果不可信。第17页,共75页,编辑于2022年,星期一1.5 回归分析中上述问题的解决办法回归分析中上述问题的解决办法 回归分析应用广泛,在多数情况下能得到理想的效果。但回归分析中上述问题的存在比较普遍,传统的回归分析方法将失效、或结果难于反映客观实际,误用情形很普遍。对解决此类问题有一定效果的方法有岭回归法、MINQUE法、主成分法、Bayesian皱
11、缩法等。下面对此略作简介。第18页,共75页,编辑于2022年,星期一1.5.1 岭回归法岭回归法 岭岭回回归归(ridge regression)是是一一种种改改进进的的最最小小二二乘乘估估计计方方法法。回回归归系系数数的的岭岭估估计计是是在在信信息息阵阵中中引引入入一一个个岭岭参参数数,将将它它加到主对角线元素上,即:加到主对角线元素上,即:岭回归的统计数估计是有偏的,随着k的增加,B的绝对值趋于不断变小。与普通最小二乘估计相比,岭回归估计量有较小的均方误差,X变数的微小变动对回归统计数的影响相对较小。缺点是:1、离回归平方和即离回归均方将随着k的增加而增加;2、k的选择没有一个确定的标准
12、,因人而异,主观性较强。第19页,共75页,编辑于2022年,星期一1.5.2 MINQUE法 Rao(1971)提出的最小范数二阶无偏估算(Minimum Norm Quadrate Unbiased Estimation)法,即MINQUE法。MINQUE法是基于使欧氏范数(Eudclidean norm)为最小。如果混合线性模型用矩阵简式表达:使欧氏范数为最小(其中第20页,共75页,编辑于2022年,星期一 MINQUE法的优缺点:1、方差分量估计值有时取决于人为选择的先验值;2、可将估计值替代先验值重新估算,重复迭代,直到前后两轮的估计值非常接近为止;3、对数据有太多的假定;有时不一
13、定切合实际;4、MINQUE法估计的不是模型中各项的效应分量,而是其方差,再由其算术平方根估计相应的分量。由于信息阵非满秩所带来的问题,有时所估方差分量是负数。由于方差分量总和应与依变数总方差相等,这也意味着其它分量方差估计的不准确性。常存在所估分量与实际情形相差较大的问题。第21页,共75页,编辑于2022年,星期一1.5.3 主成分回归主成分回归 先将 X 变数进行主成分分析,选取能包含原有信息约80-90%的前若干个主成分(在自变数很多的情况下,大部分将被剔除)。将 Y 依这些主成分进行回归分析。这些自变数相互独立,其信息阵A为对角阵,必不可能奇异,回归分析得以正常进行,且回归方程比较简
14、洁包含的主成分一般较少。PC回归的缺陷是难于对结果进行解释,大多数主成分是原X变数的综合,不能清晰了解各个自变数对依变数的线性、互作效应及其显著性,大部分情况下仍是一笔糊涂帐。第22页,共75页,编辑于2022年,星期一2 新回归方法新回归方法筛选逐步回归筛选逐步回归 非经典回归方法对解决自变数间存在共线性问题有一定的效果。而自变数(项)远多于观察值组数(pn)的复杂回归问题,上述方法将失效,甚至根本行不通。在有限的观察数据条件下鉴别有显著作用的重要效应,是许多研究面临的问题。如考察20(m=20)个农艺性状与作物产量之间的量化关系,除了20个线性主效外,还有20个(仅考虑2次幂主效时)2次幂
15、响应,更有190个两性状之间的线性互作效应。建立产量与自变数间简明而准确的量化关系,采用最简单的多元多项式模型,共有230个自变数(项)的效应需要鉴别。当考虑存在高次幂响应以及自变数间二次及高次幂互作的较复杂模型时,自变数项将会迅速增多甚而远远超过观察数组数。第23页,共75页,编辑于2022年,星期一其中,模型中线性主效有m项,2次幂主效有m项,线性互作 有m(m-1)/2项,模 型 中 需 要 考 虑 的 项 数(总 自 变 数)p=m(3+m)/2项。若考虑其它效应,在模型中增加相应的分量,p值将迅速增加。观察值组数n(mnp)。上述问题可用筛选逐步回归(screening stepwi
16、se regression)。为方便阐述,我们将试验研究中观察记载的m个自变数称为初级自变数或基本自变数,而将其它(幂效应、互作效应等)项称为次级自变数(项)。如用最简单的多元多项式回归即只考虑线性和2次幂主效及线性互作响应时,其回归模型可表示为:第24页,共75页,编辑于2022年,星期一2.1 筛选回归分析步骤:筛选回归分析步骤:1)基础回归步)基础回归步 先选择一部分自变数(项)进行回归分析,先行选择的部分往往是基本自变数即线性主效项。设选择的基本自变数有 X1,X2,Xj,Xm,对基本自变数进行常规的多元线性回归分析,如式(3)构建结构矩阵X,此时的自变数(项)数 p=m。按式(5)求
17、算出各个基本分量(自变数)的回归系数Bj(其中B1为回归截距a),及偏回归平方和以及离回归方差。第25页,共75页,编辑于2022年,星期一 2)逐个剔除、逐个选入步)逐个剔除、逐个选入步 在基础回归的基础上,本阶段采用剔1选1的方式每次在已入选自变数(项)中剔除1个偏回归平方和最小且不显著的自变数(项),顺次选入 1 个次级自变数(项)进行回归分析。以上过程反复进行直至所有的次级自变数(项)均已试选。因此,本阶段有下列3小步:第26页,共75页,编辑于2022年,星期一(1)计算并比较所有已选入自变数(项)的偏回归平方和,找出其中偏回归平方和最小的自变数(项)Xl(l=1,2,p),即:(2
18、)该自变数Xl是否剔除需测验:若FlF,则剔除该Xl,在结构阵中将Xl列去除。在模型中的自变数(项)数 p 减1。若FlF,则保留该自变数,结构阵X及p值保持不变。第27页,共75页,编辑于2022年,星期一(3)顺次选入1个次级自变数,将其加至结构阵最后一列,自变数(项)p 增加 1。若新选入的自变数(项)已使结构阵不满秩,将其剔除,顺次选入下一个次级自变数。继续求算在选入自变数情况下的回归统计数及其离回归信息。以上3步反复进行,直至所有的次级自变数(项)均已试选。该阶段有两点值得注意:1、用来测验的显著水平应该是较低的,不使可能有一定作用的自变数过早地被剔除;2、被剔除的自变数(项)应予记
19、录,以便为后续阶段的重新选入做好准备。第28页,共75页,编辑于2022年,星期一 3)重新筛选步重新筛选步 一个自变数剔除或选入,可能对与之相关的其它自变数的效应及显著性有较大程度的改变。自变数选择与剔除是否得当还有赖于误差信息的客观真实性。第一步、甚至第二步初期的误差信息不是最合理的。上一阶段逐个剔除及逐个选入过程很可能存在误剔、误选的情况,单有上述过程是难于获得最优回归方程的。因此,需将被剔除的所有自变数(项)重新进行筛选。该过程类似于2.2,在第二步回归基础上,剔除偏回归平方和最小且不显著的自变数(项),将原先被剔除的自变数顺次重新试选入,直至所有被剔除自变数均获重新筛选。第29页,共
20、75页,编辑于2022年,星期一 该步骤也有两个注意点:1、为避免误选误剔具有显著作用的自变数(项),这一过程需经多轮次筛选。研究表明,循环筛选约需3-5轮,前后两轮选入(剔除)的自变数不再变化作为结束标志。2、此阶段的显著水平应略低于最终的显著少平,避免一些可能有效的自变数(项)被误剔除。第30页,共75页,编辑于2022年,星期一 4)再次逐步回归步再次逐步回归步 将过程2.3最终所选的全部自变数(项),在较小显著水平条件下,采用逐个剔除法逐步回归过程,剔除对 Y 作用较小的自变数(项),以使最终得到的回归方程较简明且减少假阳性自变数的比例。第31页,共75页,编辑于2022年,星期一 以
21、上四个过程即为筛选逐步回归的主要步骤。该方法有效地解决了自变数远大于观察值组数的复杂回归分析中存在的主要问题,获取优化的回归方程。该方法较其他方法有较好的优越性,在解决实际问题中有很好的效果。第32页,共75页,编辑于2022年,星期一3 实例验证实例验证3.1 敏感度与特异度敏感度与特异度 在讨论筛选逐步回归的功效之前,我们先介绍敏感度与特异度两个概念。若在某一模拟或实际数据资料中存在一定项数的真实效应,若用统计分析方法进行检测,a 是能检测出来的真实效应的项数;而 b 则为未能检测出来的真实效应的项数;c 是能检测出来但为非真实效应的项数亦即假阳性的数量。第33页,共75页,编辑于2022
22、年,星期一表1 敏感度与特异度说明表敏感度(Sensitivity,Ss)是指真实效应项数能被检测出来的比例特异度(Specificity,Sc)是指所检测出的项数中真实效应项数的比例 敏感度和特异度是反映检测方法真实可靠性的两个重要指标。敏感度反映了检测方法的能力,特异度反映了检测结果的信赖度。毫无疑问,灵敏度和特异度这两个值越高,那么该方法的功效就越大。检测真值检出项数未检出项数真实效应项数ab非真效应项数c-第34页,共75页,编辑于2022年,星期一 该数据有10项真实线性主效应(Xj)。其误差E分别按4u和10u产生,uN(0,1),即E服从平均数为0,方差为16和100的正态分布,
23、其真实的决定系数(2)分别为0.9893和0.9381。每一误差条件产生100组数据。3.2 例例13.2.1 数据的产生 例1设定有20个基础自变数(X1X20),XjU(5,25/3),即每一自变数是在010之间均匀分布的随机数,观察值组数有100个,Y 值由下式产生:第35页,共75页,编辑于2022年,星期一分别采用模型(20)(模型I,简单逐步回归)和模型(22)(模型III,筛选逐步回归)分析。用模型(21)(模型II,筛选逐步回归)第36页,共75页,编辑于2022年,星期一表2 100组数据回归检测的平均敏感度与特异度方法、误差与显著水平方法、误差与显著水平检出真项检出真项数数
24、(a)未检出未检出真项数真项数(b)检出非真检出非真项数项数(c)敏感度敏感度特异度特异度决定系数决定系数R2模型IE=4u2=.9893=.05100005510.9480.9925=.0110000910.9910.9923=.00110000210.9980.9923E=10u2=.9381=.0597822570.9780.9450.9547=.019505090.950.9910.9527=.0019168420.9160.9980.9507模型IIE=4u2=.9893=.05932686630.9320.5840.995=.01933673850.9330.7080.9941=.
25、001948521170.9480.890.9928E=10u2=.9381=.0571428617290.7140.2920.9837=.017342669490.7340.4360.9737=.0017552453440.7550.6870.9588模型IIIE=4u2=.9893=.059128815930.9120.3640.9973=.01918827970.9180.5350.9955=.001925751970.9250.8240.993E=10u2=.9381=.0566433618970.6640.2590.9853=.0166533510700.6650.3830.9747
26、=.0016683324630.6680.5910.9593第37页,共75页,编辑于2022年,星期一 4点结果:点结果:1)简单逐步回归的敏感度和特异度均接近于1,说明了经典方法检测线性主效的可行性。模型II筛选回归的敏感度(0.840)较高,特异度(0.529)较低。模型III筛选回归的敏感度(0.801)和特异度(0.496)最低。离回归误差偏小,决定系数偏大,更易导致第二类()错误的发生,特异度变小。2)误差增大,敏感度与特异度均有降低。当E=4u时,敏感度和特异度分别为0.953和0.717;10u时分别为0.795和0.617。3)随着显著水平的提高(变小),敏感度降低,特异度提
27、高。敏感度降低不明显,特异度提升幅度大。使用新回归方法需以较高的显著水平为标准,减少假阳性比例。4)假阴性项集中于那些效应较小的自变数项,效应大的自变数项检出能力都较高。检出的非真项随机散布。第38页,共75页,编辑于2022年,星期一表3 例1数据检测自变数项的分布(模型II,4u,=0.01)*:对角线上为线性主效,黑体数字对应于真效项;对角线右上为互作。a=933,b=67,c=385第39页,共75页,编辑于2022年,星期一 3.2.3 平均效应分析 效应估计平均数能较好反映回归方法的功效。平均效应值有两种计算方法,一是将回归分析获得的效应值总和除以该效应实际检测次数,另一种是将效应
28、值总和除以100。若该效应不能百分百检出,后一种平均效应将偏低,但更能反映估计值与真值的偏差。表4即为效应真值与3种模型在各种条件下100次回归检测的平均效应值。第40页,共75页,编辑于2022年,星期一表4 3种不同回归效应估计平均数方法、误差与显著水平X0X1X4X5X8X10X12X13X16X17X203-12-33-54-65-76模型模型I I4u E=.052.84-1.002.01-3.013.02-5.014.03-6.005.02-7.015.99=.012.84-1.002.01-3.013.02-5.024.03-6.005.02-7.015.99=.0012.91-
29、1.002.01-3.023.02-5.024.03-5.995.02-7.015.9910u E=.052.41-1.141.94-2.922.99-4.973.97-5.924.98-7.066.05=.010.91-1.281.93-2.843.00-4.993.92-5.915.01-7.026.03=.001-0.77-1.491.97-2.723.01-5.033.85-5.915.07-6.986.02模型模型II4u E=.052.25-0.501.89-2.962.99-4.773.91-5.984.96-6.995.97=.011.48-0.501.88-2.943.03-
30、5.003.93-5.974.98-6.966.00=.0011.65-0.551.99-2.963.02-4.983.96-5.964.97-6.995.9910u E=.054.24-0.401.22-2.482.36-4.633.71-5.604.52-7.206.65=.014.98-0.211.05-2.442.37-4.563.44-5.684.74-7.296.44=.0013.86-0.071.10-2.352.21-4.763.34-5.734.74-7.106.20模型模型III4u E=.051.48-0.602.03-2.833.05-5.063.89-5.945.04
31、-7.015.99=.011.87-0.621.89-2.933.10-5.053.99-5.945.02-6.995.97=.0011.90-0.481.85-2.853.01-5.003.93-5.964.97-6.995.9810u E=.054.14-0.531.06-2.412.37-4.433.50-5.664.62-7.486.31=.016.72-0.410.67-2.112.22-4.662.99-5.964.54-7.086.11=.0016.47-0.230.58-1.881.73-4.532.78-5.624.45-6.935.83第41页,共75页,编辑于2022年,
32、星期一 例例1平均效应分析的平均效应分析的4点结论:点结论:1)简单逐步回归效应值与真值最接近,说明其检测线性主效的可行性。其它两种方法有一定偏差,模型III筛选回归的偏差最大;2)当真实效应较大时,效应都能估计且较接近,而当真实效应较小时,后两种回归方法,尤其是模型III筛选回归的估计量偏小,估计标准误增大(在不同的数据组中变异度大);3)误差增大,回归统计数的估计偏差增大;4)显著水平减小,效应小的自变数项不能百分百检出,其平均效应偏小。第42页,共75页,编辑于2022年,星期一图图1 例例1数据数据3种回归方法不同条件下的平均效应种回归方法不同条件下的平均效应第43页,共75页,编辑于
33、2022年,星期一3.3 例例23.3.1 数据产生自变数设定同上,Y值由下式产生:该回归关系真实效应有14项,其中线性主效应(Xj)6项,线性互作效应(XiXj)8项,不包括2次幂主效项(Xj2),这在基因效应分析等数据资料中较常见。误差E同例1,其决定系数真值2分别为0.9994和0.9965,两种误差各产生100组数据。仍采用模型(20)进行简单逐步回归分析和用模型(21、22)进行筛选逐步回归分析。第44页,共75页,编辑于2022年,星期一3.3.2 敏感度特异度分析 表5列出了在不同误差及显著水平情况下对100组例2数据用3种模型得到的敏感度、特异度等值。结果表明:误差和显著水平的
34、改变对敏感度和特异度的影响与前述结果基本相同。而3种模型回归的敏感度、特异度的顺次关系发生了很大的改变。简单逐步回归的敏感度和特异度均接近于0。在有互作干扰情况下,就连线性主效也难于检出。模型II筛选回归的敏感度(0.828)、特异度(0.593)最高,模型III筛选回归的敏感度(0.800)、特异度(0.523)略低。第45页,共75页,编辑于2022年,星期一表表5 100组组例例2数据数据3种模型的平均敏感度与特异度种模型的平均敏感度与特异度方法与显著水平方法与显著水平检测真项检测真项数数(a)未检出真未检出真项数项数(b)检出非真项检出非真项数数(c)敏感度敏感度特异度特异度决定系数决
35、定系数R2模型模型IE=4u2=.9994=.0520012001157.143(.333)0.1470.9193=.0110013001100.071(.167)0.0830.9125=.0010140010000(0)00.8925E=10u2=.9965=.0517812221143.127(.297)0.1350.9162=.0110013001100.071(.167)0.0830.9106=.0010140010010(0)00.8909模型模型IIE=4u2=.9994=.051379211170.9850.9220.9996=.01138020390.9860.9730.999
36、6=.001134852360.9630.9740.9995E=10u2=.9965=.0511622383350.830.7760.9978=.0111422582030.8160.8490.9974=.00110973031650.7840.8690.997模型模型IIIE=4u2=.9994=.051332682360.9510.8490.9997=.01134258950.9590.9340.9996=.001134951520.9640.9630.9996E=10u2=.9965=.05104235812890.7440.4470.9989=.0110513498120.7510.5
37、640.9984=.00110623384480.7590.7030.9978第46页,共75页,编辑于2022年,星期一3.3.3 效应的定量分析 表6是对6个线性主效的估计。互作存在时,传统方法的参数估计面目全非。6项线性主效只检测出了一项(X17),其效应值也偏离甚远。筛选逐步回归对线性主效基本得以检出,只是对于真效较小项的估计量偏小,其原因在于它们的效应仅比误差略大,不能百分百地检出。在大误差情况下平均效应更小,这些效应接近于回归分析效应检测的低限。对于效应较大的自变数项,分段回归能够百分之百地检出,回归估值非常接近真值。第47页,共75页,编辑于2022年,星期一表6 3种模型对例2
38、数据线性主效应的检测方法与方法与显著水平显著水平X0X1X5X10X14X17X203135-24-4模型模型I4u E=.05-84.95006.7104.460=.01-56.32007.41000=.001-83.6200000010u E=.05-54.97007.39000=.01-77.89006.8304.590=.001-81.18000000模型模型II4u E=.053.69.802.954.97-2.013.97-4.01=.014.03.852.904.99-2.003.90-3.97=.0014.17.732.804.93-1.833.78-3.7310u E=.05
39、7.47.231.594.20-1.033.17-3.02=.019.53.121.514.14-1.183.27-2.87=.00110.31-.031.374.19-1.042.87-2.68模型模型III4u E=.053.84.492.855.05-1.773.87-3.94=.013.83.592.844.97-1.853.96-3.94=.0013.24.702.854.97-1.803.97-3.8510u E=.058.72.001.453.50-0.702.75-2.41=.014.94.111.663.90-0.372.90-2.16=.0015.16.071.534.10
40、-0.452.95-2.04第48页,共75页,编辑于2022年,星期一表7 例2数据检测自变数项的分布(模型II,4u,=0.01)*:对角线上为线性主效,黑体数字对应于真效项;对角线右上为互作。a=1380,b=20,c=39第49页,共75页,编辑于2022年,星期一 表 7 是对例 2 数据互作效应的检测结果。同理,对那些互作效应较小(如X1X7)项的参数估计受误差的影响而偏小。而对于互作较大的自变数项,筛选逐步回归的估计非常接近真值。相对线性主效而言,互作效应估计的准确性更高。当多个变数存在复杂效应时,模型II筛选回归能够区分各种效应,并能较准确地加以估计。第50页,共75页,编辑于
41、2022年,星期一表表8 例例2数据互作效数据互作效应应的的检测结检测结果果方法与显著水平X1X7X2X19X3X9X4X12X6X16X8X11X9X15X11X18-.50-31-232.5-3.54模型II4u E=.05-.49-3.001.01-2.003.002.50-3.514.00=.01-.48-3.001.01-2.003.002.50-3.504.00=.001-.45-3.001.01-2.003.002.50-3.504.0010u E=.05-.48-3.031.00-2.002.992.51-3.493.98=.01-.41-3.020.99-1.992.992.
42、51-3.493.97=.001-.35-3.011.00-2.002.982.50-3.483.98模型III4u E=.05-.49-3.001.01-2.003.002.50-3.514.00=.01-.50-3.001.01-1.993.002.50-3.504.00=.001-.50-3.001.01-1.993.002.50-3.504.0010u E=.05-.43-3.001.01-1.982.972.52-3.493.94=.01-.46-3.001.02-2.002.992.52-3.503.96=.001-.46-3.021.00-1.992.982.49-3.493.9
43、7第51页,共75页,编辑于2022年,星期一 图2是模型I筛选回归1在4uE,=0.001条件下效应真值与估计值比较图。图中左侧为效应真值,右侧影像位置为回归估计值。方柱位置代表基本自变数或互作项,前后对角线为主效,其他部分为互作。方柱的高度为效应值(以方柱顶上的数值表示)。可以看出,其中X1主效(0.340),X1X7互作(0.468)比真值有所偏低外,其他效应估值非常接近真值。虽然还有217个非真效应自变数项,但它们散布其间,平均效应很小,效应方柱很矮,几乎不能察觉。其它误差与显著水平条件下模型II的分析结果与此接近,模型III筛选回归的情形与之相仿。这充分说明这些方法对自变数项定性检测
44、和效应定量估计的可信度。第52页,共75页,编辑于2022年,星期一第53页,共75页,编辑于2022年,星期一 该回归关系真实效应有18项,其中线性主效应(Xj)6 项,2次幂主效项(Xj2)4 项,线性互作效应(XiXj)8项。其误差E同实例1,其决定系数真值2分别为0.9995和0.9970。两种误差各产生100组数据。仍采用模型(20)进行简单逐步回归分析和用模型(21、22)进行两种筛选逐步回归分析。3.4 例例 3 3.4.1 数据产生 例 3自变数设定同上,Y值由下式产生:第54页,共75页,编辑于2022年,星期一 3.4.2 敏感度特异度分析 在不同误差及显著水平情况下对例3
45、数据用3种模型分析得到的敏感度、特异度等见表8。其敏感度、特异度的顺次关系又发生了变化。简单逐步回归的敏感度和特异度非常低,大多数线性主效不能检测,决定系数偏低;模型II筛选回归由于不能检测2次幂响应,其敏感度(0.481)、特异度(0.435)均不超过50%。模型III筛选回归的敏感度(0.827)、特异度(0.680)为最高,真实效应大多能够检出,而检出项中也大多是真实效应。当减小显著水平时,提高特异度的效果更加明显。第55页,共75页,编辑于2022年,星期一表表9 例例3数据回数据回归检测归检测的平均敏感度与特异度的平均敏感度与特异度方法与显著水平检出真项数(a)未检出真项数(b)检出
46、非真项数(c)敏感度特异度决定系数R2模型模型IE=4u2=.9995=.0530015001100.167(.500).214.9146=.0130015001071.167(.500).219.9126=.00120215981000.112(.337).168.8960E=10u2=.9970=.0530015001106.167(.500).213.9129=.0130015001047.167(.500).223.9092=.00120215981000.112(.337).168.8960模型模型IIE=4u2=.9995=.059248761330.513.410.9949=.0
47、1966834890.537.520.9934=.001984816415.547.703.9901E=10u2=.9970=.059178831498.509.380.9947=.018649361071.480.447.9896=.001940860453.522.675.9879模型模型IIIE=4u2=.9995=.05172476195.958.898.9996=.011684116109.936.939.9995=.001160919193.894.945.9994E=10u2=.9970=.0512545461341.697.483.9988=.011261539724.701.
48、635.9981=.0011228572377.682.765.9973第56页,共75页,编辑于2022年,星期一3.4.3 效应的定量分析 表9是3种方法对6个线性响应和4个2次幂响应的估计,当存在互作与2次幂响应的情况下,简单逐步回归参数估计与真值大相径庭。在不同误差与显著水平条件下,6项线性主效只检出了2项(X17,X20),由于在X17,X20两项上存在2次幂效应干扰,估计值正负颠倒,差别甚远。模型II筛选回归对线性效应基本得以检出,上两项线性主效平均数偏差较大。模型III筛选回归对所有效应的估计优于前两种方法,与真值最相近。第57页,共75页,编辑于2022年,星期一表10 3种回
49、归方法对100组例3数据主效应的检测方法与显著水平X0X1X5X10X14X17X20X72X122X172X2023135-24-4-.51-1.52.5模型I4u E=.05-81.8007.670-10.3123.02-=.01-75.7007.820-10.3123.05-=.001-31.66000.170-9.4223.09-10u E=.05-82.76007.610-10.4123.00-=.01-90.51007.890-10.123.08-=.001-34.12000.890-9.6123.1-模型II4u E=.05-52.46-0.091.532.090.06-6.12
50、23.66-=.01-49.40-0.241.192.930.00-.9024.00-=.001-45.77-0.061.393.190.00-10.2421.93-10u E=.05-38.23-0.450.881.710.12-6.6823.64-=.01-38.37-0.170.832.200.08-8.7623.13-=.001-38.31-0.050.982.740.00-10.022.00-模型III4u E=.052.760.662.694.99-1.723.77-3.590.441.01-1.492.47=.011.830.762.555.08-1.593.51-3.160.4