《田间试验与统计方法响应面设计.pptx》由会员分享,可在线阅读,更多相关《田间试验与统计方法响应面设计.pptx(83页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、11.1 回归设计概述 回归设计(也称为响应曲面设计),目的是寻找试验指标与各因子间的定量规律,考察的因子都是定量的 。 它是在多元线性回归的基础上用主动收集数据的方法获得具有较好性质的回归方程的一种试验设计方法。 第1页/共83页11.1.1 多项式回归模型 在一些试验中希望建立指标y与各定量因子 (又称变量) 间相关关系的定量表达式,即回归方程,以便通过该回归方程找出使指标满足要求的各因子的范围 。 可以假定 y与 间有如下关系: 这里 是 的一个函数,常称为响应函数,其图形也称为响应曲面; 是随机误差,通常假定它服从均值为0,方差为 的正态分布。 在上述假定下, 可以看作为在给定 后指标
2、的均值,即 pzzz,21pzzz,21),(21pzzzfy),(21pzzzfpzzz,212),(21pzzzfpzzz,21),()(21pzzzfyE第2页/共83页 称z 的可能取值的空间为因子空间。我们的任务便是从因子空间中寻找一个点z0 使E(y)满足质量要求。 当f的函数形式已知时,可以通过最优化的方法去寻找z0 。在许多情况下f的形式并不知道,这时常常用一个多项式去逼近它,即假定: ),(21pzzz),(00201pzzz(7.1.1) 20jijiijjjjjjjjzzzzy这里各 为未知参数,也称为回归系数,通常需要通过收集到的数据对它们进行估计。 若用 表示相应的估
3、计,则称 ,0ijjjj,0ijjjjbbbb ybb zb zb z zjjjjjjjijijij02为y关于 的多项式回归方程。 pzzz,21第3页/共83页 在实际中常用的是如下的一次与二次回归方程(也称一阶与二阶模型):jjjzbby0 20jijiijjjjjjjjzzbzbzbby一般p个自变量的d次回归方程的系数个数为 ddp第4页/共83页11.1.2 多元线性回归 (14.1.1)是一个多项式回归模型,在对变量作了变换并重新命名后也可以看成是一个多元线性回归模型。 1 1回归模型 设所收集到的n n组数据为假定回归模型为: niyxxxiipii, 2 , 1 ),(21
4、), 0(, 2 , 12110Niidnixxyiiippii各,第5页/共83页记随机变量的观察向量为 未知参数向量为 不可观察的随机误差向量为 结构矩阵那么上述模型可以表示为:nyyyY21p10n21npnppxxxxxxX1221111111),(nnINXY20或),(2nnIXNY第6页/共83页 2回归系数的最小二乘估计 估计回归模型中回归系数的方法是最小二乘法。 记回归系数的最小二乘估计(LSE)为 ,应满足如下正规方程组: 当 存在时,最小二乘估计为 在求得了最小二乘估计后,可以写出回归方程: 今后称 为正规方程组的系数矩阵, 为正规方程组的常数项向量, 为相关矩阵。 在前
5、述模型下,有 ),(10pbbbbYXXbX1XXYXXXb1ppxbxbby110XXAYXB1XXC)(,(12XXNb第7页/共83页若记 ,那么)(1ijcXXCpjcNbjjjj, 2 , 1 , 0 ),(2在通常的回归分析中,由于C C非对角阵,所以各回归系数间是相关的: 2),(ijjicbbCov第8页/共83页 3对回归方程的显著性检验 对回归方程的显著性检验是指检验如下假设: H0: H1: 不全为0检验方法是作方差分析。 记 则有平方和分解式 其中 为残差平方和,自由度为 为回归平方和,自由度为当H0为真时,有 对于给定的显著性水平 ,拒绝域为 。 021pp,21ni
6、xbxbbyippii,2,1110,REniiniiiniiTSSyyyyyyS121212)()()(iiiEyyS2)(1pnfE2)(yySiRpfR) 1,(),(/pnpFffFfSfSFEREERR) 1,(1pnpFF第9页/共83页 若记p+1维向量 ,那么 )(jBBYXppniiiiiEBbBbBbyyyS1100122)(ETiRSSyyS2)(第10页/共83页 4失拟检验 当在某些点有重复试验数据的话,可以在检验回归方程显著性之前,先对y 的期望是否是 的线性函数进行检验,这种检验称为失拟检验,它要检验如下假设: H H0 0: H H1 1:当在 上有重复试验或观
7、察时,将数据记为 其中至少有一个 ,记 。此时残差平方和可进一步分解为组内平方和与组间平方和,其中组内平方和就是误差平方和,记为 ,组间平方和称为失拟平方和,记为 ,即: pxxx,21ppxxEy110ppxxEy110),(21ipiixxxnimjyxxxiijipii, 2 , 1, 2 , 1),(21,2imniimN1eSLfeESSSLfS第11页/共83页nimjiijeiyyS121)(nNmfie) 1(imjijiiymy11niiiiLfyymS12)(1pnfLf, 检验统计量为 在H0为真时, ,对于给定的显著性水平 ,拒绝域为 当拒绝H0时,需要寻找原因,改变模
8、型,否则认为线性回归模型合适,可以将Se与SLf合并作为SE检验方程是否显著。其中eeLfLfLffSfSF/),(eLfLfffFF),(1eLfLfffFF第12页/共83页 5对回归系数的显著性检验 当回归方程显著时,可进一步检验某个回归系数是否为0,也即检验如下假设: 此种检验应对j=1,2, p逐一进行。 常用的检验方法是t t检验或等价的F F检验,F F检验统计量为:其中 是 中的第j j+1+1个对角元。 记分子为 ,即 ,它是因子 的偏回归平方和 分母是模型中 的无偏估计。 , 也称为 的标准误,即其标准差的估计。 0010jjjjHH:,:222/jjjjjcbtFjjc1
9、)(XXjSjjjjcbS/2jx2EEfS / jjcjb第13页/共83页 当H0j为真时,有 。 给定的显著性水平 ,当 时拒绝假设H0j,即认为 显著不为零,否则可以将对应的变量从回归方程中删除。 注:当有不显著的系数时,一般情况下一次只能删除一个F值最小的变量,重新计算回归系数,再重新检验。通常要到余下的系数都显著时为止。 ), 1 (EjfFF), 1 (1EjfFFj第14页/共83页11.1.3 回归分析对数据的处理由被动变主动 古典的回归分析方法只是被动地处理已有的试验数据,对试验的安排不提任何要求,对如何提高回归方程的精度研究很少。 后果: (1)盲目增加试验次数,而这些试
10、验结果还不能提供充分的信息,以致在许多多因子试验问题中达不到试验目的。 (2)对模型的合适性有时无法检验,因为在被动处理数据时在同一试验点上不一定存在重复试验数据。 为了适应寻求最佳工艺、最佳配方、建立生产过程的数学模型等的需要,人们就要求以较少的试验次数建立精度较高的回归方程。 第15页/共83页 为此,要求摆脱古典回归分析的被动局面,主动把试验的安排、数据的处理和回归方程的精度统一起来考虑,即根据试验目的和数据分析的要求来选择试验点,不仅使得在每一个试验点上获得的数据含有最大的信息,从而减少试验次数,而且使数据的统计分析具有一些较好的性质。 这就是二十世纪五十年代发展起来的“回归设计”所研
11、究的问题。 回归设计的分类: 根据建立的回归方程的次数不同,回归设计有一次回归设计、二次回归设计、三次回归设计等; 根据设计的性质又有正交设计、旋转设计等。 第16页/共83页11.1.4 因子水平的编码 在回归问题中各因子的量纲不同,其取值的范围也不同,为了数据处理的方便,对所有的因子作一个线性变换,使所有因子的取值范围都转化为中心在原点的一个“立方体”中,这一变换称为对因子水平的编码。 方法如下: 设因子 的取值范围为: , 与 分别称为因子 的下水平与上水平。其中心也称为零水平: , 因子的变化半径为 , 令 ,此变换式就称为“编码式”。 jzjjjzzz21pj, 2 , 1jzjz1
12、jz22/ )(210jjjzzzpj, 2 , 12/ )(12jjjzzpj, 2 , 1jjjjzzx0pj, 2 , 1第17页/共83页 例 硝基蒽醌中某物质的含量y与以下三个因子有关: z1:亚硝酸钠(单位:克) z2:大苏打(单位:克) z3:反应时间(单位:小时)为提高该物质的含量,需建立y关于变量z1,z2,z3的回归方程。 1试验设计 (1)确定因子取值范围,并对它们的水平进行编码 本例的因子水平编码见下表。 表 因子水平编码表 因子 水平 编码值 z1 z2 z3 上水平 +1 9.0 4.5 3 下水平 - -1 5.0 2.5 1 零水平 0 7.0 3.5 2 变化
13、半径j 2 1 1第18页/共83页确信或怀疑因素对指标存在非线性影响;因素个数2-72-7个,一般不超过4 4个;所有因素均为计量值数据;试验区域已接近最优区域;基于2 2水平的全因子正交试验。第19页/共83页中心复合试验设计中心复合试验设计(central composite design(central composite design,CCD)CCD);Box-Behnken design BBD Box-Behnken design BBD 试验设计;试验设计;第20页/共83页 立方点立方点 轴向点轴向点 中心点中心点 区组区组 序贯试验序贯试验 旋转性旋转性11.1.5.111
14、.1.5.1 中心复合试验设计第21页/共83页立方点:也称立方体点、角点,即2水平对应的“-1”和“+1”点。各点坐标皆为+1或-1。在k个因素的情况下,共有2k个立方点第22页/共83页轴向点:又称始点、星号点,分布在轴向上。除一个坐标为+或-外,其余坐标皆为0。在k个因素的情况下,共有2k个轴向点。第23页/共83页中心点:亦即设计中心,表示在图上,坐标皆为0。第24页/共83页三因素下的立方点、轴向点和中心点第25页/共83页 也叫块。设计包含正交模块,正交模块可以允许独立评估模型中的各项及模块影响,并使误差最小化。 但由于把区组也作为一个因素来安排,增加了分析的复杂程度。第26页/共
15、83页 先后分几段完成试验,前次试验设计的点上做过的试验结果,在后续的试验设计中继续有用。第27页/共83页 旋转设计具有在设计中心等距点上预测方差恒定的性质,这改善了预测精度。第28页/共83页 在的选取上可以有多种出发点,旋转性是个很有意义的考虑。在k个因素的情况下,应取 = 2 k/4当k=2, =1.414;当k=3, =1.682;当k=4, =2.000;当k=5, =2.378第29页/共83页 按上述公式选定的值来安排中心复合试验设计(CCD)是最典型的情形,它可以实现试验的序贯性,这种CCD设计特称中心复合序贯设计(central composite circumscribe
16、d design,CCC),它是CCD中最常用的一种。第30页/共83页 如果要求进行CCDCCD设计,但又希望试验水平安排不超过立方体边界,可以将轴向点设置为+1+1及-1-1,则计算机会自动将原CCDCCD缩小到整个立方体内,这种设计也称为中心复合有界设计(central composite (central composite inscribed design,CCI)inscribed design,CCI)。 这种设计失去了序贯性,前一次在立方点上已经做过的试验结果,在后续的CCICCI设计中不能继续使用。第31页/共83页 对于值选取的另一个出发点也是有意义的,就是取=1,这意味着
17、将轴向点设在立方体的表面上,同时不改变原来立方体点的设置,这样的设计称为中心复合表面设计 (central composite face-centered design,CCF)。 这样做,每个因素的取值水平只有3个(-1,0,1),而一般的CCD设计,因素的水平是5个(-,-1,0,1,),这在更换水平较困难的情况下是有意义的。这种设计失去了旋转性。但保留了序贯性,即前一次在一次在立方点上已经做过的试验结立方点上已经做过的试验结果,在后续的果,在后续的CCFCCF设计中可设计中可以继续使用以继续使用,可以在二阶回归中采用。第32页/共83页 在满足旋转性的前提下,如果适当选择Nc,则可以使整
18、个试验区域内的预测值都有一致均匀精度(uniform precision)。见下表:第33页/共83页第34页/共83页1.1. 拟合选定模型;2.2. 分析模型的有效性:P P值、R R2 2及R R2 2(adj)(adj)、s s值、 失拟分析、残差图等;3.3. 如果模型需要改进,重复1-31-3步;4.4. 对选定模型分析解释:等高线图、曲面图;5.5. 求解最佳点的因素水平及最佳值;6.6. 进行验证试验。第35页/共83页将各试验点取在立方体棱的中点上第36页/共83页 在因素相同时,比中心复合设计的试验次数少; 没有将所有试验因素同时安排为高水平的试验组合,对某些有安全要求或特
19、别需求的试验尤为适用; 具有近似旋转性,没有序贯性。第37页/共83页第38页/共83页11.2 Design-Expert 的应用BBD Design-Expert是全球顶尖级的实验设计软件。Design-Expert 是最容易使用、功能最完整、界面最具亲和力的软件。在已经发表的有关响应曲面(RSM)优化试验的论文中, Design-Expert是最 广泛使用的软件。 PlackettBurman(PB)、Central Composite Design(CCD)、Box-Behnken Design(BBD)是最常用的实验设计方法。第39页/共83页打开design expert软件,进入
20、主界面,然后点击file-new创建一个新的试验设计工程文件,然后点击左侧的Response surface选项卡,进入响应面试验设计.WO DE 第40页/共83页因素数量本实验中的绝对因素中点试验每个BLOCK重复次数本次试验分几个区块进行该处为响应面设计的几种方法,最常用的就是BOX-BEHNKEN设计法,其他几种设计方法有兴趣的同学可以找对应的资料来看一下第41页/共83页第42页/共83页因变量个数,即本试验中改变自变量会有几个因变量发生变化,一般试验指标都是一个,因此常常为1,例如,检测温度,pH,时间对某处理工艺对样品中含糖量的变化,那么含糖量即为唯一的指标,即因变量数量为1,该
21、处选1。如果检测温度,pH,时间对某处理工艺同时对样品中含糖量和蛋白质含量的影响,即因变量数量为2,该处选2,并在下方因变量设置中设置好对应的名称和单位。第43页/共83页两种排序方式,可任选试验中设置的因素的水平把每个试验对应的试验结果填入本栏内,准备做数据分析第44页/共83页各因素的实际值变为编码值,比如,因素1的高点设置为0.5,编码值即为+1,低点设置为0,编码值即为-1,中点为0.25,编码值即为0第45页/共83页转变为编码值之后的页面第46页/共83页完成每组试验,将试验结果填入对应的响应值框内。第47页/共83页点击此处即开始进行数据分析第48页/共83页第49页/共83页拟
22、合公式的处理方法,一般取默认即可第50页/共83页例如本试验中,拟合的方程显著性不好,显示为不显著第51页/共83页残差的正态概率分布,越靠近直线越好第52页/共83页残差与方程预测值的对应关系图,分布越分散越无规律越好第53页/共83页预测值与试验实际值的对应关系图,其中点越靠近同一条直线越好第54页/共83页按照黄色框操作进入数据报告界面第55页/共83页点击此处进入响应面图形显示界面第56页/共83页等高线图考察每两个因素对因变量造成的影响,并由拟合的方程形成等高线,为二维平面图形,可经由该图找出较好范围第57页/共83页点击此处可查看3D图第58页/共83页三维响应曲面图可更直观的看出
23、两因素对因变量的影响情况,可以很直观的找出最优范围,刚才所看的二维等高线图即为三维响应面图在底面的投影图第59页/共83页第60页/共83页第61页/共83页响应面试验最优值预测方法第62页/共83页首先根据实际情况确定每个因素可以取值的范围,例如在酶催化条件优化试验,温度范围一般不会超过80,否则酶会变性,那么我们就可设置该因素取值范围为0-80,也可根据实际实验或者生产条件设置该值。第63页/共83页响应值目标的确定我们每个试验都有不同的目的,有的想使结果最大,例如某种物质的提取率,有使结果最小,例如检查几种因素对产品稳定性的影响,此时结果越小越好,有时候我们需要把结果稳定在某个范围或者需
24、要一个固定的,无限趋近的目标值。那么在这四种模式中我们可以选择其相对应的情况第64页/共83页例如,本实验中我们想得到一个结果最大,那么我们选择MAXIMIZE,然后在下面两个框中,左侧低值可不管,右侧高值项中填入一个尽可能大的无法达到的值,例如,某物质提取试验,提取率最高不会超过100%,那么我们在右侧填入100%即可达到我们的目的,当然,填入200%亦可。第65页/共83页上一步完成后在此处点击solutions选项卡,即可看到经过分析得到的最优值,其中第一个方案就是各因素取最优值后的结果可取得最大化的解决方案,为预测值此处为最优条件第66页/共83页11.3 Design-Expert
25、的应用CCD水平水平A液料比液料比B提取时间提取时间C乙醇体积分数乙醇体积分数D提取温度提取温度 ml:gmin%-210.0:110.0025.00-122.5:127.52038.75035.0:145.04052.50147.5:162.56066.25260.0:180.08080.00第67页/共83页第68页/共83页第69页/共83页第70页/共83页第71页/共83页第72页/共83页第73页/共83页第74页/共83页第75页/共83页第76页/共83页第77页/共83页第78页/共83页第79页/共83页平的效果不能做出预测。第80页/共83页因素数(k)234567次数CCD1320315290BBD1729465462 CCD BBD第81页/共83页第82页/共83页感谢您的观看!第83页/共83页