DOE试验设计(SAS JMP)经典学习案例.pdf-淘文阁

资源描述

《DOE试验设计(SAS JMP)经典学习案例.pdf》由会员分享，可在线阅读，更多相关《DOE试验设计(SAS JMP)经典学习案例.pdf（33页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、DOEDOEDOEDOE 就在你身边就在你身边 DOEDOEDOEDOE 系列之一系列之一DOE，即试验设计(Design Of Experiment)，是研究和处理多因子与响应变量关系的一种科学方法。它通过合理地挑选试验条件，安排试验，并通过对试验数据的分析，从而找出总体最优的改进方案。从上个世纪 20 年代费雪(Ronald Fisher)在农业试验中首次提出 DOE的概念，到六西格玛管理在世界范围内的蓬勃发展，DOE 已经历了 80 多年的发展历程，在学术界和企业界均获得了崇高的声誉。然而，由于专业统计分析的复杂性和各行各业的差异性，DOE 在很多人眼中逐渐演变为可望而不可及的空中楼阁。

2、其实，DOE 绝不是少数统计学家的专属工具，它很容易成为各类工程技术人员的好朋友、好帮手。本文将以一个日常生活中的小案例为线索，结合操作便捷的专业统计分析软件 JMP，帮助大家揭开 DOE 的神秘面纱，了解 DOE的执行过程，自由自在地建立属于自我的 DOE 空间。场景:相信大家都吃过爆米花，但是大家是否都了解爆米花的制作过程？在品尝爆米花的时候，不知道您是否注意到有很多爆米花没有爆开，也有很多被爆焦。这两种情况都是生产过程中的质量缺陷。这里，我们基于六西格玛软件 JMP 来实现我们的目标：寻找使用微波炉加工一包爆玉米花的更佳程序。凭借经验，我们很容易就能确定重要因子的合理范围：加工爆玉米花的

3、时间（介于 3 至 5 分钟之间）微波炉使用的火力（介于 5 至 10 档之间）使用的玉米品牌（A 或 B）在爆玉米花时，我们希望所有（或几乎所有）的玉米粒都爆开了，没有（或很少）玉米粒未爆开。因此玉米的爆开个数是最终关注的重点。第 1 步：定义响应和因子（如图一所示）图一定义响应和因子第 2 步：定义因子约束（如图二所示）根据经验，你知道：不能在试验中长时间高火力加工爆玉米花，因为这样会烧焦某些玉米粒。不能在试验中短时间低火力加工爆玉米花，因为这样只有少数玉米粒爆开。所以要限制试验，以使加工时间加上微波炉火力小于等于 13，但大于等于 10。图二定义因子约束第 3 步：添加交互作用项（

4、如图三所示）我们可以推测：与爆开玉米比例相关的任意因子效应可能取决于某些其它因子的值。例如，品牌 A 时间变化的效应可能大于或小于使用品牌 B 相同时间变化的效应。这种因子表现出的协同效应统称为二因子交互作用。我们决定在爆玉米花加工过程的先验模型中纳入所有可能的二因子交互作用。图三添加交互作用项第 4 步：确定试验次数（如图四所示）根据在模型中添加的效应，执行试验需要一定的试验次数。我们可以使用最小值、建议值，也可以指定试验次数，只要其值大于最小值。本例中，我们将使用默认的试验次数16。图四确定试验次数第 5 步：指定输出表格（如图五所示）生成的数据表保留了随机化的特性，显示了我们应该运行

5、试验的顺序，首先在 7 级火力下将第一包 B 牌的玉米加工 3 分钟，然后在 5 级火力下将 B 牌玉米加工 5 分钟，依次进行。图五指定输出表格第 6 步：收集和输入数据（如图六所示）根据设计方案加工爆玉米花。然后，计算每包中爆开的玉米粒的数量。最后，保存结果至数据表。图六收集和输入数据第 7 步：分析结果（如图七所示）可以构建数据模型了，一般使用最常见的分析方法-最小二乘法，但是如果响应数据明显不呈正态分布时，选择广义线形模型法会显得更为合适。图七分析结果简要地查看输出报告中的参数估计表，发现所有的 p 值都小于 0.05，表明所有的模型效应，包括一次主因子作用、二次主因子作用和双因

6、子交互作用，均是显着的。我们已确认时间、火力以及品牌与爆开玉米粒个数之间存在着紧密关系，要进行进一步研究，可以打开预测刻画器，分析因子组合的变化如何影响爆开玉米粒的个数。预测刻画器显示了每个因子对响应的预测轨迹，移动红色虚线，便能查看更改因子值对响应产生的影响。例如，单击时间图中的红线并左右拖动，当时间值从 3 转移至 5 时，爆开个数也在发生相应得变化。同时，随着时间的增加和减少，时间和火力预测轨迹的斜率也随之改变，表明确实存在时间和火力的交互效应。最后，还可以通过预测刻画器寻找出最优设置，即最合意的设置。我们根据试验分析结果而推荐的方法是：使用 A 品牌，加工 5 分钟，并将火力调为 6.

7、96 级。试验预测在此种设置下加工，产出的玉米粒 445 个以上都爆开了。类似这种爆玉米花的案例在我们的生活和工作中还有很多很多，有兴趣的读者完全可以将平时遇到的问题抽象成一个 DOE 模型，然后借助 JMP 这样的专业统计分析软件，轻轻松松地得到问题的解决方案。有关 DOE 的更加深入的理论和应用，笔者会在今后的文章中继续与大家交流。初识初识 DOEDOEDOEDOEDOEDOEDOEDOE 系列之二系列之二其实，DOE 对中国人来说，也不是一个完全崭新的内容。早在新中国成立初期，华罗庚教授就在我国农业、工业领域大力倡导与普及 DOE，只是当时他运用的是另一个名词优选法。七十年代末，方开泰教

8、授和王元院士又提出了著名的“均匀设计”法，这一方法在我国航空航天事业中的导弹设计中取得了巨大成效。与此同时，“均匀设计”法也在全球研究 DOE 理论的学术界得到了高度赞誉。但是，在将 DOE 的先进理念和科技方法向各行各业转移，向一般技术人员转移，并转换为高效生产力的道路上，我们的进展还很有限。通过“DOE 系列之一”我们已经知道：DOE 与人们的生活及工作密切相关，在专业六西格玛统计分析软件 JMP 的帮助下，掌握 DOE 也不再是一件难事。从本质上讲，DOE是这样一门科学：研究如何以最有效的方式安排试验，通过对试验结果的分析以获取最大信息。所以，DOE 有两大技术支柱：试验规划和分析方法。

9、其中，试验规划又可以分为均分设计、因子设计、响应面设计等，分析方法又可以分为极差分析、方差分析、多元回归分析等。虽然 DOE 的理论体系中涉及统计分析的专业词汇很多，但为便于读者理解，本文包括后续的系列文章将尽量避免过多地涉及统计分析的基本概念，而是将以“解决问题的思路”为导向，由浅入深地向读者介绍 DOE 的理论体系和应用过程。另外，感谢当代高速发展的计算机技术，我们可以借助六西格玛统计分析软件 JMP 来实现上述所有的试验设计方案，顺便提一下，JMP 是目前唯一能实现上述所有试验设计方案的六西格玛统计分析软件，而且已经面向大中华地区推出中英文双语版软件。一般的实际问题都是纷繁复杂、千变万化

10、的，但是透过现象看本质，所有实际问题的共同点也可以通过统一的模型来抽象概括。图一就是一个高度简化的过程模型，其中 Y1，Y2，Ys 是我们关心的输出变量，例如质量指标、生产能力和成本等，通常被称为“响应变量”（Response）；X1，X2，Xk 是我们在工作中可以加以控制的输入变量，例如人员、设备、原材料、操作方法和环境等，通常被称为“可控因子”（Factor），它们可以是连续型数据，也可以是离散型数据；中间的“黑匣子”是“过程”（Process），在前两者之间起着衔接转换的作用，它与不同行业、不同产品、不同技术密切相关，但整体都可以用的数学模型来表示。这个数学模型的具体表达式越精准，说明

11、我们对这个过程的理解越深刻，DOE 就是协助我们揭示或验证数学模型表达式的利器！图一过程模型在某些要求不高的工作环境中，往往不需要用一个复杂的数学表达式来描述过程的全貌，但至少要了解哪个或哪几个因子（X）对响应（Y）的影响显著，哪些因子之间存在着相互影响的关系等。这时，“主因子作用”（Main Effect）和“交互作用”（Interaction）可以帮助我们回答这些问题。在此，不强调具体的计算过程，主要以视觉效果阐述主要概念。主因子作用是指一个因子在不同水平下的变化导致响应的平均变化量。正如图二所示，X 在-1 和+1 两个水平下 Y 值的落差反映的就是主因子作用。交互作用是指当其他因子的

12、水平改变时，一个因子的主因子作用的平均变化量。正如图三所示，左半部分的因子 A 对Y 的影响没有受因子 B 的变化而变化，两组 A 与 Y 的回归直线完全平行，表明因子 A 与B 之间没有任何交互作用；反之，右半部分的因子 A 对 Y 的影响受因子 B 的变化而变化，两组 A 与 Y 的回归直线明显相交，表明因子 A 与 B 之间存在显著的交互作用。图二主因子作用示意图图三交互作用示意图秉承“理论联系实际”的原则，接下来我们用一个真实的案例来说明上述原理的实际意义。场景：一位工程师希望通过减小厚度来改善涡轮叶片质量，首先他想定量地研究在相关的生产过程中，三个最有可能会影响厚度的变量：铸造温

13、度(Mold Temp)、浇注时间(Mold Time)和放置时间(Set Time)。根据 DOE 理论中最简单的“完全因子设计”，工程师决定开展一个“三因子，两水平，共八次”的现场试验。试验方案和最终结果如表一所示，试通过主因子作用和交互作用进行分析。表一涡轮叶片厚度试验记录相关的统计计算可以借助专业六西格玛统计分析软件MP轻松实现，在此不一一详述，重点用形象直观的图形说明分析结果。图四各因子的主因子作用铸造温度(C)浇铸时间(S)放置时间(M)厚度(mm)300113.61350113.77300316.75350313.72300123.34350123.24300327.0135

14、0324.14图五各因子间的交互作用由图四可知，铸造温度和浇铸时间对涡轮叶片的厚度有比较显著的影响，而放置时间则几乎没有任何影响。由图五可知，铸造温度与浇铸时间之间、放置时间与浇铸时间之间的交互作用比较明显，而铸造温度与放置时间之间的交互作用则几乎为零。通过上述可视化的分析过程，我们清楚地理解了该过程中铸造温度和浇铸时间的正确设置对最终产品质量的重要性。当然以上只是有关 DOE 的一个最基础的应用，笔者会在下期文章中进一步与大家交流更深层次的内容。（资深六西格玛咨询专家周暐）多因子多因子 DOEDOEDOEDOE 的魅力的魅力DOEDOEDOEDOE 系列之三系列之三通过前两期的介绍，我们

15、已经初步认识到了 DOE 的强大分析功能。但是有的读者可能会不以为然：在此之前的两个案例中因子的数量太少(只有 3 个)，而实际需要解决的问题会复杂得多，涉及的因子数量也可能会很多(至少有 6 个)。因此，他就可能会得出一个结论：DOE 只适合于少数因子的问题分析，至于处理多因子问题，则显得无能为力了。这个结论显然有失偏颇，其实 DOE 的一大特点就是可以处理包含多达 50 个(并不限于 50 个)因子的复杂问题，本期的主要内容就是向读者介绍多因子 DOE 的方法。从理论上讲，上一期的 DOE 案例实质上采用的是完全因子设计(Full Factorial Design)，这类方法在因子数量较少

16、的时候实施起来比较方便。但是正如表一所示，当试验中的因子数量逐步增加时，试验次数却呈指数增加，庞大的试验规模意味着巨额的试验费用，意味着实施 DOE 的可行性越来越小。表一完全因子 DOE 的局限为了解决这个矛盾，我们可以用一种更具魅力的方法部分因子设计(Fractional Factorial Design)来替代一般的完全因子设计。顾名思义，部分因子设计源于完全因子设计，是与其对应的完全因子设计中的一部分。但究竟是哪一部分，是否可以随机选取?举一个简单的例子来说明。表二显示的是一个完全因子设计的计划表，A、B 和 C 表示三个主因子，+1 和-1 表示因子的两个不同水平，AB、AC 和

17、BC 表示二阶交互作用，ABC 表示三阶交互作用，总共需要做 8 次不同的水平组合来完成 1 次完全因子设计的计划。表二 3 因子的完全因子设计计划表因子数量试验次数2438416532664712882569512101024RunABCABACBCABC1-1-1-1111-121-1-1-1-1113-11-1-11-11411-11-1-1-15-1-111-1-1161-11-11-1-17-111-1-11-181111111以上这个试验计划适用于 3 个或以下因子，可支持 8 次试验运行的 DOE。如果增加了第四个因子 D，但依然只能支持 8 次试验运行时，我们应该怎么办呢?原来

18、表二中的计划表有 8 行 7 列，任意两列间是相互正交的。我们希望增加一列来安排因子 D，而且希望此列仍然能与前面各列保持正交性。数学上可以证明，“找出一个与前 7 列不同的列而与前 3 列保持正交”是不可能的。换句话说，D 列必须与第 4、5、6、7 列中的某列完全相同。完全相同意味着这两列的效应会被“混杂”(Confounded)，即获得计算所得的分析结果后，分不清两种效应各是多少。权衡之下，我们认为取 D=ABC 是最好的安排，因为通常主因子作用与三阶交互作用混杂的可能性最小。根据上述决定，将 D 列取值设定与 ABC 列相同，并将其前移至第 4 列，可以得到表三所列的计划表。表三 4

19、因子的部分因子设计计划表聪明的读者一定会猜到还可以使用图二的计划表继续构建出第 5、第 6 乃至第 7 个因子，但试验的规模依然保留在 8 次。当然，当同等规模的试验中所涉及的因子数量越多时，产生“混杂”的概率会越大，后期分析结果的精确程度也会有所降低。这就是试验成本与分析精度这对矛盾的平衡，也是“部分因子设计”产生的基本原理。值得一提的是，在制定部分因子设计的具体方案时，不必如此繁琐地逐一推算，成熟的六西格玛统计分析软件 JMP早已能够自动地实现了这一功能。下面我们想通过一个发生在国外的 DOE 案例来体会部分因子设计的实际意义。场景:ACB 公司是一家网络公司，主要为个人用户提供服务。近阶

20、段以来公司网站的点击数总体偏低，排名在同行业中持续下滑，高层管理层决定通过一个 DOE 项目找到少数几个关键因素，提高公司网站的每周访问量。经过初步分析，项目团队发现关键词的个数、关键词的类型、URL 标题、每周的更新频率、关键词在标题中的位置和免费礼物是最具可能性的关键因子。但是如果按传统的完全因子设计的思路，至少要做 26=64 次试验，项目的时间跨度超过一年，分析结果的价值性大大降低，有什么好办法来克服这个困难呢?显然，这个案例用部分因子设计的 DOE 来实现是再合适不过了。针对已知的 6 个关键因子，各取两个最具代表性的水平值，鉴于该项目的主要目的是寻找关键因子，选择筛选效率最高的设计

21、方案 26-3(=8)，不同水平组合时分别运行 1 周，八周后统计相应的点击数量，结果如表四所示。RunABCDABACBCABC(=D)1-1-1-1-1111-121-1-11-1-1113-11-11-11-11411-1-11-1-1-15-1-1111-1-1161-11-1-11-1-17-111-1-1-11-1811111111表四 DOE 实施记录接着，专业六西格玛统计分析软件 JMP 可以帮助我们做出具体的定性和定量的分析，不仅如此，它还等借助丰富生动的图形甚至动画将分析结果展现给我们。在此笔者不想强调过多的统计概念，只想用形象直观的图形说明分析结果。图一主因子作用的 P

22、areto 图图二主因子作用的正态性图URL 标题关键词的个数关键词的类型每周的更新频率关键词在标题中的位置免费礼物点击数短5旧4第 70 个字符有5083长5旧1第 40 个字符有2272短10旧1第 70 个字符无2012长10旧4第 40 个字符无4328短5新4第 40 个字符无6359长5新1第 70 个字符无3676短10新1第 40 个字符有4779长10新4第 70 个字符有6549无论是从图一的 Pareto 图，还是从图二的正态性图，我们都能清晰地发现每周的更新频率和关键词的类型是影响点击数的关键因子。由此可见，在部分因子设计的思想指引下，多因子试验的时间成本、经济成本大

23、大减少，而主要的分析目的没有受到丝毫的影响，多因子 DOE 的魅力正吸引着更多的工作人员将 DOE 的分析方法应用到更多的应用领域中。用用 DOEDOEDOEDOE 方法最优化质量因子配置方法最优化质量因子配置DOEDOEDOEDOE 系列之四系列之四经过筛选试验的精简和全因子试验的描述，很多人会满足已经取得的成绩，但也有一些精益求精的人会提出这样的问题：现有的最佳因子水平组合一定是所有因子设置中最理想的选择吗？如果不是，又应当如何找出最优化的因子设置？确实，以往的 DOE 侧重于分析哪些因子是重要的，到底有多重要以及它们之间是否会相互影响，却没有刻意去从整体中寻觅最佳的因子设置。为了解决这个

24、问题，需要引入 DOE 中另一种新方法响应曲面方法（Response Surface Methodology,即 RSM），这也是我们本期 DOE 系列介绍的主题。在这里，笔者仍将借助目前业界公认的高端六西格玛统计分析软件 JMP 来为大家展现响应曲面方法的实现和应用，顺便提及，JMP6 是迄今业界唯一的中英文双语版六西格玛软件，来自全球顶尖的统计学软件集团 SAS。在实际工作中，常常需要研究响应变量究竟如何依赖于自变量 X 的，进而能找到自变量的设置使得响应变量得到最佳值。当自变量的个数较少（通常不超过 4 个），则响应曲面方法是最值得推荐的方法，适合于要求响应变量望大（即越大越好）、望小

25、（即越小越好）和望目（即越接近目标值越好）等各种常见情形。通常来说，DOE 的核心技术可分为试验计划和数据分析两大类，响应曲面方法也不例外。在数据分析方面，它和以前介绍的方法没有什么本质的不同，但在试验计划方面，则有显著的改进。响应曲面方法的试验计划主要有中心复合设计和 Box-Behnken 设计两种形式，具体用图形说明如下。图一三因子中心复合设计布点示意图图一是以三维空间立方体的形式展示了一个三个因子的中心复合设计的试验计划示意图，在以下的叙述中给出的坐标都已将各因子代码化。整个试验由下面三部分试验点构成。1.立方体点（Cube Point），用蓝色点表示。各点坐标皆为 1 或-1，这是全

26、因子试验相同的部分。2.中心点(Center Point)，用绿色点表示。各点的三维坐标皆为0。3.轴点(Axial（旋转性指数）外，其余维度的自变量坐标皆为 0。Point)，用黄色点表示。除了一维自变量坐标为在三个因子情况下，共有 6 个轴点。试验计划的另一种形式就是 Box-Behnken 设计。这种设计的特点是将因子各试验点取在立方体每条边的中点上。图二三因子 Box-Behnken 设计布点示意图图二同样以三维空间立方体的形式展示了一个三个因子的 Box-Behnken 设计的试验计划示意图。整个试验由下面两部分试验点构成。1.边中心点（Side Center Point），用白色

27、点表示。除了一维自变量坐标为 0 外，其余维度的自变量坐标皆为1。在三个因子情况下，共 12 个边中心点。2.中心点(Center Point)，用黑色点表示。各点的三维坐标皆为 0。由以上两个示意图可以清晰地发现，响应曲面方法有规律、有目的地在试验计划中增添了有限次数的各因子的中心试验点和拓展试验点，这为研究曲率的变化趋势、最优区域的确定等提供了极大的便利。关于响应曲面方法在数据分析方面的特点，由于其和一般的因子设计 DOE 非常类似，此处就不做赘述。主要还是通过一个工业案例来一并介绍响应曲面方法的实际应用。场景:如何通过催化剂（Catalyst）和稳定剂（Stabilizer）配置比例的具

28、体设定，才能获得某化学试剂的最低不纯度（Impurities%）？显然，此时的工程师已经不满足于从仅有的四次全因子组合中选择最优的选项，而是希望在一个更广阔的可行性空间里充分挖掘过程的潜能，寻觅到一个最理想或是最接近理想值的配置比例。当然，实现这一目的的同时还要兼顾试验的经济成本和时间次数等。因子因子低水平（低水平（-1-1-1-1）高水平（高水平（+1+1+1+1）催化剂%（Catalyst）0.5863.414稳定剂%（Stabilizer）0.5863.414这时候，将传统的因子设计方法搁置一旁，适时地调用响应曲面方法，往往会起到最佳的效果。为了提高我们应用 DOE 的工作效率，本文将直

29、接使用专业统计软件 JMP 进行响应曲面方法分析，试图获得化学试剂的不纯度最低时的配置比例。首先，我们根据实际情况，以中心复合设计为原则，迅速地确定了 13 次运行次数的试验规模以及每次试验时的因子具体设置。接着，根据既定的试验计划进行实施，并且及时收集每次试验的响应值。将以上结果汇总之后，即可得到如图三所示的 JMP 文件格式的数据表格。图三中心复合设计的试验结果汇总表然后，运用“模型拟合”的操作平台，就可以得到具体详尽的定量分析。遵循我们“强调通俗易懂，淡化统计原理”的一贯原则，我们不多在统计参数上花费笔墨，依然通过形象直观的图形来说明分析结果。在求出精确解之前,我们先观察一下图四所示的等

30、高线图（Contour Plot）和图五所示的曲面图（Surface Plot）。从两个图中都可以清楚地看到，在原试验范围内确实存在一个最小值。图四等高线图图五曲面图那么这个最小值究竟是多少？它又是在什么条件下产生的呢？进一步借助 JMP自带的模型预测刻画器（Prediction Profiler），如图六所示，我们可以轻轻松松地得到最优化的配置比例：催化剂%=1.410568，稳定剂%=3.282724，这时产生的最低不纯净度%=3.156636。顺便提及，笔者尝试了多种统计分析软件，只发现 JMP 集成了模拟功能，实在难能可贵。至此，我们匆匆走过了应用 DOE 优化流程的探索之路。其实在

31、DOE的优化过程中，还有很多其他实用的知识和技巧，笔者将会在今后的文章中在做深入的介绍。图六模型的预测刻画器顾此不失彼的顾此不失彼的 DOEDOEDOEDOEDOEDOEDOEDOE 系列之五系列之五本连载前四个系列已经介绍了几种不同背景、不同要求的情况下，应用 DOE 的原理和技巧。但细心的读者会发现之前的案例有一个共同的特点（或者称为局限）：数据分析仅限于单个响应变量。在实际工作中，常常会遇到要同时考虑多个响应变量的情况，例如希望断裂强度越大越好，同时希望厚度越小越好；希望质量水平越高越好，但同时希望成本越低越好等等。这类问题与古人所说的有些相像：“鱼与熊掌，能否兼得”？确实，如何同时考虑

32、多项指标是个很复杂的课题。今天我们的任务就是另辟蹊径，设法解决处理多指标问题，使 DOE 也可以顾此不失彼。DOE 方法的实现离不开统计分析软件的支持，高端六西格玛统计分析软件 JMP 是目前业界最先进的六西格玛工具，其在 DOE 方面的表现最为优秀，本期案例我们仍以中英文双语版 JMP 软件作为 DOE 方案实现的载体。其实，解决这个问题的关键是能否创建一个新指标，用它来代表所有的旧指标，然后通过优化这个新指标，就可以实现多指标的平衡化最佳，也就是总体最佳了。这个新指标用什么来表示呢？答案是首先将原先的响应变量转化为另一个变量：意愿(Desirability)d，它的建立可以将求任意响应变量

33、达到最优的问题转化为求一个取值范围在 0 至 1 之间的单个意愿达到最大的问题。意愿的函数形式可分为三大类，同时根据实际情况，分别确定它们的容许范围，即“下限”（Lower）和“上限”（Upper）。当试验的指标是越大越好，即“望大”型（Maximize）时，可以用图一来描述此时意愿的规律；当试验的指标是越小越好，即“望小”型（Minimize）时，可以用图二来描述此时意愿的规律；当试验的指标是越接近某值越好，即“望目”型（Target）时，可以用图三来描述此时意愿的规律。这三种不同的函数形式反映了三种不同的指标需求，它们的共同特征是 d 的取值越接近于 1 表示越结果越令人满意，d 的取值

34、越接近于 0 则表示相反。此外，一个过程可能有很多响应变量，而且这些响应变量的重要程度对我们来说也可能不尽相同。权重（Weight）w 就是用来表示不同响应变量的重要程度的变量，它的默认值为 1，取值范围一般从 0.1 到 10，越小说明其越不重要，越大说明其重要性越强。在单个意愿 di 及其对应的权重 wi 的基础上，就能够合成一个综合指标：复合意愿。它的一般定义公式为：，如果这些单个意愿的权重全部相等，则上式可以简化为：。复合意愿 D 就是我们需要创建的一个新指标，有了它，就可以来考虑 k 个响应变量的同时优化问题了。图一“望大型”意愿示意图图二“望小型”意愿示意图图三“望目型”意愿示意图

35、在掌握了多变量响应优化的原理之后，再加上专业 DOE 软件 JMP 的具体实施，相应的问题就迎刃而解了。遵循理论联系实际的风格，本文继续通过一个工业案例来介绍多指标 DOE 的实际应用。场景:在半导体行业中，蚀刻率（Etch）和不均匀性（Ununiformity）都是非常重要的质量指标，它们的表现与生产过程中的间隙（Gap）和功率（Power）这两个因素密切相关（具体信息参见图四）。在以往的 DOE 研究中，曾分别独立地对 Etch 和 Ununiformity 做过优化，但产生的矛盾是各自所要求的 Gap 和 Power 之间的设置差距较大，怎样才能兼顾两种不同效应的表现，找到最合适的输入控

36、制因素的设定呢？图四某半导体生产流程的输入输出表显然，此时的半导体技术人员已处于流程的优化阶段，但同时正面临着一个“鱼与熊掌，孰轻孰重”的两难境地，寄希望于普通的 DOE 理论是于事无补的。而基于复合意愿理论的DOE 方法就有了用武之地，使我们“鱼与熊掌，一举兼得”。首先，根据已掌握的信息，按照中心复合设计的原则，制定 12 次运行次数的试验规模以及每次试验时的 Gap 和 Power 的具体设置。接着，根据既定的试验计划进行实施，并且同时收集每次试验时 Etch 和 Ununiformity 的响应值。将以上结果汇总之后，即可得到如图五所示的 JMP 文件格式的数据表格。图五中心复合设计

37、的试验结果汇总表然后，与以往一样，运用 JMP 软件中的“模型拟合”的操作平台，就可以得到生产过程的量化分析。我们从大量的分析报表中精选了两个直观形象的图形（图六和图七）来具体说明分析结果。图六为等高线图，平面地二维坐标表示输入变量 Gap 和 Power，而红蓝两色的等高线分别表示输出变量 Etch 和 Ununiformity。红色阴影区域是 Etch 的“不可行区域”，蓝色阴影区域是 Ununiformity 的“不可行区域”，中间一带的白色区域是可以同时满足 Etch 和 Ununiformity 要求的“可行域”，它为我们指明了 Gap 和 Power 的合理设置范围，也可以将它看作

38、能使输出结果最稳健的取值区域。图六等高线图图七为预测刻画器，它是一个二维坐标系矩阵。我们可以从中观察到输入变量与输出变量之间的变化规律，各个输出变量与其对应的单个意愿之间的关系，以及各个输入变量对复合意愿的影响。更可以精确地找到理想的因子设置：Gap=1.110417，Power=371.0027，它们将会形成复合意愿的最大值：D=0.571931，它所对应的实际输出因子的结果是：Etch=1124.607，Ununiformity=103.5209。与实际要求相比较，这样的结果无疑是令人满意的，既能“顾此”，亦能“不失彼”。图七预测刻画图别具特色的稳健参数设计别具特色的稳健参数设计DOE

39、DOEDOEDOE 系列之六系列之六之前的五个 DOE 系列已经系统地介绍了很多经典试验设计的基本原理和使用技巧。但是，DOE 是一个理论和实践高度联系的统计科学门类，在不到一百年的发展历程中，企业界不断地向学术界提出新的意见和建议，而学术界也积极响应，推陈出新地向企业界提供了大量理论指导，逐步形成了更多专业化、精细化的 DOE 应用分支。比如说，稳健参数设计（Robust Parameter Design）（也称健壮设计、鲁棒设计，简称参数设计）就是其中的典型代表，它是一种在研究工程实际问题中很有价值的统计方法。日本的田口玄一（Genichi Taguchi）博士在参数设计方法方面贡献非常突

40、出，他在设计中引进 SN比（信噪比）的概念，并以此作为评价参数组合优劣的一种测度，这是很有价值的，以至于很多文献和软件都把稳健参数设计方法称为田口设计（Taguchi Design）。稳健参数设计最主要的贡献是通过选择可控因子的水平组合来减少一个系统（或产品、过程）对噪声变化的敏感性，从而达到减少此系统性能波动的目的。同样，它的实现也离不开统计分析软件的支持。高端六西格玛统计分析软件 JMP 是目前业界最先进的六西格玛工具，其在 DOE 方面的表现最为优秀，在本期案例中我们将继续以中英文双语版JMP 软件作为 DOE 方案实现的载体。通俗地说，稳健参数设计区别于其它 DOE 方法最显著的特征是

41、在关注响应平均值改善的同时，更关注其标准差的改善。那么它是如何实现标准差的改善，也就是说，如何使响应变量的变差减小呢？很自然的想法是，通过减小噪声的变差来实现减小响应变量的变差，噪声因子的来源可能有很多类型，例如原材料参数的变化、环境的变化、载荷因子的变化、单元间的差异和耗损降级等等。通常噪声因子是无处不在的，减小噪声的变差往往需要付出较高的经济代价。稳健参数设计则是更好的一种策略选择。这种策略是通过探索可控因子与噪声因子间的相互作用，从而用改变可控因子的水平组合的办法来减小响应变量的变差。因为可控因子通常易于改变，所以稳健参数设计比直接减小噪声变差更经济更方便。我们可以通过一个简单直观的例子

42、来理解这一点。正如图一所示，可控因子 X 本身受到噪声的影响而有波动，且响应变量 Y 与这个可控因子的关系是非线性的，则我们可以选择斜率较小的平坦区域从而使响应变量的变差减小。这样减小变差的方法比直接减小可控因子的噪声波动要便宜得多。一般地说，工程技术人员在系统设计（System Design）选择确定了系统的构造之后，把选择参数的最佳设置以求减少响应变量变差的方法称为参数设计（Parameter Design）；再进一步把如何限定可控因子的噪声波动的方法称为容差设计(Tolerance Design)。图一稳健参数设计的原理示意图目前，在稳健参数设计中公认较好的试验与建模的方法是：用乘积表进

43、行位置与散度建模。接下来，我们将会详细说明。首先观察乘积表。过程的输入变量（因子）有两类：可控因子（Control Factor）和噪声因子（Noise Factor）。为了考查可控因子的不同水平搭配的效果,我们要在一张控制表(Control Array)中安排这些可控因子,通常用全因子设计或部分因子设计来进行，此表也常被称为“内表（Inter Array）”。为了考查噪声因子的效应,要对控制表中每个试验条件安排一个噪声表(Noise Array)。这样做就相当于控制表中的每个水平组合与噪声表的所有组合相乘构成一个乘积表(Cross Array)、内外表(Inter-Outer Array)（

44、也有称直积表的）。乘积表的图例可参见图二。记和分别为控制表及噪声表的试验次数,则乘积表的试验次数为。图二中的=9，=8，表中带“*”的地方表示一次试验，总计要进行 72 次试验。图二稳健参数设计的乘积表接着再看位置与散度建模。位置和散度建模法(Location and Dispersion Modeling)就是分别建立位置和散度的度量值关于可控因子主效应的模型。对每个控制水平的组合，用噪声重复试验的样本均值作为位置的度量，用样本方差的对数或样本方差本身作为散度的度量。对这两种度量，分别找出对它们有显著影响的因子来。凡对位置度量有显著影响者，称为位置因子（Location Factor）；凡对

45、散度度量有显著影响者，称为散度因子（Dispersion Factor）；是位置因子但又非散度因子者，称为调节因子（Adjustment Factor）。这三者的关系可以参见图三。图三稳健参数设计的因子分类图对于望目型问题，我们解决问题的程序是这样的：先选择散度因子的水平使散度最小化；再选择调节因子的水平使位置达到目标值。对于望大或望小型问题，我们解决问题的两步程序是这样的：先选择位置因子的水平使位置达到最大（小）；再选择非位置因子的散度因子的水平使散度最小化。取什么指标来作为位置及散度的度量是最好的呢？前面所说的样本均值及样本方差是常见的选择，但我们的响应变量优化的目标可能有望大、望小和望目

46、三种形式，统一使用“信噪比”及“灵敏度”是田口提出的建议之一。粗略地说，对于望大、望小和望目三种形式，用不同的公式来定义信噪比后，我们的位置-散度建模法的优化步骤的第一步,都可以归结为信噪比极大化，第二步再根据不同的目标选不同的因子予以调节,不一定都选“灵敏度”作指标。关于信噪比(Signal to Noise Ratio,SN Ratio)具体的定义公式，有兴趣的读者可查阅相关书籍或统计软件 JMP 的帮助文件说明。这里还是通过一个工业案例来介绍稳健参数设计的实际应用。场景:如何找到最合适的因子设置，使附着性能够最经济地实现最大化？为了能够“最经济地实现附着性的最大化”，我们不能刻意地对噪声

47、因子提出过高的要求，而是必须从所有可控因子的组合中找到一个最佳设置，但同时阻抗噪声因子干扰的能力也要足够的强。完成这样的任务，用稳健参数设计的方法是再合适不过的了。首先，根据乘积表构建出总共 72 次的试验计划开展试验，完成试验后将数据汇总，得到附着性的平均值和信噪比，如图四所示。因子名称因子名称干扰干扰壁厚壁厚深度深度粘度粘度时间时间温度温度湿度湿度类型类型可控可控可控可控噪声噪声噪声水平水平3333222注释注释管道和连接器干扰连接器的壁厚度将管道插入至连接器的深度粘度百分比处理时间温度相对湿度图四稳健参数设计的试验结果汇总表在此之后，通常的做法是判定位置因子、散度因子和调节因子，然后依次

48、调整这些因子的水平以达到响应最佳的效果。统计软件 JMP 在完成传统解决方案之外，提供了更简便的解决方案，即构建一个整合了平均值和信噪比的意愿函数（Desirability），通过预测器的自动优化，迅速找到最合适的因子设置。在本例中，我们就可以从图五中清楚地发现，当干扰的水平为 2，壁厚的水平为 2，深度的水平为 3，粘度的水平为 1 时，附着性的平均值达到最大，最大值为 22.825。同时，附着性的信噪比也达到最大，最大值为 26.90753，意味着此时附着性的抗干扰能力也是最强的。图五田口设计模型的刻画器关于高级 DOE 的内容还有很多，稳健参数设计/田口设计只是其中之一，我们会在今后的系

49、列中陆续为大家介绍更精彩的 DOE 理论与应用。解决配方问题的解决配方问题的 DOEDOEDOEDOE 高手高手DOEDOEDOEDOE 系列之七系列之七在实际工作中，常常需要研究一些配方（或称为配比）的试验问题，这种问题常常出现在冶金、化工、医药、食品等行业中。例如，不锈钢是由铁、镍、铜和铬 4 种元素组成；闪光剂由镁、硝酸钠、硝酸锶及固定剂组成；复合燃料、复合塑料、混纺纤维、混凝土、粘接剂、药片、饲料等都是由多种成分按相应比率制作而成，等等。这些产品都可以被统称为混料（Mixture），组成混料的各种成分可以被称为混料成分或分量，同时它们也是混料试验中的因子（Factor）。它们的比例关系

50、对产品的最终质量特性起到了决定性的作用。这时候，如果我们要用试验设计的方法进行分析的话，会发现两个与众不同的特征。一是通常人们关心的是各种分量的比例而不是其绝对数值，二是所有分量之间存在一种特殊的约束条件，即总和一定为 1 或其他常数。这两个与众不同的特征使此类试验设计的研究方法与此前我们讨论过的所有试验设计类型都有明显的区别，直接应用以往的试验设计方法显得颇为牵强，所得到的分析结果也降低了可信度。如何解决这个棘手的问题呢？事实上，对于这种分量之和总是为一定常量的试验设计，我们常常会请一位精于此道的 DOE 高手混料设计（Mixture Design）来帮忙。本期的 DOE 系列连载就将具体介

展开阅读全文