《方差分析的类型与计算方法.pptx》由会员分享,可在线阅读,更多相关《方差分析的类型与计算方法.pptx(52页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、方差分析方差分析 (ANOVA)GE Appliances Copyright 1999修订版 10 1999年1月11日方差分析方差分析 (ANOVA)GE Appliances Copyright 1999修订版 10 1999年1月11日目的目的:提供一种比较两个以上总体均值的客观方法。提供一种比较两个以上总体均值的客观方法。目标目标: 理解、应用和解释:单向ANOVA (单变量)平衡ANOVA (多变量)GLM (一般线性模型) 采用Minitab进行ANOVA/GLM分析方差分析方差分析 (ANOVA)GE Appliances Copyright 1999修订版 10 1999年1
2、月11日用来确定因变量(“ Y”)与单个或多个自变量(“ Xs”)间关系的统计显著性的方法,其中(“ Xs”)具有两个或多个水平。是确定每一水平的响应变量值的均值是否来自同一总体的一种方法。(它们有所不同吗?)筛选潜在的关键少数“ Xs”的方法ANOVA适于自变量为适于自变量为离散离散变量、因变量为变量、因变量为连续连续变量的情形。变量的情形。方差分析方差分析 (ANOVA)GE Appliances Copyright 1999修订版 10 1999年1月11日组间变差组间变差 (信号)信号) 组内变差组内变差 (噪音噪音)ANOVA确定不同水平的平均值间的差异(组间变差组间变差)是否大于各
3、水平内部产生的变差(组内变差组内变差)的合理预期 这就是其名字的来源当前当前间距间距新工序新工序总变差总变差水平水平1水平水平2组间组间信号比信号比内部内部噪音大吗噪音大吗?方差分析方差分析 (ANOVA)GE Appliances Copyright 1999修订版 10 1999年1月11日 组内变差组内变差 (噪音噪音)ANOVA计算的比例计算的比例:平均平均SSbetween平均平均SSwithin组间变差组间变差(信号信号) ( )总变差总变差SS = 平方和平方和 (变差的量度变差的量度)= 信号信号噪音噪音方差分析方差分析 (ANOVA)GE Appliances Copyrig
4、ht 1999修订版 10 1999年1月11日在分析阶段,您已经学习了怎样使用“t检验”方法来比较两个样本平均值的差异。(是否记得“ 双样本” t-检验?)例例:保险成本项目保险成本项目您怎样比较不同地区保险成本的平均值?五个地区的成本有差异吗您怎样比较不同地区保险成本的平均值?五个地区的成本有差异吗? 7631,3355963,7421,6324,3651,2621,4481,8335,0782,1442171,1833753,0101,9984,1003,2002,0106715,4122,9486307432,1459573,2109428674,0631,2868671,2851,2
5、331,2323113,7441281,0721,4568631,6358443,1052,7351,4996431,6831,7677671,9601,9961,1941,6752,279平均值平均值:地区运作保险成本地区运作保险成本($K)方差分析方差分析 (ANOVA)GE Appliances Copyright 1999修订版 10 1999年1月11日我们需要进行10次独立的比较以检验每对平均值。(AB, AC, AD, AE, BC, BD, BE, CD, CE, DE)即使所有平均成本都相同,仍有5%的机率来否定H0,并推断其中的一对平均值不相等。如果此检验步骤重复10次,错
6、误地得出至少有一对平均值有差异结论的风险就会很高(比5%高得多)。方差分析方差分析(AVOVA)允许我们同时进行所有允许我们同时进行所有10项比项比较,从而控制着总体较,从而控制着总体风险风险.所有可能的 “ 双样本” t-检验问题:ANOVA给出了同时比较五个平均值的单一假设检验。方差分析方差分析 (ANOVA)GE Appliances Copyright 1999修订版 10 1999年1月11日因素因素 - 自变量 (X)水平或设置水平或设置 - 因素的离散值或因素的设置平衡数据平衡数据 - 各因素不同水平的每一个组合都具有相等数量的样本或观测值。上例即为平衡数据,因为对于X的每个水平
7、,都有两个观测值(响应变量Y值)。非平衡数据非平衡数据 - 各因素不同水平的每一个组合并非都具有相等数量的样本或观测值。 Yf X ( )Y25228178X4040150150因素X有两个水平,40和150。 Y f X ( )Y2 5 7 7 8 1 7 8X4 0 1 5 0 1 5 0 1 5 0因素“ X” 有两个水平(40和150),但在此例中,150 水平有三个Y值,而40水平只有一个Y值。方差分析方差分析 (ANOVA)GE Appliances Copyright 1999修订版 10 1999年1月11日 单向单向ANOVA:单因素(“ X”)有两个以上水平 (设置),以及
8、一个连续的因变量 (Y)- 确定因素水平如何影响总的响应变差。 平衡平衡ANOVA:多个具有多水平的因素(两个以上“Xs”)、一个连续的因变量(“ Y”) - 确定每个因素对整个响应变差有多大影响。 GLM:与平衡ANOVA相同,只是GLM具有非非平衡平衡数据。 DOE (试验设计试验设计):在进行设计的试验中,确定各因素不同水平的哪些组合对响应变量的变差影响最大。运用运用ANOVA来回答这样一个问题:因素来回答这样一个问题:因素(“X”)水平对响应变量水平对响应变量(“ Y”)的总变差有多大影响的总变差有多大影响?方差分析方差分析 (ANOVA)GE Appliances Copyright
9、 1999修订版 10 1999年1月11日NorthWestCentralSouthEast010002000300040005000(group means are indicated by horizontal lines)residualsaverage1. 对于因素水平的每一组合对于因素水平的每一组合, 残差值的均值为残差值的均值为0.0这意味着我们所拟合的方程(或模型)正确,没有其它变量影响结果。 “ 观测” 值(圆圈)和“ 预计”值(数组平均值,水平线)间的差额为“ 残差”。方差分析方差分析 (ANOVA)GE Appliances Copyright 1999修订版 10 19
10、99年1月11日残差必须独立,并呈正态分布残差必须独立,并呈正态分布残差(或误差)即是实际观测的“ Y”值和预计的数学模型的“ Y”值。残差表明模型何处与数据不相匹配。 当比较平均值时,正态性往往不成问题。因为中心极限定理表明,平均值趋向正态分布。 当比较变差时,正态性非常重要。(方差齐性:对于正态数据,应用“ Bartlett”检验法,对于非正态数据,应用“ Levene”检验法)2.方差分析方差分析 (ANOVA)GE Appliances Copyright 1999修订版 10 1999年1月11日间距间距 I级级II级级另一个需要关注的问题(除平均值的相等性之外)是方差的相等性。“
11、X” 转变成不同水平时,可能降低变差,提高Z值。可以用Bartlett或Levene检验法来检验方差的相等性。注注:因素在水平因素在水平II上的方差很大,掩盖了不同水平平均值之间真正上的方差很大,掩盖了不同水平平均值之间真正的差异。的差异。3. 方差必须相等方差必须相等 (或接近相等或接近相等)方差分析方差分析 (ANOVA)GE Appliances Copyright 1999修订版 10 1999年1月11日一位开发工程师用一种特殊的粘合剂将两个部件粘在一起。另外还有两种可使用的粘合剂,但需要更高级的过程控制。如果其中的一种显示出平均抗剪强度不低于20,则值得更换粘合剂供应商、并改进过程
12、控制水平。水平水平 1当前当前粘合剂粘合剂912141318水平水平2配方配方A粘合剂粘合剂1815141715水平水平3配方配方B粘合剂粘合剂2119211623针对此例,运行Minitab 并打开文件:L:6sigmaminitabtrainingminitabsession 2adhesive.mtw独立数据存储在C1-C3栏中;堆叠数据及下标在C4和C5栏中。方差分析方差分析 (ANOVA)GE Appliances Copyright 1999修订版 10 1999年1月11日首先将数据制图!首先将数据制图!GraphPlot如图填写对话框:单击 OK选择 “ Options” 并通
13、过检查对话框添加 “ Jitter”方差分析方差分析 (ANOVA)GE Appliances Copyright 1999修订版 10 1999年1月11日10152025LevelsAll_DataCurrentAB观察图形:1. 三种粘合剂的平均值看上去是否相同?2. 是否有抗剪强度超过20的粘合剂?3. 三种粘合剂的方差是否相同?配方B(水平3)看上去具有比当前粘合剂或配方A都要高的抗剪强度。但是,直观上的差异并不意味差异具有统计显著性 - 我们需要进一步的分析,以确认这种图形分析的结果。并请注意:对于不同的粘合剂,方差并未表现出显著的不同。方差分析方差分析 (ANOVA)GE App
14、liances Copyright 1999修订版 10 1999年1月11日由于随机因素的影响,粘合剂的抗剪强度会产生一些波动,要证明其统计显著性,我们必须表明平均值的差异比偶然出现的差异大。1.测量的响应值(因变量)是什么?粘合剂抗剪强度粘合剂抗剪强度2. 评估的因素是什么?仅一个因素 - 粘合剂类型粘合剂类型3. 我们想知道什么结果?-三种类型的粘合剂三种类型的粘合剂 (水平水平)是否存在差异是否存在差异?-新型粘合剂的平均抗剪强度大于新型粘合剂的平均抗剪强度大于20吗吗?4. 我们将采用什么分析工具,为什么? - 单向单向ANOVA- 单因素单因素 (粘合剂类型粘合剂类型) - 三个水
15、平三个水平 (当前,配方当前,配方A,配方配方B) - 这三种粘合剂是否有差异?这三种粘合剂是否有差异?5. 零假设和备择假设是什么?Ho: 1=2=3Ha: 至少一个 i 与其它不等方差分析方差分析 (ANOVA)GE Appliances Copyright 1999修订版 10 1999年1月11日x水平水平 191214131818151417152119211623水平水平 2水平水平 3 91214131818151417152119211623111112222233333水平水平数据数据总和平均值 (总平均)减去减去(数据数据-总平均总平均) 平方差平方差平方和(SStotal
16、) SStotal - SSbetween = SSwithin总和 平均值总平均 (x)与x的差值平方差平方差之和乘以nSSbetween转下页SS =Bj()jgjxx12SS = Tj=1nj ()igijx12 n方差分析方差分析 (ANOVA)GE Appliances Copyright 1999修订版 10 1999年1月11日g = 组数 (水平)n = 组中的样本数 SStotal - SSbetween = SSwithin这是所有水平组合的SS我们需要平均值(平均数)SS, 所以,用自由度去除:自由度自由度DoFtotal - DoFbetween = DoFwithin
17、(gn) - 1(g-1)g(n - 1)在计算机打印输出中被称作 因素对以上信息稍作调整后,我们得出:组间总体组内平方和自由度平方和的平均值Fcalc(MS比例)在计算机打印输出中被称作 误差或 残留误差Fcalculated =MSBetweenMSWithinANOVA计算计算F统计值统计值:记住:计算的F-统计值是两个方差的比例方差分析方差分析 (ANOVA)GE Appliances Copyright 1999修订版 10 1999年1月11日如果总体平均值间没有差异,则计算得的F-比率应约为1.0最后,将算出的F-比率与F表中列出的F值相比较。表中的F建立在样本容量和风险之上(通
18、常=0.05)。如果F算出的=F表中的, ,总体平均值间的差异具有统计显著性(您可以有95%的置信度相信差异不是偶然产生)。如果F算出的 _ _ _方差分析方差分析 (ANOVA)GE Appliances Copyright 1999修订版 10 1999年1月11日在使用Minitab 分析有关粘合剂问题的数据之前,我们来看一看Minitab 中ANOVA菜单选项。Stat ANOVA:单因素,水平 2(仅用于堆叠数据)双因素,水平 2多因素与多水平 (平衡数据)多因素与多水平 (非平衡数据)平衡ANOVA和普通线性模型(GLM)可以比较多达9 个因素和50个响应值。GLM是您能用来分析非
19、平衡数据的唯一工具。(不同水平的数据存于不同栏中)方差分析方差分析 (ANOVA)GE Appliances Copyright 1999修订版 10 1999年1月11日Stat ANOVA One-way采用 单向 ANOVA,因为只有一个因素,或 “ X”,即 粘合剂选择选项,以在工作表中存储残差和由模型而得的预测值方差分析方差分析 (ANOVA)GE Appliances Copyright 1999修订版 10 1999年1月11日Adhesive(Levels)ShearStrengthGroupAverageResidual(Error)Current913.2-4.2Curre
20、nt1213.2-1.2Current1413.20.8Current1313.2-.0.2Current1813.24.8Form A1815.82.2Form A1515.8-0.8残差是因素某一水平的均值与观测值间的差异。针对此粘合剂实例,前7个残差的计算如下:残差量化模型的误差 - 模型不能与数据组很好地拟合。方差分析方差分析 (ANOVA)GE Appliances Copyright 1999修订版 10 1999年1月11日由于p-值 = 0.005, 至少一个粘合剂抗剪强度平均值有差异 (我们接受 Ha)。请记住, 我们的最初问题是确定不同类型的粘合剂是否具有不同的抗剪强度。
21、在ANOVA表中,小于0.05的P值表明各水平间存在显著差异。实际显著性实际显著性 - 记住我们的第二个问题 - 是否其中有一个新型粘合剂的抗剪强度大于20? 通过分析95%的信置区间, 我们可以看出,性能最好的粘合剂为水平3, 其值为(17.5, 22.5)。虽然粘合剂3比当前的粘合剂要好,且平均值最可能的估计值为20,但没有很高的置信度认为平均值至少是20。也许恰当的方法是,收集有关粘合剂3的更多数据,以获得平均值的更好估计值,即更窄的置信区间(记住,我们只有5个数据)。方差分析方差分析 (ANOVA)GE Appliances Copyright 1999修订版 10 1999年1月11
22、日情形情形 : 六个西格玛小组有项任务 将“订单处理”的周期时间从目前的平均值10.8分钟降低到9.0分钟。 “ 工作人员的经验”、 “ 班次” 和电话接收中心(“地区” )被初步列为能影响周期时间的潜在“Xs” .下表列出了来自该公司三个不同电话接收中心的数据:打开文件打开文件: L:6sigmaminitabtrainingminitabsession 2cqcycle.mtw注: 各因素不同水平的每一个组合(“单元”)都有5个观测值,共有90个观测值(3*3*2*5 = 90)自变量是:自变量是:周期时间 (分钟)因素因素水平水平地区地区3东部中西部西部班次班次 3早班晚班夜班工作经验工
23、作经验2新手有经验者1 2 3方差分析方差分析 (ANOVA)GE Appliances Copyright 1999修订版 10 1999年1月11日创建三个图表 - 周期时间与地区 -周期时间与班次 -周期时间与经验Graph Plot单击 OK单击“ Options” 添加Jitter.方差分析方差分析 (ANOVA)GE Appliances Copyright 1999修订版 10 1999年1月11日1.01.52.0101520WorkerExpCycletime321201510RegionCycletime东海岸办公室平均订单处理周期时间比其它各地的平均值高。当平均周期时间低
24、时,波动也低。熟练工比新手看上去要快尽管波动很大, 第二个班的周期时间比另两班要短一些。123101520ShiftCycletime方差分析方差分析 (ANOVA)GE Appliances Copyright 1999修订版 10 1999年1月11日12101520WorkerExpCycletime123101520RegionCycletime123101520ShiftCycletime查察数据的另一种方式查察数据的另一种方式 采用框图采用框图!方差分析方差分析 (ANOVA)GE Appliances Copyright 1999修订版 10 1999年1月11日记住, 我们试图
25、分析区域、员工经验和班次三项因素是否对订单处理周期时间存在任何影响,另外,我们具有平衡数据。零假设和备择假设为:H0: 因素对响应变量值没有影响(无差异)。 Ha: 因素对响应变量值有显著影响(有差异) 。Stat ANOVA Balanced ANOVA在因素间插入“ pipes”就是命令Minitab将各因素的每个组合都在分析中考虑。 在键盘上“ pipe”就是反斜杠键的上档.我们还将单击“ Graphs” ,以生成残差用于分析。 见下页方差分析方差分析 (ANOVA)GE Appliances Copyright 1999修订版 10 1999年1月11日采用 “ Graphs” 选项,
26、您可以得到残差图及其相关分析。除检验残差的正态性外,检查“残差对拟合值 ” 及“残差对变量” 是否存在任何趋势。单击 OK ,进行分析方差分析方差分析 (ANOVA)GE Appliances Copyright 1999修订版 10 1999年1月11日注意,区域、员工经验和班次对于“ 周期时间”有最大的影响(请看它们的F值)。区域与员工经验间的相互作用也很显著,因为P0.05。显著因素的 p-值 Plot 在对话框中,为Y和X设定适当的变量。方差分析方差分析 (ANOVA)GE Appliances Copyright 1999修订版 10 1999年1月11日StatANOVAGener
27、al Linear Model记住单击记住单击 Graphs 创建创建 残差和拟合值残差和拟合值图图注注: 我们有非平衡数据,因此,使用ANOVA的GLM分析选项。请记住在 温度1和 氧气1间使用 间隔线来包含相互作用。方差分析方差分析 (ANOVA)GE Appliances Copyright 1999修订版 10 1999年1月11日解释解释:(请看显著因素的P值) 温度是显著的, P0.05 误差项相对于总SS显得大。 可能要寻找更多的“ Xs” !注注: 数据组中的一些观测值比其它观测值对结果有更大的 “影响” 。在这组数据中,观测值7具有更大的影响,,被Minitab注为“ 非寻常
28、” , 因为在该单元中只有这一个值,而在其它单元中有两个或三个观测值。观测值18因具有绝对值大于2的残差(误差)而被标注。方差分析方差分析 (ANOVA)GE Appliances Copyright 1999修订版 10 1999年1月11日残差未显示有任何模式 - 从此图中我们未得到有关工序的额外信息。方差分析方差分析 (ANOVA)GE Appliances Copyright 1999修订版 10 1999年1月11日1) 打开下列工作表: L:6sigmaMinitabtrainingMinitabsession 2claims.mtw2) 确定5个地区运作保险成本是否不同。 a)
29、首先“ 堆叠” 数据。将下标放于另一栏内。 b) 将数据制图 (散点图和框图) c) 运行ANOVA - 创建图形: 残差直方图残差与拟合值图当您看见“ 残差直方图” 时,注意它向右倾斜(右尾更长)。这意味着不符合ANOVA的正态假设。我们运行Box-Cox转换, 发现对数是一个适当的转换. 用成本的对数来再次运行此分析过程。方差分析方差分析 (ANOVA)GE Appliances Copyright 1999修订版 10 1999年1月11日d) 在Minitab中创建一个新栏,即成本的对数(基 数10)。(CalcCalculator并如图填写对话框) e) 将成本的对数作为“ Y” ,
30、 再次运行ANOVA注意残差直方图不再向右倾斜。现在我们有了一个有效的ANOVA分析。方差分析方差分析 (ANOVA)GE Appliances Copyright 1999修订版 10 1999年1月11日它检验什么它检验什么? 两个以上变量的平均值或平均水平进行比较。什么类型的数据什么类型的数据 ? 类别或水平“ X” 数据(离散),及连续的“ Y” 响应变量值。Minitab能分析多达9个因素和50个响应变量值。假设是什么?假设是什么?Ho : 所有平均值都相等Ha : 至少有一个平均值不同ANOVA能告诉我们什么能告诉我们什么? 每个因素对整个响应变量的变差有多大影响。它会确认有统计显
31、著性的“Xs”。何时使用何时使用GLM? 当数据为非平衡(各单元格的观测值数量不等)时,使用一般线性模型。ANOVA 和和 GLM使用连续使用连续 Y、离散、离散 X数据来筛选出潜在数据来筛选出潜在的、关键的、少数的、关键的、少数 Xs。方差分析方差分析 (ANOVA)GE Appliances Copyright 1999修订版 10 1999年1月11日方差分析方差分析 (ANOVA)GE Appliances Copyright 1999修订版 10 1999年1月11日 i jthth点等级的 , ijx平衡的单向平衡的单向ANOVA:(其中其中 n1 = n2 = . = ng)子群
32、间平方和子群间平方和:子群内平方和子群内平方和:总平方和总平方和:SS = nBj()jgjxx12SS = W()inijjjgjxx121SS = Tj=1nj ()igijxx12g ,x , 水平号码总平均jth水平内的总数nj,xj, Jth水平的子群平均值方差分析方差分析 (ANOVA)GE Appliances Copyright 1999修订版 10 1999年1月11日B17.15其它表述方法其它表述方法. ANOVA表的解释表的解释平方和自由度平均平方和MSp-值比率变差源(SS)(df)(MS)(Fcalc)之间SSBg-1SSB/dfBMSB/MSW内部SSWg(n-1
33、)SSW/dfW总计SSTng -112345678910111213我们将其称为平均我们将其称为平均SSCopyright 1995 Six Sigma Academy Inc.解释解释: 使用恰当的自由度和指定的风险概率( I 类错误)可在F表中很方便地找到关键F值(Fcrit)。 如果计算出的F值(Fcalc)大于等于Fcrit,则接受备择假设(Ha),其置信度为(1-);否则拒绝这一假设。 请记住,您具有的置信度永远等于一减去您在考虑I类决策风险时所愿承受的风险大小。 如果计算值小于关键值(Fcrit)(或称作临界值), 则拒绝Ha. 为了方便读者, 对ANOVA表中的各项描述如下:
34、(1) = 变差的因素来源(2) = 变差的残差或“ 误差” 来源(3) = 变差的总来源(4) = 因素平方和(参照步骤8)。这是可指定给因素、或通常所称 作“ 独立变量” 的平方和。(5) = 残差或“ 误差” 平方和(参照步骤9)。 这是源于未受控 制的变量的平方和; 即 由于“ 背景” 变量产生的变差.(6) = 总平方和(参照步骤7). 这是可指定给因素和背景变量的 平方和.组间和组内的平方和加在一起产生总平方和.(7) = 水平间或“ 组间” 自由度.(8) = 水平内或“ 组内” 自由度. 也叫做“ 残差” 自由度.(9) = 总自由度. 注: 之间和之内自由度相加等于总自由度.
35、(10) = 因素的均方(11) = 残值的均方(12) = 均方比。 其结果也叫做“计算出的F值”(Fcalc).(13) = 关键P值。其结果也叫做判定标准或“临界” 值。 p-值方差分析方差分析 (ANOVA)GE Appliances Copyright 1999修订版 10 1999年1月11日文件文件: Claims.mtw标记C6栏: 成本标记C7栏: 地区采用ManipStack/UnstackStack在C6栏中创建堆叠数据栏首先将数据制图! 采用 框图GraphBoxplot Y = 成本, X = 地区地区3看似同其它地区不同 - 更低的成本,更小的变差。但是,我们需要更
36、多的分析。方差分析方差分析 (ANOVA)GE Appliances Copyright 1999修订版 10 1999年1月11日分析得出一个P=.427,此值要比0.05大得多。我们不能得出各地区平均成本间存在差异的结论。此项目的下一步可能是要收集有关地区的更多数据(每个地区我们只有10个数据), 并收集有关其它潜在 Xs 的数据。方差分析方差分析 (ANOVA)GE Appliances Copyright 1999修订版 10 1999年1月11日残差与拟合值图没有显示残差存在任何模式或趋势。方差分析方差分析 (ANOVA)GE Appliances Copyright 1999修订版 10 1999年1月11日检查残差的正态性:残差直方图向右倾斜!充分表明分布为非正态。* 用成本的对数(转换的数据)再次进行分析。