实验室统计技术和实践分析.pptx

上传人:恋****泡 文档编号:3956001 上传时间:2020-12-11 格式:PPTX 页数:208 大小:2.82MB
返回 下载 相关 举报
实验室统计技术和实践分析.pptx_第1页
第1页 / 共208页
实验室统计技术和实践分析.pptx_第2页
第2页 / 共208页
点击查看更多>>
资源描述

《实验室统计技术和实践分析.pptx》由会员分享,可在线阅读,更多相关《实验室统计技术和实践分析.pptx(208页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、实验室统计技术和实践分析,Analysis of Statistical Technology and Practice in Laboratory 主讲人 吴有炜,实验室统计技术和实践分析,第一章 实验室质量控制导论和基础统计概念 第一节 实验室质量控制导论 第二节 基础统计概念 以下问题:产品质量指标的重要参数(譬如指标的均值、波动大小、具有某性质的比例)如果未知,怎么推断出这些参数?-参数估计与假设检验。其中单总体用于将过程均值(或比率)与目标值比较、估计过程的均值;双总体用于确定两组数据是否存在差异、确定一组是否优于另一组、确定两组差异是否为一特定值。实验室指标中心值的确定;实验室里确

2、定实验员(或方法或设备)有无系统偏差;实验室分析稳定性均匀性 第二章 参数估计与假设检验 第一节 参数估计与假设检验问题的提出 第二节 参数估计问题和软件操作 第三节 假设检验问题的各类案例与软件操作,以下问题:实验结果分析(提高产量质量、降低成本、处理质量问题、新产品研发)中,如何确定诸参数对产品指标 的影响大小?-方差分析(影响力分析),其中单因素方差分析用于比较多组数据的均值差异、寻求最佳组、在多组间进行二二比较;双因素(及多因素)方差分析用于研究各因素(及交互作用)对指标的影响力、寻求最佳水平组合 。 第三章 方差分析 第一节 方差分析的统计原理 第二节 单因素方差分析和程序应用 第三

3、节 双因素(有重复、无重复)方差分析和程序应用,问题:响应变量和(一个或多个)控制变量间的关系如何分析?也就是如何求得因变量和自变量间的经验公式?如何进行预测与控制?-回归分析 第四章 回归分析 第一节 一元线性回归和最小二乘法 第 二节 多元线性回归与方程优化 第三节 可转化为线性回归的非线性模型,问题: 如何安排实验获取数据并分析提取信息?-实验设计 问题:如何进行因子删选?-方法1.正交表L8(27) . 方法2.二水平正交设计的部分实施。 问题:对显著因子如何进一步分析? 方法1.正交表L9(34). 方法2.二水平正交组合设计与响应面分析 第五章 实验设计 第一节 实验设计概述 第二

4、节 用正交表L8(27)删选因子 第三节 用三水平正交表L9(34)分析显著因子 第四节 用正交表L9(34)进行配比配方实验 第五节 用二水平正交设计的部分实施删选因子 第六节 二水平正交设计的完全实施分析显著因子,第六章 多指标综合 第一节 实验指标综合 第二节 多指标模糊综合评价 第七章指标标准值的确定 第一节实验室指标中心值的确定 第二节 指标公差的确定 第八章实验室误差处理 第一节 随机误差和随机误差大小的估计 第二节 系统误差与系统误差的判别 第三节过失误差与离群值(奇异值)的判别 第四节 误差传递 第九章实验室转向小试或生产的风险管控 第一节 FEMA简介 第二节 FMEA表的填

5、写和FEMA的风险分析和控制,第一章实验室质量控制导论和基础统计概念,第一节实验室质量控制导论 1.1. 质量管理及质量控制的内涵 任何组织都需要管理。当管理与质量有关时,即为质量管理。对于实验室,质量管理既是实验室生存的基础,也是实验室发展永恒的主题。 质量管理指”在质量方面指挥和控制组织的协调活动”,包括制定质量方针、目标以及质量策划、质量控制、质量保证和质量改进等活动。 质量控制是质量管理的一个重要组成部分,致力于满足质量要求。 质量控制的目标就是确保产品的质量能满足顾客、法律法规等方面的质量要求,如适用性、可靠性、安全性。,1.2 实验室的质量要求,实验室的最重要的质量要求是检测结果/

6、报告准确、可靠、及时,满足客户的需求。 检测质量控制的工作要围绕这些要求来展开,主要包括专业技术和管理技术两个方面,涉及检测结果和检测报告形成全过程的各个环节,需要对影响检测工作质量的人、机、料、法、环等多个因素进行控制,并对质量活动的结果进行分析验证,以及时发现问题,采取相应措施,尽可能减少或防止不合格发生,以符合质量要求。实验室质量控制也应贯彻事前预防为主的原则。在检测过程中充分利用各种质量控制技术,以确保这些过程或因素不产生质量问题,或在过程中尽早发现问题并及时纠正。,1.3 质量管理发展历史 质量管理的发展分为以下三个阶段 (1) 质量检验阶段 质量管理的初始阶段,由专职检验部门实施质

7、量检验,对已完成的产品(最终成品)进行质量检验,这种检验虽然至今仍不可缺少,但靠的是事后把关,是一种防守型质量管理。 (2) 统计质量控制阶段SPC 美国的休哈特将数理统计理论引入到质量管理中,利用SPC理论和控制图对生产(服务)包括实验室检测过程进行实时的质量监控,这种监控能及时发现和消除不正常原因,防止废品的产生。这是一种积极的事先控制和预防。 (3) 全面质量管理(TQM) 保留前两者的长处,并对整个系统采取措施,不断提高质量,是一种全员全局性的质量管理模式。,.1.4 实验室相关质量标准的发展 现代实验室质量控制技术的核心思想是伴随着质量管理体系发展和实验室认可逐步推广而发展的。实验室

8、质量标准是在各国产品质量标准和国际质量管理、质量保证质量标准产生并应用基础上产生的。 国际标准化组织ISO符合性评定委员会(CASCO)制定了专门适用于实验室质量管理标准:ISO/IEC导则25:1990校准和检验实验室能力的要求,后来又修订为ISO/IEC17025:2005校准和检验实验室能力的通用要求,为评价实验室校准或检测是否达到要求提供依据,为实验室质量控制提供有效方法。 目前,中国合格评定国家认可委员会(CNAS)是我国唯一的实验室认可机构,所有的校正和检测实验室均可采用和实施ISO/IEC17025:2005标准。按照国际惯例,凡是通过ISO/IEC17025认可的实验室提供的数

9、据均具备法律效应,应得到国际认可。,第二节 统计基本概念和统计量,实验室质量管理和质量控制技术离不开数理统计理论, 以下介绍数理统计的一些基本概念 2.1 描述性统计量 统计学(Statistics) 收集、整理、展示、分析解释统计资料 由样本(sample)推论母体群体(population) 能在不确定情况下作决策 是一门科学方法、决策工具,抽样,推论,采集数据X1,X2,Xn,数据的(不含未知参数的)函数称统计量 1)反映位置 样本均值 (Sample Average、Samplemean) Md 中位数(median) 2)反映变差(波动 ) 样本方差/变异( Sample Varia

10、nce) s 样本标准差( Sample Standard Deviation) R 极差(range) 变异系数 (Coefficient of Variation) CV =(标准差/均值)100,统计量-反映位置,样本均值(Sample average或 Sample mean)表示数据中心位置 样本均值 是波动但可求的 总体均值是固定的值但往往未知,用样本信息推断总体信息,统计量-反映变差(波动),样本方差/变异(Sample variance) 样本方差S2可求但是波动 总体方差为 是固定的数,往往未知 通常用样本方差s2去推断总体方差2,关于方差的理解:,统计量-反映变差(波动),

11、样本标准差s(Sample standard deviation)-与数据同量纲,统计量-反映变差(波动),R (range) 极差是指一个变量数列中最大标志值与最小标志值之差。又称为全距。当实验成本较大时,可采用极差代替标准差进行讨论。 RXmaxXmin,统计量-反映变差(波动),变异系数 (Coefficient of Variation) CV =(标准差/均值)100 变异系数无量纲,可用于在不同量纲的数据间比较波动大小,或用于在虽然同量纲但数量级不同的数据间比较波动大小。,问题:两个变量有关直线关系?2.2 两个变量间的(线性)相关性,考察产品的多个特性指标时,两个强相关的特性指标

12、只需考察其中一个,另一个可以利用其关系式推断。,实际问题、分析方法的零假设H0和显著性概率Pr,统计问题的解决过程: 步骤1:提出实际问题,将此问题转化成对应零假设H0(往往从负面角度给出零假设) 步骤2统计方法构造的相应的统计量,由数据代入统计量计算出统计量值,此值与显著性概率Pr一一对应。 步骤3 由Pr对零假设H0下如下结论: (1) Pr0.05 , 接受H0 ; (2) 0.01Pr0.05 ,拒绝H0 ; (3) Pr0.01,高度拒绝H0;,步骤1:两个定量变量x、y(直线)相关吗? H0:两个定量变量(直线)不相关(或称为)弱相关 步骤2由两组数据计算出两个变量的相关系数R,此

13、值与显著性概率Pr一一对应。 步骤3 由Pr对零假设H0下如下结论: (1) Pr0.05 , x与y弱相关 ; (2) 0.01Pr0,称x与y正相关;否则称x与y负相关 请看利用”相关性程序”求变量间相关系数的演示,练习题,1.设有数据 16, 15 ,21, 18, 14 则数据均值与极差分别为_。 2.统计量均值、 方差 、中位数 、 标准差中与数据量纲不一致的是_。 3.统计量均值、 方差 、中位数 、 标准差中反映数据变异(波动)的是_。 4.对于两个变量x,y其数据经相关性分析软件输出分析结论为相关系数rxy=0.862,显著性概率Pr=0.032,这两个变量的相关性分析结论为_

14、。,以下问题:产品质量指标的重要参数(譬如指标的均值、波动大小、具有某性质的比例)如果未知,怎么推断出这些参数? 实验室如何确定指标中心值?如何分析有无系统偏差?如何讨论分析结论的稳定性或均匀性?-参数估计与假设检验第三章 参数估计、假设检验与软件操作(康恩贝要求列入内容),第一节 参数估计与假设检验问题的提出 例.第一类问题:我国成年男性平均身高超过多少? 此类问题中不含数字 第二类问题:我国成年男性平均身高超过1.7米吗? 此问题中含数字 把这样问题中的”均值”称为未知参数 因为中国人口众多,这个未知参数无法精确求出,只能用抽样的方法进行推测,例.考察某灯炮厂某一型号全部灯管的质量。 第一

15、类问题:灯管的平均寿命超过多少呀? 此类问题中不含数字。 第二类问题:灯管的平均寿命10000小时吗? 此类问题中含数字。 因为灯管的寿命要灯管坏了才知道,所以不可能通过点坏所有灯管来求得平均寿命。只能用抽样的方法进行推测,在统计技术中通常把刻划总体X的某些数字特征称为参数(譬如总体均值、总体标准差、总体中具有某性质的比例).而在实际问题中,总体的这些参数往往是未知的,因此要通过样本X1,X2,Xn构造统计量(相应为样本均值、样本标准差、样本比例)来估计或分析未知参数. 前面例中的第一类问题(问题中不含数字)称为参数估计问题,把第二类问题称为假设检验问题(问题中含数字). 在软件中往往将参数估

16、计的讨论包括在假设检验中。,假设检验的用途很广,在测量分析、控制图、抽样检验、正交试验、回归分析等一些统计方法中均明确或隐含地引用了假设检验. 在质量管理体系中应用假设检验的场合如下: 产品实现的策划(设计或确认新产品的参数) 新产品设计和开发(设计或确认新产品的参数) 采购(对原材料或半成品的质量进行检测) 生产和服务提供(对产品质量评测) 监视和测量 产品的改进(可以对产品改进前后作对比确认改进效果) 感官品评(很多品评方法都是假设检验),此外假设检验还直接用于: 检验总体的均值或标准差是否达到给定值,如目标值或标准; 当比较零件的不同批次(或新老工艺特征值差异)时,检验两个总体的均值是否

17、相同; 检验总体的缺陷率不超过给定值; 检验两个或多个总体的差异(对比合格品和不合格品、对比工艺改革前后的产品参数、对比操作员、对比不同产品、,或者检验实验室有无人员方法设备等的系统偏差); 检验样本数据是否从某个总体中随机抽取的; 检验总体的分布是否正态; 检验对样本的某一观察结果是否为异常值,即离群值,有效性可疑的极值.,参数估计与假设检验合称统计推断,是利用抽样样本对总体未知参数的信息推断,总体X(随机变量),X的二个重要参数 1.均值 2.方差2(反映波动) 3.总体中具有某特征的比例p (porpulation) 特点:1) 确定的数 2) 往往未知. 处理方法:抽样X1,X2,Xn

18、,利用参数估计和假设检验的方法进行统计推断. 1.样本均值 2.样本方差s2 3 .样本比例 特点:1) 可求 2) 波动(也是随机变量) 由问题的提法区分参数估计与假设检验: 问题提法中不带具体数字的为参数估计,带具体数字的为假设检验。 自动灌装机的灌装量的均值是多少?(双侧区间估计) 钢筋的强度至少是多少?(下方有界的单侧区间估计) 自动灌装机的灌装量的均值是0.5公斤吗?(双侧的假设检验问题) 两种测试方法有系统偏差吗?(1-2=0?双侧的假设检验问题) 新工艺的指标值明显优于老工艺吗(1-2d)?(二个总体均值差的单侧假设检验问题),第二节 参数估计问题和软件操作,2.1 由以下不同提

19、法和回答看参数估计分类 例. 对某校男生的身高h进行调查随机抽取84名男生进行测量(数据名p304),回答以下问题: 1.该校男生平均身高为多少? (h=? ) 2.该校男生平均身高不超过多少 ( h ?) 3.该校男生平均身高超过多少?( h ?) 对应答案 1.该校男生平均身高为169.78cm(用样本均值取值推断总体均值-点估计回答形式) 1.置信度95%的置信区间为168.64 170.92(用双侧区间估计形式回答) 2.置信度95%的上方有界的单侧置信区间(- 170.74 3.置信度95%的下方有界单侧置信区间168.83 +),2.2 参数区间估计理论,例:设某校男生的平均身高未

20、知,现随机抽取84个男生的身高来推断, 数据为1.72, 1.69, 1.69, 17.1, 1.66, 1.71, , 1.69 由数据可计算出数据样本容量n=84,样本均值 x=169.78,样本标准差s=5.27 现讨论问题:该校男生平均身高超过多少?即 ?(不含数字,是参数估计),参数估计:求未知参数的置信区间,给定置信水平1-=1-0.05=0.95,利用t-分布得如下区间,如何理解置信度?置信度即把握或可信度为95%的含意是指(假如总体均值已知从而可知判断对错)从总体中进行100次抽样分别求置信区间,则大概会推测对95次上下对或有5次上下推测错误。请看软件演示,参数估计按问题有下面

21、三种提法 =?(求双侧置信区间); ?(求置信上限) 参数估计按参数类别可有未知参数为均值和比例二种 参数估计按总体可分为单总体和双总体 在统计软件中通常将参数估计合并在假设检验中。 同一个样本X1,x2,xn求双侧置信区间时,当置信水平愈高则置信区间愈窄。,第三节 假设检验问题的各类案例与软件操作,3.1统计分析下结论方法 提出问题:结论A成立吗?(譬如问题为均值3吗?) 在统计技术中提出两个互相对立的假设,零假设H0与备择假设H1。 具体实施时往往将问题的对立面设成H0(上例中设成H0:3与H1: 3供选择) 假设检验 H0:结论3成立 H1:结论3成立 根据相应统计量计算出H0成立的概率

22、Pr, 当Pr0.05时,接受H0(即拒绝H1); 当0.01Pr0.05时,拒绝H0(即接收H1); 当Pr0.01时,高度拒绝H0 (即高度接收H1);,3.2 假设检验的问题与讨论步骤,关于总体未知参数(均值、方差、比例等)的含有数字的问题称为(参数的)假设检验问题 此类问题分三步讨论 1. 提出两个互相对立的假设(通常将欲探讨的问题设成备择假设H1) 零假设H0与备择假设H1 (前例身高数据,问题:168?则设H0:168,H1:168) 2.根据问题的类型确定不同的假设检验类型 (前例t-统计量 ) 3. 由软件给出Pr值下统计结论(本例统计量值t=3.099对应Pr=0.0013,

23、所以高度拒绝H0,认为身高1.68,3.3 假设检验问题的分类,可依据如下分类标准: 标准1.未知参数是均值?是比例p?还是标准差(或方差2)? 标准2.问题的提法:=?(双侧检验)、?(单侧检验) 标准3.单个总体还是双总体,如果是双总体则要区分是独立双总体还是成对双总体 以下通过几个例子说明实例的类型并结合软件操作,独立双总体与配对双总体的概念,说明独立总体X、Y与配对总体(X Y)区别的例: 1.中、美两国17周岁少年的身高比较 -独立双总体X、Y 数据为左表(m与n可以不等) 2.中国少年在16周岁与17周岁时身高的比较(右图数据) -配对双总体(X Y)=二维数组(x,y)x,y分别

24、为同一少年在16岁、17岁的身高 配对总体的例还有小猪催肥、 高血压病人服药前后血压控制等,讨论两组数据(独立双总体或配对双总体)的均值有无差异的方法,其操作步骤为 1.讨论问题1:1=2吗? 若12(不妨设12)则继续 2.讨论问题2:1-2d吗?(H0: 12)调整d的取值,使prob恰好d 见下例,纽迪希亚甜度模拟测评方案分析(含糖样品评分)问题1化疗前后评分有差异吗? 问题2若有差异,差多少?,结论”在=0.048意义下两组均值差异超过0.84是显著的”的理解,所谓”显著”即相对,关于比例的讨论,数据文件p420中美16岁女孩身高超过158cm(定义超过时wf=1否则为0.问 1).中

25、国学生身高超过158有半数学生吗? 2).中国学生超过158的比例p超过40%吗? 3).中国学生超过158的比例p不到55%吗? 依据前面三个分类标准,本例为单总体、比例p的双侧和单侧检验。问题分别为p=0.5? 以及p0.4? P0.55? 相应零假设分别为H0:=0.5; H0:0.4; H0:0.55 请看利用软件”假设检验程序”进行分析讨论(注意参数估计的分析结论包含在假设检验中),3.4 实验室检验指标值,某实验室委托某单位加工浓度为5.0(单位略)的一批能力验证样品,为了判断这批样品的质量情况,实验室抽取了10个样进行检验,结果如下: 5.02, 5.10,4.97, 4.89,

26、 5.04,5.11, 4.92,5.05, 4.86, 4.91 如何判断这批样品的浓度是否符合要求? 依据前面三个分类标准,本例为单总体、均值的双侧检验。问题为=5.0? 请看利用软件”假设检验程序”之”单总体数据”浓度检验”进行分析讨论,某工厂生产涂料,含铅量为50mg/kg,为了将含铅量降下来,工厂改进了生产工艺,为了验证是否降低了铅含量,实验室抽取了10样品进行检验,结果如下: 48,49,48,49,47,48,49,49,49,48 问新工艺是否真的降低涂料中的铅含量? 依据前面三个分类标准,本例为单总体、均值的单侧检验。问题为50? 请看利用软件”假设检验程序”之”单总体数据”

27、含铅量”进行分析讨论,*实验室两种分析方法的比对(即讨论不同的分析方法其结论有无系统偏差,亦可用于讨论检测人员间或检测设备间等有无系统偏差),某实验室分别用美国CPSC制定的方法和中国国家标准方法分别测定同一批塑料中的增塑剂DEHP,测量结果如下(单位:mg/kg) CPSC方法:135,138,140,145,134,136,132,147; 国家标准方法:150,145,155,156,143,158,155,150。 请问(1)两个平均值之间是否有显著差异? (2)如果有差异,试判断在=0.05下显著时,差异值为多少? 依据前面三个分类标准,本例(1)问题1独立双总体、均值差异的双侧检验

28、。问题为1-2=0? 问题(2)独立双总体、均值差异的单侧检验。问题为1-2d? 请看利用软件”假设检验程序”之”双总体数据”增塑剂”进行分析讨论,稳定性试验,对编号为110的10个样品进行测试(单位mg/kg),在间隔一定时间段后进行重复测试,将前后两次测试的结果进行比较,如果y检验判定两次测试的均值无显著差异,则判定试验是稳定的。 依据前面三个分类标准,本例(1)问题1配对双总体、均值差异的双侧检验。问题为1-2=0? 请看利用软件”假设检验程序”之”双总体数据”稳定性”进行分析讨论,3.5 实际案例1 利用Excel”假设检验”程序讨论以下双总体数据问题 (数据名”假设检验”程序之”视力

29、保健”) 例:江苏无锡某科技公司发明视力保健仪,在山东省中医院和山大二附院进行了试验组(用保健仪)和对照组(戴近视镜)的对比实验,每个月为一个疗程,三个疗程。 问题1. 治疗前阶段,试验组和对照组平均视力有显著差异吗?(独立双总体均值差t检验) 问题2. 三个疗程后,试验组和对照组平均视力有显著差异吗?(独立双总体均值差t检验) 问题3.三个疗程后,试验组的平均视力有变化吗?(配对双总体均值差t检验) 问题3.三个疗程后,对照组的平均视力有变化吗?(配对双总体均值差t检验) 给以上讨论下综合结论 请学员用本讲座软件自行演示,实际案例2,某金属公司生产某种镀铜镀锌的金属丝。后期的生产流程如下:

30、金属丝质量的一个重要指标是颜色,白色合格,泛黄为不合格,现公司某批产品出现大量颜色不合格产品,如何查找原因?(注:该公司有每批产品各道工序的完整记录) 建议:将该批产品分成颜色合格与不合格二组,检查每道工序这两组的每个工艺参数即进行独立双总体均值差的t-检验,如果某个参数在t-检验中结论为差异不显著,则说明该参数不是引起产品不合格的原因;如果某个参数在t-检验中结论为差异显著,则说明该参数很可能引起产品不合格的原因,然后通过实验来验证猜测。,3.6 二类错误,设有假设检验H0,统计数据利用软件得到H0的显著性概率Pr, 设定显著性水平(通常取0.1,0.05,0.01,默认0.05) 当Pr

31、(譬如说取= 0.05),此时作出判断拒绝H0,如果事实上H0为真,我们称犯了第一类错误(弃真错误),犯第一类错误的概率大小为。也就是当我们下拒绝H0的统计判断时,我们有大小儿可能性犯弃真的错误。,二类错误,当Pr0.05( 取 0.05时),此时作出接受H0的判断,如果事实上H0为假,我们称犯了第二类错误(取伪错误),犯第二类错误的概率大小记为。也就是当我们下统计结论接受H0时我们有 大小的概率犯取伪错误,或者说我们下统计结论接受H0时只有1- 的把握不犯取伪错误, 1- 称为检验的功效(Power of test)。 综上,只要下统计结论无论是接受还是拒绝H0都可能犯不同类的错误。 与是此

32、消彼长的,如何同时看待与? 通常先给定显著水平(一般取0.1,0.05,0.01等),如果需要同时降低,可以采用加大样本量的办法。 在给定显著水平后,在功效1-与样本量n间有公式互推,即设定1-可求出所需样本量n,或者样本量n给出后可求得功效1-,功效(又称检出力Power of test)与样本容量,显著水平、功效1-与样本容量三者之间已知二项可以推出第三项,可利用本讲座程序”假设检验”-”样本量与功效函数”进行计算。 本例为配对双总体总体方差未知情况,样本均值差=0.5,样本标准差=0.6, =0.01,1-=0.95,代入程序得样本容量n=26,练习题,例:江苏无锡百强科技公司发明视力保

33、健仪,在山东省中医院和山大二附院进行了试验组(用保健仪)和对照组(戴近视镜)的对比实验,每个月为一个疗程,三个疗程。 问题1. 治疗前阶段,试验组和对照组平均视力有显著差异吗? 问题2.三个疗程后,试验组的平均视力有变化吗? 问题3.三个疗程后,试验组的平均视力能超过0.8吗? 以上问题采用的检验方法分别是_;_;_。,康恩贝问题解答,问题 仪器检验的指标参考值不一定可靠 回答:譬如对指标参考值=0怀疑,实际上为假设检验问题H0: =0,第三章 方差分析,问题:实验结果分析(提高产量质量、降低成本、处理质量问题、新产品研发)中,如何确定诸参数对产品指标 的影响大小?-方差分析(影响力分析),其

34、中单因素方差分析用于比较多组数据的均值差异、寻求最佳组、在多组间进行二二比较;双因素(及多因素)方差分析用于研究各因素(及交互作用)对指标的影响力、寻求最佳水平组合 。 第一节 方差分析统计原理 1.1 问题的提出 在生产(服务)中或实验室里将生产要素(如化工生产中的温度、浓度等等)固定在某一状态或范围内,这些生产要素称为工艺条件中的参数。生产工艺的制定目的是为了生产出符合产品质量的产品、优化产品指标值或有效地在不影响产品质量的前提下降低产品成本。为了达到以上目的如何设定工艺的参数值?生产过程中出现的悬而未决却涉及原因复杂的质量问题(指标波动异常)如何有效分析?,以上问题都涉及到参数变化对指标

35、变化的影响力分析。指标的变化用方差刻划,在研发或工艺改革过程(称为实验)中,将待定参数(称为因素)取不同状况(称为因素的水平)观察对指标的影响,最终将因素固定在理想状态得到工艺条件中的参数。通俗讲因素是变化的参数,参数是固定的因素。 方差分析专门针对因素变化对指标变化的影响力进行讨论,同时方差分析也是正交实验设计、二水平正交设计、响应面设计、混料设计等实验方案分析结果的理论基础 方差分析研究作为自变量的分类变量取不同水平(或者连续变量取不同值时)对指标的影响。通俗地讲,如果自变量(这儿称为因素)的变化引起指标较大变化则称因素是显著的,否则称为不显著的。通过不显著因素的判定可以降低成本简化工艺,

36、通过显著因素的判定则可以优化指标值。 方差分析还能判断显著因素间的交互作用是否显著。,如下问题提法所涉及的都是方差分析模型: “不同葡萄酒品种的单宁含量是否有显著差异?”(亦即多组数据的均值间有差异吗?)(数据名”FY单因素方差分析)” “实验室样品的均匀性验证:样品不同对测试值有影响吗?(数据名”单因素方差分析数据”) -单因素方差分析模型,考察因素对指标的影响 “导弹射程试验: 问推进器和燃料的不同水平对射程是否有显著的影响? 推进器和燃料不同水平组合对射程有无显著影响?” -有交互效应的双因素方差分析模型,考察因素推进器、燃料以及它们的交互作用对指标射程的影响(双因素有重复方差分析,数据

37、名”Rocket”) 在感官品评中考察品评员变化及样品变化对评分指标有影响吗?(亦即品评员的评分有明显差异吗?不同样品评分均值有显著差异吗?) -双因素无重复方差分析,因素1-品评员,因素2样品(见”双因素无重复方差分析”程序中数据,1.2 方差分析的统计原理,反映指标总波动-离差平方和,关于离差平方和St的理解:,平方和分解示意图,计算由燃料变化、 推进器变化、 燃料与推进器搭配不同以及误差因素引起的指标(射程)的总波动平方和 将St进行分解: St=Sf(燃料)+Sm(推进器)+Sfm(搭配)+Se(误差) 2638=262+371+1769+218 相应自由度分解: ft=ff(燃料)+

38、fm(推进器)+ffm(搭配)+fe(误差) 23 =(4-1)+(3-1)+32+(23-3-2-32),平方和分解示意图,射程(指标)总波动是多少呀?,射程总波动 St=2638 自由度23,谁造成了射程波动呀? -平方和分解,燃料变化造成的Sf=262, 自由度3 每个自由度造成波动(均方)msf=87,推进器不同造成的Sm=371 自由度2 均方波动msm=185,燃料与推进器搭配不同造成的波动Sfm=1769 自由度6 每个自由度造成波动 MSfm=295,误差造成的波动Se=218 自由度12 每个自由度造成波动(均方) mse=19.7(参照物),怎样下结论呀? 看每个自由度造成

39、的波动参照误差每个自由度造成的波动(除法得倍数F值),F值=87/19.7=4.4倍,结论:燃料变化造成射程波动影响(相对于误差)显著,F值=185/19.7=9.3倍,结论:推进器不同造成射程波动影响(相对于误差)高度显著,F值=295/19.7=14.9倍,燃料与推进器搭配不同造成射程波动的影响(相对于误差)高度显著,下结论方法(图示曲线为著名的统计函数-F统计量),曲线下阴影面积为Pr,F值,某因素F的变化对指标R的波动影响显著吗?,在平方和分解中,计算因素F每个自由度造成的波动MSF,计算误差每个自由度造成的波动MSe,然后计算倍数 F值=MSF/MSe,F值通过F曲线对应到曲线下阴影

40、面积Pr,若Pr0.05(倍数F值较小),则下结论: 因素F的变化对指标R影响不大(不显著),若0.01Pr0.05(倍数F值较大),则下结论: 因素F的变化对指标R的波动影响较大(显著),若Pr0.01(倍数F值很大),则下结论:因素F的变化对指标R的波动影响特别大(高度显著),结论:Pr0.05,因素F影响不显著; 0.01Pr0.05,因素F影响显著; Pr0.01,因素F影响高度显著,统计原理-将指标的总波动(方差)分解成诸因素和随机误差之和,以随机误差的平均方差 为参照对被考察对象的平均方差即方差比进行分析. 统计结论-方差分析的零假设是模型或效应不显著,软件在输出结果中给出了零假设

41、成立的概率Pr 1)Pr0.05时则接受零假设称模型(或效应)不显著; 2)0.05Pr0.01时则拒绝零假设称模型(或效应)显著;(本例因素f的效应是显著的) 3)Pr0.01时则断然拒绝零假设称模型(或效应)高度显著.(数据Rocket的方差分析中模型、因素m的效应、交互效应fm的影响均高度显著) 三种主要模型: 1)单因素 2)二因素(考虑交互或不考虑交互) 3)多因素(3),总离差平方和St 总自由度ft,平方和分解,诸因素及误差的离差平方和S与自由度f,诸因素及误差的均方MS,F值=诸因素与误差的均方比,F分布,Pr值,结论,方差分析的零假设: (1)针对因素 问题:因素对指标影响大

42、吗? H0:因素对指标影响不显著(不大) (2)针对模型 问题:模型选择适当吗?(好的模型应包括了所有对指标影响大的因素(以及交互作用)而不包括影响不大的因素以及交互作用) H0:模型不显著 下结论的方法(1)Pr0.05,接受H0; (2) 0.01Pr0.05,拒绝H0;(3) Pr0.01高度拒绝H0,第二节处理多组数据均值差异的方法-单因素方差分析程序(数据名”fy单宁”),例,单因素方差分析是自变量(因素)变化时对因变量(指标)的影响力分析,这儿因素可以是分类变量取不同类别,也可以是连续变量取不同值,类别或值在这儿都称为水平。 本例为讨论因素(葡萄酒品种)取不同水平时对指标(单宁含量

43、)有无显著影响,即各水平组均值有无显著差异。 单因素方差分析也可视为双总体均值差异的t-检验的推广,对超过两组的均值差异比较。 问题:各水平组均值间存在显著差异吗?(也就是葡萄酒取不同品种时单宁含量有影响吗?) 零假设和备择假设分别为 H0:A=B= C= D 即不同品种的葡萄酒单宁含量无显著差异,或者说(因素)葡萄酒品种变化时(指标)单宁含量变化不显著) H1:至少存在二种品种的葡萄酒单宁含量有显著差异 分析采用F-统计量,或者说(因素)葡萄酒品种变化时(指标)单宁含量变化显著。,统计分析原理:,平方和分解示意图,单宁(指标)总波动是多少呀?,谁造成了单宁含量波动呀? -平方和分解,(因素)

44、葡萄酒品种不同造成的波动S因素=167.5,自由度3, MS因素=55.83,误差造成的波动Se=40.85 自由度34 每个自由度造成波动(均方) MSe=1.201(参照物),怎样下结论呀? 看每个自由度造成的波动参照误差每个自由度造成的波动(除法得倍数F值),F统计量=MS因素/MSe =55.83/1.201=46.47倍,品种不同造成单宁波动的影响(相对于误差)高度显著,再由F值转化为相应概率Pr,单宁含量总波动 St=208.34 自由度37,下结论方法(图示曲线为著名的统计函数-F统计量),曲线下阴影面积为Pr,F值,某因素F的变化对指标R的波动影响显著吗?,在平方和分解中,计算

45、因素F每个自由度造成的波动MSF,计算误差每个自由度造成的波动MSe,然后计算倍数 F值=MSF/MSe,F值通过F曲线对应到曲线下阴影面积Pr,若Pr0.05(倍数F值较小),则下结论: 因素F的变化对指标R影响不大(不显著),若0.01Pr0.05(倍数F值较大),则下结论: 因素F的变化对指标R的波动影响较大(显著),若Pr0.01(倍数F值很大),则下结论:因素F的变化对指标R的波动影响特别大(高度显著),结论:Pr0.05,因素F影响不显著; 0.01Pr0.05,因素F影响显著; Pr0.01,因素F影响高度显著,输出一:模型的平方和分解和显著性,输出二:从t-检验表可见水平B与C

46、间无显著差异但其它水平间间有显著差异或高度显著差异,输出三: 各组均值和方差输出,输出四:各水平的均值折线图,判断两组数据差异显著性的一种方法最小显著性差异(FishLeast Significant) LSD法软件输出LSD临界值,当两组均值差LSD值,则两组均值差异显著,否则为不显著的。注1:本讲座程序直接根据LSD法将两比较组均值差转化成显著性Pr注2:判断两组数据差异显著性的另一种方法为双总体均值差的t-检验,注意:方差分析程序的两组数据均值差异比较,可以采用双总体均值差的t-检验(显著性相对于两组数据的联合均方误差),也可以采用LSD法(显著性相对于全部数据的均方误差。由于显著性的参

47、照不同,两种方法的结论不一定完全一致。两种检验方法的公式见图。,当数据组数=2时,LSD法与双总体均值差的t检验法完全一致,见图。,第三节 双因素(有重复、无重复)试验的方差分析3.1.双因素有重复方差分析与案例,分别用”双因素分析程序”和SAS分析双因素方差分析问题(数据名Rocket),因素和指标之间的应该是什么样的模型是由它们之间的客观关系确定的,譬如双因素A、B数据表(类似数据Rocket处数据表)进行方差分析讨论时可能的模型有以下几种:,1)主效应A、B都显著、交互效应A*B显著(有交互效应的双因素方差分析模型) 2)只有主效应A显著、主效应B显著(只有主效应的双因素方差分析模型)

48、3)只有主效应A显著(单因素方差分析模型) 4)只有主效应B显著(单因素方差分析模型) 我们的研究是发现这样的合适的模型.看下例分析过程. 例3 用程序分析下面双因素数据表,说明合适的模型是个单因素模型 下表(“方差分析程序”之”双因素方差分析2”) 给出某种化工过程在三种浓度、四种温度水平下得率的数据.,注:结论部分约定,空白为不显著(0.05或0.01);*为显著(0.010.05),*为高度显著(0.01),3.2.双因素方差分析(无重复),双因素方差分析(无重复)的否定假设为 H0A:因素A(的变化)对指标(的变化)影响不显著 H0B:因素B(的变化)对指标(的变化)影响不显著 (无重

49、复的双因素方差分析不能分析交互作用,否定假设不包含H0A*B) 采用F-统计量进行检验 请看本讲座程序”方差分析”双因素(无重复)方差分析”分析实例,练习题,1.下表为双因素方差分析软件的输出结果表,请进行分析,3.3 多因素(3)方差分析,全面试验由于试验次数较多,一般只在单因素或双因素时采用,对于多因素(3)试验,应该采用正交试验设计安排试验方案,详细内容下一章介绍。 方差分析以及平方和分解的应用条件是数据来源于全面试验或后面介绍的”正交设计”。,以下问题:二个变量间的关系如何分析?也就是如何求得两个变量经验公式?如何进行预测与控制?-回归分析第 四章 回归分析,在生产与科研中,对于两个变量(因变量与自变量

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 研究报告 > 其他报告

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁