《六西格玛数据分析技术.ppt》由会员分享,可在线阅读,更多相关《六西格玛数据分析技术.ppt(344页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、http:/ 录课程概要第1章 基本统计概念第2章 概率及其应用第3章 管理中常见的几个概率分布第4章 参数估计第5章 假设检验第6章 离散数据的卡方检验第7章 方差分析第8章 相关分析与一元回归第9章 多元回归分析退出放映http:/ 2.概率及其在质量管理中的应用3.质量管理中常见的几个概率分布4.参数估计及其应用5.假设检验及其应用6.离散数据的卡方检验7.方差分析及其应用8.相关分析与一元回归9.多元回归及其应用返回目录http:/ 开展六西格玛管理项目的黑带及黑带大师候选人和掌握统计技术与方法应用的人。返回目录http:/ 通过本课程的学习你将达到:1.理解统计数据分析主要方法的基本
2、理论2.树立起六西格玛管理的统计思想3.掌握了基本统计方法在管理中的应用4.能熟练运用Minitab软件实现数据分析5.建立起运用统计方法解决管理问题的能力返回目录http:/ 基本统计概念 4课时第2章 概率及其应用 4课时第3章 管理中常见的几个概率分布 4课时第4章 参数估计 4课时第5章 假设检验 4课时第6章 离散数据的卡方检验 4课时第7章 方差分析 4课时第8章 相关分析与一元回归 4课时第9章 多元回归分析 4课时返回目录http:/ 基本统计概念1.1 常用数据分析技术概述 1.2 总体与样本1.3 数据的收集1.4 数据的类型1.5 数据集中趋势的测度1.6 数据离散程度的
3、测度1.7 数据基本分析的软件实现小组讨论与练习 返回目录http:/ 章 目 标1.理解数据分析在6管理中的重要意义2.理解几个常见的统计概念3.树立企业管理人员量化管理的统计意识4.掌握几种不同平均数的计算方法5.掌握标准差和变异系数的计算方法返回目录http:/ 常用数据分析技术概述界定界定Define量测量测Measure分析分析Analyze改进改进Improve控制控制Control量测所得量测所得 各种数据各种数据Data返回目录http:/ 管理目标管理目标顾客满意顾客满意返回目录http:/ 总体与样本总体这个企业员工的月平均收入是多少?信息由样本信息作为总体信息估计值从总体
4、中抽取一小部分样本返回目录http:/ size):样本中包含的个体的数量称为样本容量,通常用n表示。返回目录http:/ 数据的收集6管理是一种科学的量化管理没有数据就没有管理没有数据的统计分析就等于无米之炊数据资料的来源有两种:原始资料和二手资料抽样是企业管理中收集数据的最普遍方法宏观数据资料的获取主要依赖于各种统计年鉴和咨询顾问公司返回目录http:/ 概率抽样和非概率抽样 概率抽样(随机性原则)非概率抽样 配额抽样 简单随机抽样(simple random sampling)分层抽样(stratified sampling)整群抽样(cluster sampling)等距抽样。又称系统
5、抽样(systematic sampling)返回目录http:/ 数据的类型 6管理中通常遇到两种类型的数据:定性数据定性数据定量数据定量数据定类数据定类数据定序数据定序数据计量数据计量数据计数数据计数数据 数据是决策的依据返回目录http:/ 怎样获得计量数据连续型数据连续型数据连续型数据连续型数据返回目录http:/ 人数。需要较大的样本量,以更好地描述产品或服务的某种特性。满意的和不满意的人数就是数出来的满意的和不满意的人数就是数出来的瓷砖中的斑点数瓷砖中的斑点数返回目录http:/ 变量是说明和描述事物某种特征的指标 变量的种类 参数 统计量变量的种类变量的种类分类变量分类变量顺序变
6、量顺序变量数值型变量数值型变量随机变量随机变量连续型随机变量连续型随机变量离散型随机变量离散型随机变量返回目录http:/ 数据集中趋势的测度 反映样本位置的统计量 样本均值 设有样本数据 就是样本均值样本中位数:将样本数据按从小到大排序后,处于中间位置上的数就是中位数。返回目录http:/ 加权算术平均数其中 为 的权重(weight),表示 在数据集中所占的比重,而当权重相同,即时加权算术平均数即为简单算术平均数。返回目录http:/ 连乘,然后开n次方,即其中:代表几何平均数,为连乘符号当n2时,为了方便计算可采用对上式两边取对数的方法计算:几何平均数一般用于计算在一段时间内有复式增长的
7、数据的均值 几何平均数(geometric mean)注注意意返回目录http:/ 。返回目录http:/ 数据离散程度的测度 一批统计数据相对它的均值而言,这些数据的离散程度如何?数据波动的统计量通常有三种:样本方差与样本方差与样本标准差样本标准差数据波动的统计量极差极差变异系数变异系数返回目录http:/ 息较多。现在的社会居民收入分配相差很大,这对社会稳定很不利。极差让我们可以更清醒地认识到贫富差距。所以极差还是很有意义的一个统计量。一组数据中的最大值与最小值之差称为极差,用R表示。极差的计算十分简单,如某企业中员工的最大月收入是 12000元,最低月收入是800元,则 R1200080
8、011200(元)返回目录http:/ 设有两组样本数据分别为:2、4、6、8、10 4、5、6、7、8 把这两组数据分别标在下面的直线轴上0024681045678返回目录http:/ 由这两组数据的均值和标准差,结合上面的图形,我们可以直观地看到这两组数据均以6为中心,但前面5个数的离散程度要大于后面5个数的离散程度。第一组数的标准差是3.16,第二组数的标准差1.58。这个例子让我们更直观地体会到标准差以及均值的意义。返回目录http:/ 数及标准差如下(单位:元)试问甲、乙两个企业哪个企业职工的月平均奖金相差较大?你怎么判断这个问题,你的答案是什么?乙:甲:返回目录http:/ 数据基
9、本分析的软件实现StatBasic StatisticsDisplay Descriptive Statistics Store Descriptive Statistics 返回目录http:/ Descriptive Statistics 在绘图窗口的输出分布图箱形图置信区间返回目录http:/ Descriptive Statistics 程序输出窗口Store Descriptive Statistics 在工作表中的结果输出关于身高数据的统计量分析返回目录http:/ 1.试举本企业中关于总体、样本、个体和样品的例子。2.试举实际问题中哪些数是连续型数据,哪些数是离散型数据。3.某企
10、业2000年到2003年的销售收入增长率分别是15、20、23、28,请问这四年的销售收入平均增长是多少?4.从某啤酒厂的一批瓶装啤酒中随机抽取了10瓶,测得装量分别为:(单位:ml)640、639、636、641、642、638、639、643、636、639 试计算样本均值与样本标准差。5.从某厂生产的两种不同规格的车轴中,各随机抽取了20根,测 得它们的直径的均值与标准差分别为 甲产品 乙产品 试问哪种产品的质量波动大?返回目录http:/ 概率及其应用2.1 掷骰子的游戏2.2 概率及概率的计算2.3 概率的性质与运算法则2.4 条件概率2.5 独立性2.6 全概率公式2.7 贝叶斯公
11、式2.8 概率树小组讨论与练习返回目录http:/ 章 目 标1.理解随机事件及其概率的基本思想2.掌握概率的性质与运算法则3.理解条件概率与事件的独立4.理解优质产品不是检验出来的理念5.掌握全概率公式和贝叶斯公式的应用6.会运用概率树解决有关问题返回目录http:/ 掷骰子的游戏u一枚骰子掷下去后点数为1、2、3、4、5、6各出现的可能性有多大?u我们大家都知道一枚骰子掷下去后,各个点数出现的机会均等,每个点数出现的可能性都是1/6。可能出现的点数可能性大小1/61/61/61/61/61/6返回目录http:/ 骰子骰子1一共有36个组合,每个组合出现的概率是1/36=0.02780.0
12、2780.02780.02780.02780.02780.02780.02780.02780.02780.02780.02780.02780.02780.02780.02780.02780.02780.02780.02780.02780.02780.02780.02780.02780.02780.02780.02780.02780.02780.02780.02780.02780.02780.02780.02780.0278u骰子骰子1 1与骰子与骰子2 2分别出现任何给定值的概率都等于分别出现任何给定值的概率都等于1/6u任一给定组合发生的概率任一给定组合发生的概率返回目录http:/ 概率及
13、概率的计算u古典概型 随机事件常用大写的英文字母A、B、C等表示。随机事件A的概率,用P(A)表示u统计概型其中:n表示相同情况下试验的次数,m表示某事件A出现的次数,比值m/n称为事件A发生的频率。返回目录http:/ 概率的性质与运算法则u概率的公理化定义 在研究随机现象中,把表示随机事件A发生的可能性大小的实数称为该事件的概率,用P(A)表示。前苏联的柯莫哥洛夫于1933年给出如下的概率公理化定义:1.非负性:对任一随机事件A,有 2.规范性:必然事件的概率为1,而不可能事件的概率为0,即 3.可加性:如果A与B是两个互不相容事件(互斥),则返回目录http:/ BA返回目录http:/
14、 条 件 概 率 u在现实世界中,任何随机试验都是在一定条件下进行的。这里我们要讨论的条件概率,则是当试验结果的部分信息已知(即在原随机试验的条件下,再加上一些附加信息)。例如当某一事件B已经发生时,求事件A发生的概率,称这种概率为事件B发生条件下事件A发生的条件概率,记为 P(A|B)u由于增加了新的条件(附加信息),一般来说,P(A|B)P(A)。返回目录http:/ 法 公 式u由前一页最后的结果,我们看到条件概率有如下的计算公式:即条件概率可由两个无条件概率之商来计算。u对上边的公式变形,即得此公式就是所谓的概率乘法公式。u如果将A、B的位置对换,这时有 P(BA)=P(B|A)P(A
15、),而P(AB)=P(BA),于是公式(2)与(3)统称为概率的乘法公式。返回目录http:/ 个 例 子u例24:设有1000件产品,其中850件是正品,150件是次品,从中依次抽取2件,2件都是次品的概率是多少?解:设A i表示“第i次抽到的是次品”,i=1,2,所求概率为P(A1A2)。因为即抽到工件都是次品的概率是2.24%。运用乘法公式可得返回目录http:/ 独 立 性u在使用概率的乘法公式时,一般都要计算概率,但是在事件A与B独立的情况下,乘法公式就会变得简单。u什么是独立事件呢?一般认为,两个事件中不论哪一个事件发生与否并不影响另一个事件发生的概率,则称这两个事件相互独立。当两
16、个事件相互独立时,其条件概率等于无条件概率,即我们甚至可以用这一公式来判断A、B两个事件是否独立!因此,当两个事件相互独立时,其乘法规则可以简化为:返回目录http:/ 工序工序2返回目录http:/ 100=8686优等率(%)9090900.903 100=7373返回目录http:/ 全 概 率 公 式 u全概率公式主要用于计算较为复杂情形随机事件的概率。u全概率公式实质上是加法公式和乘法公式的综合运用和推广。u例26:某车间用甲、乙、丙、三台机床进行生产,各台机床加工零件的次品率分别是5%,4%,2%,它们各自的零件分别占总产量的25%,35%,40%。三台机床生产的零件混在一起,求任
17、取一个零件是次品的概率。管接头镗孔机床管接头镗孔机床返回目录http:/ 的求解 u令A1表示“零件来自甲台机床”,A2表示“零件来自乙台机床”,A3表示“零件来自丙台机床”,B表示“抽取到次品”。u则事件发生当且仅当下列三种情形任意出现一种:1.是甲机床生产的零件且为次品(A1B);2.是乙机床生产的零件且为次品(A2B);3.是丙机床生产的零件且为次品(A3B)。u显然,事件B是A1B,A2B,A3B这三个两两互不相容事件的和,用公式表示为:B=A1B+A2B+A3B返回目录http:/ 的求解(续)u根据加法公式:P(B)=P(A1B)+P(A2B)+P(A3B)u分别对P(AiB)(i
18、=1,2,3)用乘法公式:P(AiB)=P(Ai)P(B|Ai),i=1,2,3于是得:u代入已知数据:P(A1)=0.25,P(A2)=0.35,P(A3)=0.40 P(B|Ai)=0.05,P(B|Ai)=0.04,P(B|Ai)=0.02 P(B)=0.0345 即任取一件产品是次品的概率为0.0345。返回目录http:/ A1+A2+An,则 我们就称这个公式为全概率公式。全概率公式的总结u全概率公式的直观意义是:某一事件B的发生有多种可能的原因Ai(i=1,2,n),如果B是由原因Ai所引起的,则B发生的概率是P(AiB)(i=1,2,n)。每一事件Ai发生都可能导致B发生,相应
19、的概率是P(B|Ai),故B发生的概率是:当直接计算P(B)较困难,而P(Ai),P(B|Ai)(i=1,2,n)的计算较简单时,就可以利用全概率公式计算P(B)。例26 就是这样计算的。返回目录http:/ A1+A2+An,则 2.7 贝叶斯公式 这就是著名的贝叶斯公式,也称为逆概率公式。贝叶斯公式是英国统计学家贝叶斯(TBayes)给出,在其去世后的1763年才发表。该公式是在观察到事件B已发生的条件下,寻找导致B发生的每个原因Ai的概率。P(Ai)和P(Ai|B)分别称为原因Ai的验前概率和验后概率。u此公式在实际应用中,可帮助人们确定引起事件B发生的最可能原因。返回目录http:/
20、代入已知数据(见例7),计算得 类似有P(A2|B)=0.406,P(A3|B)=0.232。本例中的P(Ai)是事件(取到的一件是次品)发生之前事件Ai发生的概率,是由以往数据分析所得,故称验前概率。P(Ai|B)是事件(取到的一件次品(B))发生后事件Ai发生的概率,它是获得新信息(即事件B发生)之后再重新加以修正的概率,故称P(Ai|B)为验后概率。返回目录http:/ 概 率 树 u企业的领导层在讨论竞争策略时,常常是众说纷纭,但当说完后,人们又一筹莫展,没有头绪;u利用概率树可以帮助企业家理清思路,科学决策;u概率树就是一种树形图,然后在树干和树枝上标上相应的概率。u我们用几个例子来
21、说明这一决策方法的应用。u例28:掷一对硬币,出现结果是两个正面的概率是多大?返回目录http:/ u第一个硬币出现的可能结果是正面(概率0.5)和反面(概率0.5),于是形成两个分支。可以用0.5+0.5=1来检查有无其它可能性被遗漏。u对于这两种可能结果的每一种,对应第二枚硬币均加上相似的两个分支u于是由概率树及乘法法则,会看到出现两个正面的概率是0.25。正正(0.5)反反(0.5)正正(0.5)反反(0.5)正正(0.5)反反(0.5)结果结果 概率概率正正正正 0.25正反正反 0.25反正反正 0.25反反反反 0.25返回目录http:/ u例29:某种产品由甲、乙、丙三台机床生
22、产,每台机床的生产量不同,其中60%的产品来自机床甲,30%和10%的产品分别由乙和丙生产。甲、乙、丙三台机床产品的次品率分别是8%、12%和3%。从它们生产的一批产品中,随机抽取一件产品是次品的概率是多大?方柱立钻方柱立钻返回目录http:/ 由概率树中,我们看到所有次品的三个分枝,及在每一个枝上相应的概率。为计算随机抽取一件产品是次品的概率,我们利用乘法法则计算出每一台机床次品分枝出现的概率,在利用概率的加法法则计算出抽取一件产品是次品的概率为:(0.60.08)+(0.3 0.12)+(0.1 0.03)=0.087甲甲(0.6)丙丙(0.1)乙乙(0.3)正品正品(0.92)次品次品(
23、0.08)正品正品(0.88)次品次品(0.12)正品正品(0.97)次品次品(0.03)返回目录http:/ 决策者关心的是市场份额达到50%及以上的各种事件的组合,由概率树及概率的基本运算法则,状态S1和S2符合要求。则组合A1B1S1,A1B1S2,A1B2S1及A1B2S2符合要求,由此可计算出市场份额达到和超过50%的概率是 p=0.144+0.192+0.256+0.032=0.624A1表示研制成功(0.80)A2表示研制不成功(0.20)B2表示B公司没有对抗(0.40)B1表示B公司有新产品对抗(0.60)70%市场份额(0.30)50%市场份额(0.40)80%市场份额(0
24、.80)50%市场份额(0.10)40%市场份额(0.10)S1=0.800.600.30=0.144S2=0.800.600.40=0.192S3=0.800.600.30=0.144S1=0.800.400.80=0.256S2=0.800.400.10=0.032S3=0.800.400.10=0.03230%市场份额维持不变 40%市场份额(0.30)返回目录http:/ 3.1 随机变量 3.2 随机变量的分布 3.3 随机变量的均值与方差 3.4 二项分布及其应用 3.5 泊松分布及其应用 3.6 正态分布及其应用 3.7 中心极限定理 3.8 各种概率分布计算的Minitab实现
25、 小组讨论与练习第3章 管理中常见的几个概率分布返回目录http:/ 章 目 标1.理解随机变量及随机变量分布的基本概念2.理解随机变量的均值及方差在管理中运用的思想3.理解二项分布的意义,掌握二项分布的应用4.掌握泊松分布的意义和应用理念5.理解正态分布与6的关系6.理解中心极限定理的意义7.掌握各种概率分布的计算实现返回目录http:/ 随机变量u 日常生活中,生产实践中随机现象无处不在u把随机现象的结果用变量来表示,就称为随机变量u随机变量是随机现象表示的一种抽象,有了这种抽象,使得我们的研究更具普遍性。u常用大写的字母X,Y,Z等表示随机变量,随机变量的取值常用小写字母x,y,z等表示
26、。u随机变量有离散型和连续型两大类返回目录http:/ 随机变量的分布u随机变量的取值的统计规律就是随机变量的分布。u知道了一个随机变量的分布就掌握了它的关键。u离散型随机变量的分布。l 随机变量X可能取哪些值,X取这些值的概率各是多大?u连续型随机变量的分布。l随机变量X在哪个区间上取值,它在任意小区间取值的概率是多少?返回目录http:/ x1 x2 xn P p1 p2 pn X(出现的点数)1 2 3 4 5 6 P(所对应的概率)1/6 1/6 1/6 1/6 1/6 1/6 返回目录http:/ 表示质量特性值在区间(a,b)中的概率。u这里涉及到积分概念,不必感到忧虑,因为积分计
27、算不是重点。f(x)xab返回目录http:/ 随机变量的均值与方差u前面第1章中看到的具体数据可以用均值和方差来分别描述数据的集中趋势和离种趋势,随机变量也有均值和方差的概念,用它们分别表示分布的中心位置和分散程度。u在掷骰子例子中,每次掷下后出现的点数不仅相同,平均出现的点数是多少?在啤酒的装量测定中,每瓶啤酒的装量严格来说都不一样,它们的平均装量是多少?这就是随机变量的均值问题。u相对均值而言,每次掷骰子出现的结果都在它的左右,那么平均的偏差有多大?假如一批瓶装啤酒的平均装量是640ml,各瓶偏离640ml的多少都不一样,它们平均偏离是多少?这就是随机变量的方差及标准差问题。返回目录ht
28、tp:/ 25/300=0.083 合格率是1-0.083=0.917,即合格率为91.7%返回目录http:/ 我们应该意识到,一个生产过程内在的精度不是由设计人员及设计方案所规定的。就像我们扔飞镖每一发都想命中靶心,但往往事与愿违。提高质量的核心就是优化流程,减小变异,提高生产流程内在的精度。这是6管理的精髓。返回目录http:/ T是目标值,期望值,设计值。然而常常在生产实际中,生产实际的中心值会发生变化,偏离目标值。这也说明实际生产结果的中心值 是独立于设计值规定的目标值(T)的。6管理的目的就在于优化流程,减小变异,使实际生产结果的中心值尽可能与设计的目标值重合。LSLUSLT返回目
29、录http:/ 即掷骰子出现的结果很不一样,但它们的平均取值是3.5u例32.电子产品首次发生故障(需要维修)的时间通常遵从指数分布。譬如某种品牌的手机首次发生故障的时间T(单位:小时)遵从指数分布 问计算这种品牌的手机首次需要维修的平均时间是多少小时。解:即这种品牌的手机首次需要维修的平均时间是10000小时。返回目录http:/ 例32中某种品牌的手机首次需要维修的平均时间是10000小时,即标准差也为10000小时。标准差如此之大有点不好理解。然而,凡是遵从指数分布的产品寿命问题就是这样,也即你的期望越高,标准差必然就大。实际中,也确有同一品牌的手机有的刚刚使用就遇到故障,而有的用了好几
30、年也不需修理。返回目录http:/ 二项分布及其应用u二项分布的概率计算公式:其中 是从n个不同元素中取出x个的组合数,计算公式为:二项分布的概率计算公式中有两个重要的参数,一个是n,一个是p,故通常把二项分布记为B(n,p)返回目录http:/ 泊松分布及其应用u单位产品缺陷数的概念 在任何生产流程中,缺陷的出现难以避免缺陷的出现完全是随机的u如果50件产品发现了50处缺陷,则单位产品的缺陷数为1u生产一件产品无缺陷的最大可能性是多少?u一件产品保证不再返工或修理的最大可能性是多少?返回目录http:/ 陷实际发生的数量。因此,当r=0时,就可得到单位产品无缺陷的概率。注意:它不同于传统意义
31、上的产品合格 率。例如合格产品的数量比上所有被检 验产品的数量。r rP P(r r)0 00.36788 0.36788 1 10.36788 0.36788 2 20.18394 0.18394 3 30.06131 0.06131 4 40.01533 0.01533 5 50.00307 0.00307 6 60.00051 0.00051 7 70.00007 0.00007 8 80.00000 0.00000 9 90.00000 0.00000 10100.00000 0.00000 11110.00000 0.00000 12120.00000 0.00000 13130.0
32、0000 0.00000 14140.00000 0.00000 1.00000 1.00000 返回目录http:/ 2.在某一单位时间内,某种机器发生的故障数 3.一辆汽车的表面上的斑痕数 4.你的手机每天接到的呼唤次数u泊松分布的一般数学形式是:其中 为某种特定单位内的平均数。在研究产品缺陷问题中返回目录http:/ 为2.7的泊松分布,于是X遵从的分布为 于是 可算得 即下一年发生工伤事故数小于2的概率为24.866%。u可以证明泊松分布的均值与方差相等,且均为,即返回目录http:/ 时,用泊松分布近似二项分布效果良好。u例36.已知某种电子元件的次品率为1.5,在一大批元件中随机抽
33、取1000个,问次品数为0,1,2,3的概率是多少?解:把“电子元件的次品数”看成随机变量X,显然X遵从二项分布B(1000,0.0015)。如果直接利用二项分布公式求解,就要计算u显然,计算量很大!返回目录http:/ 0.223130 0.000251 P(X=1)0.334821 0.334695 0.000126 P(X=2)0.251241 0.251021 0.000220 P(X=3)0.125558 0.125511 0.000047 返回目录http:/ 正态分布及其应用随机变量随机变量XN(,2)的正态分布曲线的正态分布曲线:曲线拐点的横曲线拐点的横坐标坐标或或 sP(aX
34、b)=?返回目录http:/ 返回目录http:/ ,称随机变量X遵从标准正态分布,记为 。如果一个随机变量X遵从标准正态分布,则其取值落在横轴上任意区间的概率可通过标准正态分布表查出。l标准正态分布的分布函数用 表示,即l例:l当 时,即 返回目录http:/ 时,要通过变换公式 把一般正态分布转换为标准正态分布 2.当转换为标准正态分布后,查相应的标准正态分布表3.对于 ,可由 获取4.当 时,直接查表即可5.当 时,有公式:返回目录http:/ 9.5mm10.5mm之间,这一要求能否得到保证?之间,这一要求能否得到保证?解:已知XN(10,0.22)(1)P(X9.4)=(9.4-10
35、)/0.2)=(-3)=0.00135返回目录http:/ P(9.5X10.5)=?P(-2.5z上下限内上下限内曲线的面积曲线的面积上下限内上下限内曲线的面积曲线的面积上下限内上下限内所容所容 个数个数上下限内上下限内所容所容 个数个数流程流程 I流程流程IILSLUSL流程流程I(样本均值)返回目录http:/ 合 格6流程流程 合合 格格由客户决定由客户决定由客户决定由客户决定废品废品0.001ppm废品废品0.001ppm6流程比流程比3流程好得多!流程好得多!废品废品1350ppm废品废品1350ppm返回目录http:/ 如果你达到了如果你达到了6sigma质量水准,就意味着在有
36、质量水准,就意味着在有100万个出现缺陷万个出现缺陷的机会的流程中,实际出现的缺陷仅为的机会的流程中,实际出现的缺陷仅为3.4个个67.51.56当考虑漂移后当考虑漂移后:6十亿分之二次品率十亿分之二次品率 63.4ppm期望流程期望流程流程平均值的漂移4.5面积约等于百万分之面积约等于百万分之3.4返回目录http:/ 中心极限定理u中心极限定理:设 为n个相互独立且同分布的随机变量,其共同分布未知,但其均值 和方差 都存在,在n较大时,其样本均值 近似遵从正态分布,即u中心极限定理表明:无论共同分布是什么形式,只要独立同分布随机变量的个数n较大时,的分布总是正态分布,这一结论非常重要。样本
37、均值 的均值 由样本均值的标准差 可以看出,在质量管理中,多次测量的平均值要比单次测量的值更具有稳定性。u在许多统计推断中,只要 即可采用中心极限定理。当n Probability Distributions Binomial.3、选取 Probability.4、在 Number of trials(试验次数)栏中,填入5.在 Probability of success(成功概率)栏中,填入 0.10.5、选取 Input column 并选择数据列.点击 OK.返回目录http:/ Calc Probability Distributions Binomial.返回目录http:/ Nu
38、mber of trials(试验次数试验次数)栏中栏中,填入填入5.在在 Probability of success(成功概率成功概率)栏中栏中,填入填入 0.10.选取选取 Input column 并选择并选择数据列数据列.点击点击 OK计算得计算得5 5个产品中有个产品中有2 2个产个产品有缺陷的概率是品有缺陷的概率是0.07290.0729返回目录http:/ Calc Probability Distributions Possion.3、选取 Cumulative probability.4、在 Mean(均值)栏中,填入2.7.5、选取 Input column 并选择数据列
39、.点击 OK.用Minitab计算泊松分布概率返回目录http:/ Calc Probability Distributions Possion.返回目录http:/ Cumulative probability.在在 Mean(均值均值)栏中栏中,填入填入2.7.选取选取 Input column 并选择数据列并选择数据列.点击点击 OK计算得下一年发生的工伤计算得下一年发生的工伤事故小于事故小于2 2的概率是的概率是0.24870.2487返回目录http:/ Calc Probability Distributions Normal.2、选取 Cumulative probability
40、.3、在 Mean栏中栏中,输入 28.在Standard deviation(标准差)栏中填入 1.4、选取 Input constant 并输入 27.点击 OK.用Minitab计算正态分布概率返回目录http:/ Calc Probability Distributions Normal.返回目录http:/ Cumulative probability,在在 Mean栏中栏中,输入输入 28.在在Standard deviation(标准差标准差)栏中栏中填入填入 1.选取选取 Input constant 并输并输入入 27.点击点击 OK计算得该随机变量小于等计算得该随机变量小于
41、等于于2727的概率是的概率是0.15870.1587返回目录http:/ ,求P(X2)=?4.设 ,求P(2X0,共测试了7台电视机,获得相应的首次故障时间(单位:万小时)为:1.49,3.65,0.26,4.25,5.43,6.97,8.09 求参数的估计值。解:样本x1,x2,xn的联合密度用均值 来表示,就有:,将 看作常数,看作变量,可得似然函数 ,进而取对数,求微商,解方程可得:对本例而言,就有:极大似然估计(续3)返回目录http:/ 是参数的一个估计量,如果 ,则称 是参数的无偏估计。无偏性实际上是指对于一个估计量,屡次变更数据反复求估计值时,估计值的平均与真值相一致,即尽管
42、 有时比大,有时比小,总的看来,它的“平均值”就是。可以证明:许多情况下,是的无偏估计,s是的无偏估计。然而,在正态分布中的极大似然估计就不是无偏估计。返回目录http:/ 都是参数的无偏估计量,如果 且至少有一个 ,严格不等号成立,则称 比 有效。设 、x1都是的无偏估计,但样本均值 的方差为2/n,x1的方差为2,只要n1,作为的估计值,比x1就更有效。返回目录http:/ 样本容量的确定u在研究实际问题时,需要自己动手设计 调查方案,这时如何确定样本容量大有 学问。如果样本量太大,必然费用增加;如果样本量过小,估计误差又会增大。u这就看你需要什么样的估计精度,即你想构造多宽的估计区间?u
43、对于你所确定的置信区间,你想要多大的置信度?u估计总体均值时,样本容量的确定 在总体均值的区间估计里,置信区间是:该区间估计的精度为 ,是区间估计长度的一半。返回目录http:/ 误差或估计的精度在置信度(1-)下不超 过某一数值B(允许误差),则可从下面的 方程确定n。解之得:u只要我们知道了Z1-/2,和允许误差,就可具体算出样本容量n。u如果算出的n不是整数,就去超过该小数的最接近的整数即可。返回目录http:/ ,你可发现几个量之间的一些关系:1.总体方差越大,必要的样本容量n越大。2.必要样本容量n反比例于允许误差B。即在给定的置信水平下,允许误差越大,样本容量就可以越小;允许误差越
44、小,样本容量就必须加大。3.必要样本容量n与正态分布Z1-/2分位数(也称可靠性系数)成正比。即:我们要求的可靠程度越高,样本容量就应越大;如果要求的可靠程度越低,样本容量就可以小些。返回目录http:/ 所花的广告费平均有多少。经验表明,总体方差约为1800000。如置信度取 95%,并要使估计值处在总体平均值 附近500元的范围内,这家广告公司 应取多大的样本?解:已知2=1800000,=0.05,Z1-/2=1.96,B=500即这家广告公司应抽取28个商场作样本。返回目录http:/ 估计值。解:通常在此类问题研究中,无法得到 值时,可以用 =0.5计算。已知B=0.05,=0.05
45、,Z1-/2=1.96,=0.5即抽取385户调查,就可以95%的可靠度保证估计误差不超过0.05。返回目录http:/ 两个总体均值之差的区间估计u某化工厂需要比较由两个供应商提供的原材料所带来的产量,某企业质量管理部的部长希望 了解车间内两条生产线生产的灯泡 平均寿命是否存在差异等。这些都 是要对两个总体均值之差作区间估计。u两个总体的方差 已知情况下,两总体均值差异1-2的区间估计:其中,分别为来自两个总体的样本均值,n1,n2为抽自两总体的样本容量,分别是两总体的方差。u只要样本容量足够大,对于总体分布是否正态都可适用。返回目录http:/ 。随机从两条生产线生产的灯泡中各抽取20只和
46、25只,测得平均寿命分别为1478小时和1456小时,在=0.05时,求出两条生产线生产的灯泡平均寿命差异的区间估计。解:即1-2的95%的置信区间为(9.8,34.2)。返回目录http:/ 未知的情况u两个总体均遵从正态分布,且 未知时,为了给出1-2的估计我们必须利用两个样本中关于2的信息联合大体估计2,这个联合估计量为:u这时两个总体均值之差1-2的1-置信水平下的置信区间为:返回目录http:/ 抽样分布不遵从自由度为(n1+n22)的t分布,而近似遵从自由度为f的t分布。f的计算公式为:这样两个总体均值之差1-2的1-置信水平下的置信区间为:返回目录http:/ 两个总体比例之差的
47、区间估计u设两个正态总体的比例分别为p1和p2,为了估计 p1p2,分别从两个总体中各随机抽取容量为n1和n2的两个随机样本,并计算两个样本的比例 ,可以证明,p1p2的置信度为1-的置信区间为:返回目录http:/ 正态总体方差的区间估计u设x1,x2,xn来自均值为,方差为2的正态总体,、2均未知,则2的估计量为s2,且u利用2(n1)分布可以得到2的1置信区间为:u其中 分别是2(n1)分布的 1/2分位数与/2分位数。返回目录http:/ 两个正态总体方差比的区间估计u实际问题中,我们需要比较两种测量工具的精度;比较两个生产过程的稳定性;比较两个评委评分的变异性等等,这些都可转化为两个
48、总体方差的比较。u可以证明:置信度为1-的 的区间估计为:注意:F分布的分位数F(n1,n2)=1/F1-(n2,n1),查表时有用。返回目录http:/ 有关区间估计的Minitab软件实现一.点估计的软件实现:1.例4-1的软件实现,输入数据见表:2.点击Stat Basic StatisticsDisplay Descriptive Statistics返回目录http:/ Statistics Store Descriptive Statistics,弹出如下对话框:5.选择变量后,点击Statistics,弹出下面的复选框,可选择你需要估计的参数值,点击OK得到结果:返回目录http
49、:/ =69.7mm,若s2=3.5,试以95%的置信水平估计该批 零件长度均值的置信区间。3.某企业的质量部要估计其产品的废品率。这家企业接受的废品率最高为5%。如果希望误差不超过2%和1%,置信度为95%,满足2%和1%的误差分别抽取多少件产品 进行检测。试说明两者结果的意义。返回目录http:/ 假设检验 5.1 广告宣传的虚假性 5.2 假设检验(hypothesis testing)的几个步骤 5.3 单侧检验(one-tailed hypothesis)5.4 双侧检验(two-tailed hypothesis)5.5 两类错误 5.6 检验的应用 小组讨论与练习返回目录http
50、:/ 章 目 标1.了解假设检验的原理2.掌握假设检验的步骤3.了解怎样辨别I类和II类错误4.学会计算单尾和双尾概率返回目录http:/ 广告宣传的虚假性l手机电池的使用寿命不是按年来计算的,而是按电池的充放电次数来计算的。镍氢电池一般可充放电200-300次,锂电池一般可充放电350-700次。某手机电池厂商宣称其一种改良产品能够充放电900次,为了验证厂商的说法,消费者协会对10件该产品进行了充放电试验。得到的次数分别为891,863,903,912,861,885,874,923,841,836。返回目录http:/ 上述数据的均值为878.9,明显少于900。但是,到底均值落在什么范