《六西格玛数据分析技术330035.pptx》由会员分享,可在线阅读,更多相关《六西格玛数据分析技术330035.pptx(59页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、SSMC中国人民大学六西格玛质量管理研究中心六西格玛管理培训丛书(5)o何晓群何晓群 主编主编 六西格玛数据分析技术六西格玛数据分析技术何晓群 编著光盘作者:陶 沙 苏晨辉中 国 人 民 大 学 出 版 社SSMC中国人民大学六西格玛质量管理研究中心 3.1 随机变量 3.2 随机变量的分布 3.3 随机变量的均值与方差 3.4 二项分布及其应用 3.5 泊松分布及其应用 3.6 正态分布及其应用 3.7 中心极限定理 3.8 各种概率分布计算的Minitab实现 小组讨论与练习第3章 管理中常见的几个概率分布返回目录SSMC中国人民大学六西格玛质量管理研究中心本 章 目 标1.理解随机变量及
2、随机变量分布的基本概念2.理解随机变量的均值及方差在管理中运用的思想3.理解二项分布的意义,掌握二项分布的应用4.掌握泊松分布的意义和应用理念5.理解正态分布与6的关系6.理解中心极限定理的意义7.掌握各种概率分布的计算实现返回目录SSMC中国人民大学六西格玛质量管理研究中心3.1 随机变量u 日常生活中,生产实践中随机现象无处不在u把随机现象的结果用变量来表示,就称为随机变量u随机变量是随机现象表示的一种抽象,有了这种抽象,使得我们的研究更具普遍性。u常用大写的字母X,Y,Z等表示随机变量,随机变量的取值常用小写字母x,y,z等表示。u随机变量有离散型和连续型两大类返回目录SSMC中国人民大
3、学六西格玛质量管理研究中心离散型随机变量u定义:如果一个随机变量的取值是可数的,则称该随机变量是离散型随机变量。u离散型随机变量是仅取数轴上有限个点或可列个点x1x2x3x4x5x6x7X图1公路上的汽车完好瓷砖的数目返回目录SSMC中国人民大学六西格玛质量管理研究中心连续型随机变量u定义:如果一个随机变量可取数轴上某一区间内的任一值,则称该随机变量为连续型随机变量。u连续型随机变量的取值可以是整个实数轴上的任一区间(a,b)(如图2)。abX图2返回目录SSMC中国人民大学六西格玛质量管理研究中心3.2 随机变量的分布u随机变量的取值的统计规律就是随机变量的分布。u知道了一个随机变量的分布就
4、掌握了它的关键。u离散型随机变量的分布。l 随机变量X可能取哪些值,X取这些值的概率各是多大?u连续型随机变量的分布。l随机变量X在哪个区间上取值,它在任意小区间取值的概率是多少?返回目录SSMC中国人民大学六西格玛质量管理研究中心离散型随机变量的分布u离散型随机变量的分布常用下面表格形式的分布列来表示:u用数学表达式表示即为:P(X=xi)=pi,i=1,2,nu离散型随机变量的分布应满足概率公理化定义的要求,即pi0,p1+p2+pn=1u掷一枚骰子出现的点数及其概率就可用离散型随机变量的分布列表示:X x1 x2 xn P p1 p2 pn X(出现的点数)1 2 3 4 5 6 P(所
5、对应的概率)1/6 1/6 1/6 1/6 1/6 1/6 返回目录SSMC中国人民大学六西格玛质量管理研究中心连续型随机变量的分布u连续型随机变量X,它可取某一区间内的所有值,但它的取值不能逐一列出。我们用函数f(x)表示随机变量X的密度函数。u用概率密度函数f(x)来反映随机变量X在某一区间取值的统计规律性u连续型随机变量取某一固定值的概率为零u在6管理中用连续型随机变量X常常表示产品的某种质量特性,譬如啤酒的装量、电子元件的灵敏度、电子产品的寿命等。返回目录SSMC中国人民大学六西格玛质量管理研究中心质量特性与概率密度函数u在生产制造业的管理现场我们常常要抽取若干样品测定某种产品的质量特
6、性X。如在啤酒厂今天生产的啤酒中随机抽取若干瓶量测它们的装量(ml),就可用直方图表示它们的质量特性。随着测定的数量越多,直方图就会演变成一条光滑曲线,这就是所谓的概率密度函数曲线,它就刻画出隐藏在质量特性X随机取值后面的统计规律性。这条光滑曲线f(x)告诉了我们什么信息?640645635LSLUSL640645635LSLUSL640645635LSLUSL640645635LSLUSL640645635LSLUSL640645635LSLUSL返回目录SSMC中国人民大学六西格玛质量管理研究中心概率密度曲线的几种不同情形u在管理现场,不同产品的不同质量特性所表现的概率密度曲线不同,这决定
7、了形状不同,散布不同,位置不同。正是这些不同的曲线形式决定了质量特性的差别。正态偏态形状不同散布不同位置不同返回目录SSMC中国人民大学六西格玛质量管理研究中心概率密度函数的性质u概率密度曲线的纵轴在做直方图时,它是“单位长度上的频率”,由于频率的稳定性,于是用概率代替了频率,从而纵轴就演变成为“单位长度上的概率”,这也是为什么把密度曲线称为概率密度曲线的缘由。u连续型随机变量的密度函数f(x)具有如下性质:1.2.3.其中 表示质量特性值在区间(a,b)中的概率。u这里涉及到积分概念,不必感到忧虑,因为积分计算不是重点。f(x)xab返回目录SSMC中国人民大学六西格玛质量管理研究中心3.3
8、 随机变量的均值与方差u前面第1章中看到的具体数据可以用均值和方差来分别描述数据的集中趋势和离种趋势,随机变量也有均值和方差的概念,用它们分别表示分布的中心位置和分散程度。u在掷骰子例子中,每次掷下后出现的点数不仅相同,平均出现的点数是多少?在啤酒的装量测定中,每瓶啤酒的装量严格来说都不一样,它们的平均装量是多少?这就是随机变量的均值问题。u相对均值而言,每次掷骰子出现的结果都在它的左右,那么平均的偏差有多大?假如一批瓶装啤酒的平均装量是640ml,各瓶偏离640ml的多少都不一样,它们平均偏离是多少?这就是随机变量的方差及标准差问题。返回目录SSMC中国人民大学六西格玛质量管理研究中心随机变
9、量均值与方差的理解u生产或服务过程中的差别是难以避免的。生产过程中由于种种随机因素的影响,使得我们无法避免变异的产生。u在扔飞镖时,谁都想发发命中靶心,可遗憾的事常常发生!计算多次投标的平均结果就是求均值,计算相对均值的离散程度就是计算方差。5432154321如何理解上面两图的结果返回目录SSMC中国人民大学六西格玛质量管理研究中心如何理解直方图u直方图的上下公差限的总宽度是对生产能力的一个设计。在大部分时间里,生产运行的结果就在这一区间上发生。u譬如,根据啤酒装量的抽检数据建立了如下的直方图T废品废品废品废品期望值期望值640返回目录SSMC中国人民大学六西格玛质量管理研究中心直方图的解释
10、u图形纵轴表示在某一范围内量测到的数目,公差限以内就是合格品,出了公差限就是废品。u上图中的T值就是均值(640ml),也即数学期望。这是一个理想值,也就是说,设计人员期望每瓶啤酒的装量正好是640ml,然而由于种种说不清道不明的原因的影响,不可能,也不存在正好的640ml,于是只要在上下公差限之内的都是合格品,出了上下公差限的就是废品。u假如总共抽检了300瓶啤酒,有10瓶低于下规格限LSL,15瓶超过了上规格限USL,因此,这批产品的废品率是 25/300=0.083 合格率是1-0.083=0.917,即合格率为91.7%返回目录SSMC中国人民大学六西格玛质量管理研究中心实际与理想的差
11、距 我们应该意识到,一个生产过程内在的精度不是由设计人员及设计方案所规定的。就像我们扔飞镖每一发都想命中靶心,但往往事与愿违。提高质量的核心就是优化流程,减小变异,提高生产流程内在的精度。这是6管理的精髓。返回目录SSMC中国人民大学六西格玛质量管理研究中心6管理的目标是缩小实际与理想的差距 T是目标值,期望值,设计值。然而常常在生产实际中,生产实际的中心值会发生变化,偏离目标值。这也说明实际生产结果的中心值 是独立于设计值规定的目标值(T)的。6管理的目的就在于优化流程,减小变异,使实际生产结果的中心值尽可能与设计的目标值重合。LSLUSLT返回目录SSMC中国人民大学六西格玛质量管理研究中
12、心均值的计算公式u离散型随机变量的数学期望(均值)u连续型随机变量的数学期望返回目录SSMC中国人民大学六西格玛质量管理研究中心均值计算举例u例31.掷骰子试验中出现的点数用随机变量X表示,随机变量X的均值(数学期望)为 即掷骰子出现的结果很不一样,但它们的平均取值是3.5u例32.电子产品首次发生故障(需要维修)的时间通常遵从指数分布。譬如某种品牌的手机首次发生故障的时间T(单位:小时)遵从指数分布 问计算这种品牌的手机首次需要维修的平均时间是多少小时。解:即这种品牌的手机首次需要维修的平均时间是10000小时。返回目录SSMC中国人民大学六西格玛质量管理研究中心方差的计算公式u离散型随机变
13、量的方差u连续型随机变量的方差u由于方差不能带单位,故用标准差来刻画随机变量相对均值的离散程度返回目录SSMC中国人民大学六西格玛质量管理研究中心方差计算举例u例33.掷骰子问题中,出现点数的平均值是3.5,每次取值相对于均值的离散程度是多大?解:即相对均值平均偏离1.71点。u可以证明,指数分布的均值与标准差相等,即 例32中某种品牌的手机首次需要维修的平均时间是10000小时,即标准差也为10000小时。标准差如此之大有点不好理解。然而,凡是遵从指数分布的产品寿命问题就是这样,也即你的期望越高,标准差必然就大。实际中,也确有同一品牌的手机有的刚刚使用就遇到故障,而有的用了好几年也不需修理。
14、返回目录SSMC中国人民大学六西格玛质量管理研究中心3.4 二项分布及其应用u二项分布的概率计算公式:其中 是从n个不同元素中取出x个的组合数,计算公式为:二项分布的概率计算公式中有两个重要的参数,一个是n,一个是p,故通常把二项分布记为B(n,p)返回目录SSMC中国人民大学六西格玛质量管理研究中心一个产品检验的例子u例34.已知某生产流程生产的产品中有10%是有缺陷的,而该生产流程生产的产品是否有缺陷完全是随机的,现在随机选取5个产品,求其中有2个产品有缺陷的概率是多大?解:这是一个符合二项分布情形的问题。设X为抽取的5个产品中有缺陷的产品的个数,则X是遵从二项分布B(5,0.1)的随机变
15、量。某一产品有缺陷的概率为p=0.1,n=5。择所要求的概率为:类似可以计算出在抽取的5件产品中有0、1、3、4、5个产品有缺陷的概率分别为返回目录SSMC中国人民大学六西格玛质量管理研究中心二项分布的均值与标准差u可以证明,如果随机变量XB(n,p),它们的均值、方差、标准差分别为:在例34中,二项分布B(5,0.1)的均值、方差与标准差分别为:u二项分布的计算在n很大时,像上面的那样的运算是很麻烦的,然而,通常可以通过查二项分布表直接解决这一问题,或通过Minitab软件计算。返回目录SSMC中国人民大学六西格玛质量管理研究中心3.5 泊松分布及其应用u单位产品缺陷数的概念 在任何生产流程
16、中,缺陷的出现难以避免缺陷的出现完全是随机的u如果50件产品发现了50处缺陷,则单位产品的缺陷数为1u生产一件产品无缺陷的最大可能性是多少?u一件产品保证不再返工或修理的最大可能性是多少?返回目录SSMC中国人民大学六西格玛质量管理研究中心某一产品无缺陷的最大可能性是多大?u假设某种产品由10个零部件组成设零部件有缺陷的概率是0.10该零部件无缺陷的概率是0.90重要结论:该种产品无缺陷的最大可能性是34.87%返回目录SSMC中国人民大学六西格玛质量管理研究中心零件数和单位产品缺陷数(DPU)10100100010000100000.3480.3500.3520.3540.3560.3580
17、.3600.3620.3640.3660.36800.9010=.348680.991000.99910000.9999100000.99999100000零件数零件数产生合格率产生合格率(以以DPU=1为例为例)返回目录SSMC中国人民大学六西格玛质量管理研究中心对缺陷模型的泊松模拟(DPU=1)u当零件数趋于无限时,我们可以注意到合格品率趋于:u泊松公式:其中,d/U是单位产品缺陷数,r是缺 陷实际发生的数量。因此,当r=0时,就可得到单位产品无缺陷的概率。注意:它不同于传统意义上的产品合格 率。例如合格产品的数量比上所有被检 验产品的数量。r rP P(r r)0 00.36788 0.
18、36788 1 10.36788 0.36788 2 20.18394 0.18394 3 30.06131 0.06131 4 40.01533 0.01533 5 50.00307 0.00307 6 60.00051 0.00051 7 70.00007 0.00007 8 80.00000 0.00000 9 90.00000 0.00000 10100.00000 0.00000 11110.00000 0.00000 12120.00000 0.00000 13130.00000 0.00000 14140.00000 0.00000 1.00000 1.00000 返回目录SSM
19、C中国人民大学六西格玛质量管理研究中心泊松分布的更一般情形u泊松分布常用来描述在一指定时间、面积、体积之内某一事件出现的个数的分布。譬如:1.修一条铁路,每月出的伤亡事故数 2.在某一单位时间内,某种机器发生的故障数 3.一辆汽车的表面上的斑痕数 4.你的手机每天接到的呼唤次数u泊松分布的一般数学形式是:其中 为某种特定单位内的平均数。在研究产品缺陷问题中返回目录SSMC中国人民大学六西格玛质量管理研究中心一个实际例子u例35.某一大型矿山每年发生工伤事故的平均次数为2.7,如果企业的安全条件没有质的改变,则下一年发生的工伤事故小于2的概率是多少?解:设X为下一年发生的工伤事故数,则X遵从 为
20、2.7的泊松分布,于是X遵从的分布为 于是 可算得 即下一年发生工伤事故数小于2的概率为24.866%。u可以证明泊松分布的均值与方差相等,且均为,即返回目录SSMC中国人民大学六西格玛质量管理研究中心用泊松分布近似二项分布u通常在实际应用中,当 时,用泊松分布近似二项分布效果良好。u例36.已知某种电子元件的次品率为1.5,在一大批元件中随机抽取1000个,问次品数为0,1,2,3的概率是多少?解:把“电子元件的次品数”看成随机变量X,显然X遵从二项分布B(1000,0.0015)。如果直接利用二项分布公式求解,就要计算u显然,计算量很大!返回目录SSMC中国人民大学六西格玛质量管理研究中心
21、用泊松分布近似二项分布(续)u如果用泊松分布去近似计算,则u泊松分布与二项分布计算结果的比较P(X=x)二项分布泊松分布绝对差P(X=0)0.222879 0.223130 0.000251 P(X=1)0.334821 0.334695 0.000126 P(X=2)0.251241 0.251021 0.000220 P(X=3)0.125558 0.125511 0.000047 返回目录SSMC中国人民大学六西格玛质量管理研究中心3.6 正态分布及其应用随机变量随机变量XN(,2)的正态分布曲线的正态分布曲线:曲线拐点的横曲线拐点的横坐标坐标或或 sP(aXb)=?返回目录SSMC中国
22、人民大学六西格玛质量管理研究中心不同的、对应的正态曲线相同,相同,不同的情况不同的情况相同,相同,不同的情况不同的情况返回目录SSMC中国人民大学六西格玛质量管理研究中心l当不变时,不同的对应的曲线形状不变,仅仅是位置不同。而当不变时,不同的对应的曲线形状不同,大的曲线较矮胖,小的曲线较瘦高。因此反映了曲线的位置,是位置参数,它是正态随机变量的平均值,也称为正态变量的均值(或数学期望)。反映了曲线的形状,即随机变量取值的离散程度,是形状参数(也称尺度参数),称为正态变量的标准差,2为其方差。常记为 返回目录SSMC中国人民大学六西格玛质量管理研究中心标准正态分布蓝色部分的面积:P(-3X3)=
23、0.9973返回目录SSMC中国人民大学六西格玛质量管理研究中心l当=0,=1时 ,称随机变量X遵从标准正态分布,记为 。如果一个随机变量X遵从标准正态分布,则其取值落在横轴上任意区间的概率可通过标准正态分布表查出。l标准正态分布的分布函数用 表示,即l例:l当 时,即 返回目录SSMC中国人民大学六西格玛质量管理研究中心把一般正态分布转换为标准正态分布返回目录SSMC中国人民大学六西格玛质量管理研究中心把一般正态分布转换为标准正态分布1.当 时,要通过变换公式 把一般正态分布转换为标准正态分布 2.当转换为标准正态分布后,查相应的标准正态分布表3.对于 ,可由 获取4.当 时,直接查表即可5
24、.当 时,有公式:返回目录SSMC中国人民大学六西格玛质量管理研究中心例37:某批零件的长度遵从正态分布,平均长度为10mm,标准差为0.2mm.试问:(1)从该批零件中随机抽取一件,其长度不到)从该批零件中随机抽取一件,其长度不到9.4mm的概率是多少?的概率是多少?(2)为了保证产品质量,要求以)为了保证产品质量,要求以95%的概率保证该零件的长度在的概率保证该零件的长度在 9.5mm10.5mm之间,这一要求能否得到保证?之间,这一要求能否得到保证?解:已知XN(10,0.22)(1)P(X9.4)=(9.4-10)/0.2)=(-3)=0.00135返回目录SSMC中国人民大学六西格玛
25、质量管理研究中心-2.52.59.510.5(2)P(9.5x10.5)=(10.5-10)/0.2)-(9.5-10)/0.2)=(2.5)-(-2.5)=2(2.5)-1=0.98758 P(9.5X10.5)=?P(-2.5z上下限内上下限内曲线的面积曲线的面积上下限内上下限内曲线的面积曲线的面积上下限内上下限内所容所容s s个数个数上下限内上下限内所容所容s s个数个数流程流程 I流程流程IILSLUSL流程流程I(样本均值)返回目录SSMC中国人民大学六西格玛质量管理研究中心3流程与6流程的比较3流程流程LSLUSL 合 格6流程流程 合合 格格由客户决定由客户决定由客户决定由客户决
26、定废品废品0.001ppm废品废品0.001ppm6流程比流程比3流程好得多!流程好得多!废品废品1350ppm废品废品1350ppm返回目录SSMC中国人民大学六西格玛质量管理研究中心LSLUSL1.5的漂移的漂移 如果你达到了如果你达到了6sigma质量水准,就意味着在有质量水准,就意味着在有100万个出现缺陷万个出现缺陷的机会的流程中,实际出现的缺陷仅为的机会的流程中,实际出现的缺陷仅为3.4个个67.51.56当考虑漂移后当考虑漂移后:6十亿分之二次品率十亿分之二次品率 63.4ppm期望流程期望流程流程平均值的漂移4.5面积约等于百万分之面积约等于百万分之3.4返回目录SSMC中国人
27、民大学六西格玛质量管理研究中心3.8 各种概率分布计算的Minitab实现o二项分布二项分布o以例34为例1、在工作表中填入1-5(因为选取了五个产品)2、选取 Calc Probability Distributions Binomial.3、选取 Probability.4、在 Number of trials(试验次数)栏中,填入5.在 Probability of success(成功概率)栏中,填入 0.10.5、选取 Input column 并选择数据列.点击 OK.返回目录SSMC中国人民大学六西格玛质量管理研究中心用Minitab计算二项分布概率输入数据输入数据选取选取 Ca
28、lc Probability Distributions Binomial.返回目录SSMC中国人民大学六西格玛质量管理研究中心用Minitab计算二项分布概率(续)在在 Number of trials(试验次数试验次数)栏中栏中,填入填入5.在在 Probability of success(成功概率成功概率)栏中栏中,填入填入 0.10.选取选取 Input column 并选择并选择数据列数据列.点击点击 OK计算得计算得5 5个产品中有个产品中有2 2个产个产品有缺陷的概率是品有缺陷的概率是0.07290.0729返回目录SSMC中国人民大学六西格玛质量管理研究中心l泊松分布泊松分布
29、l以例35为例1、在工作表中填入1-2(只需考虑2次事故)2、选取 Calc Probability Distributions Possion.3、选取 Cumulative probability.4、在 Mean(均值)栏中,填入2.7.5、选取 Input column 并选择数据列.点击 OK.用Minitab计算泊松分布概率返回目录SSMC中国人民大学六西格玛质量管理研究中心用Minitab计算泊松分布概率(续一)输入数据输入数据选取选取 Calc Probability Distributions Possion.返回目录SSMC中国人民大学六西格玛质量管理研究中心用Minita
30、b计算泊松分布概率(续二)选取选取 Cumulative probability.在在 Mean(均值均值)栏中栏中,填入填入2.7.选取选取 Input column 并选择数据列并选择数据列.点击点击 OK计算得下一年发生的工伤计算得下一年发生的工伤事故小于事故小于2 2的概率是的概率是0.24870.2487返回目录SSMC中国人民大学六西格玛质量管理研究中心l正态分布正态分布l计算一个服从=28,=1的正态分布随机变量小于等于27的概率。1、选取 Calc Probability Distributions Normal.2、选取 Cumulative probability.3、在
31、Mean栏中栏中,输入 28.在Standard deviation(标准差)栏中填入 1.4、选取 Input constant 并输入 27.点击 OK.用Minitab计算正态分布概率返回目录SSMC中国人民大学六西格玛质量管理研究中心用Minitab计算正态分布概率(续一)选取选取 Calc Probability Distributions Normal.返回目录SSMC中国人民大学六西格玛质量管理研究中心用Minitab计算正态分布概率(续二)选取选取 Cumulative probability,在在 Mean栏中栏中,输入输入 28.在在Standard deviation(标
32、准差标准差)栏中栏中填入填入 1.选取选取 Input constant 并输并输入入 27.点击点击 OK计算得该随机变量小于等计算得该随机变量小于等于于2727的概率是的概率是0.15870.1587返回目录SSMC中国人民大学六西格玛质量管理研究中心小组讨论与练习1.如何理解管理实践中的连续型随机变量和离散型随机变量?2.已知一批产品的次品率为5%,现从中随机抽取3个,求在所抽取的3个产品中恰有两个次品的概率。3.设 ,求P(X2)=?4.设 ,求P(2X10)=?5.设 是相互独立且同分布 的随机变量,它们的分布为正态分布 N(10,25),求其均值 和标准差 。返回目录SSMC谢谢观看/欢迎下载BY FAITH I MEAN A VISION OF GOOD ONE CHERISHES AND THE ENTHUSIASM THAT PUSHES ONE TO SEEK ITS FULFILLMENT REGARDLESS OF OBSTACLES.BY FAITH I BY FAITH