《中级质量工程师考试下册.pdf》由会员分享,可在线阅读,更多相关《中级质量工程师考试下册.pdf(53页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第一章概率统计基础知识(中级)上海质量教育培训中心2 0 0 5 年第一节概率基础知识一、事件与概率(一)随机现象随机现象在一定条件下,并不总是出现相同结果的现象。特点随机现象的结果至少有两个-至于哪一个出现,人们事先并不知道样本点认识一个随机现象,首要的是能罗列出它的切可能发生的基本结果。这里的基本结果是今后的抽样单元即样本点。样本空间:记为Q随机现象可能样本点的全部称为这个随机现象的样本空间。(二)随机事件事件(随机事件):随机现象的某些样本点组成的集合。用大写英文字母 A、B、C.表示。随机事件的特征一任一事件A是相应样本空间Q中的一个子集。一事件A 发生当且仅当()A中某一样本点发生。
2、事件A的表示可用集合,也可用语言,但所用语言要大家明白无误。任样本空间Q有一个最大子集即Q ;它对应的事件称为必然事件,仍用Q表示。一 任一样本空间Q都有一个最小子集即空集,它对应的事件称为不可能事件,记为随机事件的关系包含:A U B 或 B n A在一个随机现象中有两个事件A与B,若事件A中任一个样本点必在B中,则称A被包含在B中,或 B包含A。互不相容在一个随机现象中有两个事件A与B,若事件A与 B 没有相同的样本点,则称A与B互不相容。可推广到三个或更多个事件间的互不相容 相等:A=B 即A U B 且B=)A在一个随机现象中有两个事件A与B,若样本A 与 B 含有相同的样本点,则称事
3、件A与B 相等。例:A=(x,y):x +y =奇数B=(x,y):x 与y的奇偶性不同A=B=(1,2),(1,4),(1,6),(2.1),(2,3),(2,5)(3,2),(3,4),(3,6)则:(三)事件的运算事件运算对立事件:A-A在一个随机现象中,Q是样本空间,A为事件,则由在Q中而不在A中的样本点组成的事件称为A的对立事件,记。A则 人=人,Q =,0)=Q事件A与B的并:A U B由事件A与B中所有样本点(相同的只计入一次)组成的新事件。称为A与B的并,发生意味着“事件A与B至少一个发生”A U B事件A与B的交:A I B 或A B由事件A与B中公共的样本点组成的新事件称为
4、事件A与B的交。发生意味着“事件A与 B同时发生”A I B事件的并和交可推广到更多个事件上去。事件A对B的差:A-B由在事件A中而不在B中的样本点组成的新事件,称为A对 B的差。(a)A-B(b)A-B (A D B)事件运算性质:交换律:A U B =BUA,AIB=BIA结合律:A U (B U C)=(A U B)U CA I (B I C)=(A I B)I C一分配律:A U (B I C)=(A U B)I (A U C)A I (B U C)=(A I B)U (A I C)对偶律:A U B =A I BA I B =A U B可用维恩图验证,可推广到三个或三个以上事件的运算
5、。(四)事件的概率概率事件发生可能性大小的度量在一个随机现象中,用来表示任-随机事件A 发生可能性大小的实数称为该事件的概率,记为 P (A)。概率是一个介于0和 1之间的数,即 O W P(A)W 1;必然事件的概率等于1,即P (Q )=1;不可能事件的概率等于0,即P ()=0。二、概率的古典定义与统计定义(一)古典定义 所涉及的随机现象只有有限个样本点。如共有n 个样本点;-每个样本点出现的可能性是相同的(等可能性);-加如被考察事件A含 有K个样本点,则事件A的概率定义为中样本点的总数中含样本点的个数Q=AnP(A )K(二)统计定义 与考察事件A有关的随机现象是可以大量重复试验的;
6、-若在n次重复试验中,事件A发 生K n次 则事件A发生的频率为:重复试验数事件A发生次数nf (A)K nn =-f n(A)将会随着重复试验次数不断增加而趋于稳定,这个频率的稳定值就是事件A的概率。一般用重复次数n较大时的频率去近似概率。三、概率的性质及其运算法则概率的性质:(可由概率的定义看出)-性 质1:对任意事件A,有O WP(A)0性 质6:对任意二个事件A与B,有P(AB)=P(A B)P(B)=P (B A)P(A)P(B)0 P (A)0(2)独立性和独立事件的概率相互独立:设有两个事件A与B,假如其中一个事件的发生不影响另一个事件的发生与否,则称A事件与B事件相互独立。性
7、质7:假如二个事件A与B相互独立,则A与B同时发生的概率为P(AB)=P(A)P(B)性 质8:假如二个事件A与B相互独立,则在事件B发生条件下,事件A的条件概率P(A B)等于事件A的(无 条 件)概 率p(A)()()()0()()()P AP BP A P BP BPA B =P AB=事件的相互独立可推广到三个或更多的事件上去。第二节随机变量及其分布一、随机变量随机变量用来表示随机现象结果的变量称为随机变量。常用大写字母X、Y、Z 表示。随机变量类型离散随机变量一个随机变量仅取数轴上有限个点或可列个点,则此随机变量为离散(型)随机变量。连续随机变量如一个随机变量的所有可能取值充满数轴上
8、一个范围(a,b)或整个数轴,则此随机变量 为 连 续(型)随 机 变 量。二、随机变量的分布随机变量的分布随机变量取值的统计规律性。随机变量X的分布内容:X可能取哪些值或在哪个区间上取值-X取这些值的概率各是多少?或X在任一小区间上取值的概率是多少?(-)离散随机变量的分布离散随机变量的分布可用分布列表示(离散分布)分布列或用数学式表达:P(X=Xi)=p i i=l,2.n (p l+p n=l)P i也称为分布的概率函数X XI X2.XnP p l p 2.p n(二)连续随机变量的分布用概率密度函数表示(简称分布)条件:p (x)20 f +8 =-00 p (x)d x 1概率密度
9、函数P (x)的各种形式位置不同-散布不同-形状不同其 中p(x)在x O点的值p(x)不是概率,是高度。注:纵 轴原为“单位长度上的频率”,由频率的稳定性,可用概率代替频率,纵轴就成为“单位长度上的概率”即概率密度的概念,故最后形成的曲线称为概率密度曲线。p (X)X重要结论:1.X在 区 间(a,b)上取值的概率p(a V X b)为概率密度曲线以下区间(a,b)上的面积,即P(a X b)=/ba p (x)d x2.X在一点取值的概率为零,即P(X=a)=0故:P(a x V b)=P(a Wx Wb)=P(a X b)=P(a XWb)三、随机变量分布的均值、方差与标准差均值:用来表
10、示分布的中心位置,用E(X)表示X是离散随机变量X是连续随机变量E(X)=2 x i p if x p x d x +8-00()方差:用来表示分布的散布大小,用V a r(x)表示V a r (X)=X是离散随机变量X是连续随机变量2 x i-E(x)2 Rf x E(x)2P(x)d x +80 0 标准差:用。表示。=。(X)=V a r(X)表示分布散布大小。均值与方差的运算性质 对任意二个随机变量XI和X2,有E(X1+X2)=E(X1)+E(X2)设X为随机变量,a与b为任意常数,有E(a x+b)=a E(x)+bV a r(a X+b)=a 2V a r(X)设XI与X2相互独
11、立V a r(XI X2)=V a r (XI )+V a r(X2)(和的方差等于方差之和)这个性质可推广到三个或更多个相互独立随机变量场合方差的这个性质不能推广到标准差场合,对任意两个相互独立的随机变量XI 与 X 2,。(X1+X2)W。(Xl)+o (X2)而应为:o (XI +X2)=V a r(XI )+V a r(X2)方差具有可加性,标准差不具有可加性。四、常用分布(-)常用的离散分布二项分布(n )x n xP(X=x )=x p (1 -p )-x =0,1,.,n其中表示从n个不同元素取出x个的组合数。()x!(n x )!n n!记 为b (n,p)二项分布均值、方差和
12、标准差-均值 E(x)=n p-方差:V a r (x)=n p(l-p)-标准差:。=n p(l-p )泊松分布:(常用于计点过程)X-X=ex!P(X x )Xx =0,1,2,.记为P(入)其 中e=2.71 8 28泊松分布均值、方差和标准差均值:E(X)=X-方差:V a r(X)=X 标准差:o =入超几何分布:(不放回抽样)()0(N )nN Mn xM xP(X x)(u )e=-x=1 ,2.,r式中 r=mi n (n,M)M为N中所含不合格品数n 为样本量记为 h (n,N,M)超几何分布均值、方差、标准差均值:NE(X )=n M方差:()M NNMNV a r(X )
13、n(N n ),-=11(-)连续型随机变量的分布正态分布:能描述很多质量特性X 随机取值的统计规律性。正态分布概率密度函数:(-8 X 0 为分布标准差。222()2()1。口Jt On6=标准正态分布表及其应用标准正态分布表可用于计算形如“U W u”随机事件发生的概率。如:P(U W 1.52)=(1.52)查附表得 0.9 3 57 5-P(U W a )=p(U a )=1-(a )-(-a)=+0(a)P(aWUWb)=(D(b)-中(a)-P(U a )=2(a )-1P(U a )=P(-a W U W a )=(a)-(-a)=(a)-1+(a)=2(a)-1标准正态分布N(
14、0,1)的分位数 a分位数(a 为0 1 间实数)指它的左侧面积恰好为a ,右侧面积恰好为 1-a,即用概率表达P(U u a )=a当a =0.5时,称为中位数,N(0,1)分布中u 0.5三0a 0.5 时,如 a =0.25 则 u 0.25=-u 0.7 5 查附表 u 0.7 5=0.67 5,故 u 0.25=-0.67 5a1 -au a正态分布的计算性质 1:设X N(口,。2),则U X N(0,1 )o性质2:设X N(u,。2),则对任意实数a,b 有p x e正态分布概率密度函数图形分析标准正态分布:u=0 且。=1 的正态分布,称为标准正态分布,记N (0,1),其变
15、量记为U,概率密度函数记为(u)2221 uO-UP(X a )=12M T L T Up L=P(x u-3。)=(-3)=1-(3)=1-0.9 9 8 65=0.0 0 1 3 5=1 3 50 P P m0-u-p U=P(x u+3。)=1-(3)=0.0 0 1 3 5=1 3 50 P P mp=p L+p U=0.0 0 1 3 5+0.0 0 1 3 5=0.0 0 27=27 0 0 P P m-6 o -5 o -4 o -3 o -2 o-o 口 o 2 o 3。4o 5 o 6 o规范限1 o0-口P(aX T U)X 超出T L (下规范限)的概率记P Lp L=P
16、 (X =UU Up P X T T2 o3 o4 o+5 o6o合格品率(%)68.279 5.459 9.7 39 9.9 9 3 79 9.9 9 9 9 439 9.9 9 9 9 9 9 8不合格品率(p p m)3 1 7 3 0 04550 027 0 0630.57.0 0 2(三)其他连续分布均匀分布-在区间(a,b)上的均匀分布,记 U (a、b)0()()0-口=LL Lp P X T T其中中()可查标准正态分布函数表T L T u当正态分布中心U =规范中心时产品质量特性X 超出规范u 3。的不合格率a x b其它p(x)=b -a1均值、方差、标准差均值2E(X )
17、a b +方差1 2V a r(X )(b a )2-标准差1 2(b-a)2o =指数分布0 ,p(x)=X e-X x,x N 0 x 0。均值,方差,标准差XE(X )=121XV a r(X )=Xo =1对数正态分布(特点)-随机变量都在正半轴(0,+8)上取值-大量取值在左边,少量取值在右边,且很分散,这样的分布称之为右偏分布。(曲线的尾巴在右边)对数正态分布密度函数正态分布的密度函数最重要特征:若随机变量X 服从对数正态分布,则作对数变换Y=I n x 后,服从正态分布。-记正态分布的均值为,方差为,则相应的对数正态分布的均与方差分别为u y 2。y“x 2o x均值:()OU
18、+U =22y+o=2 2yx E(x)e xp y y/e-方差:o x 2 =V a r(x)=u x2(e xp o2y-1)若 X 服从对数正态分布,则P(X a)=P(ln X I n a)=P(Y I n a)=yy aoI n 口五、中心极限定理随机变量的独立性随机变量X I 与 X 2相互独立是指其中一个取什么值不影响另一个的取值,或者说是指两个随机变量独立的取值,互不影响。随机变量的独立性可以推广到3 个或更多个随机变量。中心极限定理在统计中,多个相互独立随机变量的平均值(仍然是一个随机变量)将服从或近似服从正态分布。即n 个相互独立同分布的随机变量X I,X2,X n,均值
19、和方差都存在,则在n较大时,其样本均值服从或近似服从正态分布N (口 ,)。o 2xno 2第三节统计基础知识一、总体、个体与样本(一)总体与个体总体:在一个统计问题中,我们把研究对象的全体成为总体。-当研究产品某个特定的质量特性X时,也常把全体产品的特性看做为总体。个体:构成总体的每个成员。当研究产品的某个特定的质量特性X时,把一个具体产品的特性值X视为个体。(二)随机样本满足下面两个条件的样本称为简单随机样本,简称随机样本:1 .随机性。总体中每个个体都有相同的机会入样。2.独立性。从总体中抽取的每个样品对其它样本的的抽取无任何影响。随机样本可看做n个相互独立的、同分布的随机变量,其分布与
20、总体分布相同。下面所述的样本都是指满足这两个要求的简单随机样本。二、频 数(频率)直方图为了研究数据的变化规律,需要对数据进行一定的加工整理。直方图是为研究数据变化规律而对数据进行加工整理的一种基本方法。(一)直方图的作法 例1.3-3 食品厂用自动装罐机生产罐头食品,从一批罐头中随机抽取1 0 0个进行称量,获得罐头的净重数据如下:通常要求 x m a x o在等距分组时,,,而每一组的组中值a 0 a ka l =a 0 +h a 2=a l +h a k =a k -1 +hx i (a i a i )=2-1 +1在本例中取=331.5,则每组的组限及组中值见表1.3-3oa 0(a
21、0 a l ,(a l ,a 2,,(a k-1 ,a k (4)计算落在每组的数据的频数及频率确定分组后,统计每组的频数,即落在组中的数据个数以及频率,列出每组的频数、频率表,见 表1.3-3。34 2 35 2 34 634 0 35 0 34 734 7 34 6 34 6339 34 8 33834 8 34 1 34 034 2 34 4 34 534 6 34 4 34 435 2 35 0 34 535 1 34 8 35 234 2 335 34 934 4 34 3 339336 34 1 34 934 5 34 4 35 034 2 34 7 34 734 7 34 2 3
22、37338 35 1 34 834 4 34 3 34 534 3 34 7 35 434 4 34 5 34 934 8 34 4 34 7336 34 2 34 734 6 34 8 34 234 8 35 2 34 034 4 34 3 34 934 4 34 0 34 434 5 339 34 334 5 35 0 35 335 0 34 3 35 0332 34 3 34 034 1 34 6 34 134 034 635 634 134 634 534 534 434 634 2f i =ni /n频数、频率及累积频率表组号 i (a i-1 ,a i x i i n i f为了解
23、这组数据的分布规律,对数据做如下整理:(1)找出这组数据中的最大值x m a x及最小值x m i n,计算它们的差R=x m a x-x m i n,R称为极差,也就是这组数据的取值范围。在本例中x m a x=35 6,x m i n=3 3 2,从而 R=35 6 332=24 o(2)根据数据个数,即样本量n,决定分组数k及组距h o一批数据究竟分多少组,通常根据n的多少而定,不过这也不是绝对的,教材中1.3-2是可以参考的分组数。选 择k的原则是要能显示出数据中所隐藏的规律,组数不能过多,但也不能太少。每一组的区间长度,称为组距。组距可以相等,也可以不相等。组距相等的情况用得比较多,
24、不过也有不少情形在对应于数据最大及最小的一个或两个组,使用与其他组不相等的组距。对于完全相等的组距,通常取组距h为接近的某个整数值。在本例中,n=1 0 0,取k=9,R/k=2 4/9=2.7,故取组距 h=3 o(3)确定组限,即每个区间的端点及组中值。为了避免一个数据可能同时属于两个组,因此通常将各组的区间确定为左开右闭的:1 (3 3 1.5,2 (3 3 4.5,3 (3 3 7.5,4 (3 4 0.5,5 (3 4 3.5,6 (3 4 6.5,7 (3 4 9.5,8 (3 5 2.5,9 (3 5 5.5,3 3 4.5 3 3 7.5 3 4 0.5 3 4 3.5 3 4
25、 6.5 3 4 9.5 3 5 2.5 3 5 5.5 3 5 8.5 3 3 3 1 0.0 13 3 6 4 0.0 43 3 9 1 1 0.1 13 4 2 2 0 0.2 03 4 5 3 0 0.3 03 4 8 1 9 0.1 93 5 1 1 2 0.1 23 5 4 2 0.0 23 5 7 1 0.0 1合 计-1 0 0 1.0 0表 1.3-3(5)作频数频率直方图在横轴上标上每个组的组限,以每一组的区间为底,以 频 数(频率)为高画一个矩形,所得的图形称为频数(频率)直方图,如图1.3-4 o在本例中频数直方图及频率直方图的形状是完全一致的。这是因为分组是等距的。在
26、分组不完全等距的情形,在作频率直方图时,应当用每一个组的频率与组距的比值/为高作矩形。此时以每个矩形的面积表示频率。i fi h频 数(频率)直方图(-)直方图的观察与分析a.对称型b.偏态型c.孤岛型d.锯齿型e.平顶型f.双峰型三、统计量与抽样分布1 .统计量的概念不含未知参数的样本函数样本均值、样本中位数、样本极差、样本方差、样本标准差及样本变异系数等都是统计量,只有众数除外。2 .抽样分布统计量的分布称为抽样分布(-)样本数据集中位置的统计量(1)样本均值x=2nixinx11(2)样本中位数Me (或)x+1n nnx xx)x Me (,n为奇数,n为偶数(3)众 数(Mo d)数
27、据中出现频率最高的值。(二)描述样本数据分散程度的统计量(1)样本极差R =x(n )-x(1 )(2)样本方差2(一)nixi xnS12 211-因为n个 离 差()的总和为零,所以对 于n个独立数据,独立的离差个数只有n-1个,称n-1为离差(或离差平方和)的自由度。故方差用离差平方和除以n-1。xi -X简化计算公式:S-+122122nixi n xnS12 2 211或ssninii xinxnS1212 2 111(3)样本标准差S =S 2标准差的量纲与数据的量纲一致(4)样本变异系数xC u =s四、常用抽样分布1.X的分布设X 服从N(u ,),(xl,x2,,xn)是由总
28、体X中抽取的一个样本,则服从N(u ,)o 2。2 /n(1)X的精确分布(2)X的渐进分布设 X 为任意分布,(xl,x2,.,xn)是由总体X中抽取一个样本,若,,则当n-8时,近似服从N(n ,)E(xi )=uV a r (xi )=o 2 W 0 Xo 2 /n(3)x2 -分布设X 服从N(0,1),且 设(xl,x2,xn)是由总体X中抽取的一个样本,则2 2 2212x=x+x+x n服从自由度为n的x 2 分布,记作x2 x 2(n)。设 X 服从 N(口,。2 ),则(n 1 )S 2 (n 1 )22x-0(3)t分布设随机变量X,Y 相互独立,X N(O,1),Y(n)
29、则服从自由度为n的t 一分布记作 t t(n)x2 Y /nt =X设 X N(u,),(xl,x2,.(xn)是由总体X中抽取的一个样本,则o 2 t(n )s /nt x-1-u设X 和 Y 相互独立,且X N(u ,),Y N(u,),(xl,x2,.,xn l)与(yl,y2,,yn 2)分别由总体X和 Y中抽取的样本,则o 2o 2 t (n n )n n n n(n )S (n )S(x y)()21 1211121 2 1 222 221 11 2 +-+-+-u -P(4)F 分布设 X 与 Y 相互独立,且 Xx2(Nl),Y-x2(N2)则服从自由度为(Nl,N2)的F 分
30、布。记作FF(N1,N2)o21Y /NF =X /N设X 和Y 相互独立,X,Y,(xl,x2,.,xn)与(yl,y2,.,ym)分别由X和 Y 中抽取的样本,则(2 )1 1N U ,o (2 )2 2N U ,o2 222212100S /S /F(n 1,m 1)当=H 寸,则2 1o 2 2o o 2 F(n ,m )SS 1 1 2221正态分布a a 口 n -=-1t分布t l-a (n)=-t a(n)x 2分布()()2 2x 1-a n#x a n()()F l-o f l ,f 2 W-F a f l ,f 2F分布第四节参数估计一、点估计1.概念设是一个未知参数,由
31、总体X中抽取的样本,则用来估计,则称为的估计量(或称估计)。e (X I ,X 2 ,L L,Xn )()11 XI,X2 ,L L,Xn9 (T 92 .矩法估计(1)用样本矩估计相应总体矩;(2)用样本矩的函数估计相应总体矩的函数。例如用样本均值估计总体均值;用样本方差(标准差)来估计总体方差(标准差)。3 .点估计优劣的评选标准(1)无偏性设是。的一个估计量,若,则称是。的无偏估计。0 人()9=E0 (2)有效性设都是。的无偏估计量,若对一切0 的可能取值有:eA i ,oA 2,且至少有一个,严格不等号成立,则比有效。()()Var(T 1 w V a r 12 0 01 0 2 0
32、 A(3)正态总体参数的无偏估计的无偏估计有两个,即和。H x x 。2的无偏估计常用的只有一个,即S2。的无偏估计有两个,即和d 2RC 4S二、区间估计(一)区间估计的概念设 9 是总体分布中的未知参数,其一切可能取值组成的参数空间为,从总体中抽取一个样本(x l,x 2,.,x n),对给定的,确定两个统计量:与a(0 a 1)()。L =6 L x l,x 2 ,L,x n()9 u =6 u x l,x 2 ,L,x n对任意的e e 有P(9 L 1 -a则 称 o L,9 u 是。的置信水平为的置信区间。1 -a1-a置信区间的含义:所构造的一个随机区间 能包含未知参数的概率为1
33、-o由于这个随机区间会随样本观察值的不同而不同,它有时包含了参数,有时没有包含,但是用这种方法作区间估计时,1 0 0次中大 约 有1 0 0(1-)个区间能包含未知参数。e L ,0 U9 a09a 9(二)一个正态总体均值与方差的置信区间(1)。2已知,求U的置信区间H的1-a置信区间为:nx unx u oW 2 W +o-1-a 2 1-a 2(2)。2未知,求u的置信区间()()nx t n snx t n 1 s 11 2 1 2 a-W u W +-a -(3)方差。2的1-a的置信区间(u未知)()()()(1)111222221 22x -W。Wx -a a nn Snn S
34、(4)标准差。的1-a的置信区间(未知)()()11112221 2 x -W。Wx -a a nS nnS n(三)比 例p的置信区间(大样本场合)设总体,样本为x l,x 2,,x n,样本之和为K,样本均值为则X b(l,p)nx =Kn-p =K (点估计)当n相当大时,故p的置信区间。x N(p,p(1 -p)/n)1 -ax -u x(-x)/n W pW x+u a x(-x)/na1 12121其中是标准正态分布的分位数。21 au21第五节假设检验基本思想根据所获彳命样本,运用统计分析的方法,对总体X 的某种假设H0 作出接受或拒绝的决定。(二)基本步骤1 .建立假设H0 称
35、为原假设,H1 称为备择假设,如关于均值U常用有三类假设:(1)HO:u W u O ,Hl:n u 0(2)HO:n P 0 ,Hl:u u 0(3)HO:U=u 0 Hl:P W u 0(1),(2)称为单边假设检验(3)称为双边假设检验2 .寻找检验统计量T,确定拒绝域的形式3 .给出显著性水平4 .给出临界值,确定拒绝域5 .根据样本观察值计算检验统计量的观察值,根据计算结果作出拒绝或接受H0 的判断。a一个正态总体的假设检验1.已知。2 ,飕 HO:u =P 0 ,Hl:u W P6(1)检验统计量/nu x0-口=0(2)给定,查标准正态分布函数值表定出临界值a1-a 2 u(3)
36、由样本观察值计算出统计量u(4)作出判定当 1-a 2接受HO u u0(1)检验统计量/nu x0-u=0(2)给定a,定出临界值u l-a(3)由样本观察值计算出统计量u 判 定当u u l-a 拒绝HO,接收Hl3.已知。2 ,检验 HO:u u 0,Hl:u u a 接受HOu W ua 拒绝HO,接受Hl4 .未知。2 ,则用t 检验法把上述的统计量u 换成t,即S/nt X-U对给定的,查 t 分布表,确定临界值,然后作出接受或拒绝的判定。a5.u 未知,检验H0:2 ,H1:0o 2 =o 20o 2 W o(1)检验统计量()2022 1x =n S(2)给定a ,查x 2 一
37、分布表,定出临界值2 (1)2x a n -和 2 (1)1 2 x -a -n(3)由样本观察值计算出统计量x 2当(1)2 (1)1 22 22x a n -x (-)S A m yi y12这里乘以m 是因为每一水平下进行了 m次试验。二是由于存在随机误差,即使在同一水平下获得的数据间也有差异,这是除了因子A的水平外的一切原因引起的,我们将它们归结为随机误差,可以用组内离差平方和表示:=2 2 (-)rimjS e yi j yi1 12S e:也称为误差的离差平方和可以证明有如下平方和分解式:S T=S A +S eS T、S A、S e 的自由度分别用、表示,它们也有分解式:,其中:
38、f T f A f ef T=f A +f ef T=试 验 数-1 f A =水平数-1 f e =f T-f A因子或误差的离差平方和与相应的自由度之比称为因子或误差的均方和,并分别记为:M S A =S A f A M S e =S e f e两者的比记为:F =M S A M S e当时认为在显著性水平上因子A 是显著的。其中是自由度为的F 分布的1-a 分位数。F F l-a (f A,f e )aF l-a (f A,f e )f A,f e单因子方差分析表来源偏差平方和自由度均方和F比因子A误差eS AS ef A =r -1f e =n-rM S A =S A f AM S e
39、 =S e f eF =M S A M S e总计 T S T f T=n-1各个离差平方和的计算:()nS y y y TrimJi jrimJT i j21 121 1=22-2=2 2-2()2i 12 22 iiri 1A nTmS m y y TS e =S T-其中是第i个水平下的数据和;T表示所 有n=r m个数据的总和。Ti进行方差分析的步骤如下:(1)计算因子A的每一水平下数据的和Tl,T2,Tr及总和T;(2)计算各类数据 的平方和2 Z yi 2 j ,2Ti 2 ,T 2;(3)依次计算S T,S A,S e;(4)填写方差分析表;(5)对于给定的显著性水平a,将求得的
40、F值 与F分布表中的临界值比较,当时认为因子A是显著的,否则认为因子A是不显著的。()F l-a f A,f e()F F l-a f A,f e对上例的分析(1)计算各类和:每一水平下的数据和为:T1 =4 1 2,T2 =4 4 4,T3 =3 4 4数据的总和为T=1 2 0 0(2)计算各类平方和:原始数据的平方和为:Z 2 2 =1 2 1 4 9 2yi j每一水平下数据和的平方和为2 Ti 2 =4 8 5 2 1 6(3)计算各离差平方和:S T=1 2 1 4 9 2-1 2 0 0 2/1 2=1 4 9 2,f T=3 X 4-1=1 1S A=4 8 5 2 1 6/4
41、-1 2 0 0 2/1 2=1 3 0 4,f A=3 T=2S e=1 4 9 2-1 3 0 4=1 8 8,f e=l1-2=9(4)列方差分析表:例2.I T 的方差分析表来源偏差平方和自由度均方和F比因子 A S A =1 3 0 4 f A =2 M S A =6 5 2 F=3 1.2 1误差 e S e =1 8 8 f e =9 M S e =2 0.9总计 T S T=1 4 9 2 f T=1 1(5)如果给定a =0.0 5,从F分布表查得F 0.9 5(2,9)=4.2 6由于F 4.2 6,所以在=0.0 5水平上结论是因子A是显著的。这表明不同的工厂生产的零件强
42、度有明显的差异。a当因子A是显著时,我们还可以给出每一水平下指标均值的估计,以便找出最好的水平。在单因子试验的场合,第i个水平指标均值的估计为:U 八 i =yi ,i =1,2,L,r在本例中,三个工厂生产的零件的平均强度的的估计分别为:广1 =1 0 3,广2 =1 1 1,u 3 =8 6由此可见,乙厂生产的零件的强度的均值最大,如果我们需要强度大的零件,那么购买乙厂的为好;而从工厂来讲,甲厂与丙厂应该设法提高零件的强度。误差方差的估计:这里方差的估计是M S e。在本例中:的估计是2 0.9。o 2o 2。的估计是2 0.9 =4.5 7 例2.1-2 略(见教材P 92)三、重复数不
43、等的情况若在每一水平下重复试验次数不同,假定在Ai水平下进行次试验,那么进行方差分析的步骤仍然同上,只是在计算中有两个改动:m in =E m inTmS TA212-=S =例2.1-3某型号化油器原中小喉管的结构使油耗较大,为节约能源,设想了两种改进方案以降低油耗。油耗的多少用比油耗进行度量,现在对用各种结构的中小喉管制造的化油器分别测定其比油耗,数据如表所列,试问中小喉管的结构(记为因子A)对平均比油油耗的影响是否显著。(这里假定每一种结构下的油耗服从等方差的正态分布)例2.1-3 的试验结果水平试验结果(比油耗-2 2 0)A1:原结构 1 1.0 1 2.8 7.6 8.3 4.7
44、5.5 9.3 1 0.3A2:改进方案 1 2.8 4.5 -1.5 0.2A3:改进方案 2 4.3 6.1 1.4 3.6(为简化计算,这里一切数据均减去2 2 0,不影 响F比的计算及最后分析因子的显著性)(1)各水平下的重复试验次数及数据和分别为:Al:m l=8,T l=6 9.5A2:m 2=4,T 2=6.0A3:m 3=4,T 3=1 5.4总的试验次数n=1 6,数据的总和为T=90.9(2)计算各类平方和:2 S y i 2 j =75 7.4 1 S T i 2 m i =6 72.0 7 T 2 n =5 1 6.4 3(3)计算各离差平方和:S T=75 7.4 1
45、-5 1 6.4 3=2 4 0.98,f T=1 6-l=1 5S A=6 72.0 7-5 1 6.4 3=1 5 5.6 4,f A=3 T=2S e=2 4 0.98-1 5 5.6 4=85.3 4,f e=1 5-2=1 3(4)列方差分析表:例2.1-3 方差分析表来源偏差平方和自由度均方和F比因子 A S A=1 5 5.6 4 f A=2 M S A=77.82 F =1 1.86误差 e S e =85.3 4 f e =1 3 M S e =6.5 6总计 T S T =2 4 0.98 f T =1 5(5)如果给定a =0.0 5,从F分布表查得F 0.95 (2,1
46、 3)=3.81由于F 3.81,所以在a =0.0 5水平上我们的结论是因子A是显著的。这表明不同的中小喉管结构生产的化油器的平均比油耗有明显的差异。我们还可以给出不同结构生产的化油器的平均比油耗的估计:1 =8.6 9+2 2 0 =2 2 8.6 9k T 2 =1.5 0 +2 2 0 =2 2 1.5 0口 -3 =3.85 +2 2 0 =2 2 3.85这里加上2 2 0是因为在原数据中减去了 2 2 0的缘故。由此可见,从比油耗的角度看,两种改进结构都比原来的好,特别是改进结构1。在本例中误差方差的估计为6.5 6,标准差的估计为2.5 6 o第二节回归分析例2.2-1合金的强
47、度y与合金中的碳含量x有关。为了生产出强度满足顾客需要的合金,在冶炼时应该如何控制碳含量?如果在冶炼过程中通过化验得到了碳含量,能否预测合金的强度?这时需要研究两个变量间的关系。首先是收集数据(x i,y i),i=l,2,n。现从生产中收集到表2.2T所示的数据。表2.27数据表序号x y1 0.1 0 4 2.02 0.1 1 4 3.53 0.1 2 4 5.04 0.1 3 4 5.55 0.1 4 4 5.06 0.1 5 4 7.57 0.1 6 4 9.08 0.1 7 5 3.09 0.1 8 5 0.01 0 0.2 0 5 5.01 1 0.2 1 5 5.01 2 0.2
48、 3 6 0.0一、散布图6 05 04 00.1 0 0.1 5 0.2 0 xy 例2.2T的散布图二、相关系数1.相关系数的定义在散布图上n个点在一条直线附近,但又不全在一条直线上,称为两个变量有线性相关关系,可以用相关系数r去描述它们线性关系的密切程度xx yyxyL LLr =其中L xy=2 (xi -x)(yi -y)=S xi yi -T xT ynL xx(xi x)xi T x n=E-2=S2-2L yy(yi y)yi T y n=2 -2=2 2-2T x=2 xi ,T y=2 yi性质:r W 1表示n个点在一条直线上,这时两个变量间完全线性相关。r =1r 0表
49、示当x增加时y也增大,称为正相关r r l-a 2(n -2)r l-a 2(n -2)PH O :P =O,H 1:P 03.具体计算求上例的相关系数:步骤如下:(1)计算变量x 与 y 的数据和:T x=S x i =1.9 0,T y=S y i =59 0.5(2)计算各变量的平方和与乘积和:x 0.319 4,y 29 32.75,xi yi 9 5.9 252i22 i =2=2=(3)计算 L xx,L yy,L xy:L xy=9 5.9 250-1.9 0X 59 0.5/12=2.429 2L xx=0.319 4-1.9 02/12=0.018 6L yy=29 39 2
50、.75-59 0.52/12=335.229 2(4)计算 r:0.9 7280.018 6 335.229 22.429 2=Xr =在=0.05 0寸,由于r 0.576,说明两个变量间有(正)线性相关关系。a r 0.9 75(10)=0.576四、一元线性回归方程1.一元线性回归方程的求法:一元线性回归方程的表达式为y=a +b x其中a与 b 使下列离差平方和达到最小:Q(a,b)=2(yi -a -b xi )2通过微分学原理,可知b =L xy L xx,a =y-b x称这种估计为最小二乘估计。b称为回归系数;a 一般称为常数项。求一元线性回归方程的步骤如下:(1)计算变量x