《概率与数理统计八.docx》由会员分享,可在线阅读,更多相关《概率与数理统计八.docx(10页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、概率与数理统计八 第八章 假设检验 一、假设检验的基本思想和概念 1、基本思想 我们以教材例 8-1 来说明假设检验的基本思想和概念。 例:味精厂用一台包装机自动包装味精,已知袋装味精的重量 XN( m ,0.0125 )。机器正常时,其均值 m =0.5 公斤,某日开工后,随机抽取 9 袋味精,其净重为: 0.4101,0.506,0.518,0.524,0.4101,0.511,0.520,0.515,0.512 问这台包装机是否正常? 此例随机抽样取的 9 袋味精重量都不是正好 0.5 公斤,这种实际重量和标准重量不一样的现象,在实际中是常常出现的。造成这种差异不外乎有两种缘由:一是偶然
2、因素影响,如电压波动,金属部件热胀冷缩,称量仪器误差等,称为随机误差,随机误差是无法避开的;二是条件因素影响,如机器缺陷,部件损耗等,称为条件误差,那是我们要设法解决的。假如我们断定标准重量已不是 0.5 公斤,那么缘由很可能是其次种缘由造成的包装机器工作不正常。 问题就是如何依据样本观测值推断 m =0.5是否为真? 我们不妨先假设包装机是正常的,在统计中用如下符号表示: 0H : m =0.5, 1H : 5 . 0 m 其中0H 为待检验的假设,称为原假设;1H 是与原假设相对立的假设,称为备择假设。我们的任务就是要依据样本观测值在这两对立的假设中作出选择。 由于样本均值 x 是 m 的
3、一个很好的估计,故当0H 为真时,| x -0.5|应很小, 假如| x -0.5|过分大,我们应怀疑0H 不正确而拒绝0H 接受1H 。现在的问题原委| x -0.5|取值在什么范围才算比较大?| x -0.5|比较大这个事务概率有多少? 假如概率很小可以认为是不行能发生的。 我们的方法是构造一个适当的统计量,这里我们构造 u=nx/00sm - 当0H 为真时, uN(0,1),对于给定的很小的数 1 0 a ,例如取 a =0.05 P|u|> = 2au P|nx/0sm -|>2au = a |nx/0sm -|>2au 是一个小概率事务,小概率事务在一次试验中几乎
4、是不行能 发生的。 当 a =0.05 我们查附表得2au =025 . 0u =1.96,又 n=9, s =0.015,由样本计算得 x =0.511 |u|=|nx/0sm -|=|3 / 015 . 05 . 0 511 . 0 -|=2.2>1.96 小概率事务尽然发生了,这与0H : m =0m =0.5的推断冲突,于是拒绝0H ,而认为这台包装机不正常。 2、统计假设的概念 在很多实际问题中,常须要依据理论与阅历对总体 X 的分布函数或其所含的一些参数作出某种假设0H ,这种假设0H 称为统计假设。 |u|>2au 这个事务虽是小概率事务,但小概率事务它仍旧可能发生u
5、2( a U , + ) 在假设检验中,小概率α 常取 0.05,0.01,或 0.1, α 称为显著性水平。如在上例中可以说包装机的包装规格与 0.5 公斤有显著差异,而显著性水平为 0.05。作为拒绝域的边界数值,称为临界值,如 W=uu2| | a 时,临界值为- u2a 与 u2a ;当α=0.05,临界值为-1.96 与 1.96。 3、两类错误 数理统计的任务是用样本去推断总体,即从局部去推断整体,当然有可能犯错误。 一类错误是:在0H 成立的状况下,样本落入了拒绝域 W,因而0H 被拒绝,称这种错误为第一类错误,又称拒真错误,一般记犯第一类错误
6、的概率为α。 另一类错误是:在0H 不成立的状况下,样本未落入拒绝域 W,因而0H 被接受,称这种错误为其次类错误,又称取伪错误,并记犯其次类错误的概率为β. 我们借用条件概率的表示方法简洁如下: 第一类错误(拒真) P拒绝0 0| H H 为真=α 其次类错误 P接受0 0| H H 不真=β 二、正态总体均值的假设检验 1、u 检验 方差已知,单个正态总体均值检验 设nx x x L2 1 ,,是从总体 N( ) ,20s m 中抽取的一个样本,0s 是已知常数,假设: 0H : m =0m , 1H :0m m 其中0m 为已知数 构造检验统计
7、量 u=nx/00sm - 在假设0H 成立时 uN(0,1),拒绝域 W=u2( a U , + ),若样本算出的 u 值落在 W 内,则作出拒绝0H ,否则认为与0H 相容。 方差已知时,两个正态总体均值的检验 设 X( ) ,21 1s m ,YN( ) ,22 2s m, 其中21s ,22s 为已知常数,mx x x L2 1 ,和ny y y L2 1 ,分别是取自 X 和 Y 的样本,且相互独立。假设: 0H :1m =2m , 1H :1m 2m 检验假设 1m=2m ,等价于假设 02 1= - m m ,而 y x - 是2 1m m - 的好的估计量,且当0H为真时,有
8、u=n my x2221s s+-N(0,1) 于是对于给定显著水平α,查表可得临界值 u2a使 P|u|> u2a=α 从而得拒绝域 W= (- , u2a ) U .再由样本计算 u 的观测值 若 u W,则拒绝0H ,否则就认为0H 与相容. 2、t 检验 方差未知时,单个正态总体的均值检验 设nx x x L2 1 ,,是从总体 N( ) ,2s m 中抽取的一个样本,其中2s 是未知,假设: 0H : m =0m , 1H :0m m 其中0m 为已知数 由于2s 是未知,故不能用 u=nx/00sm -进行检验,这时最自然的想法就是用样本方差 s 2
9、替代总体方差2s ,因而构造检验统计量 t=n sx/0m - 前已经知道,当0H 为真时 tt(n-1),于是对于给定显著性水平α,查 t 分布表可得 ) 1 (2- nt a使得 P|t|> ) 1 (2- nt a=α 即得拒绝域 W=(- ,- ) 1 (2- nt a) U 通过样本观测值计算检验统计量 t,若 t W,则拒绝0H ,否则就认为0H 与相容 P173 例 8-2 方差未知时,两个正态总体均值的检验 三、正态总体方差的假设检验 1、2c 检验 设nx x x L2 1 ,,是从总体 N( ) ,2s m 中抽取的一个样本,2s 未知,假设:
10、 0H :202s s = , 1H :202s s 其中20s 为已知常数 自然想到看2s 的无偏估计 s 2 ,当0H 为真时,s 2 应在20s 四周波动,假如 s 2 /20s很大或很小,则应拒绝0H ,因此构造检验统计量 2c =202) 1 (ss n- 前已知,在假设0H 成立时2c 2c ,于是给定显著性水平α,查2c 表可得 c a22与 ca221-(n-1),使 P2c ca221-= P2c > c a22=α/2 从而可得拒绝域 W=(0, ca221-) U ( c a22,+ ) 若由样本观测值计算出2c 的值,2c W,则拒绝0H
11、,否则认为与1H 相容 。 2、F 检验 检验两个独立正态总体的未知方差是否相等,用 F 检验 设 X( ) ,21 1s m ,YN( ) ,22 2s m,mx x x L2 1 ,和ny y y L2 1 ,分别是取自 X 和 Y的样本,且相互独立。假设: 0H :1s =2s , 1H :1s 2s 由于 s 1 是1s的无偏估计, s 2 是2s的无偏估计,当0H为真时,自然想到 s21 与s22 应当差不多,其比值 2221ss不会太大或太小,前已知,在假设0H成立时 F= ) 1 , 1 ( 2221- - n m Fss 这样我们取 F 为检验统计量,对于给定显著性水平 a ,
12、查表确定临界值 ) 1 , 1 (2- - n m F a,) 1 , 1 (21- -n m Fa 使 PF≤) 1 , 1 (21- -n m Fa= PF) 1 , 1 (2- - n m F a=2a 取得拒绝域 W=(0,) 1 , 1 (21- -n m Fa) U () 1 , 1 (2- - n m F a,+) 若由样本观测值计算得 F 值,当 F∈W 时则拒绝0H ,即认为两总体的方差有显著差异,否则认为与1H 相容,即认为两总体的方差无显著差异。 第九章 回来分析 在现实世界中,不少变量之间是存在着肯定关系的,这种关系大体分为两类,一类是确定性的关系,即函
13、数关系,例如,电学中的电压 V,电流 I,电阻三者之间有 I=V/R 的函数关系;另一类是非确定性的,这类变量之间有肯定关系却又并不完全确定,例如人的血压与年龄有关,农作物的产量与施肥量有关,这些变量之间有肯定联系,但又不能用一般函数关系式表达。事实上,这些变量是或至少有 一个是随机变量,这种非确定的函数关系称为相关关系。回来分析是探讨相关关系的一种数学工具,是数理统计中常用的统计方法之一,在生产实践和科学探讨中有广泛的应用。 一、 回来直线方程的建立 我们以教材例 9-1 为例,说明线性回来分析中最简洁的一元线性回来分析 某种合金的抗拉强度 y(kg,mm 2 )与其中的含碳量 x有关,现测
14、 12 对数据如表所示: x 0.10 0.11 0.12 0.13 0.14 0.15 0.16 0.17 0.18 0.20 0.21 0.23y 42.0 43.5 45.0 45.5 45.0 47.5 49.0 53.0 50.0 55.0 55.0 60.0为了了解其相关关系的表达形式,在坐标上以为点,i=1,2,12为点画出散点图,这些点大致散布在某条直线旁边,又不完全在一条直线上,从而可认为 y 与 x 的关系基本上是线性的,而这些点与直线的偏离是其它一切随机因素影响造成的。一般来说,含碳量 x 是一个可测的或可限制的一般变量,而对随意含碳量 x,相应的抗拉强度 Y 是一个随机
15、变量,实际观测值 y 是 Y 的一个可能取值,随着 x 改变的 Y 观测值线性改变的趋势可表示为: Y= e b b + + x1 0 其中 x1 0b b + 表示 Y 随 x 改变的线性部分, e 是一切随机因素影响的总和 一般地,将 x 取一组不同的值nx x x , ,2 1L ,通过试验得到对应 Y 的值ny y y , , ,2 1L ,这样就得到 n 对观测值,i=1,2,n。 由 Y= e b b + + x1 0,可以认为i iy x , 之间有如下关系: i i ix y e b b + + =1 0 ie ) , ,i=1,2,n 解决如下问题: 求出未知参数1 0 ,
16、bb 的点估计值0b ,1b ,称 y =0b +1b x 为 y 关于 x 的一元线性回来方程,其图像称为回来直线,1b 称为回来系数,0b 称为回来常数。 (2)回来方程显著性检验.实际问题中 Y,X 之间是否存在线性关系y =0b +1b x是要经过检验的。 (3)利用回来方程进行预料和限制 二、最小二乘法 要求出 y =0b +1b x 就是要求出1 0 , bb 的点估计0b ,1b ,而求出此估计一个自然又直观的想法便是希望对一切ix ,观测值iy 与回来值i ix y1 0b b + = 的偏离最小。即选取0b ,1b 使21) (=-nii iy y =211 0) - (=-
17、niix y b b 最小,此法称为最小二乘法,它涉及高等数学内容,这里干脆给出由最小二乘法得出的计算0b ,1b 公式。 由数据,i=1,2,n 计算 = =- = - =ninii xxx n x x x Li1 122 2) ( =- - =nni i i i xyx y x x L1) )( ( = =-nii iy x n y x1 则最小二乘估计为: xxxyLL=1b , x y - =1 0b b 本例依据样本计算得: xxL =0.0186 xyL =2.4292 yyL =335.2292 xxxyLL=1b =130.6022 0b =28.5340 所以:y =28.5
18、340+130.6022x y =28.5340+130.6022x 即抗拉强度 y 与含碳量 x 的线性回来方程。 三、 回来方程的显著性检验 由上面的探讨可知,即使观测数据,i=1,2,n,不存在线性关系,也可以由最小二乘法计算得到线性回来方程,但这样的方程是没有实际意义的。因此须要对 y 和 x 是否真的具有线性关系作统计检验。 常采纳的有 F 检验法和 t 检验法. 因为若 y 和 x 之间不存在线性关系,一次项系数1b =0,反之1b 0,因此 检验采纳设为: 0 :1 0= b H 0 :1 1 b H 第10页 共10页第 10 页 共 10 页第 10 页 共 10 页第 10 页 共 10 页第 10 页 共 10 页第 10 页 共 10 页第 10 页 共 10 页第 10 页 共 10 页第 10 页 共 10 页第 10 页 共 10 页第 10 页 共 10 页