《非参数检验解析.pptx》由会员分享,可在线阅读,更多相关《非参数检验解析.pptx(58页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、1(b)原假设与备择假设的地位是不对称的,当 “小概率事件”未发生时,就不能拒绝原假设 但不等于逻辑上证明了 成立,只能说没有充分的证据拒绝。即 受保护.l都成立。例例3.113.11(P92)设总体XN(,1),又设X1,X2,.,Xn为总体X 的样本,样本均值=X1=0.5,样本容量n1,0.05,提出两种假设的方法,分别如下:第1页/共58页2l实际中,一般提出原假设要慎重,倾向于不轻易否定,而受保护的程度为。其越小,小概率事件就越难发生,H0就越难被否定。(c)从另一角度看,既然原假设H0受保护,则对其的肯定相对来说是缺乏说服力的,反之对其的否定则是有力的,且越小,小概率事件就越难发生
2、,一旦发生了,这种否定就越有力。第2页/共58页3检验中的两类错误 所谓犯错误是指检验的结论与实际情况不符。两类错误:(1)H0 成立,而检验结果表明其不成立“弃真”;(2)H0不成立,而检验结果表明其成立“取伪”。记:=P第一类错误=P拒绝H0|H0真 =P第二类错误=P接受H0|H0伪l检验的本质是构造否定域V,在看样本点是否落入V中。当然,我们希望犯两类错误的概率都尽可能的小,最好都为零.但当样本容量固定时,是不可能的.在实际问题中,通常的做法是:先限制犯第一类错误的概率,即根据实际情况,指定一个较小的数(如0.05,0.01等),有了的值,从而可确定拒绝域.第3页/共58页4例例3.1
3、23.12(P94)设总体XN(,02),02已知,又设X1,X2,.,Xn为总体X 的样本,x1,x2,xn为X的一组样本观测值,试求对问题:的检验的两类错误的概率。拒绝域:单侧检验第4页/共58页5样本容量确定问题从例3.12看出,当样本容量固定时,若要控制第一类错误的概率,就不能使第二类错误的概率任意小。但从(3.10)式看出,固定,使n增大,可使任意小。但实际中,样本的采集是有成本的,或根本无法获得大样本。引出问题:能否确定一个最小的n使得两类错误的概率都在控制的范围。第5页/共58页6(一)正态总体 ,已知;的u检验。当等式右端不是整数时,取不小于右端的最小的整数第6页/共58页7(
4、二)正态总体,未知,考虑的检验。隐式解,通过给定的和试算确定n.第7页/共58页8例例3.13 3.13 一门炮需通过发射试验来进行精度验收,假设命中误差是纯随机的,一门炮需通过发射试验来进行精度验收,假设命中误差是纯随机的,又横向(或纵向)误差容许的标准差为又横向(或纵向)误差容许的标准差为 0 0,制造方要求采用的检验方法要求,制造方要求采用的检验方法要求保证:如果产品合格而被拒绝的概率不大于保证:如果产品合格而被拒绝的概率不大于5 5;使用方要求保证,若产品;使用方要求保证,若产品不合格且标准差超过不合格且标准差超过 2 2 0 0而被接受的概率小于而被接受的概率小于1010,试问至少应
5、发射多少发,试问至少应发射多少发炮弹进行试验,才能满足双方的要求。炮弹进行试验,才能满足双方的要求。解:设炮弹落点的横向(或纵向)偏差服从正态分布,横向(或纵向)偏差服从正态分布,利用上式,通过给定的=0.05和=0.1,查表进行试算,最后确定n=37.第8页/共58页9SPSS软软件:参数件:参数检验检验之均之均值检验值检验Means过程 对准备比较的各组计算描述指标,进行预分析,也可直接比较。One-Samples T Test过程 进行样本均数与已知总体均数的比较。Independent-Samples T Test过程 进行两样本均数差别的比较,即通常所说的两组资料的t检验。Paire
6、d-Samples T Test过程 进行配对资料的显著性检验,即配对t检验。One-Way ANOVA过程 进行两组及多组样本均数的比较,即成组设计的方差分析,还可进行随后的两两比较。第9页/共58页10再通过转换:将u通过转换为y以后,留下x和y的刻度就是正态概率纸,是非均匀刻度。若是一般正态分布总体,则分布函数的图形,在xu平面上是一条直线。即:x=u+.不同表示斜率不同,不同表示在x轴上的截距不同。(二)检验方法若假设H0为真,则在概率纸上的坐标点(xi,Fn(xi)(i=1,2,m)在一条直线上。若在(近似)一条直线上,就接受假设,否则拒绝。一般中间点靠近即可。第10页/共58页11
7、3.5 非参数假设检验 总体的分布类型不知道,仅知是连续或离散型(一)正态概率纸的构造 首先建立一直角坐标系,横轴上刻度为x轴,纵轴上刻度为u值,都为均匀刻度。其中:正态概率纸检验工程上常用的简单但粗糙方法,用以判断是否正态分布以及相应的均值和方差估计。非参数检验随机变量之间的独立性检验总体分布函数的拟合检验第11页/共58页12基本方法是首先将容量为n的样本从小到大排序得到,则样本的经验分布函数可表示为当时,实际上取,相应的是N(0,1)的分位点,此时点应该近似在直线上。如果由样本计算出的n个点近似在直线上,则可认为它来自正态分布。一般地,中间的点的位置离直线的偏差不能太大,两头的离直线位置
8、的偏差可以大一些.否则拒绝原假设.讲解P99-101(例3.14)第12页/共58页13表3.3编号编号分组区间分组区间组中值组中值频数频数累积频数累积频数累积频率累积频率(%)1(-,198196.56652(198,201199.571310.833(201,204202.5142722.504(204,207205.5204739.175(207,210208.5237058.336(210,213211.5229276.667(213,216214.51410688.338(216,219217.58114959(219,+)220.56120100以分组区间的中点(组中值)为横坐标,
9、累积频率为纵坐标,在正态概率纸上描出9个点(如图3-6,见书上P101)第13页/共58页14由图形检验大致地判断出总体是服从正态分布后,由于 由 与直线交点的横坐标即为 ;又由于 ,则 与直线的交点的横坐标为 得到 。除此之外,还有对数正态概率纸,威布Weibull概率纸等来研究相应的分布定性的方法。(三)未知参数,2的估计以下介绍数值检验方法(定量方法)。第14页/共58页15SPSS软软件:非参数件:非参数检验检验之正之正态态概率概率纸纸输入数据:确定变量,输入样本.若是分组资料,样本值输入组中值,再加权(DATA Weigh By 频数)Q-Q图一种正态概率纸,检验的命令在 GRAPH
10、S菜单,由得到的图形是否为一条直线,可以大致地判断总体是否服从正态分布。P99-101(例3.14)第15页/共58页16皮尔逊 拟合检验拟合检验拟合检验:H0 0:X的分布函数为的分布函数为F0(X)为理论分布,用其去拟合样本值。为理论分布,用其去拟合样本值。拟合优度:拟合好坏的标准拟合优度:拟合好坏的标准,即拟合的优良程度。即拟合的优良程度。设总体设总体X(一维或多维)的分布(一维或多维)的分布 完全已知完全已知或分布中含有未知参数。或分布中含有未知参数。为样本值。为样本值。一般原则:构造检验统计量(样本X与总体分布F0的偏差的度量)及界限D0。若D超过了D0,就否定,否则接受原假设。对于
11、D的不同定义可以得到不同的检验方法。第16页/共58页17(一)理论分布完全已知的情况(一)理论分布完全已知的情况1 设总体X是离散型,取有限值 理论分布律F0 0:原假设 记ni为 中等于ai的个数,(ni称为ai的观察频数),Xa1a2akPp1p2pk第17页/共58页18而而npi称作称作ai的的理论频数理论频数。当当X的分布为的分布为F0,由大数定理,由大数定理,H0成立时,成立时,与与 相差不大。相差不大。19001900年,皮尔逊建立了统计量年,皮尔逊建立了统计量 用来衡量理论分布用来衡量理论分布p1,p2,pk与实际数据的与实际数据的偏差偏差.(相对差异的总和)。(相对差异的总
12、和)。第18页/共58页19得到了:当 为真时,当 为假时,皮尔逊皮尔逊还证明了,时,统计量的极限分布为第19页/共58页20因此,给定检验水平上述检验问题的否定域为:(单侧检验问题)此时,时,皮尔逊 检验法。讲解例3.15(P104)第20页/共58页21Sig.P值=0.05,接受H0SPSS输入变量值及频数,给变量加权选ANALYZE菜单非参数检验二项分布检验,输入检验参数值.第21页/共58页22(2)(2)为一般(连续)的完全已知为一般(连续)的完全已知分布分布 化作离散型处理(设一维的情况)化作离散型处理(设一维的情况)选取常数选取常数 ,将将 分成分成k个互不相交的区间,个互不相
13、交的区间,记作记作 。记记 为为X落入区间落入区间 的概率的概率.第22页/共58页23记 为样本 落入区间 的频数,理论频数为 。皮尔逊检验统计量为在 为真时,其极限分布为其余方法与前(1)相同。第23页/共58页24 在许多实际问题中,理论分布类型已知,但其中含有若干未知参数.如:此时,检验先求 下,未知参数的点估计(最大似然估计),记作,再计算(二)理论分布带参数的情况第24页/共58页25用此代替前述的 ,得到统计量为 Fisher证明了满足一定条件下的点估计,其极限分布为于是,否定域为具体过程见P106,例3.16。第25页/共58页26SPSS输入变量值及频数,给变量加权,选ANA
14、LYZE菜单非参数检验中卡方检验,输入检验参数值(Pi).第26页/共58页27(三)方法用于检验独立性如“服新药”与“痊愈”,“吸烟”与“患肺癌”等关系问题。模型:设X 的可能取值是1,2,r Y 的可能取值是1,2,s。对随机向量(X,Y)进行了n次观察,发现 出现的次数为 (频数)。检验假设 H0:X与Y相互独立。第27页/共58页28当假设为真时,研究问题的数据常排列为“列联表”(见 P108)。设:于是检验问题为:第28页/共58页29若分布已知,即 已知,构造统计量 但此时分布未知,用极大似然估计量代替得到得到否定域第29页/共58页30SPSS讲解例3.17(P110)输入变量值
15、及频数,给变量加权,选ANALYZE菜单描述性统计中列联表,输入行和列,点复选框中卡方检验进行独立性检验.第30页/共58页31若(X,Y)为连续型随机向量时,作离散化处理。小结皮尔逊方法使用范围广,对于一维、多维、离散、连续、参数已知、未知、全样本、截尾样本等均适用;但分组处理样本值时,虽然假设分布不成立,但可能划分方式不同,特别对于截尾样本,影响统计量的取值,容易导致犯第二类错误(取伪)的概率增加。第31页/共58页32经验分布函数经验分布函数 将观察值排序(非降):定义Fn(x)一致地收敛于F(x).柯尔莫哥洛夫检验(一)一般情形第32页/共58页33柯氏提出的检验统计量为柯氏提出的检验
16、统计量为其精确分布为已知其精确分布为已知(P(P112112)。柯尔哥莫洛夫检验假设:H0:F(x)=F0(x)其中F0(x)为完全已知的连续型分布函数.第33页/共58页34因为分布函数Fn(x)与F0(x)均为X的单调非减函数,所以二者偏差的上确界在n个点X(i)处取得。先求 偏差则 。若Fn(x)与F0(x)拟合得好,则Dn的值应比较小,反之,Dn的值较大时,拟合得不好。柯氏检验规则:给定显著性水平,原假设的拒绝域为即(临界值Dn,可查附表6得到)。第34页/共58页35例例3.18(P3.18(P114114)对一台设备进行寿命试验,记录了对一台设备进行寿命试验,记录了1010个数个数
17、据,从小到大排列为据,从小到大排列为420420,500500,920920,23502350(小时)。问此种设备的寿命(小时)。问此种设备的寿命X X的分布是否的分布是否服从服从15001500的指数分布?的指数分布?解:由下表计算可得Dn=0.30,取0.05,查表得,D10,0.05=0.40925,即使取0.20,D10,0.20=0.32都比Dn大,故接受H0,认为寿命X的分布是否服从1500的指数分布.第35页/共58页36计算结果列表如下:第36页/共58页37SPSS讲解例3.18输入变量值,选ANALYZE菜单非参数检验NParTests,进入One-SampleKolmog
18、orov-SmirnovTest,点复选框中指数分布,进行理论分布含有未知参数的检验.第37页/共58页38(二)正态性检验正态分布未知参数值使用它们的无偏估计值柯氏检验规则:给定显著性水平,原假设的拒绝域为(临界值可查附表8得到)。第38页/共58页39例例3.19 3.19 对对8 8个产品进行强度试验个产品进行强度试验,所得强度取自然对数后为所得强度取自然对数后为:0.25,0.53,0.88,1.22,1.76,2.44,3.41,4.90:0.25,0.53,0.88,1.22,1.76,2.44,3.41,4.90问这批强度问这批强度数据是否来自对数正态分布数据是否来自对数正态分布
19、?由上表得,查临界值 ,因 ,故接受原假设,即认为这批强度数据来自对数正态分布这批强度数据来自对数正态分布。第39页/共58页40(三)指数分布的检验指数分布未知参数的极大似然估计检验规则:给定显著性水平,原假设的拒绝域为,(临界值可查附表8得到)。第40页/共58页41例例3.21 3.21 记录一台计算机的无故障工作时间七次,数据如下:530,450,120,530,600,650,460。问此台计算机的无故障工作时间是否服从指数分布?由上表得由上表得,查临界值 ,因 ,故拒绝原假设,即不能认为此台计算机的无故障工作时间服从指数分布。第41页/共58页42斯米尔诺夫检验斯米尔诺夫检验设有连
20、续型总体X,分布函数F(x),样本 ,经验分布函数Fn1(x);有连续型总体 Y,分布函数G(x),样本 ,经验分布函数Gn2(x)。假定两样本相互独立。相应的经验分布函数为 。问题背景:柯尔哥莫洛夫检验实际上是对单样本的分布拟合问题的检验。而在实际中,经常需要对两个总体分布函数进行比较,斯米尔诺夫检验借助于经验分布函数给出了与柯尔哥莫洛夫检验相类似的检验统计量。第42页/共58页43提出假设提出假设:斯米尔诺夫提出的检验统计量是斯米尔诺夫提出的检验统计量是:并且证明了,当并且证明了,当 为真时,有为真时,有。第43页/共58页44当当H0为真时,为真时,D应该比较小,因此斯米尔诺夫应该比较小
21、,因此斯米尔诺夫检验的规则是检验的规则是:给定显著性水平给定显著性水平,若,若 时,拒时,拒绝绝H0,否则接受,否则接受H0 。分位点分位点 查查柯尔哥莫洛夫检验的临界值表临界值表(见附表(见附表6 6),),n取不超过其表达式的最大整数取不超过其表达式的最大整数.当当n很大时(如很大时(如100100),由),由柯尔哥莫洛夫检验统检验统计量的极限分布可得计量的极限分布可得 ,其中,其中,临界值临界值柯尔哥莫洛夫检验的极限分极限分布表布表(见附表见附表7)7)。即即:第44页/共58页45解:检验统计量解:检验统计量Dn的观测值为的观测值为 ,查附表查附表6 6临界值临界值 ,因因 ,故拒绝原
22、假设,故拒绝原假设,即认为这两批零件尺寸分布不相同。即认为这两批零件尺寸分布不相同。例例3.22 3.22 某自动车床加工一种零件某自动车床加工一种零件,一位工人刚接班时一位工人刚接班时,抽取抽取n n1 1=150=150只零件作只零件作为第一个样本为第一个样本.在自动车床工作了在自动车床工作了4 4小时后小时后,他又抽取了他又抽取了n n2 2=100=100只零件作为第只零件作为第二个样本二个样本.测定每个零件的尺寸与标准尺寸的偏差测定每个零件的尺寸与标准尺寸的偏差(单位单位:m)m)范围如表范围如表3-103-10(P122)所示所示,试问在显著性水平试问在显著性水平=0.01=0.0
23、1下下,能否认为这批零件尺寸的分布相同能否认为这批零件尺寸的分布相同?第45页/共58页46计算结果列表如下:偏差范围偏差范围组中组中值值ni1ni2Fn1(x)Gn2(x)|Fn1(x)-Gn2(x)|-12.5,-7.5-101000.0000.0000.000-7.5,-2.5-52770.0670.0000.067-2.5,2.5043170.2470.0700.1772.5,7.5538300.5330.2400.2937.5,12.51023290.7870.5400.24712.5,17.5158150.9400.8300.11017.5,22.520110.9930.9800.
24、01322.5,27.525011.0000.9900.010第46页/共58页47SPSS 讲解例3.22输入变量值,选ANALYZE菜单非参数检验NPar Tests,进入2-Independent Kolmogorov-Smirnov Test,对指标值加权,点复选框中样本类别且定义组别,进行两独立总体是否同分布的检验.第47页/共58页48Shapiro-Wilk W检验检验和和DAgostino D检验检验 二者均为正态性检验,利用二者均为正态性检验,利用W和和D检验检验可以可以检验检验一批观测值或一批随机数是否来自同一一批观测值或一批随机数是否来自同一正态分布。正态分布。H0:总体
25、服从正态分布总体服从正态分布.(一)W检验检验()检验步骤:(1)将观测值(样本值)按非降序排列:;(2)计算统计量W的值第48页/共58页49 其中 查附表10。(3)对给定的显著性水平和样本容量n,由附表11查得 ;(4)作出判断:若 ,则拒绝原假设,认为样本不服从正态分布。(W1)检验原理(略)P124W检验优点:小样本判断总体是否服从正态分布.例例3.23 3.23 抽查用克矽平治疗矽肺患者抽查用克矽平治疗矽肺患者1010名名,得他们治疗前后血红蛋白的差得他们治疗前后血红蛋白的差(g%)(g%)如下如下:2.7,-1.2,-1.0,0,0.7,2.0,3.7,-0.6,0.8,-0.3
26、 2.7,-1.2,-1.0,0,0.7,2.0,3.7,-0.6,0.8,-0.3试检验治疗前后血红蛋白的差是否服从正态分布试检验治疗前后血红蛋白的差是否服从正态分布(=0.05)=0.05)第49页/共58页50(二)(二)D D检验检验(50 n Y)Y)0.5,因此T1应有偏大的趋势。所以H0成立,T值不应太大也不能太小。人们根据T的分布编制了附表13,对给定的显著性水平,可查表:拒绝域:第53页/共58页54SPSS 秩和检验秩和检验输入变量值,对指标值加权定义样本类别选ANALYZE菜单非参数检验NPar Tests,进入2-Independent Sample 选Mann-Whi
27、tney Test点复选框中样本类别且输入组别,进行两独立总体是否同分布的检验.第54页/共58页55解:解:例例3.25 3.25 以下是两个地区所种小麦的蛋白质含量检验数据:以下是两个地区所种小麦的蛋白质含量检验数据:地区地区1 1:12.6 13.4 11.9 12.8 13.012.6 13.4 11.9 12.8 13.0 地区地区2 2:13.1 13.4 12.8 13.8 13.3 12.7 12.413.1 13.4 12.8 13.8 13.3 12.7 12.4问两地区小麦的蛋白质含量有无显著性差异问两地区小麦的蛋白质含量有无显著性差异?(?(=0.05)=0.05)认为两地区小麦的蛋白质含量认为两地区小麦的蛋白质含量无显著性差异无显著性差异.第55页/共58页56 在秩和检验表只列出n1,n210时的的数值,当n1n2时,可以证明,在H0之下,有:实际上,在n1,n2均大于7时,u的分布近似标准正态分布已十分精确。对给定显著性水平,可查标准正态分布表得 拒绝域:第56页/共58页57作业:3.11 3.13,3.15,3.16,3.18,3.21.第57页/共58页58感谢您的观看!第58页/共58页