非参数方法精选文档.ppt

上传人:石*** 文档编号:52099871 上传时间:2022-10-21 格式:PPT 页数:45 大小:2.55MB
返回 下载 相关 举报
非参数方法精选文档.ppt_第1页
第1页 / 共45页
非参数方法精选文档.ppt_第2页
第2页 / 共45页
点击查看更多>>
资源描述

《非参数方法精选文档.ppt》由会员分享,可在线阅读,更多相关《非参数方法精选文档.ppt(45页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、非参数方法本讲稿第一页,共四十五页主要特点主要特点不要求总体分布已知或对总体分布作任何不要求总体分布已知或对总体分布作任何限制性假定;限制性假定;不以估计总体参数为目的;不以估计总体参数为目的;能适用于定性变量中的定类数据或定序数能适用于定性变量中的定类数据或定序数据据,也能适用于定距数据和定比数据这种定也能适用于定距数据和定比数据这种定量变量量变量 方法直观,易于理解,运算比较简单。方法直观,易于理解,运算比较简单。缺点是检验的功效不如参数检验方法。缺点是检验的功效不如参数检验方法。本讲稿第二页,共四十五页非参数统计与传统的参数统计相比,有以下优点:非参数统计方法要求的假定条件比较少,因而它

2、的适用范围比较广泛。多数非参数统计方法要求的运算比较简单,可以迅速完成计算取得结果,因而比较节约时间。大多数非参数统计方法在直观上比较容易理解,不需要太多的数学基础知识和统计学知识。大多数非参数统计方法可用来分析如象由等级构成的数据资料,而对计量水准较低的数据资料,参数统计方法却不适用。当推论多达3个以上时,非参数统计方法尤具优越性。本讲稿第三页,共四十五页非参数统计方法也有以下缺点:在给定的显著性水平下进行检验时,非参数统计方法与参数统计方法相比,第类错误的概率要大些。对于大样本,如不采用适当的近似,计算可能变得十分复杂。本讲稿第四页,共四十五页主要内容主要内容成对比较检验成对比较检验曼曼惠

3、特尼惠特尼U检验检验游程检验游程检验等级相关检验等级相关检验本讲稿第五页,共四十五页成对比较检验成对比较检验 是对两个相关样本的比较分析。有符号检验和威尔科克森符是对两个相关样本的比较分析。有符号检验和威尔科克森符号秩检验两种方法。号秩检验两种方法。符号检验符号检验 也称正负号检验,其基本思想是分析正负号出现的频率而忽略也称正负号检验,其基本思想是分析正负号出现的频率而忽略具体量的差异,以确定他们是否有显著差异的一种检验方法。具体量的差异,以确定他们是否有显著差异的一种检验方法。本讲稿第六页,共四十五页符号检验涉及由涉及由n名潜在顾客组成的样本来确定对某种产品的名潜在顾客组成的样本来确定对某种

4、产品的两种品牌两种品牌之一的偏好。之一的偏好。其实质是检验顾客是否对所比较的两种品牌存在偏好上的其实质是检验顾客是否对所比较的两种品牌存在偏好上的差异。差异。符号检验根据样本量的不同(小样本、大样本),采取不符号检验根据样本量的不同(小样本、大样本),采取不同的检验方法。同的检验方法。符号检验的小样本情形是指符号检验的小样本情形是指n20,作为二项分布处作为二项分布处理。理。符号检验的大样本情形是指符号检验的大样本情形是指n20,作为正态近似处理。,作为正态近似处理。本讲稿第七页,共四十五页小样本情形P523:阳光海岸农场生产一种在市场上名为“柑桔谷”的桔汁,竞争对手生产一种新的名为“热带桔”

5、的桔汁饮品,研究人员随机调查了12名消费者,结果如下(“”表示对柑桔谷的偏好,“”表示对热带桔的偏好):消费者123456789101112偏好的品牌热带热带柑桔热带热带热带热带热带热带柑桔热带热带记录数据 本讲稿第八页,共四十五页解:解:H0:p=0.5;H1:p0.5(双尾检验(双尾检验 P(0)=0.0002,(,(BINOMDIST(0,12,0.5,FALSE)P(1)=0.0029,(BINOMDIST(1,12,0.5,FALSE)P(2)=0.0161,(BINOMDIST(2,12,0.5,FALSE)2(P(0)+P(1)+P(2))=0.03840.05本讲稿第九页,共四

6、十五页0123456可见,拒绝域应为可见,拒绝域应为0,1,2。789101112拒绝域拒绝域现检验统计量(现检验统计量()=2(即(即2个加号),个加号),0.03840.05所所以,原假设以,原假设H0:P=0.5在在5%显著性水平上被拒绝。此研究显著性水平上被拒绝。此研究提供的证据表明,消费者对两种品牌的桔汁的偏好存在差提供的证据表明,消费者对两种品牌的桔汁的偏好存在差异。异。本讲稿第十页,共四十五页例例 2:随机抽取:随机抽取12个单位,放映一部描述吸烟有害健康的影片,个单位,放映一部描述吸烟有害健康的影片,并调查得到观看电影前后各单位职工认为吸烟有害的人并调查得到观看电影前后各单位职

7、工认为吸烟有害的人 数的百分比。检验该电影宣传是否有效果(数的百分比。检验该电影宣传是否有效果(=0.05)。)。本讲稿第十一页,共四十五页解:解:H0:P=0.5 H1:P 0.5 P(0)=0.0002,P(1)=0.0030,P(2)=0.0161,P(3)=0.0537P(0)+P(1)+P(2)=0.01930.05P(3)+0.01930.05370.0193=0.0730.05 本讲稿第十二页,共四十五页0123456可见,拒绝域应为可见,拒绝域应为0,1,2。789101112拒绝域拒绝域现检验统计量(现检验统计量(-)=3(即(即3个负号),个负号),0.0730.05所以,

8、所以,原假设原假设H0:P=0.5在在5%显著性水平上不能被拒绝。也即不能显著性水平上不能被拒绝。也即不能认为职工在观看影片前后的认识有显著提高。认为职工在观看影片前后的认识有显著提高。本讲稿第十三页,共四十五页大样本情形使用零假设H0:P=0.5和样本容量n 20,则可以用正态分布来近似加号个数的抽样分布。在假设H0:P=0.5的条件下,加号个数的抽样分布的正态近似:均值:u=0.5n 标准差:检验统计量或:ux-z=本讲稿第十四页,共四十五页P524政治民意测验问题n=200-25=175U=0.5n=87.5=6.6Z=(72-87.5)/6.6=-2.352.351.96,所以,拒绝原

9、假设。认为公众对候选人的对外政策评价时有差异的。,所以,拒绝原假设。认为公众对候选人的对外政策评价时有差异的。本讲稿第十五页,共四十五页例例2:随机抽取:随机抽取60名消费者对甲、乙两种品牌的饮料评分,甲、名消费者对甲、乙两种品牌的饮料评分,甲、乙得分之差为乙得分之差为“+”号者号者35个,个,“-”号号15 个,个,“0”号号10个。以显个。以显著性水平著性水平=0.05检验两种饮料是否同等受欢迎。检验两种饮料是否同等受欢迎。本讲稿第十六页,共四十五页解:解:H0:P=0.5,H1:P0.5n20,按正态分布近似处理按正态分布近似处理该成数抽样分布的均值和标准差分别为该成数抽样分布的均值和标

10、准差分别为2.821.96,所以,拒绝原假设。认为两种饮料并不受到同等欢迎。,所以,拒绝原假设。认为两种饮料并不受到同等欢迎。且乙种优于甲种。且乙种优于甲种。本讲稿第十七页,共四十五页检验步骤检验步骤 1.1.确定配对样本,分别计算差异正与负的数目,无差异则确定配对样本,分别计算差异正与负的数目,无差异则记为记为0 0,将它从样本中剔除,并相应地减少样本容量,将它从样本中剔除,并相应地减少样本容量n n,把,把正负号数目之和视为样本总个数正负号数目之和视为样本总个数(n)(n)。2.建立假设:建立假设:H0:p=0.5;H1:p0.53.3.观察样本容量,如果观察样本容量,如果n20n20,则

11、作为二项分布处理,则作为二项分布处理 如如果果n n2020,则作为正态近似处理。,则作为正态近似处理。4.4.设定显著性水平设定显著性水平,并查表确定临界值,进行比较和作,并查表确定临界值,进行比较和作出判断。出判断。本讲稿第十八页,共四十五页威尔科克森符号威尔科克森符号的等级的等级检验检验这种检验方法不仅考虑了两组数据差异的正、负号,而且还利这种检验方法不仅考虑了两组数据差异的正、负号,而且还利用了其差异大小的信息。因此,是一种更为有效的检验方法。用了其差异大小的信息。因此,是一种更为有效的检验方法。1、应用条件和检验内容与符号检验相同。、应用条件和检验内容与符号检验相同。2、方法思想:若

12、关联样本、方法思想:若关联样本(匹配样本)的两组数据没有显著差异,则匹配样本)的两组数据没有显著差异,则不仅其差异的正、负符号应大致相等,而且将其差的数值按大小顺不仅其差异的正、负符号应大致相等,而且将其差的数值按大小顺序排列编自然序号(即秩)后,它们的正号(序排列编自然序号(即秩)后,它们的正号(+)的秩和(记为)的秩和(记为T+)与负号(与负号(-)的秩和(记为)的秩和(记为T-)也应该大致相等,因此正秩与负秩将相)也应该大致相等,因此正秩与负秩将相互抵消,符号秩之和的数值将接近于零。威尔科克森符号秩检验就是确互抵消,符号秩之和的数值将接近于零。威尔科克森符号秩检验就是确定符号秩之和是否显

13、著地不等于零。定符号秩之和是否显著地不等于零。本讲稿第十九页,共四十五页 令T表示威尔科克森符号秩检验中的符号秩之和。如果两个总体相同,并且匹配数据对的个数为10或者更多时,T的抽样分布近似于如下的正态分布。=检验统计量:uT-z=标准差:均值:u=0本讲稿第二十页,共四十五页检验步骤检验步骤将样本数据配对并计算各对正负差值将样本数据配对并计算各对正负差值将差数取绝对值按从小到大顺序排列并编上等级,即确定将差数取绝对值按从小到大顺序排列并编上等级,即确定顺序号顺序号1 1、2 2、3 3等。对于相等的值,则取其位序的平均数等。对于相等的值,则取其位序的平均数为等级为等级 建立假设:建立假设:H

14、0:T+=T-;H1:T+T-(双侧双侧)H1:T+T-或或T+T-(单侧单侧)计算检验统计量计算检验统计量:uT-z=本讲稿第二十一页,共四十五页设定设定,并查表确定临界值,并查表确定临界值T(或或Z/2)比较检验值与临界值比较检验值与临界值作出判断,作出判断,TT,拒绝拒绝H0;TT,接受接受H0本讲稿第二十二页,共四十五页P527两种不同的方法完成生产任务的时间是否存在显著差异工人方法1方法2差异差异绝对值秩符号秩110.29.50.70.78+829.69.8-0.20.22-239.28.80.40.43.5+3.5410.610.10.50.55.5+5.559.910.3-0.4

15、0.43.5-3.5610.29.30.90.910+10710.610.50.10.11+1810.010.00.00.0-911.210.60.60.67+71010.710.20.50.55.5+5.51110.69.80.80.89+9符号秩之和+44.0本讲稿第二十三页,共四十五页=19.62 (n=10)uT-z=(44-0)/19.62=2.242.241.96,所以,拒绝原假设。认为两种方法在完成任务的时间,所以,拒绝原假设。认为两种方法在完成任务的时间上存在差异。且方法上存在差异。且方法2优于方法优于方法1。本讲稿第二十四页,共四十五页 曼曼惠特尼惠特尼U U检验检验曼曼惠特

16、尼惠特尼U检验适用于检验适用于从两个总体中分别独立抽取两个从两个总体中分别独立抽取两个样本的检验,方法思想与威尔科克森秩和检验相同。样本的检验,方法思想与威尔科克森秩和检验相同。检验步骤:检验步骤:从总体从总体A、B中分别独立抽取样本中分别独立抽取样本nA和和nB,将(,将(nA+nB)个观)个观察值从小到大编序察值从小到大编序分别计算两个样本,的秩和分别计算两个样本,的秩和TA和和TB建立假设建立假设H0:两总体:两总体A和和B相对次数分布相同相对次数分布相同 H1:两总体相对次数分布不同:两总体相对次数分布不同本讲稿第二十五页,共四十五页 当n1、n2均大于等于10时,T的抽样分布近似于如

17、下的正态分布。=检验统计量:uT-z=标准差:均值:u=n1(n1+n2+1)/2本讲稿第二十六页,共四十五页P532两个分行的支票的账户余额是否相同分行1分行2账户余额秩账户余额秩110952018857295514285043120022391584119521495012.55925958002695012.5675017805378655894511810001698756910501810105519109351011102517秩和 83.51297515秩和 169.5本讲稿第二十七页,共四十五页 n1、n2均大于10,T的抽样分布近似于如下的正态分布。检验统计量:标准差:均值:

18、u=n1(n1+n2+1)/2=12(12+10+1)/2=138=15.17uT-z=(169.5-138)/15.17=2.082.081.96,所以,拒绝原假设。认为两个分行的账户余额存在,所以,拒绝原假设。认为两个分行的账户余额存在差异。差异。本讲稿第二十八页,共四十五页克鲁斯卡尔-沃利斯检验MWW检验是用于检验两个总体是否相同克鲁斯卡尔和沃利斯将其扩展到更多总体的情形。(总体K3)方差分析(AVOVA)可以对多个总体均值是否相等进行检验。AVOVA的适用条件是所有总体都服从正态分布,并要求是定距数据或定比数据。本讲稿第二十九页,共四十五页检验步骤检验步骤 1.1.从总体从总体A、B、

19、C(K=3)中分别独立抽取样本中分别独立抽取样本n1、n2和和 n3,将,将(nT=n1+n2+n3)个观察值从小到大编序)个观察值从小到大编序,分别计算三个样本的秩和分别计算三个样本的秩和R1、R2、R32.建立假设:建立假设:H0:所有总体相同;所有总体相同;H1:并非所有总体都相同:并非所有总体都相同3.3.观察样本容量,如果每个样本量都大于观察样本容量,如果每个样本量都大于5 5,克鲁斯卡尔和沃利斯,克鲁斯卡尔和沃利斯已经证明,统计量已经证明,统计量W(W(卡鲁斯卡尔卡鲁斯卡尔沃利斯检验统计量近似服从自由度沃利斯检验统计量近似服从自由度为(为(K-1)K-1)的的X X2 2分布。分布

20、。4.4.设定显著性水平设定显著性水平,并查表确定临界值,进行比较和作出判断。,并查表确定临界值,进行比较和作出判断。W=本讲稿第三十页,共四十五页P536:威廉姆斯制造公司招聘问题。(从三所大学招聘来的管理人员是否有差别)大学A 秩大学B 秩大学C 秩2536095077012202701260930460985171518015.595204069018.59018.535570128015.5秩和277514秩和95秩和88本讲稿第三十一页,共四十五页W=nT=7+6+7=20 =W=8.92临界值CHIINV(0.025,2)=7.378P值 CHIDIST(8.92,2)=0.011

21、560.05结论:3个总体不相同本讲稿第三十二页,共四十五页游程检验游程检验一、什么是游程检验一、什么是游程检验游程检验(亦称连贯检验)是根据样本标志表现排列所形游程检验(亦称连贯检验)是根据样本标志表现排列所形成的游程的多少进行判断的检验方法。成的游程的多少进行判断的检验方法。设某样本设某样本n=12人的标志表现为男、女,有以下三种排列。人的标志表现为男、女,有以下三种排列。(i)男,男男,男,女,女,女女,女,女,男男,女,女女,女,男,男,男,男男,男,男,男(ii)男,男,男,男,男,男,男男,男,男,男,男,男,男,女,女,女,女,女女,女,女,女,女(iii)男男,女女,男男,女女

22、,男男,女女,男男,女女,男男,女女,男,男男,男连续出现男或女的区段称为游程。每个游程包含的个数连续出现男或女的区段称为游程。每个游程包含的个数为游程长度。以为游程长度。以r表示序列中游程的个数:表示序列中游程的个数:(i)r=5,(ii)r=2,(iii)r=11本讲稿第三十三页,共四十五页(i)是随机性序列;()是随机性序列;(ii)()(iii)是非随机性序列,所以,)是非随机性序列,所以,可以用游程的个数来检验样本的随机性,或总体的分布特可以用游程的个数来检验样本的随机性,或总体的分布特征。征。二、游程检验方法二、游程检验方法 1检验总体分布是否相同。检验总体分布是否相同。将从两个总

23、体中独立抽取的两个样本的观察值混合有序将从两个总体中独立抽取的两个样本的观察值混合有序后,观察游程个数,进行比较。后,观察游程个数,进行比较。2检验样本的随机性检验样本的随机性将取自某一总体的样本的观察值按从小到大顺序排列,找将取自某一总体的样本的观察值按从小到大顺序排列,找出中位数(或平均数),分为大于中位数的小于中位数的出中位数(或平均数),分为大于中位数的小于中位数的两个部分。用上下交错形成的游程个数来检验样本是否是两个部分。用上下交错形成的游程个数来检验样本是否是随机的。随机的。本讲稿第三十四页,共四十五页3检验规则(小样本,检验规则(小样本,n1与与n2都小于都小于20)应用表应用表

24、La和和Lb,(,(=0.05,r为临界值)为临界值)(1)单侧检验:)单侧检验:观察到的游程个数观察到的游程个数ro临界值(临界值(La表)表)或或ro临界值(临界值(Lb表)表)反之,接受反之,接受Ho。(2)双侧检验:)双侧检验:观察到的游程个数观察到的游程个数ror(La)ror(Lb)接受接受Ho 下限下限 上限上限反之,拒绝反之,拒绝Ho否定否定Ho本讲稿第三十五页,共四十五页4大样本(大样本(n1或或n2大于大于20),游程个数),游程个数r近似正态分布近似正态分布检验统计量检验统计量其中:其中:本讲稿第三十六页,共四十五页例1:对某校16名学生进行口试测试,按他们进入试场的先后

25、次序,将成绩记录如下:61,74,70,63,64,58,82,78,60,76,85,72,68,54,62,56试问:该样本在0.05的显著水平下是否具有随机性?本讲稿第三十七页,共四十五页解:(1)建立假设:H0:该样本具有随机性;H1:该样本不具有随机性。(2)将成绩按大小顺序排列,计算中位数为:(64+68)/2=66 (3)按原记录的顺序,用x表示小于66分的成绩,用y表示大于66分的成绩,得到如下序列:x,y,y,x,x,x,y,y,x,y,y,y,y,x,x,x游程个数:r=7查表得:r(la)=4;r(lb)=14 4714故:不能拒绝原假设,认为该样本具有随机性。本讲稿第三

26、十八页,共四十五页例2:某汽油站有两种商标的汽油A和B,某天售出的50桶汽油可按商标A和商标B排成以下的顺序:AABAABABBAAABBABBABBABBABBAABBBBAABABABAAABAAAAABB试问:这一序列在0.05的显著水平下是否具有随机性?本讲稿第三十九页,共四十五页解:(1)建立假设:H0:该序列具有随机性;H1:该序列不具有随机性。(2)A的数目:n1=26,B的数目:n2=24游程个数:r=7显著性水平为0.05时,z的临界值为1.96,0.580.05故:不能拒绝原假设,认为该序列具有随机性本讲稿第四十页,共四十五页等级相关检验等级相关检验将两组变量按顺序等级排列

27、,在等级的基础上计算等级相关将两组变量按顺序等级排列,在等级的基础上计算等级相关系数,从而反映两组变量之间联系的密切程度。系数,从而反映两组变量之间联系的密切程度。等级相关系数的计算公式等级相关系数的计算公式其中其中di为两变量每一对样本的等级之差,为两变量每一对样本的等级之差,n为样本容量。为样本容量。等级相关系数与相关系数一样,取值等级相关系数与相关系数一样,取值-1到到+1之间,区别是它之间,区别是它是建立在等级的基础上计算的,较适用于反映序列变量的相是建立在等级的基础上计算的,较适用于反映序列变量的相关。关。一、等级相关检验的基本原理一、等级相关检验的基本原理本讲稿第四十一页,共四十五

28、页二、等级相关系数的应用二、等级相关系数的应用利用斯皮尔曼等级相关系数,可以对两序列变量是利用斯皮尔曼等级相关系数,可以对两序列变量是否相关进行检验。否相关进行检验。(一)检验的假设(一)检验的假设(1)H0:rs=0,Xi和和Yi 相互独立;相互独立;H1:Xi和和Yi不独立。(此为双侧检验)不独立。(此为双侧检验)(2)H0:rs=0,Xi和和Yi相互独立;相互独立;H1:Xi和和Yi是正相关。是正相关。(即即Xi的大值与的大值与Yi的大值相配对的大值相配对)(3)H0:rs=0,Xi和和Yi相互独立;相互独立;H1:Xi和和Yi是负相关。是负相关。(即即Xi的大值与的大值与Yi的小值相配

29、对的小值相配对)本讲稿第四十二页,共四十五页(二)检验统计量:(二)检验统计量:当10时,rs的抽样分布,近似于均值U=0,标准差:=的正态分布。则N(0,1)P539:10名推销员的预计销售业绩与两年来的实际销售表现的秩相关系数的计算。本讲稿第四十三页,共四十五页例,某大学调查学生每周学习时间与得分的平均等级之间的关系,抽查10名学生的资料如下表所示。变量等级di=xi-yidi2=(xi-yi)2学习时数平均等级学习时数平均等级243.667.5-1.52.25172.02.511.52.25202.74400413.687.50.50.25523.71091.01.00233.15500463.8910-1.01.00172.52.53-0.50.25152.112-1.01.00293.3761.01.00合计9.00本讲稿第四十四页,共四十五页解:建立如下假设:H0:学习时间x与平均成绩等级y是独立的;H1:学习时间x与平均成绩等级y是正相关。P值:2(1-NORMSDIST(2.838)=0.004540.05,拒绝原假设,认为学生的学习时间与平均成绩等级之间存在着相关关系。本讲稿第四十五页,共四十五页

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁