《参数估计假设检验.ppt》由会员分享,可在线阅读,更多相关《参数估计假设检验.ppt(74页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、统计的基本概念参数估计参数估计假设检验假设检验数数据据处处理理和和分分析析数学建模讲座郑继明E-mail:2008年7月数理学院信息与计算科学教学部暑期培训一、统计量一、统计量二、分布函数的近似求法二、分布函数的近似求法三、几个在统计中常用的概率分布三、几个在统计中常用的概率分布-4-2024600.050.10.150.20.250.30.350.41正态分布正态分布),(2smN密度函数:222)(21)(smsp-=xexp分布函数:dyexFyx222)(21)(smsp-=其中m为均值,2s为方差,+-x.标准正态分布:N(0,1)密度函数2221)(xex-=pjdyexyx222
2、1)(-=Fp,分布函数返回返回F分布F(10,50)的密度函数曲线一、点估计的求法一、点估计的求法(一)矩估计法解解根据矩估计法根据矩估计法,例例1 1(二)极大似然估计法解解似然函数似然函数例例2 2这一估计量与矩估计量是相同的这一估计量与矩估计量是相同的.二、区间估计的求法二、区间估计的求法1、已知、已知DX,求,求EX的置信区间的置信区间2 未知方差未知方差DX,求,求EX的置信区间的置信区间(一一)数学期望的置信区间数学期望的置信区间(二)方差的区间估计(二)方差的区间估计返回返回解解例例3这样的置信区间常写成这样的置信区间常写成其置信区间的长度为其置信区间的长度为1.参数检验参数检
3、验:如果观测的分布函数类型已知,这时构造出的 统计量依赖于总体的分布函数,这种检验称为参数检验.参数检验的目的往往是对总体的参数及其有关性质作出明 确的判断.对总体X的分布律或分布参数作某种假设,根据抽取的样本观察值,运用数理统计的分析方法,检验这种假设是否正确,从而决定接受假设或拒绝假设.2.非参数检验非参数检验:如果所检验的假设并非是对某个参数作出明 确的判断,因而必须要求构造出的检验统计量的分布函数 不依赖于观测值的分布函数类型,这种检验叫非参数检验.如要求判断总体分布类型的检验就是非参数检验.基本原理 在总体的分布函数完全未知或只知其形式、在总体的分布函数完全未知或只知其形式、但不知其
4、参数的情况下但不知其参数的情况下,为了推断总体的某些性为了推断总体的某些性质质,提出某些关于总体的假设提出某些关于总体的假设.假设检验就是根据样本对所提出的假设作假设检验就是根据样本对所提出的假设作出判断出判断:是接受是接受,还是拒绝还是拒绝.例如例如,提出总体服从泊松分布的假设提出总体服从泊松分布的假设;如何利用样本值对一个具体的假设进行检验如何利用样本值对一个具体的假设进行检验?通常借助于直观分析和理通常借助于直观分析和理论分析相结合的做法论分析相结合的做法,其基本原其基本原理就是人们在实际问题中经常采理就是人们在实际问题中经常采用的所谓实际推断原理用的所谓实际推断原理:“一个一个小概率事
5、件在一次试验中几乎是小概率事件在一次试验中几乎是不可能发生的不可能发生的”.下面结合实例来说明假设检验的基本思想下面结合实例来说明假设检验的基本思想.假设检验问题是统计推断的另一类重要问题假设检验问题是统计推断的另一类重要问题.实例实例 某车间用一台包装机包装葡萄糖某车间用一台包装机包装葡萄糖,包得的包得的袋装糖重是一个随机变量袋装糖重是一个随机变量,它服从正态分布它服从正态分布.当当机器正常时机器正常时,其均值为其均值为0.50.5千克千克,标准差为标准差为0.0150.015千克千克.某日开工后为检验包装机是否正常某日开工后为检验包装机是否正常,随机随机地抽取它所包装的糖地抽取它所包装的糖
6、9 9袋袋,称得净重为称得净重为(千克千克):):0.497 0.506 0.518 0.524 0.498 0.511 0.497 0.506 0.518 0.524 0.498 0.511 0.520 0.515 0.512,0.520 0.515 0.512,问机器是否正常问机器是否正常?分析分析:由长期实践可知由长期实践可知,标准差较稳定标准差较稳定,问题问题:根据样本值判断根据样本值判断提出两个对立假设提出两个对立假设再利用已知样本作出判断是接受假设再利用已知样本作出判断是接受假设 H0(拒绝拒绝假设假设 H1),还是拒绝假设还是拒绝假设 H0(接受假设接受假设 H1).如果作出的判
7、断是接受如果作出的判断是接受 H0,即认为机器工作是正常的即认为机器工作是正常的,否则否则,认为是不正常认为是不正常的的.由于要检验的假设设计总体均值由于要检验的假设设计总体均值,故可借助于样本故可借助于样本均值来判断均值来判断.于是可以选定一个适当的正数于是可以选定一个适当的正数k,由标准正态分布分位点的定义得由标准正态分布分位点的定义得于是拒绝假设于是拒绝假设H0,认为包装机工作不正常认为包装机工作不正常.假设检验过程如下假设检验过程如下:以上所采取的检验法是符合实际推断原理的以上所采取的检验法是符合实际推断原理的.相关概念1.显著性水平显著性水平2.检验统计量检验统计量3.原假设与备择假
8、设原假设与备择假设假设检验问题通常叙述为假设检验问题通常叙述为:4.拒绝域与临界点拒绝域与临界点 当检验统计量取某个区域当检验统计量取某个区域C中的值时中的值时,我们我们拒绝原假设拒绝原假设H0,则称区域则称区域C为为拒绝域拒绝域,拒绝域的拒绝域的边界点称为边界点称为临界点临界点.如在前面实例中如在前面实例中,5.两类错误及记号两类错误及记号 假设检验的依据是假设检验的依据是:小概率事件在一次试小概率事件在一次试验中很难发生验中很难发生,但很难发生不等于不发生但很难发生不等于不发生,因而因而假设检验所作出的结论有可能是错误的假设检验所作出的结论有可能是错误的.这种这种错误有两类错误有两类:(1
9、)当原假设当原假设H0为真为真,观察值却落入拒绝域观察值却落入拒绝域,而作出了拒绝而作出了拒绝H0的判断的判断,称做称做第一类错误第一类错误,又叫又叫弃真错误弃真错误,这类错误是这类错误是“以真为假以真为假”.犯第一类犯第一类错误的概率是显著性水平错误的概率是显著性水平(2)当原假设当原假设 H0 不真不真,而观察值却落入接受域而观察值却落入接受域,而作出了接受而作出了接受 H0 的判断的判断,称做称做第二类错误第二类错误,又又叫叫取伪错误取伪错误,这类错误是这类错误是“以假为真以假为真”.当样本容量当样本容量 n 一定时一定时,若减少犯第一类错误若减少犯第一类错误的概率的概率,则犯第二类错误
10、的概率往往增大则犯第二类错误的概率往往增大.犯第二类错误的概率记为犯第二类错误的概率记为 若要使犯两类错误的概率都减小若要使犯两类错误的概率都减小,除非增除非增加样本容量加样本容量.6.显著性检验显著性检验7.双边备择假设与双边假设检验双边备择假设与双边假设检验 只对只对犯第一类错误的概率加以控制犯第一类错误的概率加以控制,而不考而不考虑犯第二类错误的概率的检验虑犯第二类错误的概率的检验,称为称为显著性检验显著性检验.8.右边检验与左边检验右边检验与左边检验右边检验与左边检验统称为右边检验与左边检验统称为单边检验单边检验.9.单边检验的拒绝域单边检验的拒绝域假设检验的一般步骤是假设检验的一般步
11、骤是:(一)单个正态总体均值检验一)单个正态总体均值检验一、参数检验一、参数检验例例1 某切割机在正常工作时某切割机在正常工作时,切割每段金属棒的切割每段金属棒的平均长度为平均长度为10.5cm,标准差是标准差是0.15cm,今从一批产今从一批产品中随机的抽取品中随机的抽取15段进行测量段进行测量,其结果如下其结果如下:假定切割的长度服从正态分布假定切割的长度服从正态分布,且标准差没有变且标准差没有变化化,试问该机工作是否正常试问该机工作是否正常?解解查表得查表得(二)单个正态总体方差检验二)单个正态总体方差检验 如果在例如果在例1 1中只中只假定切割的长度服从正态分假定切割的长度服从正态分布
12、布,问该机切割的金属棒的平均长度有无显著变问该机切割的金属棒的平均长度有无显著变化化?解解查表得查表得t t分布表分布表例例2(三)两个正态总体均值检验(三)两个正态总体均值检验例例3 在平炉上进行一项试验以确定改变操作方法在平炉上进行一项试验以确定改变操作方法的建议是否会增加钢的得率的建议是否会增加钢的得率,试验是在同一只平试验是在同一只平炉上进行的炉上进行的.每炼一炉钢时除操作方法外每炼一炉钢时除操作方法外,其它其它条件都尽可能做到相同条件都尽可能做到相同.先采用标准方法炼一炉先采用标准方法炼一炉,然后用建议的新方法炼一炉然后用建议的新方法炼一炉,以后交替进行以后交替进行,各各炼了炼了10
13、炉炉,其得率分别为其得率分别为(1)标准方法标准方法:78.1,72.4,76.2,74.3,77.4,78.4,76.0,75.5,76.7,77.3;(2)新方法新方法:79.1,81.0,77.3,79.1,80.0,78.1,79.1,77.3,80.2,82.1;设这两个样本相互独立设这两个样本相互独立,且分别来自正态总且分别来自正态总体体问建议的新操作方法能否提高得率问建议的新操作方法能否提高得率?解解分别求出标准方法和新方法下的样本均值和样本分别求出标准方法和新方法下的样本均值和样本方差方差:即认为建议的新操作方法较原来的方法为优即认为建议的新操作方法较原来的方法为优.查表查表8
14、.1知其拒绝域为知其拒绝域为(四)两个正态总体方差检验四)两个正态总体方差检验二、非参数检验二、非参数检验(二)概率纸检验法(二)概率纸检验法 概率纸是一种判断总体分布的简便工具.使用它们,可以很快地判断总体分布的类型.概率纸的种类很多.返回返回统计工具箱中的基本统计命令统计工具箱中的基本统计命令1.数据的录入、保存和调用数据的录入、保存和调用2.基本统计量基本统计量3.常见概率分布的函数常见概率分布的函数4.4.频频 数数 直直 方方 图图 的的 描描 绘绘5.参数估计参数估计6.假设检验假设检验7.综合实例综合实例返回返回一、数据的录入、保存和调用一、数据的录入、保存和调用 例例1 上海市
15、区社会商品零售总额和全民所有制职工工资总额的数据如下统计工具箱中的基本统计命令统计工具箱中的基本统计命令1、年份数据以1为增量,用产生向量的方法输入。命令格式:x=a:h:bx=a:h:b t=78:872、分别以x和y代表变量职工工资总额和商品零售总额。x=23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4 y=41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.03、将变量t、x、y的数据保存在文件data中。save data t x y 4、进行统计分析时,调用数据文件data中的数据。l
16、oad dataTo MATLAB(txy)1、输入矩阵:data=78,79,80,81,82,83,84,85,86,87,88;23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4;41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.02、将矩阵data的数据保存在文件data1中:save data1 data3 3、进行统计分析时,先用命令:load data1load data1 调用数据文件data1中的数据,再用以下命令分别将矩阵data的第一、二、三行的数据赋给变量t、x、y:t=
17、data(1,:)x=data(2,:)y=data(3,:)若要调用矩阵data的第j列的数据,可用命令:data(:,j)To MATLAB(data)返回返回二、基本统计量二、基本统计量对随机变量x,计算其基本统计量的命令如下:均值:mean(x)mean(x)中位数:median(x)median(x)标准差:std(x)std(x)方差:var(xvar(x)偏度:skewness(x)峰度:kurtosis(x)例例 对例1中的职工工资总额x,可计算上述基本统计量。To MATLAB(tjl)返回返回三三、常见概率分布的函数常见概率分布的函数Matlab工具箱对每一种分布都提供五类
18、函数,其命令字符为:概率密度:pdfpdf 概率分布:cdfcdf逆概率分布:inv inv 均值与方差:statstat随机数生成:rnd (当需要一种分布的某一类函数时,将以上所列的分布命令字符与函数命令字符接起来,并输入自变量(可以是标量、数组或矩阵)和参数即可.)在Matlab中输入以下命令:x=-6:0.01:6;y=normpdf(x);z=normpdf(x,0,2);plot(x,y,x,z)1、密度函数、密度函数:p=normpdf(x,mu,sigma)(当mu=0,sigma=1时可缺省)To MATLAB(liti2)如对均值为mu、标准差为sigma的正态分布,举例如
19、下:To MATLAB(liti3)3、逆概率分布、逆概率分布:x=norminv(P,mu,sigma).即求出x,使得PX50),按中心极限定理,它近似地 服从正态分布;二.使用Matlab工具箱中具有特定分布总体的估计命令.(1)muhat,muci=expfit(X,alpha)-在显著性水平alpha下,求指数分布的数据X的均值的点估计及其区间估计.(2)lambdahat,lambdaci=poissfit(X,alpha)-在显著性水平alpha下,求泊松分布的数据X 的参数的点估计及其区间估计.(3)phat,pci=weibfit(X,alpha)-在显著性水平alpha下,
20、求Weibull分布的数据X 的参数的点估计及其区间估计.返回返回六、假设检验六、假设检验 在总体服从正态分布的情况下,可用以下命令进行假设检验.1、总体方差总体方差sigma2已知时,总体均值的检验使用已知时,总体均值的检验使用 z-检验检验 h,sig,ci=ztest(x,m,sigma,alpha,tail)检验数据 x 的关于均值的某一假设是否成立,其中sigma 为已知方差,alpha 为显著性水平,究竟检验什么假设取决于 tail 的取值:tail=0,检验假设“x 的均值等于 m”tail=1,检验假设“x 的均值大于 m”tail=-1,检验假设“x 的均值小于 m”tail
21、的缺省值为 0,alpha的缺省值为 0.05.返回值 h 为一个布尔值,h=1 表示可以拒绝假设,h=0 表示不可以拒绝假设,sig 为假设成立的概率,ci 为均值的 1-alpha 置信区间.例例7 Matlab统计工具箱中的数据文件gas.mat.中提供了美国1993年一月份和二月份的汽油平均价格(price1,price2分别是一,二月份的油价,单位为美分),它是容量为20的双样本.假设一月份油价的标准偏差是一加仑四分币(=4),试检验一月份油价的均值是否等于115.解解 作假设:m=115.首先取出数据,用以下命令:load gas然后用以下命令检验 h,sig,ci=ztest(p
22、rice1,115,4)返回:h=0,sig=0.8668,ci=113.3970 116.9030.检验结果:1.布尔变量h=0,表示不拒绝零假设.说明提出的假设均值115 是合理的.2.sig-值为0.8668,远超过0.5,不能拒绝零假设 3.95%的置信区间为113.4,116.9,它完全包括115,且精度很 高.To MATLAB(liti7)2、总体方差总体方差sigma2未知时,总体均值的检验使用未知时,总体均值的检验使用t-检验检验 h,sig,ci=ttest(x,m,alpha,tail)检验数据 x 的关于均值的某一假设是否成立,其中alpha 为显著性水平,究竟检验什么
23、假设取决于 tail 的取值:tail=0,检验假设“x 的均值等于 m”tail=1,检验假设“x 的均值大于 m”tail=-1,检验假设“x 的均值小于 m”tail的缺省值为 0,alpha的缺省值为 0.05.返回值 h 为一个布尔值,h=1 表示可以拒绝假设,h=0 表示不可以拒绝假设,sig 为假设成立的概率,ci 为均值的 1-alpha 置信区间.返回:h=1,sig=4.9517e-004,ci=116.8 120.2.检验结果:1.布尔变量h=1,表示拒绝零假设.说明提出的假 设油价均值115是不合理的.2.95%的置信区间为116.8 120.2,它不包括 115,故不
24、能接受假设.3.sig-值为4.9517e-004,远小于0.5,不能接受零 假设.To MATLAB(liti8)例例8 试检验例8中二月份油价 Price2的均值是否等于115.解解 作假设:m=115,price2为二月份的油价,不知其方差,故用以下命令检验h,sig,ci=ttest(price2,115)3、两总体均值的假设检验两总体均值的假设检验使用使用 t-检验检验 h,sig,ci=ttest2(x,y,alpha,tail)检验数据 x,y 的关于均值的某一假设是否成立,其中alpha 为显著性水平,究竟检验什么假设取决于 tail 的取值:tail=0,检验假设“x 的均值
25、等于 y 的均值”tail=1,检验假设“x 的均值大于 y 的均值”tail=-1,检验假设“x 的均值小于 y 的均值”tail的缺省值为 0,alpha的缺省值为 0.05.返回值 h 为一个布尔值,h=1 表示可以拒绝假设,h=0 表示不可以拒绝假设,sig 为假设成立的概率,ci 为与x与y均值差的的 1-alpha 置信区间.返回:h=1,sig=0.0083,ci=-5.8,-0.9.检验结果:1.布尔变量h=1,表示拒绝零假设.说明提出的 假设“油价均值相同”是不合理的.2.95%的置信区间为-5.8,-0.9,说明一月份油 价比二月份油价约低1至6分.3.sig-值为0.00
26、83,远小于0.5,不能接受“油价均 相同”假设.To MATLAB(liti9)例例9 试检验例8中一月份油价Price1与二月份的油价Price2均值是否相同.解解 用以下命令检验h,sig,ci=ttest2(price1,price2)4、非参数检验:总体分布的检验非参数检验:总体分布的检验Matlab工具箱提供了两个对总体分布进行检验的命令:(1)h=normplot(x)(2)h=weibplot(x)此命令显示数据矩阵x的正态概率图.如果数据来自于正态分布,则图形显示出直线性形态.而其它概率分布函数显示出曲线形态.此命令显示数据矩阵x的Weibull概率图.如果数据来自于Weib
27、ull分布,则图形将显示出直线性形态.而其它概率分布函数将显示出曲线形态.返回返回例例10 一道工序用自动化车床连续加工某种零件,由于刀具损坏等会出现故障.故障是完全随机的,并假定生产任一零件时出现故障机会均相同.工作人员是通过检查零件来确定工序是否出现故障的.现积累有100次故障纪录,故障出现时该刀具完成的零件数如下:459 362 624 542 509 584 433 748 815 505 612 452 434 982 640 742 565 706 593 680 926 653 164 487 734 608 428 1153 593 844 527 552 513 781 47
28、4 388 824 538 862 659 775 859 755 49 697 515 628 954 771 609 402 960 885 610 292 837 473 677 358 638 699 634 555 570 84 416 606 1062 484 120 447 654 564 339 280 246 687 539 790 581 621 724 531 512 577 496 468 499 544 645 764 558 378 765 666 763 217 715 310 851试观察该刀具出现故障时完成的零件数属于哪种分布.解解 1、数据输入To MATL
29、AB(liti101)2、作频数直方图 hist(x,10)3、分布的正态性检验 normplot(x)4、参数估计:muhat,sigmahat,muci,sigmaci=normfit(x)(看起来刀具寿命服从正态分布)(刀具寿命近似服从正态分布)估计出该刀具的均值为594,方差204,均值的0.95置信区间为 553.4962,634.5038,方差的0.95置信区间为 179.2276,237.1329.To MATLAB(liti104)To MATLAB(liti102)To MATLAB(liti103)5、假设检验To MATLAB(liti105)已知刀具的寿命服从正态分布,现在方差未知的情况下,检验其均值 m 是否等于594.结果:h=0,sig=1,ci=553.4962,634.5038.检验结果:1.布尔变量h=0,表示不拒绝零假设.说 明提出的假设寿命均值594是合理的.2.95%的置信区间为553.5,634.5,它 完全包括594,且精度很高.3.sig-值为1,远超过0.5,不能拒绝零假 设.返回返回