《统计学抽样推断分析法.pptx》由会员分享,可在线阅读,更多相关《统计学抽样推断分析法.pptx(119页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第八章第八章 抽样推断分析法抽样推断分析法n次。次。特点:特点:n次。次。特点:特点:nN)!(!nNN!)!(!nnNN实验中发生该事件的可能实验中发生该事件的可能性大小。性大小。若样本空间中各样本点出现的可能性大小相同,可若样本空间中各样本点出现的可能性大小相同,可用样本空间中属于该事件的样本点个数与样本空间用样本空间中属于该事件的样本点个数与样本空间中全部样本点个数之比来计算。中全部样本点个数之比来计算。事件事件A、B之和之和A+B表示事件表示事件A或事件或事件B发生。发生。 A+B= AB 事件事件A、B之积之积AB表示事件表示事件A和和事件事件B同时发生。同时发生。 AB = AB
2、A、B互不相容表示互不相容表示AB= 几个几个互不相容事件中至互不相容事件中至少一个发生的概率等于这几个事件各自发生少一个发生的概率等于这几个事件各自发生的概率之和。的概率之和。AAA、B互相独立表示事件互相独立表示事件B发生发生与否对事件与否对事件A没有影响。没有影响。 几个几个互相独立事件同时互相独立事件同时发生的概率等于这几个事件各自发生的概率发生的概率等于这几个事件各自发生的概率之积。之积。A、B三、离散型随机变量的概率分布三、离散型随机变量的概率分布将离散型随机变量的所有可能取将离散型随机变量的所有可能取值及相应的概率按顺序列成表。值及相应的概率按顺序列成表。 XX x1 x2 xn
3、 x1 x2 PP p(x1) p(x2) p(xn) p(x1)p(x2) nxnxp(i=1,2, ) 离散型随机变量的概率分布也可以离散型随机变量的概率分布也可以用等式表述为:用等式表述为: =iixp1离散型随机变量的概率分布的性质:离散型随机变量的概率分布的性质: 10ixp(i=1,2, ); iixpxXp=)(412121)2(2121212121) 1(412121)0(=+=XpXpXp离散型随机变量的概率分布还可以离散型随机变量的概率分布还可以用用来表示。来表示。RxxXpxF=)()()()()()()()()()()()(121221211211221xFxFxXpx
4、XpxXxpxXxpxXpxXxxXpxXp,xx=+=+=有对任意实数+=)2( 1)21 (43) 10(41)0(0)()(xxxxxXPxFnnqpC00111nnqpC222nnqpC0qpCnnnk 0 1 2 n 0 1 2 n P 四、连续型随机变量的概率分布四、连续型随机变量的概率分布连续型随机变量的概率分布只能用连续型随机变量的概率分布只能用来表示。来表示。=xdxxfxXpxF)()()(其中其中f( (x) )是分布函数是分布函数F(x)的导数,称为的导数,称为密度函数密度函数。xxxXxpxxFxxFxfxx+=+=)(lim)()(lim)(00连续型随机变量的密度
5、函数连续型随机变量的密度函数的性质:的性质:1、f(x)02、3、 =1d xxf=baxxfbXapd)()( a bxP(a Xb)f( (x) )五、随机变量的数值特征五、随机变量的数值特征常用的有:常用的有:(一)随机变量的数学期望(一)随机变量的数学期望 =iiixpxXE =xxxfXEd)(数学期望的两个重要性质:数学期望的两个重要性质:)()()()(:,2)()()()()(:,),(,),(),(:,12121212121212121nnnnnnnnXEXEXEXXXEXXXn、XEXEXEXXXEXEXXXXXEXEXEXXXn、=+=+=+=则相互独立个随机变量设则的数
6、学期望分别为个随机变量设 =xxfxXEd222(二)随机变量的方差(二)随机变量的方差 =iiixpxXE222方差的两个重要性质:方差的两个重要性质:nXnXnnnXnXXXXXXX、XXXXXXXXXXXXn、nnnnnnniinnnnn=+=+=+=+=+=+=+=)(,)(:,1)(:,2)()()(:,:,12222222122221222221221212112222212122212222121则若则相互独立设则方差分别为相互独立个随机变量设六、正态分布六、正态分布 最重要的连续型随机变量分布最重要的连续型随机变量分布 =xxfx222e21称随机变量称随机变量X服从服从均值均
7、值为为,方差方差为为2 的的正态分布,记为正态分布,记为XN(, 2 )。f(x)xf( (x) )5 . 0=1=2=正态分布的密度函数曲线正态分布的密度函数曲线 是该分布的中心,是该分布的中心,是标准差,反映分布的离散是标准差,反映分布的离散程度,程度,越大,分布曲线越平缓,离散程度越大;越大,分布曲线越平缓,离散程度越大;越小,分布曲线越陡峭,分布越集中。越小,分布曲线越陡峭,分布越集中。 =xtxdtdttfxF222e21)()(利用正态分布函数可计算正态分布随机变量利用正态分布函数可计算正态分布随机变量X落在落在任意区间的概率:任意区间的概率:=baxdxaFbFbXaP222e2
8、1)()()(对于不同的对于不同的和和2都要都要计算上述积分很麻烦。计算上述积分很麻烦。=0,=1的正态分布称为标准正的正态分布称为标准正态分布,相应的随机变量称为标态分布,相应的随机变量称为标准正态随机变量,用准正态随机变量,用Z表示,即表示,即ZN(0,1) 。 22e21zzf= =ztdtzF22e21落在落在任意区间的概率。任意区间的概率。正态分布函数的标准化正态分布函数的标准化设设XN(, 2 ),令,令Z= X1)()()0()(0)()()(:2222222=XEXEZEZXEXEZE则即:即:ZN( (0,1) ) 。XN(,2 )X(-a,+a )Z= XX(-a,+a )
9、,(aa)(-21-1aFX(-a,+a )XN(175,42 )171179Z= 4175XX(171,179 )(-1,1 )1-21-F(1)=0.682768270171179总体分布的数量特征。总体分布的数量特征。定义在样本空间上的一个函数,定义在样本空间上的一个函数,也称也称样本指标样本指标。本身也是随机。本身也是随机变量。变量。样本统计量的概率分布。样本统计量的概率分布。二、重复抽样分布样本平均数的分布样本平均数的分布 )(8581281088868485121086422222222元元=+=+=NXXXNXX样本变样本变量量46810124456786567898678910
10、1078910111289101112样本工时平均工资样本工时平均工资(元元)频数频数频率频率411/25522/25633/25744/25855/25944/251033/251122/251211/25合计合计251 =ffxxE)( 8112211310495847362514251元=+= 487386285184251222222+=ffxExx18122811381048958822222+24 元= )(2 元=x从理论上推导样本平均数的分布:从理论上推导样本平均数的分布:nxxxxxxx样本为nXXXXXXnnN+=,:)(:,:212121其平均数为的容量为标准差为其平均数
11、为设总体变量XXnnxExExEnnxxxExEXNXxExExEnnniin=+=+=1)()()(1)()(1)()()(2121121nXxnXXnnxxxnxxxnnxxxxXxxxXxxxnnnnn)()()()(1)()()(1)(1)()()()()()(,2222221222122212222221221=+=+=+=同分布且都与相互独立重复抽样下结论:结论: nxx=n1样本成数的分布样本成数的分布PXP= )1 (2PPP=结论:结论: nPPnPPnPpp=11PXpEP=)( %41002 . 08 . 01=nPPp三、不重复抽样分布样本平均数的分布样本平均数的分布
12、)(8581281088868485121086422222222元元=+=+=NXXXNXX样本变样本变量量46810124-567865-789867-91010789-1112891011-x样本工时平均工资样本工时平均工资 (元元)频数频数频率频率522/20622/20744/20844/20944/201022/201122/20合计合计201 )( 82112104948472625201元=+=ff xxE 48728628520122222+=ffxExx281128104894882222+23元= )(3 元=x结论:结论: =1)(2NnNnXxx注意:注意:NnNnN
13、11样本成数的分布样本成数的分布结论:结论:PXpEP=)( =11NnNnPPpp注意:注意: %96. 11000040014002 . 08 . 01111=NnnppNnNnPPp四、大数定理与中心极限定理大数定理大数定理,21nxxxX2 XxEi= 22=ix11lim1=Xxnpniin大数定理应用于成数指标:大数定理应用于成数指标:1lim=pnmpn中心极限定理中心极限定理xX XXx,21nxxxX2 XxEi= 22=ixnxxnii=1nXN2, XXE= 22=XxXx),(2pPN注意:注意:)25,550(2Nx%04.54=)2 . 14 . 0- (=)253
14、025550-2510- (=)580540(ZPxPxP)19,760(2Nx%785. 1=) 1 . 2(=)194019076-(=)800(ZPxPxP比较:比较:)380,760(2N%46=)0.105(=)38040380076-(=)800(ZPXPXP)024. 0 ,06. 0(2N%3 .20)-0.83()83. 0-024. 00.06-(%)4(=ZPpPpP用样本统计量来估计总体参数,用样本统计量来估计总体参数,有有点估计点估计和和区间估计区间估计两种。两种。科学的抽样估计方法应具备的三个基本条件科学的抽样估计方法应具备的三个基本条件:直接以样本统计量的取值作为
15、相直接以样本统计量的取值作为相应总体参数的估计值,又称应总体参数的估计值,又称定值定值估计估计。优点优点:缺点缺点:评价估计量优良性的三个标准:评价估计量优良性的三个标准:1、无偏性:、无偏性:样本统计量的期望值等于被估计样本统计量的期望值等于被估计的总体参数。的总体参数。=E如:如: XxE=2、一致性:、一致性:当样本的单位数充分大时,样本当样本的单位数充分大时,样本统计量也充分靠近总体参数。统计量也充分靠近总体参数。Pn的一致估计量是则称若对任意小的正数1lim),0(=1lim, 0:=XxPn根据大数定理如:如:3、有效性:、有效性:作为优良估计量,其方差应比其作为优良估计量,其方差
16、应比其它无偏估计量的方差小。它无偏估计量的方差小。更有效但两个都无偏都可以估计或在总体中任取一单位用样本平均数xXnXxXXEXxEXXx=)()()()(,)(222如:如:1212)()(2212总体方差的估计:总体方差的估计:以样本方差以样本方差 作为总体方作为总体方差差 的估计量。的估计量。=2211xxnsi=221XXNi原因:原因:重复抽样的情况下,样本方差重复抽样的情况下,样本方差 是总体方差的无偏估计量。是总体方差的无偏估计量。=2211xxnsi证明如下:证明如下: 22222222222211112112111111=+=+=nnnnXxnEXxEnXxnXnxnXxXx
17、EnXxnXxXxXxEnXxXxEnxxnEsEiiiiii注意注意:虽然样本方差虽然样本方差 是总体方差的是总体方差的无偏估计量,但样本标准差无偏估计量,但样本标准差 并不是总体标准差并不是总体标准差 的无偏的无偏估计量,只是总体标准差的渐近无偏估计量。估计量,只是总体标准差的渐近无偏估计量。=211xxnsi=2211xxnsi=21XXNi证明如下:证明如下:。XsXsEssn。XsXsXsEsssEXsEsEssYEYEYY的渐近无偏估计量是趋于一致每个样本的时当样本容量的无偏估计量不是是不同的其标准差对每个样本有对随机变量)()()(, 0)(,)()()()()(0)(,)()(
18、)()()(:)()()(,222222222222=根据给定的置信度要求,指出总根据给定的置信度要求,指出总体参数被估计的上限和下限。体参数被估计的上限和下限。方法方法:特点特点:1)(212=1)(21P置信度的意义:置信度的意义:)()(1=+=XxPxXxPxX),(+xx),(+xxXXX),(+xxxX置信度与允许极限误差的关系:置信度与允许极限误差的关系:x2,xXN)-P(=)-(=-1xxXxXxP) 1 , 0(,-=N则ZXx令Zx=z)z(=-1ZP称 1、总体方差已知时:、总体方差已知时:2,xXNx2,xXNx已知置信度已知置信度1-的的区间估计步骤:区间估计步骤:
19、xxx),(+xx已知允许极限误差已知允许极限误差的区间估计步骤:的区间估计步骤: xxx),(+xx645=x 6 . 312=NnnXxx06. 76 . 396. 1=zx26 . 32 . 7=z2、总体方差未知时:、总体方差未知时:nsXxt=)/(,1)/()(nstPnstPXxP)8(9/25.006.31tXnsXxt=95.0)306.29/25.006.31()306.2(=XPtP)1 ,0(50/501600NXnsXxt=95.0)96.150/501600()96.1(=XPtP已知置信度已知置信度1-的的区间估计步骤:区间估计步骤:2,pPNpp)(pppz=)
20、,(pppp+49. 04 . 06 . 0)1 ()1 ()(=ppPPP0245. 040049. 0)(=nPpp%8 . 40245. 096. 1=ppzppp),(pppp+已知允许极限误差已知允许极限误差的区间估计步骤:的区间估计步骤:p43. 025. 075. 0)1 ()1 ()(=ppPPP%4 . 190043. 0)(=nPpp2%4 . 1%8 . 2=ppzp 第五节第五节 抽样推断误差的控制抽样推断误差的控制 一、必要样本单位数的确定必要的样本单位数必要的样本单位数:影响必要样本单位数大小的因素影响必要样本单位数大小的因素 :必要样本单位数的确定:必要样本单位数
21、的确定:1、估计总体平均数时:、估计总体平均数时:222=znnzz)1 (22Nnnzz=2222222222zNNznNznz+=2、估计总体成数时:、估计总体成数时:22)1 (=PPzn)1 ()1 (222PPzNNPPzn+=注意:注意:)(62512015002)(57620024002222222222222212121户户=znzn抽样设计的基本原则抽样设计的基本原则常用的抽样组织形式常用的抽样组织形式:二、抽样组织设计对总体的要求:对总体的要求:方法:方法:简单随机抽样的缺点:简单随机抽样的缺点:适用的条件:适用的条件:优点:优点:方法:方法:kNNNN+=21knnn,2
22、1knnnn+=21NnNnNn=2211),2, 1(kiNnNnii=样本平均数与抽样平均误差的计算:样本平均数与抽样平均误差的计算:,111211nxxx222221,nxxx,kknkkxxx,21ijijinxx=), 2 , 1(ki=nxnNxNxiiii=1)()(222=iiijiiijinxxNXX), 2 , 1(ki=nnnnnnnnnnxnxiiiiiiiiii2222222222221/)()(=NnnnNnnxiiiii11)(22222iNin)(51860400124601860030斤=+=nxnxii)(7 .64660361225182030222222
23、斤=+=nniii)(2 . 395. 0607 .64612斤=Nnnix)(27. 62 . 396. 1斤=xz结论:结论:特点:特点:方法:方法:)1 (ki 半距中点取样:半距中点取样:原因:原因:缺点:缺点:对称等距取样:对称等距取样:)1 (ki 原因:原因:注意:注意:抽样误差的计算:抽样误差的计算: =NnnXx12nxx=nxnxxx nxx2)( )(2 . 15060公斤=nxnxii)(24. 05088. 22公斤=nnxxsi)(034. 05024. 022公斤=nsx)(21.2233.1196. 1公斤=z优点:优点:适用条件:适用条件:样本平均数与抽样平均误差的计算:样本平均数与抽样平均误差的计算:MxxMjiji=1ri, 2 , 1=rxrMxxriiriMjij= =111RXXi22=122=rxxi=12RrRrx)(1011001011公斤=rxxrii)(78.111101061222公斤=rxxi)(081. 114401011078.1112公斤=RrRrx)(12. 2081. 196. 1公斤=z两阶段抽样两阶段抽样rxrmxxriirimjij 1=1=1=)1-(+)1-(=22RrRrMmMrmix课堂练习题:练习题: