《第四章统计数的分布精选文档.ppt》由会员分享,可在线阅读,更多相关《第四章统计数的分布精选文档.ppt(40页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第四章统计数的分布本讲稿第一页,共四十页研究总体与从中抽取的样本之间的关系研究总体与从中抽取的样本之间的关系是统计学的中心内容。对这种关系的研是统计学的中心内容。对这种关系的研究可从两方面着手,究可从两方面着手,一是从总体到样本,这就是研究抽样分一是从总体到样本,这就是研究抽样分布布(sampling distribution)的问题;的问题;二是从样本到总体,这就是统计推断二是从样本到总体,这就是统计推断(statistical inference)问题。问题。本讲稿第二页,共四十页 由总体中随机地抽取若干个体组成样本,由总体中随机地抽取若干个体组成样本,即使每次抽取的样本含量相等,其统计量
2、即使每次抽取的样本含量相等,其统计量也将随样本的不同而有所不同。因而样本也将随样本的不同而有所不同。因而样本统计量也是随机变量,也有其概率分布,统计量也是随机变量,也有其概率分布,我们把统计量的概率分布称为抽样分布。我们把统计量的概率分布称为抽样分布。本讲稿第三页,共四十页一、抽样试验与无偏估计一、抽样试验与无偏估计抽样试验抽样试验由总体随机抽样由总体随机抽样(random sampling)的的方法可分为有方法可分为有返置抽样返置抽样和和不返置抽样不返置抽样两种。对于无限总体,返置与否都可保两种。对于无限总体,返置与否都可保证各个体被抽到的机会相等。对于有限证各个体被抽到的机会相等。对于有限
3、总体,就应该采取返置抽样,否则各个总体,就应该采取返置抽样,否则各个体被抽到的机会就不相等。体被抽到的机会就不相等。本讲稿第四页,共四十页100份样本的均数和标准差份样本的均数和标准差本讲稿第五页,共四十页 将这100份样本的均数看成新变量值,按第二章的频数分布方法,得到这100个样本均数得直方图见图4-1。随机抽样所得随机抽样所得随机抽样所得随机抽样所得100100个样本均数的分布个样本均数的分布个样本均数的分布个样本均数的分布本讲稿第六页,共四十页 100个个样本均数的抽样分布特点:样本均数的抽样分布特点:100个个样样本本均均数数中中,各各样样本本均均数数间间存存在在差差异异,但但各样本
4、均数在总体均数周围波动。各样本均数在总体均数周围波动。样样本本均均数数的的分分布布曲曲线线为为中中间间高高,两两边边低低,左左右右对称,近似服从正态分布。对称,近似服从正态分布。本讲稿第七页,共四十页无偏估计无偏估计在统计学上,如果所有可能样本的在统计学上,如果所有可能样本的某一统计数的平均数等于总体的相某一统计数的平均数等于总体的相应参数,则称该统计数为总体相应应参数,则称该统计数为总体相应参数的参数的无偏估计值。无偏估计值。本讲稿第八页,共四十页设有一设有一N=3的近似正态总体,具有变量的近似正态总体,具有变量3,4,5;求得;求得=4,2=0.6667,=0.8165现以现以n=2作独立
5、的有回放抽样,总共得作独立的有回放抽样,总共得Nn=32=9个样本。个样本。抽样结果列入下表:抽样结果列入下表:本讲稿第九页,共四十页N=3 n=2时抽样的平均数 方差 标准差样本编号样本值平均数方差标准差1234567893,33,43,54,34,44,55,35,45,53.03.54.03.54.04.54.04.55.00.00.52.00.50.00.52.00.50.00.00000.70711.41420.70710.00000.70711.41420.70710.000036.06.05.6567本讲稿第十页,共四十页从上表的资料可以求出从上表的资料可以求出:样本平均数的平均
6、数样本平均数的平均数x=4样本方差的平均数样本方差的平均数S2=0.6667=2样本标准差的平均数样本标准差的平均数S=0.62850.8165=所以,所以,惟有样本标准差惟有样本标准差s的平均数不是总的平均数不是总体标准差体标准差的无偏差估计值。的无偏差估计值。其余两个其余两个参数为无偏差估计值。参数为无偏差估计值。本讲稿第十一页,共四十页二、样本平均数抽样分布二、样本平均数抽样分布设有一个总体设有一个总体,总体平均数为,总体平均数为,方差方差为为2,总体中各变数为,总体中各变数为x,将,将 此总体称此总体称为原总体。现从这个总体中随机抽取含为原总体。现从这个总体中随机抽取含量为量为n的样本
7、,样本平均数记为的样本,样本平均数记为 。可。可以设想,从原总体中可抽出很多甚至以设想,从原总体中可抽出很多甚至无穷多个含量为无穷多个含量为n的样本。的样本。本讲稿第十二页,共四十页由这些样本算得的平均数与原总体平由这些样本算得的平均数与原总体平均数均数相比往往表现出不同程度的差异。相比往往表现出不同程度的差异。这种差异是由随机抽样造成的,称为抽这种差异是由随机抽样造成的,称为抽样误差样误差(sampling error)。显然,样本平均。显然,样本平均数也是一个随机变量,其概率分布叫做样数也是一个随机变量,其概率分布叫做样本平均数的抽样分布。本平均数的抽样分布。由样本平均数构成的总体称为样本
8、平均由样本平均数构成的总体称为样本平均数的抽样总体,其平均数和标准差分别记数的抽样总体,其平均数和标准差分别记为为 和和 。本讲稿第十三页,共四十页 是样本平均数抽样总体的标准差,是样本平均数抽样总体的标准差,简称标准误简称标准误(standard error),它表示平,它表示平均数抽样误差的大小。统计学上已证明总均数抽样误差的大小。统计学上已证明总体的两个参数与体的两个参数与x 总体的两个参数有如下总体的两个参数有如下关系:关系:本讲稿第十四页,共四十页即即样样本本均均数数的的标标准准差差,可可用用于于衡衡量量抽抽样样误误差差的的大小。大小。因通常未知,计算标准误采用下式:标准误标准误(s
9、tandard error,SE)通过增加样本含通过增加样本含量量n来降低抽样来降低抽样误差。误差。本讲稿第十五页,共四十页设有一个设有一个N=4的有限总体,变数为的有限总体,变数为2,3,3,4。根据。根据=xN和和2=(x-)2N求得求得该总体的该总体的、2、为:为:=3,2=12,=(1/2)1/2=0.707本讲稿第十六页,共四十页从有限总体作返置随机抽样,所有可能的从有限总体作返置随机抽样,所有可能的样本数为样本数为Nn其中其中n为样本含量为样本含量。以上述总。以上述总体而论,如果从中抽取体而论,如果从中抽取n=2的样本,共可的样本,共可得得 42=16 个样本;如果样本含量个样本;
10、如果样本含量n为为4,则,则一共可抽得一共可抽得44=256个样本。分别求这些样个样本。分别求这些样本的平均数本的平均数 ,其次数分布,其次数分布如下表如下表所示。所示。在在n=2的试验中,样本平均数抽样总体的的试验中,样本平均数抽样总体的平均数、方差与标准差分别为:平均数、方差与标准差分别为:因是返置式抽样,因此抽样因是返置式抽样,因此抽样4个个个体组成一个样本,这个样本可个体组成一个样本,这个样本可能都为能都为A或或B或这或这4个个体和任意个个体和任意组合。组合。本讲稿第十七页,共四十页 =4/16=1/4=(1/2)/2=2/n本讲稿第十八页,共四十页表 N=4,n=2和n=4时的次数分
11、布本讲稿第十九页,共四十页 同理,可得同理,可得n=4时:时:验证了验证了 的正确性。的正确性。也可以将表中两个样本平均数的抽样总也可以将表中两个样本平均数的抽样总体作次数分布图。体作次数分布图。本讲稿第二十页,共四十页由以上模拟抽样试验可以看出,虽然原总由以上模拟抽样试验可以看出,虽然原总体并非正态分布,但从中随机抽取样本,体并非正态分布,但从中随机抽取样本,即使样本含量很小,样本平均数的分布却即使样本含量很小,样本平均数的分布却趋向于正态分布形式。随着样本含量趋向于正态分布形式。随着样本含量 n 的的增大,样本平均数的分布愈来愈从不连续增大,样本平均数的分布愈来愈从不连续趋向于连续的正态分
12、布。当趋向于连续的正态分布。当n30时,时,的的分布就近似正态分布了。分布就近似正态分布了。X变量与变量与 变量变量概率分布间的关系可由下列两个定理说明:概率分布间的关系可由下列两个定理说明:本讲稿第二十一页,共四十页1.若随机变量若随机变量x服从正态分布服从正态分布N(,2);x1、x2、xn,是由,是由x 总体得来的随机样本,则统计量总体得来的随机样本,则统计量 =xn的概率分布也是正态分布,且有的概率分布也是正态分布,且有 ,即服从正态分布即服从正态分布N(,2n)。2.若随机变量若随机变量x服从平均数是服从平均数是,方差是,方差是2的分布的分布(不是正态分布不是正态分布);x1、x2、
13、xn,是由此总,是由此总体得来的随机样本,则统计量体得来的随机样本,则统计量 =xn的概的概率分布,当率分布,当n相当大时逼近正态分布相当大时逼近正态分布N(,2n)。这就是这就是中心极限定理中心极限定理。本讲稿第二十二页,共四十页中心极限定理告诉我们:不论中心极限定理告诉我们:不论x变量是变量是连续型还是离散型,也无论连续型还是离散型,也无论x服从何种服从何种分布,一般只要分布,一般只要n30,就可认为,就可认为 的的分布是正态分布。若分布是正态分布。若x的分布不很偏倚,的分布不很偏倚,在在n20时时,的分布就近似于正态分布的分布就近似于正态分布了。了。本讲稿第二十三页,共四十页注意:注意:
14、样本标准差样本标准差与与样本标准误样本标准误是既有是既有联系又有区别的两个统计量。联系又有区别的两个统计量。二者的区别是样本标准差二者的区别是样本标准差S是反映样本是反映样本中各观测值中各观测值的的变异程度,它的大小说明变异程度,它的大小说明了了 对该样本代表性的强弱。对该样本代表性的强弱。样本标准误是样本平均数样本标准误是样本平均数 的标准差,它是抽样误差的估计值,其的标准差,它是抽样误差的估计值,其大小说明了样本大小说明了样本间间变异程度的大小及抽变异程度的大小及抽样精确性的高低。样精确性的高低。本讲稿第二十四页,共四十页对于大样本资料,常将样本标准差对于大样本资料,常将样本标准差S与样与
15、样本平均数本平均数 配合使用,记为配合使用,记为 S,用以,用以说明所考察性状或指标的优良性与稳定说明所考察性状或指标的优良性与稳定性。性。对于小样本资料,常将样本标准误对于小样本资料,常将样本标准误 与样与样本平均数本平均数 配合使用,记为配合使用,记为 ,用以,用以表示所考察性状或指标的优良性与表示所考察性状或指标的优良性与抽样抽样误差误差的大小。的大小。本讲稿第二十五页,共四十页三、三、t 分布分布由样本平均数抽样分布的性质知道:由样本平均数抽样分布的性质知道:若若x-N(,2),则则 -N(,2/n)。将随机变将随机变量量 标准化得:标准化得:,则,则u-N(0,1)。当总体标准差当总
16、体标准差未知时,未知时,以样本标准差以样本标准差S代替代替所得到的统计量所得到的统计量 记为记为t。在计算在计算 时,由于采用时,由于采用S来代替来代替,使,使得得t 变量不再服从标准正态分布,而是服变量不再服从标准正态分布,而是服从从t分布分布(tdistribution)。它的概率分布。它的概率分布密度函数如下:密度函数如下:本讲稿第二十六页,共四十页式中,式中,t的取值范围是(的取值范围是(-,+););df=n-1为自由度。为自由度。t 分布的平均数和标准差为:分布的平均数和标准差为:t0(df1),t 分布密度曲线,其特点是:分布密度曲线,其特点是:本讲稿第二十七页,共四十页T 分布
17、密度曲线本讲稿第二十八页,共四十页t 分布分布 t t分分布布是是类类似似正正态态分分布布的的一一种种对对称称分分布布,它它通通常常要要比比正正态态分分布布平平坦坦和和分分散散。一一个个特特定定的的分分布布依依赖赖于于称称之之为为自自由由度度的的参参数数。随随着着自自由由度度的的增增大大,分分布布也也逐逐渐趋于正态分布。渐趋于正态分布。x x xt t 分布与标准正态分布的比较分布与标准正态分布的比较t t 分布分布标准正态分布标准正态分布t不同自由度的不同自由度的t t分布分布标准正态分布标准正态分布t t(dfdf=13)=13)t t(dfdf=5)=5)z z本讲稿第二十九页,共四十页
18、1t 分布受自由度的制约,每一个自由分布受自由度的制约,每一个自由度都有一条度都有一条t分布密度曲线。分布密度曲线。2、t分布密度曲线以纵轴为对称轴,左右分布密度曲线以纵轴为对称轴,左右对称,且在对称,且在t0时,分布密度函数取得时,分布密度函数取得最大值。最大值。3、与标准正态分布曲线相比,、与标准正态分布曲线相比,t分布曲分布曲线顶部略低,两尾部稍高而平。线顶部略低,两尾部稍高而平。df越小这越小这种趋势越明显。种趋势越明显。df越大,越大,t分布越趋近于分布越趋近于标准正态分布。标准正态分布。本讲稿第三十页,共四十页t分布的概率分布函数为:分布的概率分布函数为:因而因而t在区间在区间(t
19、1,+)取值的概率取值的概率(右尾概右尾概率率)为为1-F t(df)。由于。由于t分布左右对称,分布左右对称,t在区在区间(间(-,-t1)取值的概率也为)取值的概率也为1-F t(df)。于。于是是t分布曲线下由分布曲线下由-到到-t 1和由和由t 1到到+两两个相等的概率之和个相等的概率之和(两尾概率两尾概率)为为2(1-F t(df)。对于不同自由度下。对于不同自由度下t分布的两尾概率分布的两尾概率及其对应的临界及其对应的临界t值已编制成附表值已编制成附表4,即,即t分布表。分布表。本讲稿第三十一页,共四十页当当df=15时,查附表时,查附表4得两尾概率等于得两尾概率等于0.05的临界
20、的临界t值为值为=2.131,其意义是:,其意义是:P(-t-2.131)=P(2.131t+)=0.025P(-t-2.131)+(2.131t+)=0.05由附表由附表4可知,当可知,当df一定时,概率一定时,概率P越大,越大,临界临界t值越小;概率值越小;概率P越小,临界越小,临界t值越大。值越大。当概率当概率P一定时,随着一定时,随着df的增加,临界的增加,临界t值值在减小,当在减小,当df=时,临界时,临界t值与标准正态值与标准正态分布的临界分布的临界u值相等。值相等。本讲稿第三十二页,共四十页四、四、x2 分布分布假设从正态总体中抽取假设从正态总体中抽取k个独立样本个独立样本u12
21、、u22、u32、uk2,则定义它们的和为则定义它们的和为x2,(,(u为标准正态离差)为标准正态离差)x2具有自由度具有自由度df=n-1的连续型变量的分布的连续型变量的分布,不同的自由度的不同的自由度的x2分布曲线不同。分布曲线不同。附表附表4列出了各种自由度下的列出了各种自由度下的x2分布的一分布的一尾尾(右尾右尾)概率。例概率。例x0.052=5.99,x0.012=9.21。本讲稿第三十三页,共四十页x2分布的特征:分布的特征:1x2分布于区间分布于区间0,+););2x2分布的偏斜度随自由度降低而增大,分布的偏斜度随自由度降低而增大,df=1时,曲线以纵轴为渐进线;时,曲线以纵轴为
22、渐进线;3随自由度增大随自由度增大x2分布曲线趋于左右对分布曲线趋于左右对称,当称,当df=30时,时,x2分布接近正态分布。分布接近正态分布。附表附表6为上侧临界值表。为上侧临界值表。本讲稿第三十四页,共四十页x2 分布本讲稿第三十五页,共四十页总体方差的区间估计(图示)2 2 2 2 2 2 2 21-1-1-1-2 2 2 2 总体方差总体方差总体方差总体方差总体方差总体方差1-21-21-21-21-21-2 的置信区间的置信区间的置信区间的置信区间的置信区间的置信区间自由度为自由度为自由度为自由度为n n-1-1的的的的 2 2 2 2对上侧临界值表而言对上侧临界值表而言对上侧临界值
23、表而言对上侧临界值表而言本讲稿第三十六页,共四十页五、五、F 分布分布设从一正态总体设从一正态总体N(,2)中随机抽取样本中随机抽取样本容量为容量为n1和和 n2的两个独立样本,其样的两个独立样本,其样本方差为本方差为s12和和s22,则定义,则定义s12和和s22比值比值为为F。即。即 F=s12/s22此此F值具有值具有s12的自由度的自由度df1=n1-1和和s22的的自由度自由度df2=n2-1。如果对一个。如果对一个正态总体正态总体特定的特定的df1和和df2进行进行 一系列随机抽样,一系列随机抽样,则可能的则可能的F值构成一个值构成一个F分布。分布。本讲稿第三十七页,共四十页F 分
24、布的特征:分布的特征:1 1、F分布平均数分布平均数F=1,F的取值区间的取值区间0,););2F分布曲线仅决定于分布曲线仅决定于df1和和df2。df1=1或或2时,曲线为反时,曲线为反J型;当型;当df13时,转时,转为左偏型曲线。为左偏型曲线。F分布概率查附表分布概率查附表7(上侧上侧),如,如df1=4,df2=10时,时,F0.05=3.48,F0.01=5.99,为所为所有有F值值大于大于3.48的概率为的概率为0.05,大于大于5.99的概率为的概率为0.01。本讲稿第三十八页,共四十页F 分布本讲稿第三十九页,共四十页小 结二项分布、泊松分布、正态分布:总体的二项分布、泊松分布、正态分布:总体的参数(个体概率)分布,可用来估计样本参数(个体概率)分布,可用来估计样本有关情况出现的机率有关情况出现的机率;t分布、卡方分布、分布、卡方分布、F分布:样本的统计数的分布:样本的统计数的分布,可用来推断总体参数。分布,可用来推断总体参数。本讲稿第四十页,共四十页