《第四章统计数的分布优秀PPT.ppt》由会员分享,可在线阅读,更多相关《第四章统计数的分布优秀PPT.ppt(40页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第四章统计数的分布第一页,本课件共有40页研究总体与从中抽取的样本之间的关研究总体与从中抽取的样本之间的关系是统计学的中心内容。对这种关系系是统计学的中心内容。对这种关系的研究可从两方面着手,的研究可从两方面着手,一是从总体到样本,这就是研究抽样一是从总体到样本,这就是研究抽样分布分布(sampling distribution)的问题;的问题;二是从样本到总体,这就是统计推断二是从样本到总体,这就是统计推断(statistical inference)问题。问题。第二页,本课件共有40页 由总体中随机地抽取若干个体组成样本,由总体中随机地抽取若干个体组成样本,即使每次抽取的样本含量相等,其统
2、计即使每次抽取的样本含量相等,其统计量也将随样本的不同而有所不同。因而量也将随样本的不同而有所不同。因而样本统计量也是随机变量,也有其概率样本统计量也是随机变量,也有其概率分布,我们把统计量的概率分布称为抽分布,我们把统计量的概率分布称为抽样分布。样分布。第三页,本课件共有40页一、抽样试验与无偏估计一、抽样试验与无偏估计抽样试验抽样试验由总体随机抽样由总体随机抽样(random sampling)的的方法可分为有方法可分为有返置抽样返置抽样和和不返置抽样不返置抽样两种。对于无限总体,返置与否都可两种。对于无限总体,返置与否都可保证各个体被抽到的机会相等。对于保证各个体被抽到的机会相等。对于有
3、限总体,就应该采取返置抽样,否有限总体,就应该采取返置抽样,否则各个体被抽到的机会就不相等。则各个体被抽到的机会就不相等。第四页,本课件共有40页100份样本的均数和标准差份样本的均数和标准差第五页,本课件共有40页 将这100份样本的均数看成新变量值,按第二章的频数分布方法,得到这100个样本均数得直方图见图4-1。随机抽样所得随机抽样所得随机抽样所得随机抽样所得100100个样本均数的分布个样本均数的分布个样本均数的分布个样本均数的分布第六页,本课件共有40页 100个个样本均数的抽样分布特点:样本均数的抽样分布特点:100个个样样本本均均数数中中,各各样样本本均均数数间间存存在在差差异异
4、,但但各样本均数在总体均数周围波动。各样本均数在总体均数周围波动。样样本本均均数数的的分分布布曲曲线线为为中中间间高高,两两边边低低,左左右对称,近似服从正态分布。右对称,近似服从正态分布。第七页,本课件共有40页无偏估计无偏估计在统计学上,如果所有可能样本的某在统计学上,如果所有可能样本的某一统计数的平均数等于总体的相应参一统计数的平均数等于总体的相应参数,则称该统计数为总体相应参数的数,则称该统计数为总体相应参数的无偏估计值。无偏估计值。第八页,本课件共有40页设有一设有一N=3的近似正态总体,具有变的近似正态总体,具有变量量3,4,5;求得;求得=4,2=0.6667,=0.8165现以
5、现以n=2作独立的有回放抽样,总共作独立的有回放抽样,总共得得Nn=32=9个样本。个样本。抽样结果列入下表:抽样结果列入下表:第九页,本课件共有40页N=3 n=2时抽样的平均数 方差 标准差样本编号样本值平均数方差标准差1234567893,33,43,54,34,44,55,35,45,53.03.54.03.54.04.54.04.55.00.00.52.00.50.00.52.00.50.00.00000.70711.41420.70710.00000.70711.41420.70710.000036.06.05.6567第十页,本课件共有40页从上表的资料可以求出从上表的资料可以求
6、出:样本平均数的平均数样本平均数的平均数x=4样本方差的平均数样本方差的平均数S2=0.6667=2样本标准差的平均数样本标准差的平均数S=0.62850.8165=所以,所以,惟有样本标准差惟有样本标准差s的平均数不是的平均数不是总体标准差总体标准差的无偏差估计值。的无偏差估计值。其余两其余两个参数为无偏差估计值。个参数为无偏差估计值。第十一页,本课件共有40页二、样本平均数抽样分布二、样本平均数抽样分布设有一个总体设有一个总体,总体平均数为,总体平均数为,方方差为差为2,总体中各变数为,总体中各变数为x,将,将 此总体此总体称为原总体。现从这个总体中随机抽取称为原总体。现从这个总体中随机抽
7、取含量为含量为n的样本,样本平均数记为的样本,样本平均数记为 。可以设想,从原总体中可抽出很。可以设想,从原总体中可抽出很多甚至无穷多个含量为多甚至无穷多个含量为n的样本。的样本。第十二页,本课件共有40页由这些样本算得的平均数与原总体平均由这些样本算得的平均数与原总体平均数数相比往往表现出不同程度的差异。这相比往往表现出不同程度的差异。这种差异是由随机抽样造成的,称为抽样误种差异是由随机抽样造成的,称为抽样误差差(sampling error)。显然,样本平均数。显然,样本平均数也是一个随机变量,其概率分布叫做也是一个随机变量,其概率分布叫做样本平均数的抽样分布。样本平均数的抽样分布。由样本
8、平均数构成的总体称为样本平均由样本平均数构成的总体称为样本平均数的抽样总体,其平均数和标准差分别记数的抽样总体,其平均数和标准差分别记为为 和和 。第十三页,本课件共有40页 是样本平均数抽样总体的标准差,是样本平均数抽样总体的标准差,简称标准误简称标准误(standard error),它表示平,它表示平均数抽样误差的大小。统计学上已证明均数抽样误差的大小。统计学上已证明总体的两个参数与总体的两个参数与x 总体的两个参数有总体的两个参数有如下关系:如下关系:第十四页,本课件共有40页即即样样本本均均数数的的标标准准差差,可可用用于于衡衡量量抽抽样样误误差差的的大小。大小。因通常未知,计算标准
9、误采用下式:标准误标准误(standard error,SE)通过增加样本通过增加样本含量含量n来降低抽来降低抽样误差。样误差。第十五页,本课件共有40页设有一个设有一个N=4的有限总体,变数为的有限总体,变数为2,3,3,4。根据。根据=xN和和2=(x-)2N求得该总体的求得该总体的、2、为:为:=3,2=12,=(1/2)1/2=0.707第十六页,本课件共有40页从有限总体作返置随机抽样,所有可能的从有限总体作返置随机抽样,所有可能的样本数为样本数为Nn其中其中n为样本含量为样本含量。以上述。以上述总体而论,如果从中抽取总体而论,如果从中抽取n=2的样本,的样本,共可得共可得 42=1
10、6 个样本;如果样本含量个样本;如果样本含量n为为4,则一共可抽得,则一共可抽得44=256个样本。分别求这个样本。分别求这些样本的平均数些样本的平均数 ,其次数分布,其次数分布如下表如下表所所示。示。在在n=2的试验中,样本平均数抽样总体的的试验中,样本平均数抽样总体的平均数、方差与标准差分别为:平均数、方差与标准差分别为:因是返置式抽样,因此抽样因是返置式抽样,因此抽样4个个个体组成一个样本,这个样本可个体组成一个样本,这个样本可能都为能都为A或或B或这或这4个个体和任意个个体和任意组合。组合。第十七页,本课件共有40页 =4/16=1/4=(1/2)/2=2/n第十八页,本课件共有40页
11、表 N=4,n=2和n=4时的次数分布第十九页,本课件共有40页 同理,可得同理,可得n=4时:时:验证了验证了 的正确性。的正确性。也可以将表中两个样本平均数的抽样总也可以将表中两个样本平均数的抽样总体作次数分布图。体作次数分布图。第二十页,本课件共有40页由以上模拟抽样试验可以看出,虽然原总由以上模拟抽样试验可以看出,虽然原总体并非正态分布,但从中随机抽取样本,体并非正态分布,但从中随机抽取样本,即使样本含量很小,样本平均数的分布却即使样本含量很小,样本平均数的分布却趋向于正态分布形式。随着样本含量趋向于正态分布形式。随着样本含量 n 的增大,样本平均数的分布愈来愈从不的增大,样本平均数的
12、分布愈来愈从不连续趋向于连续的正态分布。当连续趋向于连续的正态分布。当n30时,时,的分布就近似正态分布了。的分布就近似正态分布了。X变量变量与与 变量概率分布间的关系可由下列两个变量概率分布间的关系可由下列两个定理说明:定理说明:第二十一页,本课件共有40页1.若随机变量若随机变量x服从正态分布服从正态分布N(,2);x1、x2、xn,是由,是由x 总体得来的随机样本,则统计总体得来的随机样本,则统计量量 =xn的概率分布也是正态分布,且有的概率分布也是正态分布,且有 ,即服从正态分布即服从正态分布N(,2n)。2.若随机变量若随机变量x服从平均数是服从平均数是,方差是,方差是2的的分布分布
13、(不是正态分布不是正态分布);x1、x2、xn,是由,是由此总体得来的随机样本,则统计量此总体得来的随机样本,则统计量 =xn的概率分布,当的概率分布,当n相当大时逼近正态分布相当大时逼近正态分布N(,2n)。这就是。这就是中心极限定理中心极限定理。第二十二页,本课件共有40页中心极限定理告诉我们:不论中心极限定理告诉我们:不论x变量是连变量是连续型还是离散型,也无论续型还是离散型,也无论x服从何种分布,服从何种分布,一般只要一般只要n30,就可认为,就可认为 的分布是的分布是正态分布。若正态分布。若x的分布不很偏倚,在的分布不很偏倚,在n20时时,的分布就近似于正态分布了。的分布就近似于正态
14、分布了。第二十三页,本课件共有40页注意:注意:样本标准差样本标准差与与样本标准误样本标准误是既有是既有联系又有区别的两个统计量。联系又有区别的两个统计量。二者的区别是样本标准差二者的区别是样本标准差S是反映样本是反映样本中各观测值中各观测值的的变异程度,它的大小说明变异程度,它的大小说明了了 对该样本代表性的强弱。对该样本代表性的强弱。样本标准误是样本平均数样本标准误是样本平均数 的标准差,它是抽样误差的估计值,其的标准差,它是抽样误差的估计值,其大小说明了样本大小说明了样本间间变异程度的大小及抽变异程度的大小及抽样精确性的高低。样精确性的高低。第二十四页,本课件共有40页对于大样本资料,常
15、将样本标准差对于大样本资料,常将样本标准差S与与样本平均数样本平均数 配合使用,记为配合使用,记为 S,用,用以说明所考察性状或指标的优良性与以说明所考察性状或指标的优良性与稳定性。稳定性。对于小样本资料,常将样本标准误对于小样本资料,常将样本标准误 与与样本平均数样本平均数 配合使用,记为配合使用,记为 ,用以表示所考察性状或指标的优良性用以表示所考察性状或指标的优良性与与抽样误差抽样误差的大小。的大小。第二十五页,本课件共有40页三、三、t 分布分布由样本平均数抽样分布的性质知道:由样本平均数抽样分布的性质知道:若若x-N(,2),则则 -N(,2/n)。将随将随机变量机变量 标准化得:标
16、准化得:,则,则u-N(0,1)。当总体标准差当总体标准差未知时,未知时,以样以样本标准差本标准差S代替代替所得到的统计量所得到的统计量 记为记为t。在计算。在计算 时,由于采用时,由于采用S来代来代替替,使得,使得t 变量不再服从标准正态分变量不再服从标准正态分布,而是服从布,而是服从t分布分布(tdistribution)。它的概率分布密度函数如下:它的概率分布密度函数如下:第二十六页,本课件共有40页式中,式中,t的取值范围是(的取值范围是(-,+););df=n-1为自由度。为自由度。t 分布的平均数和标准差为:分布的平均数和标准差为:t0(df1),t 分布密度曲线,其特点是:分布密
17、度曲线,其特点是:第二十七页,本课件共有40页T 分布密度曲线第二十八页,本课件共有40页t 分布分布 t t分分布布是是类类似似正正态态分分布布的的一一种种对对称称分分布布,它它通通常常要要比比正正态态分分布布平平坦坦和和分分散散。一一个个特特定定的的分分布布依依赖赖于于称称之之为为自自由由度度的的参参数数。随随着着自自由由度度的的增增大,分布也逐渐趋于正态分布。大,分布也逐渐趋于正态分布。x x xt t 分布与标准正态分布的比较分布与标准正态分布的比较t t 分布分布标准正态分布标准正态分布t不同自由度的不同自由度的t t分布分布标准正态分布标准正态分布t t(dfdf=13)=13)t
18、 t(dfdf=5)=5)z z第二十九页,本课件共有40页1t 分布受自由度的制约,每一个自由分布受自由度的制约,每一个自由度都有一条度都有一条t分布密度曲线。分布密度曲线。2、t分布密度曲线以纵轴为对称轴,左右分布密度曲线以纵轴为对称轴,左右对称,且在对称,且在t0时,分布密度函数取得时,分布密度函数取得最大值。最大值。3、与标准正态分布曲线相比,、与标准正态分布曲线相比,t分布曲分布曲线顶部略低,两尾部稍高而平。线顶部略低,两尾部稍高而平。df越小越小这种趋势越明显。这种趋势越明显。df越大,越大,t分布越趋近分布越趋近于标准正态分布。于标准正态分布。第三十页,本课件共有40页t分布的概
19、率分布函数为:分布的概率分布函数为:因而因而t在区间在区间(t1,+)取值的概率取值的概率(右尾概右尾概率率)为为1-F t(df)。由于。由于t分布左右对称,分布左右对称,t在在区间(区间(-,-t1)取值的概率也为)取值的概率也为1-F t(df)。于是于是t分布曲线下由分布曲线下由-到到-t 1和由和由t 1到到+两个相等的概率之和两个相等的概率之和(两尾概率两尾概率)为为2(1-F t(df)。对于不同自由度下。对于不同自由度下t分布的两尾概分布的两尾概率及其对应的临界率及其对应的临界t值已编制成附表值已编制成附表4,即即t分布表。分布表。第三十一页,本课件共有40页当当df=15时,
20、查附表时,查附表4得两尾概率等于得两尾概率等于0.05的临界的临界t值为值为=2.131,其意义是:,其意义是:P(-t-2.131)=P(2.131t+)=0.025P(-t-2.131)+(2.131t+)=0.05由附表由附表4可知,当可知,当df一定时,概率一定时,概率P越大,越大,临界临界t值越小;概率值越小;概率P越小,临界越小,临界t值越大。值越大。当概率当概率P一定时,随着一定时,随着df的增加,临界的增加,临界t值在减小,当值在减小,当df=时,临界时,临界t值与标准正值与标准正态分布的临界态分布的临界u值相等。值相等。第三十二页,本课件共有40页四、四、x2 分布分布假设从
21、正态总体中抽取假设从正态总体中抽取k个独立样本个独立样本u12、u22、u32、uk2,则定义它们的和则定义它们的和为为x2,(,(u为标准正态离差)为标准正态离差)x2具有自由度具有自由度df=n-1的连续型变量的分的连续型变量的分布布,不同的自由度的不同的自由度的x2分布曲线不同。分布曲线不同。附表附表4列出了各种自由度下的列出了各种自由度下的x2分布的分布的一尾一尾(右尾右尾)概率。例概率。例x0.052=5.99,x0.012=9.21。第三十三页,本课件共有40页x2分布的特征:分布的特征:1x2分布于区间分布于区间0,+););2x2分布的偏斜度随自由度降低而增分布的偏斜度随自由度
22、降低而增大,大,df=1时,曲线以纵轴为渐进线;时,曲线以纵轴为渐进线;3随自由度增大随自由度增大x2分布曲线趋于左右对分布曲线趋于左右对称,当称,当df=30时,时,x2分布接近正态分布。分布接近正态分布。附表附表6为上侧临界值表。为上侧临界值表。第三十四页,本课件共有40页x2 分布第三十五页,本课件共有40页总体方差的区间估计(图示)2 2 2 2 2 2 2 21-1-1-1-2 2 2 2 总体方差总体方差总体方差总体方差总体方差总体方差1-21-21-21-21-21-2 的置信区间的置信区间的置信区间的置信区间的置信区间的置信区间自由度为自由度为自由度为自由度为n n-1-1的的
23、的的 2 2 2 2对上侧临界值表而言对上侧临界值表而言对上侧临界值表而言对上侧临界值表而言第三十六页,本课件共有40页五、五、F 分布分布设从一正态总体设从一正态总体N(,2)中随机抽取样中随机抽取样本容量为本容量为n1和和 n2的两个独立样本,其的两个独立样本,其样本方差为样本方差为s12和和s22,则定义,则定义s12和和s22比比值为值为F。即。即 F=s12/s22此此F值具有值具有s12的自由度的自由度df1=n1-1和和s22的的自由度自由度df2=n2-1。如果对一个。如果对一个正态总正态总体特定的体特定的df1和和df2进行进行 一系列随机抽一系列随机抽样,则可能的样,则可能
24、的F值构成一个值构成一个F分布。分布。第三十七页,本课件共有40页F 分布的特征:分布的特征:1 1、F分布平均数分布平均数F=1,F的取值区间的取值区间0,););2F分布曲线仅决定于分布曲线仅决定于df1和和df2。df1=1或或2时,曲线为反时,曲线为反J型;当型;当df13时,转时,转为左偏型曲线。为左偏型曲线。F分布概率查附表分布概率查附表7(上侧上侧),如,如df1=4,df2=10时,时,F0.05=3.48,F0.01=5.99,为为所有所有F值值大于大于3.48的概率为的概率为0.05,大于大于5.99的概率为的概率为0.01。第三十八页,本课件共有40页F 分布第三十九页,本课件共有40页小 结二项分布、泊松分布、正态分布:总体的参二项分布、泊松分布、正态分布:总体的参数(个体概率)分布,可用来估计样本有数(个体概率)分布,可用来估计样本有关情况出现的机率关情况出现的机率;t分布、卡方分布、分布、卡方分布、F分布:样本的统计数的分布:样本的统计数的分布,可用来推断总体参数。分布,可用来推断总体参数。第四十页,本课件共有40页