第四章统计数的分布优秀课件.ppt

上传人:石*** 文档编号:49401402 上传时间:2022-10-08 格式:PPT 页数:40 大小:3.79MB
返回 下载 相关 举报
第四章统计数的分布优秀课件.ppt_第1页
第1页 / 共40页
第四章统计数的分布优秀课件.ppt_第2页
第2页 / 共40页
点击查看更多>>
资源描述

《第四章统计数的分布优秀课件.ppt》由会员分享,可在线阅读,更多相关《第四章统计数的分布优秀课件.ppt(40页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第四章统计数的分布第1页,本讲稿共40页研究总体与从中抽取的样本之间的关系研究总体与从中抽取的样本之间的关系是统计学的中心内容。对这种关系的研是统计学的中心内容。对这种关系的研究可从两方面着手,究可从两方面着手,一是从总体到样本,这就是研究抽样一是从总体到样本,这就是研究抽样分布分布(sampling distribution)的问题;的问题;二是从样本到总体,这就是统计推断二是从样本到总体,这就是统计推断(statistical inference)问题。问题。第2页,本讲稿共40页 由总体中随机地抽取若干个体组成样本,由总体中随机地抽取若干个体组成样本,即使每次抽取的样本含量相等,其统计即

2、使每次抽取的样本含量相等,其统计量也将随样本的不同而有所不同。因而量也将随样本的不同而有所不同。因而样本统计量也是随机变量,也有其概率样本统计量也是随机变量,也有其概率分布,我们把统计量的概率分布称为抽分布,我们把统计量的概率分布称为抽样分布。样分布。第3页,本讲稿共40页一、抽样试验与无偏估计一、抽样试验与无偏估计抽样试验抽样试验由总体随机抽样由总体随机抽样(random sampling)的的方法可分为有方法可分为有返置抽样返置抽样和和不返置抽样不返置抽样两种。对于无限总体,返置与否都可两种。对于无限总体,返置与否都可保证各个体被抽到的机会相等。对于保证各个体被抽到的机会相等。对于有限总体

3、,就应该采取返置抽样,否有限总体,就应该采取返置抽样,否则各个体被抽到的机会就不相等。则各个体被抽到的机会就不相等。第4页,本讲稿共40页100份样本的均数和标准差份样本的均数和标准差第5页,本讲稿共40页 将这100份样本的均数看成新变量值,按第二章的频数分布方法,得到这100个样本均数得直方图见图4-1。随机抽样所得随机抽样所得随机抽样所得随机抽样所得100100个样本均数的分布个样本均数的分布个样本均数的分布个样本均数的分布第6页,本讲稿共40页 100个个样本均数的抽样分布特点:样本均数的抽样分布特点:100个个样样本本均均数数中中,各各样样本本均均数数间间存存在在差差异异,但但各样本

4、均数在总体均数周围波动。各样本均数在总体均数周围波动。样样本本均均数数的的分分布布曲曲线线为为中中间间高高,两两边边低低,左左右对称,近似服从正态分布。右对称,近似服从正态分布。第7页,本讲稿共40页无偏估计无偏估计在统计学上,如果所有可能样本的某在统计学上,如果所有可能样本的某一统计数的平均数等于总体的相应参一统计数的平均数等于总体的相应参数,则称该统计数为总体相应参数的数,则称该统计数为总体相应参数的无偏估计值。无偏估计值。第8页,本讲稿共40页设有一设有一N=3的近似正态总体,具有变量的近似正态总体,具有变量3,4,5;求得;求得=4,2=0.6667,=0.8165现以现以n=2作独立

5、的有回放抽样,总共得作独立的有回放抽样,总共得Nn=32=9个样本。个样本。抽样结果列入下表:抽样结果列入下表:第9页,本讲稿共40页N=3 n=2时抽样的平均数 方差 标准差样本编号 样本值平均数方差标准差1234567893,33,43,54,34,44,55,35,45,53.03.54.03.54.04.54.04.55.00.00.52.00.50.00.52.00.50.00.00000.70711.41420.70710.00000.70711.41420.70710.000036.06.05.6567第10页,本讲稿共40页从上表的资料可以求出从上表的资料可以求出:样本平均数的

6、平均数样本平均数的平均数x=4样本方差的平均数样本方差的平均数S2=0.6667=2样本标准差的平均数样本标准差的平均数S=0.62850.8165=所以,所以,惟有样本标准差惟有样本标准差s的平均数不是总的平均数不是总体标准差体标准差的无偏差估计值。的无偏差估计值。其余两个其余两个参数为无偏差估计值。参数为无偏差估计值。第11页,本讲稿共40页二、样本平均数抽样分布二、样本平均数抽样分布设有一个总体设有一个总体,总体平均数为,总体平均数为,方差方差为为2,总体中各变数为,总体中各变数为x,将,将 此总体称此总体称为原总体。现从这个总体中随机抽取含为原总体。现从这个总体中随机抽取含量为量为n的

7、样本,样本平均数记为的样本,样本平均数记为 。可。可以设想,从原总体中可抽出很多甚至以设想,从原总体中可抽出很多甚至无穷多个含量为无穷多个含量为n的样本。的样本。第12页,本讲稿共40页由这些样本算得的平均数与原总体平由这些样本算得的平均数与原总体平均数均数相比往往表现出不同程度的差异。相比往往表现出不同程度的差异。这种差异是由随机抽样造成的,称为抽这种差异是由随机抽样造成的,称为抽样误差样误差(sampling error)。显然,样本平均。显然,样本平均数也是一个随机变量,其概率分布叫做样数也是一个随机变量,其概率分布叫做样本平均数的抽样分布。本平均数的抽样分布。由样本平均数构成的总体称为

8、样本平均由样本平均数构成的总体称为样本平均数的抽样总体,其平均数和标准差分别记数的抽样总体,其平均数和标准差分别记为为 和和 。第13页,本讲稿共40页 是样本平均数抽样总体的标准差,是样本平均数抽样总体的标准差,简称标准误简称标准误(standard error),它表示平均,它表示平均数抽样误差的大小。统计学上已证明总体数抽样误差的大小。统计学上已证明总体的两个参数与的两个参数与x 总体的两个参数有如下总体的两个参数有如下关系:关系:第14页,本讲稿共40页即即样样本本均均数数的的标标准准差差,可可用用于于衡衡量量抽抽样样误误差差的的大小。大小。因通常未知,计算标准误采用下式:标准误标准误

9、(standard error,SE)通过增加样本含通过增加样本含量量n来降低抽样误来降低抽样误差。差。第15页,本讲稿共40页设有一个设有一个N=4的有限总体,变数为的有限总体,变数为2,3,3,4。根据。根据=xN和和2=(x-)2N求得求得该总体的该总体的、2、为:为:=3,2=12,=(1/2)1/2=0.707第16页,本讲稿共40页从有限总体作返置随机抽样,所有可能的从有限总体作返置随机抽样,所有可能的样本数为样本数为Nn其中其中n为样本含量为样本含量。以上述总。以上述总体而论,如果从中抽取体而论,如果从中抽取n=2的样本,共可的样本,共可得得 42=16 个样本;如果样本含量个样

10、本;如果样本含量n为为4,则,则一共可抽得一共可抽得44=256个样本。分别求这些样个样本。分别求这些样本的平均数本的平均数 ,其次数分布,其次数分布如下表如下表所示。所示。在在n=2的试验中,样本平均数抽样总体的平的试验中,样本平均数抽样总体的平均数、方差与标准差分别为:均数、方差与标准差分别为:因是返置式抽样,因此抽样因是返置式抽样,因此抽样4个个体组成一个样本,这个个个体组成一个样本,这个样本可能都为样本可能都为A或或B或这或这4个个个体和任意组合。个体和任意组合。第17页,本讲稿共40页 =4/16=1/4=(1/2)/2=2/n第18页,本讲稿共40页表 N=4,n=2和n=4时的次

11、数分布第19页,本讲稿共40页 同理,可得同理,可得n=4时:时:验证了验证了 的正确性。的正确性。也可以将表中两个样本平均数的抽样总也可以将表中两个样本平均数的抽样总体作次数分布图。体作次数分布图。第20页,本讲稿共40页由以上模拟抽样试验可以看出,虽然原总由以上模拟抽样试验可以看出,虽然原总体并非正态分布,但从中随机抽取样本,体并非正态分布,但从中随机抽取样本,即使样本含量很小,样本平均数的分布却即使样本含量很小,样本平均数的分布却趋向于正态分布形式。随着样本含量趋向于正态分布形式。随着样本含量 n 的的增大,样本平均数的分布愈来愈从不连续增大,样本平均数的分布愈来愈从不连续趋向于连续的正

12、态分布。当趋向于连续的正态分布。当n30时,时,的分布就近似正态分布了。的分布就近似正态分布了。X变量与变量与 变量概率分布间的关系可由下列两个定变量概率分布间的关系可由下列两个定理说明:理说明:第21页,本讲稿共40页1.若随机变量若随机变量x服从正态分布服从正态分布N(,2);x1、x2、xn,是由,是由x 总体得来的随机样本,则统计总体得来的随机样本,则统计量量 =xn的概率分布也是正态分布,且有的概率分布也是正态分布,且有 ,即服从正态分布即服从正态分布N(,2n)。2.若随机变量若随机变量x服从平均数是服从平均数是,方差是,方差是2的分的分布布(不是正态分布不是正态分布);x1、x2

13、、xn,是由此总,是由此总体得来的随机样本,则统计量体得来的随机样本,则统计量 =xn的概率的概率分布,当分布,当n相当大时逼近正态分布相当大时逼近正态分布N(,2n)。这就是这就是中心极限定理中心极限定理。第22页,本讲稿共40页中心极限定理告诉我们:不论中心极限定理告诉我们:不论x变量是变量是连续型还是离散型,也无论连续型还是离散型,也无论x服从何种分服从何种分布,一般只要布,一般只要n30,就可认为,就可认为 的分的分布是正态分布。若布是正态分布。若x的分布不很偏倚,的分布不很偏倚,在在n20时时,的分布就近似于正态分布的分布就近似于正态分布了。了。第23页,本讲稿共40页注意:注意:样

14、本标准差样本标准差与与样本标准误样本标准误是既有是既有联系又有区别的两个统计量。联系又有区别的两个统计量。二者的区别是样本标准差二者的区别是样本标准差S是反映样本中是反映样本中各观测值各观测值的的变异程度,它的大小说明了变异程度,它的大小说明了 对该样本代表性的强弱。对该样本代表性的强弱。样本标准误是样本平均数样本标准误是样本平均数 的标准差,它是抽样误差的估计值,其的标准差,它是抽样误差的估计值,其大小说明了样本大小说明了样本间间变异程度的大小及抽变异程度的大小及抽样精确性的高低。样精确性的高低。第24页,本讲稿共40页对于大样本资料,常将样本标准差对于大样本资料,常将样本标准差S与样与样本

15、平均数本平均数 配合使用,记为配合使用,记为 S,用以,用以说明所考察性状或指标的优良性与稳定性。说明所考察性状或指标的优良性与稳定性。对于小样本资料,常将样本标准误对于小样本资料,常将样本标准误 与与样本平均数样本平均数 配合使用,记为配合使用,记为 ,用以表示所考察性状或指标的优良性与用以表示所考察性状或指标的优良性与抽抽样误差样误差的大小。的大小。第25页,本讲稿共40页三、三、t 分布分布由样本平均数抽样分布的性质知道:由样本平均数抽样分布的性质知道:若若x-N(,2),则则 -N(,2/n)。将随机变将随机变量量 标准化得:标准化得:,则,则u-N(0,1)。当总体标准差当总体标准差

16、未知时,未知时,以样本标准差以样本标准差S代替代替所得到的统计量所得到的统计量 记为记为t。在计算在计算 时,由于采用时,由于采用S来代替来代替,使得,使得t 变量不再服从标准正态分布,而是服变量不再服从标准正态分布,而是服从从t分布分布(tdistribution)。它的概率分布。它的概率分布密度函数如下:密度函数如下:第26页,本讲稿共40页式中,式中,t的取值范围是(的取值范围是(-,+););df=n-1为自由度。为自由度。t 分布的平均数和标准差为:分布的平均数和标准差为:t0(df1),t 分布密度曲线,其特点是:分布密度曲线,其特点是:第27页,本讲稿共40页T 分布密度曲线第2

17、8页,本讲稿共40页t 分布分布 t t分分布布是是类类似似正正态态分分布布的的一一种种对对称称分分布布,它它通通常常要要比比正正态态分分布布平平坦坦和和分分散散。一一个个特特定定的的分分布布依依赖赖于于称称之之为为自自由由度度的的参参数数。随随着着自自由由度度的的增增大大,分分布布也也逐逐渐渐趋趋于于正正态分布。态分布。x x xt t 分布与标准正态分布的比较分布与标准正态分布的比较t t 分布分布标准正态分布标准正态分布t t不同自由度的不同自由度的t t分布分布标准正态分布标准正态分布t t(dfdf=13)=13)t t(dfdf=5)=5)z z第29页,本讲稿共40页1t 分布受

18、自由度的制约,每一个自由度分布受自由度的制约,每一个自由度都有一条都有一条t分布密度曲线。分布密度曲线。2、t分布密度曲线以纵轴为对称轴,左分布密度曲线以纵轴为对称轴,左右对称,且在右对称,且在t0时,分布密度函数取时,分布密度函数取得最大值。得最大值。3、与标准正态分布曲线相比,、与标准正态分布曲线相比,t分布曲分布曲线顶部略低,两尾部稍高而平。线顶部略低,两尾部稍高而平。df越小越小这种趋势越明显。这种趋势越明显。df越大,越大,t分布越趋近分布越趋近于标准正态分布。于标准正态分布。第30页,本讲稿共40页t分布的概率分布函数为:分布的概率分布函数为:因而因而t在区间在区间(t1,+)取值

19、的概率取值的概率(右尾概右尾概率率)为为1-F t(df)。由于。由于t分布左右对称,分布左右对称,t在在区间(区间(-,-t1)取值的概率也为)取值的概率也为1-F t(df)。于是于是t分布曲线下由分布曲线下由-到到-t 1和由和由t 1到到+两两个相等的概率之和个相等的概率之和(两尾概率两尾概率)为为2(1-F t(df)。对于不同自由度下对于不同自由度下t分布的两尾概率及其分布的两尾概率及其对应的临界对应的临界t值已编制成附表值已编制成附表4,即,即t分布分布表。表。第31页,本讲稿共40页当当df=15时,查附表时,查附表4得两尾概率等于得两尾概率等于0.05的临界的临界t值为值为=

20、2.131,其意义是:,其意义是:P(-t-2.131)=P(2.131t+)=0.025P(-t-2.131)+(2.131t+)=0.05由附表由附表4可知,当可知,当df一定时,概率一定时,概率P越大,越大,临界临界t值越小;概率值越小;概率P越小,临界越小,临界t值越大。值越大。当概率当概率P一定时,随着一定时,随着df的增加,临界的增加,临界t值值在减小,当在减小,当df=时,临界时,临界t值与标准正态值与标准正态分布的临界分布的临界u值相等。值相等。第32页,本讲稿共40页四、四、x2 分布分布假设从正态总体中抽取假设从正态总体中抽取k个独立样本个独立样本u12、u22、u32、u

21、k2,则定义它们的和为则定义它们的和为x2,(,(u为标准正态离差)为标准正态离差)x2具有自由度具有自由度df=n-1的连续型变量的分的连续型变量的分布布,不同的自由度的不同的自由度的x2分布曲线不同。分布曲线不同。附表附表4列出了各种自由度下的列出了各种自由度下的x2分布的一尾分布的一尾(右尾右尾)概率。例概率。例x0.052=5.99,x0.012=9.21。第33页,本讲稿共40页x2分布的特征:分布的特征:1x2分布于区间分布于区间0,+););2x2分布的偏斜度随自由度降低而增大,分布的偏斜度随自由度降低而增大,df=1时,曲线以纵轴为渐进线;时,曲线以纵轴为渐进线;3随自由度增大

22、随自由度增大x2分布曲线趋于左右对分布曲线趋于左右对称,当称,当df=30时,时,x2分布接近正态分布。分布接近正态分布。附表附表6为上侧临界值表。为上侧临界值表。第34页,本讲稿共40页x2 分布第35页,本讲稿共40页总体方差的区间估计(图示)2 22 2 2 22 21-1-1-1-2 22 2 总体方差总体方差总体方差总体方差总体方差总体方差1-21-21-21-21-21-2 的置信区间的置信区间的置信区间的置信区间的置信区间的置信区间自由度为自由度为自由度为自由度为n n-1-1的的的的 2 2 2 2对上侧临界值表而言对上侧临界值表而言对上侧临界值表而言对上侧临界值表而言第36页

23、,本讲稿共40页五、五、F 分布分布设从一正态总体设从一正态总体N(,2)中随机抽取样中随机抽取样本容量为本容量为n1和和 n2的两个独立样本,其样的两个独立样本,其样本方差为本方差为s12和和s22,则定义,则定义s12和和s22比值比值为为F。即。即 F=s12/s22此此F值具有值具有s12的自由度的自由度df1=n1-1和和s22的自的自由度由度df2=n2-1。如果对一个。如果对一个正态总体特正态总体特定的定的df1和和df2进行进行 一系列随机抽样,则一系列随机抽样,则可能的可能的F值构成一个值构成一个F分布。分布。第37页,本讲稿共40页F 分布的特征:分布的特征:1 1、F分布

24、平均数分布平均数F=1,F的取值区间的取值区间0,););2F分布曲线仅决定于分布曲线仅决定于df1和和df2。df1=1或或2时,曲线为反时,曲线为反J型;当型;当df13时,转为时,转为左偏型曲线。左偏型曲线。F分布概率查附表分布概率查附表7(上侧上侧),如,如df1=4,df2=10时,时,F0.05=3.48,F0.01=5.99,为所为所有有F值值大于大于3.48的概率为的概率为0.05,大于大于5.99的概率为的概率为0.01。第38页,本讲稿共40页F 分布第39页,本讲稿共40页小 结二项分布、泊松分布、正态分布:总体的二项分布、泊松分布、正态分布:总体的参数(个体概率)分布,可用来估计样本参数(个体概率)分布,可用来估计样本有关情况出现的机率有关情况出现的机率;t分布、卡方分布、分布、卡方分布、F分布:样本的统计数的分布:样本的统计数的分布,可用来推断总体参数。分布,可用来推断总体参数。第40页,本讲稿共40页

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 资格考试

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁