《统计基础二:大数定律与中心极限定理.pptx》由会员分享,可在线阅读,更多相关《统计基础二:大数定律与中心极限定理.pptx(28页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、中心极限定理中心极限定理-1大数定律与中心极限定理大数定律与中心极限定理 中心极限定理中心极限定理-2独立同分布大数定律:设随机变量X1,X2,X3,Xn,相互独立,且具有相同的方差和期望:E(Xk)=,D(Xk)=2(k1,2,3,),作前n个随机变量的算术平均则对任意小的正数,有 该定律表明,当该定律表明,当n n足够大时,独立同分布的一系列随机变量的算术平足够大时,独立同分布的一系列随机变量的算术平均数接近(以概率收敛于)数学期望,即平均数具有稳定性。从而提供了均数接近(以概率收敛于)数学期望,即平均数具有稳定性。从而提供了用样本平均数估计总体平均数的理论依据。用样本平均数估计总体平均数
2、的理论依据。大数定律大数定律是阐述大量随机变量的平均结果具有稳定性的一系列定律的总称。是阐述大量随机变量的平均结果具有稳定性的一系列定律的总称。中心极限定理中心极限定理-3贝努利大数定律 设A在n重贝努利试验中发生 次,p=P(A),则对任何 0,有说明:贝努利大数定律是说,当n很大时,故可用事件发生的频率近似代替事件发生的概率。例1 设总体X服从参数为2的指数分布,为 来自总体X的简单随机样本,则当n时,依概率收敛于 。中心极限定理中心极限定理-4定义定义q中心极限定理中心极限定理是阐述大量随机变量之和的极限分布是正态分布的一系是阐述大量随机变量之和的极限分布是正态分布的一系列定理的总称。最
3、常用的有:列定理的总称。最常用的有:q独立同分布中心极限定理独立同分布中心极限定理:“随机变量随机变量x1,x2,独立,且服从同一分布,独立,且服从同一分布,若存在有限的数学期望若存在有限的数学期望E(xi)=u和方差和方差D(xi)=2,当当n时,随机变量的总和时,随机变量的总和xi趋于均值为趋于均值为nu,方差为,方差为n 2的正态分布。的正态分布。(即算术平均数(即算术平均数1/n xi=xbar趋于均值为趋于均值为u,方差为,方差为2/n的正态分布)的正态分布)”不论总体服从何种分布,只要它的数学期望和方差存在,不论总体服从何种分布,只要它的数学期望和方差存在,从中抽取容量为从中抽取容
4、量为n的样本,则这个样本的总和或平均数是随机变量,的样本,则这个样本的总和或平均数是随机变量,当当n充分大时,充分大时,xi或或 xbar趋于正态分布。趋于正态分布。中心极限定理中心极限定理-5定义定义q德莫佛德莫佛-拉普拉斯中心极限定理拉普拉斯中心极限定理:“如果用如果用X表示表示n次独立试验中事件次独立试验中事件A发生发生(“成功成功”)的次数,的次数,P是事件是事件A在每次在每次试验中发生的概率试验中发生的概率,则则X服从二项分布服从二项分布,B(n,p),当当n时,时,X趋于均值为趋于均值为np,方差为,方差为npq的正态分布。的正态分布。”正态分布和泊松分布都是二项分布的极限分布,正
5、态分布和泊松分布都是二项分布的极限分布,当当n足够大时,足够大时,可用正态分布近似计算可用正态分布近似计算;当当n足够大且足够大且p小时小时,可用泊松分布近似计算。可用泊松分布近似计算。q中心极限定理是一种十分重要的现象中心极限定理是一种十分重要的现象,它是统计学中应用的许多方法的它是统计学中应用的许多方法的理论基础的组成部分理论基础的组成部分(如如:计算样本均值的置信区间计算样本均值的置信区间)中心极限定理中心极限定理-6利用同样的数据画出两种不同的控制图利用同样的数据画出两种不同的控制图,并仔细比较它们的差异并仔细比较它们的差异:打开文件打开文件CENLIMIT.MTW.分别用下面的两个路
6、径画出个体图和子群大小为分别用下面的两个路径画出个体图和子群大小为5的均值图的均值图 个体图路径个体图路径 均值图路径均值图路径应用应用应用应用中心极限定理中心极限定理-7图形输出图形输出个体数据个体数据个体数据个体数据样本平均样本平均 仔细比较两个图上的控制上下线仔细比较两个图上的控制上下线(UCL和和LCL),有什么不同有什么不同?应用应用应用应用中心极限定理中心极限定理-8个体控制图和个体控制图和 X barX bar控制图的差异控制图的差异15100102030405060应用应用应用应用中心极限定理中心极限定理-9E平均值分布的标准偏差叫做平均值分布的标准偏差叫做 均值标准误差均值标
7、准误差均值标准误差均值标准误差 ,因而其定义为因而其定义为因而其定义为因而其定义为:E这个公式表明平均值比个体数据更稳定,稳定因子是样本数的平这个公式表明平均值比个体数据更稳定,稳定因子是样本数的平方根。方根。s sx=均值标准误差均值标准误差个体值的标准差个体值的标准差n=平均值的样本数平均值的样本数x均值的标准误差(Standard Error of the Mean)其中其中中心极限定理中心极限定理-10 我们经常依靠从测量系统中得到的一个数值来估计我们经常依靠从测量系统中得到的一个数值来估计输入输入或或输输出出变量的值变量的值。减小测量系统误差的简易方法就是把两个或更多的。减小测量系统
8、误差的简易方法就是把两个或更多的读数平均。读数平均。我们的测量系统的精密度自动增加,增加因子是平均值样本我们的测量系统的精密度自动增加,增加因子是平均值样本数的平方根数的平方根,如果我们要想使测量系统的误差减小一半,我们就需如果我们要想使测量系统的误差减小一半,我们就需要把要把4 4次的测量值平均才可以。次的测量值平均才可以。实际应用实际应用测量系统的改善测量系统的改善中心极限定理中心极限定理-11l当总体数据具备正态分布时当总体数据具备正态分布时中心极限定理理解例题模拟中心极限定理理解例题模拟-1l 假设你面前有一个大桶假设你面前有一个大桶,桶里面装有相当多数量的白色纸条桶里面装有相当多数量
9、的白色纸条,每张纸条上都写每张纸条上都写 有数字,且假定这些数字都来自一个具有特定平均值和标准偏差的正态分布有数字,且假定这些数字都来自一个具有特定平均值和标准偏差的正态分布.1)1)从中随机抽出从中随机抽出9 9张白色纸条张白色纸条,并把其上面的并把其上面的9 9个数字求平均个数字求平均,2)2)然后把这个平均值写在一张绿色纸条上然后把这个平均值写在一张绿色纸条上,3)3)把这把这9 9张白色纸条放回原来的桶里张白色纸条放回原来的桶里,4)4)把这张绿色纸条放入另外一个桶里把这张绿色纸条放入另外一个桶里,如此重复上面的步骤,直到盛有绿色纸条的桶放满为止。如此重复上面的步骤,直到盛有绿色纸条的
10、桶放满为止。l白色纸条代表总体的数据;白色纸条代表总体的数据;l绿色纸条代表平均值的样本;绿色纸条代表平均值的样本;l我们用我们用MINITABMINITAB来模拟做这个练习。来模拟做这个练习。中心极限定理中心极限定理-12:让我们用让我们用MINITABMINITAB产生一些模拟的数据来验证我们的理论。产生一些模拟的数据来验证我们的理论。:首先用首先用MINITABMINITAB产生产生9 9列各列各250250个数据,假设这些数据来自一个个数据,假设这些数据来自一个 平均值平均值=70=70、标准偏差标准偏差=9=9的正态分布的正态分布:则列则列C1-C9 C1-C9 代表白色纸条代表白色
11、纸条:然后求出各行然后求出各行9 9个数据的平均值,其结果放在列个数据的平均值,其结果放在列C10C10,则,则:C10C10代表绿色纸条。代表绿色纸条。:我们用描述统计的方法求出各列数据的平均和标准偏差。我们用描述统计的方法求出各列数据的平均和标准偏差。:仔细比较仔细比较C1-C9C1-C9列与列与C10C10列有什么差别?列有什么差别?例题例题1 1 中心极限定理应用模拟中心极限定理应用模拟中心极限定理中心极限定理-131、用、用MINITAB随机产生样本数据随机产生样本数据分别输入下列信息分别输入下列信息中心极限定理中心极限定理-142、样本平均数计算、样本平均数计算中心极限定理中心极限
12、定理-153、输出:产生、输出:产生10列数据列数据注意:每次每个人操作产生的数据都不一样注意:每次每个人操作产生的数据都不一样中心极限定理中心极限定理-164 4、描述统计路径、描述统计路径中心极限定理中心极限定理-175 5、描述统计结果比较、描述统计结果比较Variable N Mean SE Mean TrMean StDev MedianC1 250 69.218 0.592 69.116 9.364 68.803C2 250 69.649 0.573 69.610 9.059 69.204C3 250 70.354 0.548 70.290 8.672 69.870C4 250 7
13、1.108 0.577 71.120 9.125 70.722C5 250 70.398 0.542 70.402 8.574 70.105C6 250 70.650 0.534 70.772 8.442 70.483C7 250 70.161 0.551 70.293 8.713 70.216C8 250 70.377 0.550 70.238 8.698 70.397C9 250 69.872 0.580 69.925 9.173 70.145C10 250 70.199 0.187 70.187 2.955 70.29中心极限定理中心极限定理-185 5、描述统计结果比较(续)、描述统计
14、结果比较(续)Variable N Mean SE Mean TrMean StDev MedianC1 250 69.218 0.592 69.116 9.364 68.803C2 250 69.649 0.573 69.610 9.059 69.204C3 250 70.354 0.548 70.290 8.672 69.870C4 250 71.108 0.577 71.120 9.125 70.722C5 250 70.398 0.542 70.402 8.574 70.105C6 250 70.650 0.534 70.772 8.442 70.483C7 250 70.161 0.
15、551 70.293 8.713 70.216C8 250 70.377 0.550 70.238 8.698 70.397C9 250 69.872 0.580 69.925 9.173 70.145C10 250 70.199 0.187 70.187 2.955 70.29现在开始比较。现在开始比较。中心极限定理中心极限定理-19l样本的散布样本的散布(C C9)9)和样本平均的散布和样本平均的散布(C10)C10)进行比较。进行比较。散布散布减少了很多减少了很多.=9.173=2.9556 6、直方图直方图结果比较结果比较中心极限定理中心极限定理-20l用点图比较频度数用点图比较频度数
16、则则能够更明确的了解能够更明确的了解散布散布。7 7、点图点图结果比较结果比较中心极限定理中心极限定理-21F样本平均值分布的样本平均值分布的平均值平均值和总体的平均值十分接近和总体的平均值十分接近;F样本平均值分布的样本平均值分布的标准偏差标准偏差等于总体的标准偏差除以等于总体的标准偏差除以样本数的平方根样本数的平方根;F样本平均值的分布十分接近正态分布。样本平均值的分布十分接近正态分布。8 8、结论结论中心极限定理中心极限定理-22q 当总体数据是非正态分布时,若从中随机抽样当总体数据是非正态分布时,若从中随机抽样n n个并计算其平均,个并计算其平均,同样如此反复若干次,然后比较这些平均的
17、散布与这些个体值的同样如此反复若干次,然后比较这些平均的散布与这些个体值的 散布,你会发现,当散布,你会发现,当n n时,时,x-barx-bar的散布也具有正态分布。的散布也具有正态分布。q 为了验证为了验证,我们在非正态分布中随机选择一个偏移较大的分布我们在非正态分布中随机选择一个偏移较大的分布-“Chi-SquareChi-Square分布分布”,求其,求其x-barx-bar来体会一下中心极限定理。来体会一下中心极限定理。l当总体数据不具备正态分布时当总体数据不具备正态分布时中心极限定理理解例题模拟中心极限定理理解例题模拟-2中心极限定理中心极限定理-231 1、用、用Chi-Squa
18、reChi-Square分布随机产生分布随机产生9 9列,每列各有列,每列各有250250个数据个数据中心极限定理中心极限定理-242 2、用产生的数据进行、用产生的数据进行点图点图描绘和描绘和正态检验正态检验 在这里看到,这是一个很偏移的分布,在这里看到,这是一个很偏移的分布,我们用它来验证中心极限定理我们用它来验证中心极限定理中心极限定理中心极限定理-25C10 项是对项是对 C1C9 的平均值的数据统计,的平均值的数据统计,同样同样样本本大小为大小为 9,其散布明显变得小多了。其散布明显变得小多了。Variable N Mean SE Mean TrMean StDev MedianC1
19、 250 2.041 0.137 1.765 2.163 1.287C2 250 2.055 0.135 1.798 2.134 1.475C3 250 1.861 0.119 1.644 1.874 1.291C4 250 1.966 0.122 1.731 1.930 1.406C5 250 1.953 0.111 1.791 1.749 1.339C6 250 1.966 0.128 1.717 2.026 1.220C7 250 1.842 0.118 1.640 1.869 1.357C8 250 2.024 0.120 1.843 1.899 1.534C9 250 1.929 0
20、.132 1.682 2.085 1.156C10 250 1.9597 0.0431 1.9324 0.6813 1.88643 3、用产生的数据进行、用产生的数据进行描述统计描述统计比较比较 中心极限定理中心极限定理-26个体值的分布个体值的分布样本平均的分布样本平均的分布 4 4、点图点图描绘比较,验证中心极限定理描绘比较,验证中心极限定理中心极限定理中心极限定理-27个体值的概率图个体值的概率图 样本平均的分布样本平均的分布5 5、正态概率图正态概率图描绘比较,验证中心极限定理描绘比较,验证中心极限定理中心极限定理中心极限定理-2830201 001 098765432Sam ple nStan E rr标准误差和样本大小关系 标准误差与样本大小的关系标准误差与样本大小的关系