《第五章大数定律和中心极限定理(共14页).doc》由会员分享,可在线阅读,更多相关《第五章大数定律和中心极限定理(共14页).doc(14页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、精选优质文档-倾情为你奉上第五章 大数定律和中心极限定理 大数定律和中心极限定理是概率论中两类极限定理的统称,前者是从理论上证明随机现象的“频率稳定性”,并进一步推广到“算术平均值法则”;而后者证明了独立随机变量标准化和的极限分布是正态分布或近似正态分布问题,这两类极限定理揭示了随机现象的重要统计规律,在理论和应用上都有很重要的意义。5.1 大数定律设是互相独立的一列随机变量,每个随机变量取值于二元集合0,1,并有相同的概率分布函数易计算它们的数学期望和方差为如果取这些的部分和并考虑它们的平均值,易知它的数学期望和方差为利用定理4.2.13给出的切比雪夫不等式可知:对任何一个正数有令,有即 (
2、5.1.1)可见当很大时,部分和的平均值与相距超过任何一个数的概率都很小,而当时, 这个概率趋于0。(5.1.1)式的结果称为弱大数定律,也称伯努利大数定律, 因为这个定律是伯努利在1713年首先证明的,是从理论上证明随机现象的频率具有稳定性的第一个定律。注意式(5.1.1)等价于 (5.1.2)把它完整地叙述如以下定理:定理5.1.1(伯努利大数定律) 设是互相独立的取值于二元集合0,1的一列随机变量,并有相同的概率分布函数又设 则 或等价地。伯努利大数定律说明了概率论中一个重要的事实,设是伯努利试验中事件出现的概率,则是重伯努利试验中事件发生的次数,是事件出现的相对频率,当很大时事件出现的
3、相对频率与事件出现的概率的偏差超过任何一个正数的可能性很小。“概率很小的随机事件在个别事件中是几乎不可能发生的”这一原理称为小概率事件的实际几乎不可能原理,有广泛的应用,至于“小概率”小到什么程度才能看作实际上几乎不可能发生,则要视具体情况而定。例如,自动车床加工零件出现次品的概率为0.01,若零件的重要性不大且价格很低,则完全允许有1%的次品率,可以忽视100个零件中出现一个次品的可能性。但对于飞机或更昂贵的航天器来说,出现次品的概率应当几乎为零,1%的次品率是绝对不允许的。伯努利大数定律提供了通过试验来确定事件的概率的方法。既然相对频率与事件出现的概率有较大偏差的可能性很小,因此在实践中可
4、以通过做试验确定某事件出现的相对频率作为该事件出现的概率的近似估计,这种方法称为参数估计,它是数理统计中的重要方法,它的一个重要理论基础就是大数定律。伯努利大数定律可以推广为以下形式的弱大数定律。定理5.1.2(弱大数定律) 设是互相独立的一列随机变量,并有相同的概率分布函数,它们公共的数学期望和方差为设,则则 (5.1.3)或等价地 。 (5.1.4)对任何成立。 该定理的证明可以利用定理4.2.13给出的切比雪夫不等式类似伯努利大数定律证之,把它留给读者。 本定律使算术平均值的法则有了理论依据,比如要测量某个物理量,在客观条件不变的情况下重复测量次,得到个测量值,显然可以把它们看作个独立同
5、分布的随机变量,有数学期望,由大数定律知,当充分大时,次测量的平均值可作为的近似估计,即由此所产生的误差很小。弱大数定律可以进一步推广为以下形式的切比雪夫大数定律。定理5.1.3(切比雪夫弱大数定律) 设是互相独立的一列随机变量,每一个随机变量都有数学期望和有限方差,并且它们有公共的上界,设,则对任何有 (5.1.5)或等价地 (5.1.6)证 因互相独立,所以又因为,由切比雪夫不等式可得令,有由俄国数学家切比雪夫证明的上述定律是关于大数定律的一个相当普遍的结论,前两个弱大数定律都是它的特例。弱大数定律涉及一列概率的收敛性,此种收敛称为依概率收敛,定义如下:定义5.1.4 设是互相独立的一列随
6、机变量,是一个常数,如果对任意正数,有 (5.1.7)或等价地 (5.1.8)则称序列依概率收敛于。依概率收敛的更一般的定义如下:定义5.1.5 (依概率收敛) 设是一列随机变量,是一个随机变量,如果对任意正数,有 (5.1.9)或等价地 (5.1.10)则称序列依概率收敛于。通常记为. 弱定律只涉及一列概率的收敛性,对应地一个强定律则给出了一列随机变量的极限情况,它涉及的收敛性为几乎处处收敛,或依概率1收敛,其定义如下:定义5.1.6 设是互相独立的一列随机变量,是一个常数,如果对任意正数,有 (5.1.11)或等价地 (5.1.12)则称序列几乎处处收敛于(或依概率1收敛于)。几乎处处收敛
7、的更一般的定义如下:定义5.1.7 (几乎处处收敛) 设是一列随机变量,是一个随机变量, 如果对任意正数,有 (5.1.13)或等价地 (5.1.14)则称序列几乎处处收敛于(或依概率1收敛于)。通常记为.注 几乎处处收敛的定义(5.1.13)和(5.1.14)与依概率收敛的定义中(5.1.9)和(5.1.10)形式上的区别是将极限号和概率符号交换了,但这却是本质上的区别,因为一般情况下是不能交换的。几乎处处收敛要强于依概率收敛,即若随机变量序列几乎处处收敛于,则必定也依概率收敛于。但反之不成立。在几乎处处收敛意义下的大数定律称为强大数定律,通常强定律的证明要比弱定律的证明困难得多,以下不给证
8、明地给出强大数定律。定理5.1.8(强大数定律) 设是互相独立同分布的一列随机变量,有数学期望和有限方差,设 ,则对任何有 (5.1.15)或等价地 (5.1.16)注意弱大数定律和强大数定律的区别不仅仅是一个法则的不同,不能简单地把极限号从概率号中移出来,这两个定律描述的是相当不同的事情,弱定律描述的是一列概率的收敛性,而强大数定律说的是一列随机变量收敛到一个常数。正是强大数定律最有力地保证了用事件出现的相对频率作为事件出现概率的估计的正确性。下面举一个信息论中应用的例子说明大数定律的重要性。定理5.1.9 设是互相独立同分布、取值于同一个有限字母集的一列随机变量,它们的公共分布记为,则依概
9、率收敛的意义下有其中 称为分布的熵,当式中对数是以2为底时,熵的单位为比特(bit),当式中对数是以e为底的自然对数时,熵的单位为奈特(nat)。证 设,由于是互相独立同分布,它们的函数也是互相独立同分布的随机变量,根据大数定律,依概率收敛到的数学期望这里用到了求随机变量函数数学期望的(4.1.3)式,由此定理得证。 这个定理称为熵定理, 在信息论和数据压缩中有重要应用。以上介绍了概率论中的两种重要的收敛性:依概率收敛和几乎处处收敛,下面再简要介绍概率论中另外两种常见的收敛性:依分布收敛和矩收敛。定义5.1.10(分布函数弱收敛) 设是一列分布函数,如果存在一个非降函数,对它的每个连续点,都有
10、则称分布函数列弱收敛于,记为.定义5.1.11(依分布收敛) 设随机变量序列和随机变量的分布分别为和,如果弱收敛于,则称依分布收敛于,记为.定义5.1.12(矩收敛) 设对随机变量序列和随机变量有其中为常数, 如果则称随机变量序列阶矩收敛于随机变量,.在阶矩收敛中最重要的是的情形,这时称为均方收敛。以上介绍了随机变量序列的4种收敛性,它们之间有什么关系呢,哪种强一些,哪种弱一些呢?下面用图5.1表示它们的关系: () 图5.1 随机变量序列的四种收敛性的关系其中“”表示由命题A可以推出命题B,上述逆命题一般不成立。此外在“阶矩收敛”和“几乎处处收敛”之间不存在确定的隐含关系。以上各种收敛性的关
11、系的证明以及逆命题不成立的例子已超出本书范围,读者可以参考有关的文献或教材。5.2 中心极限定理在5.1节中讨论的大数定律虽然证实了“频率的稳定性”,但并未给出独立随机变量和的分布是什么,而这正是本节要讨论的问题,这个问题就引出了概率论中最重要的一类定理称之为中心极限定理,这类定理有很多推广的或一般化的形式,这里只讨论其中一种适合于大多数应用情形的形式。为了描述问题,设是互相独立同分布的一列随机变量,有数学期望和有限方差,且每个的矩母函数在0点的一个邻域中都存在,考虑部分和,中心极限定理说明了当充分大时,无论各个的分布是什么,这个部分和的分布是近似正态的。显然这个结论是十分重要的,因为在概率统
12、计和实际应用中会经常遇到这种独立随机变量和的情形。为了严格地描述上述结论,考虑的标准化变量。因为,标准化后的随机变量 有数学期望0和方差1。定理5.2.1(中心极限定理) 设的分布函数为,则 (5.2.1)(右式即是标准正态分布的分布函数)。证 只给出证明的主要思路。设为标准化随机变量的矩母函数,则其中(i)是矩母函数的定义,(ii)利用泰勒展开,(iii)是因为标准化后的随机变量有数学期望0和方差1,(iv)右端的代表幂次为及以上的所有项的和(将公因子提出来)。在定理的假设条件下,在附近是连续有界的。现在设为的矩母函数,则利用们的独立性和数学期望的线性性可得对每个固定的,小于1,从而当时趋于
13、0;又因为当时,趋于,从而是有界的。因此当时,这项充分小,可以忽略不计,于是可以简记 (5.2.2)由微积分中众所周知的结果用于(5.2.2)式可得右式就是标准正态分布的矩母函数。 注意到在证明过程中用到了“当时,这项充分小,可以忽略不计”这个结论,事实上只要通过更精细但并不太困难的推导,可以得到这项的上界估计,这里把这个过程省略了。此外,也要注意为使中心极限定理成立,各个须满足的不太强的条件,即它们的矩母函数要存在,否则就不能保证结论的正确性。中心极限定理说明了当充分大时,无论各个的分布是什么,这个部分和的分布是近似正态的。为更直观地了解的极限分布趋于正态分布的情况,下面举一个例子。例5.2
14、.1 设是互相独立的一列随机变量,每个都服从上的均匀分布,易计算得它们的数学期望,方差D,考虑部分和,标准化后得,可以精确计算它的分布函数,图5.2显示了及时分布的图形,最初它的分布远不是正态的,但随着的增大而逐步趋向正态。的分布密度的分布密度的分布密度正态分布密度 图5.2 及时分布的图形定理5.2.2(棣美弗-拉普拉斯(DeMoivre-Laplace)定理) 设随机变量服从二项分布,则对于任意区间,恒有证 由于服从二项分布的随机变量可以看作个相互独立的、服从同一参数的两点分布的随机变量,即,其中,由定理5.2.1可得于是对于任意区间有 此定理表明,正态分布是二项分布的极限分布,当趋向无穷
15、时,服从二项分布的随机变量的概率计算可用正态分布的概率来近似。 例5.2.2 设有2500个同一年龄段和同一社会阶层的人参加了某保险公司的人寿保险,在一年中每个人死亡的概率为0.002,每个人在年初向保险公司交纳保费1200元,而在死亡时家属可以从保险公司领到元,问:(1)保险公司亏本的概率是多少?(2)保险公司获利不少于元的概率是多少?用两种方法来讨论此题,以便让读者体会中心极限定理的一些用途。解法一 通过二项分布的概率分布律求解,参见第二章例2.3.3.当然要算出上述概率的精确值是困难的,以下可以用中心极限定理计算它们的近似值。解法二 设表示2500人中死亡人数,则服从的二项分布,这时(1
16、) 由解法一知(保险公司亏本) =(多于15人死亡)(2)保险公司获利不少于元意味着, 则(保险公司获利不少于元)= (死亡人数不多于10) 注意,在以上的计算中用到了中心极限定理作近似估计,请读者自己体会是怎么用的。下面再举一个金融方面的例子。例5.2.3 银行为支付某日即将到期的债券须准备一笔现金,已知这批债券共发放了500张,每张须付本息1000元,设持券人(一人一券)到期日到银行领取本息的概率为0.4。问银行于该日应准备多少现金才能以99.9%的把握满足客户的兑换。解 设则该日到银行兑换的总人数为,所需资金为,为使银行能以99.9%的把握满足客户的兑换,即要求,使得。这里服从伯努利分布
17、,由中心极限定理知查表得。所以银行只须准备元就能以99.9%的把握满足客户的兑换。 例5.2.4 电视台作某节目收视率的调查,在每天节目播出时随机地向当地居民打电话,问是否在看电视,如在看电视,再问是否在看节目,设回答在看电视的居民数为,问为保证以95%的概率使调查误差在1%之内,应取多大?解 设为回答看电视的居民中在收看节目的人数,要估计的收视率设为,要求使略作变换可得其中是服从标准正态分布的随机变量,查表可得或者现在的问题是如何确定。定义函数则其导数,当时,易证这时达到最大值,即意味着,所以,取就足够了。 5.3 阅读材料:股票瞬时价格的分布 股票的价格运动有无规律性是金融中的一个基本问题
18、,股票价格的随机游动理论在金融数学中有着重要意义,它的基本思想是概率论思想应用的一个范例。以下简单作一介绍。 设某股票初始时刻的价格为,考察它在时段间的变化,将该时段分成长度为的等分,并记为在各小时段末股票的价格,即为在时刻股票的价格,则股票在时刻的对数收益率为 (5.3.1)或等价地 (5.3.2)可以表示为其中为股票在第个小时段的对数收益率,如果假设它们是独立同分布,有公共的均值和有限方差,由中心极限定理知,当充分大时,无论各个的分布是什么,它们的和的分布是近似正态的,更严格地说,考虑的标准化变量,由独立性假设可得,标准化后的随机变量近似地服从标准正态分布.通过在概率论中某种收敛意义下的极
19、限,极限服从正态分布,进而得到股票在时刻的瞬时价格由此可以得到结论:由(5.3.2)式知股票在时刻的瞬时价格本身不服从正态分布,但价格的对数服从正态分布,用连续时间金融的术语来说,就是服从(带漂移的)布朗运动,有兴趣的读者可以参考相关的文献。习 题 五1生产灯泡的合格率为0.6, 求10000个灯泡中合格灯泡数在5800到6200的概率。2某地区种植某种农作物,根据统计求得平均亩产是412斤,产量的均方差斤,估计亩产与412近的偏差不大于47斤的概率。3设供电站供应某地区10000户居民用电,各用户情况相互独立,已知每户用电量(单位:度)在0, 20上均匀分布,求:(1)这10000户居民每日
20、总用电量超过度的概率。(2)要有0.99的概率保证该地区居民供应电量的需要,问供电站每天至少需向该地区供应多少度电?4一个复杂系统由100个相互独立起作用的部件所组成,在整个运行期间每个部件损坏的概率为0.1,为使整个系统正常运行至少需要85个部件工作,求整个系统正常工作的概率。5抽样检查产品质量时,如果发现次品多于10个,则认为这批产品不能接受,应检查多少产品才能使次品率为10%的一批产品能被接受的概率达0.9。6设独立随机变量都服从参数为的泊松分布,试计算概率。7计算机在进行加法时,每个加数按四舍五入取为最为接近的整数,设每个加数的取整误差是互相独立的,它们都服从均匀分布,现有300个加数
21、相加,求误差总和绝对值超过15的概率。8某商店负责供应某地区1000人的某种商品,设该商品在一段时间内每人需用一件的概率为0.6,并假设这段时间内各人购买与否彼此无关,问商店应准备多少这种商品才能以99.7%的概率保证商品不脱销?9现有一大批种子,其中良种占1/6,今从中任意选6000粒,试问在这些种子中,良种所占的比例与1/6相差小于1%的概率是多少?10设某种集成电路出厂时一级品率为0.7,装配一台仪器需要100只一级品集成电路,问购置多少只才能以99.9%的概率保证装配该仪器时够用(不致因一级品不够而影响工作)?11某运输公司有500辆汽车参加保险,在一年里汽车出事故的概率为0.006,参加保险的汽车每年交保险费800元,若出事故保险公司最多赔偿50000元,试利用中心极限定理计算,保险公司一年赚钱不小于元的概率。专心-专注-专业