《第三章-概率与概率分布要点课件.ppt》由会员分享,可在线阅读,更多相关《第三章-概率与概率分布要点课件.ppt(108页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、概 率概率分布与第 三 章第一节:概率基础知识一、概率的概念一、概率的概念二、概率的计算二、概率的计算三、概率的分布三、概率的分布四、大数定律四、大数定律(一)事件定义:在一定条件下,某种事物出现与否就称为是事件。u 确定性事件必然事件(U)(certain event)不可能事件(V)(impossible event)一、概率基本概念u 随机事件:在一定条件下,可能出现也可能不出现的现象,叫随机事件。为了研究随机现象,需要进行大量重复的调查、实验、测试等,这些统称为试验。(二)频率(二)频率(frequency)若在相同的条件下,进行了若在相同的条件下,进行了n次试验,在这次试验,在这n次
2、次试验中,事件试验中,事件A出现的次数出现的次数m称为事件称为事件A出现的频出现的频数,比值数,比值m/n称为事件称为事件A出现的频率出现的频率(frequency),记为记为W(A)=m/n。0W(A)1 P(A)=p=lim 在一般情况下,随机事件的概率在一般情况下,随机事件的概率P是不可能准确得到是不可能准确得到的。通常以试验次数的。通常以试验次数n充分大时,随机事件充分大时,随机事件A的频率的频率作为该随机事件概率的作为该随机事件概率的近似值近似值。mnmn(三)概率(三)概率(probability,P)统计定义:设在相同的条件下,进行大量重复试统计定义:设在相同的条件下,进行大量重
3、复试验,若事件验,若事件A的频率稳定地在某一确定值的频率稳定地在某一确定值p的附近的附近摆动,则称摆动,则称p为事件为事件A出现的概率。出现的概率。0P(A)10P(A)1 任何事件任何事件P(U)=1P(U)=1 必然事件必然事件P(V)P(V)0 0 不可能事件不可能事件 随机随机事件事件0P(A)10P(A)1 二、概率的计算(一)事件的相互关系(一)事件的相互关系和事件和事件积事件积事件互斥事件互斥事件对立事件对立事件独立事件独立事件完全事件系完全事件系1 和事件和事件事件事件A和事件和事件B中至少有一个发生而构成的新中至少有一个发生而构成的新事件称为事件事件称为事件A和事件和事件B的
4、和事件,记作的和事件,记作A+B。n个事件的和,可表示为个事件的和,可表示为A1+A2+An例如测定棉花的纤维长度,以28毫米为事件A,28至30毫米为事件B,则抽取一根30毫米的这一新事件为AB。2 积事件积事件事件事件A和事件和事件B中同时发生而构成的新事件称中同时发生而构成的新事件称为事件为事件A和事件和事件B的积事件,记作的积事件,记作AB。n个事件的积,可表示为个事件的积,可表示为A1 A2 An例如某小麦品种,以发生锈病为事件A,发生白粉病为事件B,则锈病和白粉病同时发生这一新事件为AB。3 互斥事件(互不相容事件)互斥事件(互不相容事件)事件事件A和事件和事件B不能同时发生,则称
5、这两个事不能同时发生,则称这两个事件件A和和B互不相容或互斥。互不相容或互斥。n个事件两两互不相容,则称这个事件两两互不相容,则称这n个事件互斥。个事件互斥。例如棉花纤维长度“28毫米”和“等于28毫米”不可能同时发生,为互斥事件。4 对立事件对立事件事件事件A和事件和事件B必有一个发生,但二者不能同必有一个发生,但二者不能同时发生,且时发生,且A和和B的和事件组成整个样本空间。的和事件组成整个样本空间。即即A+B=U,AB=V。我们称事件。我们称事件B为事件为事件A的的对立事件。对立事件。B=A种子的发芽与不发芽;新生婴儿的性别;5 独立事件独立事件事件事件A和事件和事件B的发生无关,事件的
6、发生无关,事件B的发生与的发生与事件事件A的发生无关,则事件的发生无关,则事件A和事件和事件B为独立为独立事件。事件。如果多个事件如果多个事件A1、A2、A3、An 彼此独立,彼此独立,则称之为独立事件群。则称之为独立事件群。例如,事件A为“花的颜色为黄色”,事件B为“产量高”,显然如果花的颜色与产量无关,则事件A和B相互独立。6完全事件系完全事件系如果多个事件如果多个事件A1、A2、A3、An两两互斥,两两互斥,且每次试验结果必然发生其一,则称事件且每次试验结果必然发生其一,则称事件A1、A2、A3、An为完全事件系。为完全事件系。完全事件系的和事件概率为,任何一个事完全事件系的和事件概率为
7、,任何一个事件发生的概率为件发生的概率为1/n。即:。即:P(A1A2An)例如对于棉花纤维长度,28毫米、28毫米和30毫米、30毫米均构成了完全事件系。(二)概率的计算法则(二)概率的计算法则1 互斥事件加法定理互斥事件加法定理定理定理:若事件若事件A与与B互斥,则互斥,则 P(A+B)=P(A)+P(B)试验的全部结果包含试验的全部结果包含n个基本事件,事件个基本事件,事件A包含其中包含其中m1个个基本事件,事件基本事件,事件B包含其中包含其中m2个基本事件。由于个基本事件。由于A和和B互斥,互斥,因而它们各包含的基本事件应该完全不同。所以事件因而它们各包含的基本事件应该完全不同。所以事
8、件AB所所包含的基本事件数为包含的基本事件数为m1+m2。P(A+B)=m1/n+m2/n=P(A)+P(B)1 互斥事件加法定理互斥事件加法定理推理推理1 P(A1+A2+An)=P(A1)+P(A2)+P(An)推理推理2 P(A)=1-P(A)推理推理3 完全事件系的和事件的概率为完全事件系的和事件的概率为1。1 互斥事件加法定理互斥事件加法定理例:玉米田中,一穗株(A)占67.2%,双穗株(B)占30.7%,空 穗株(C)占2.1%,试计算一穗株和双穗株的概率。P(A+B)=P(A)+P(B)=0.672+0.307=0.979因为P(A)+P(B)+P(C)=1 P(A+B)=1-P
9、(C)=1-0.021=0.9792 独立事件乘法定理独立事件乘法定理定理定理:事件事件A和事件和事件B为独立事件,则事件为独立事件,则事件A与事与事件件B同时发生的概率为各自概率的乘积。同时发生的概率为各自概率的乘积。P(AB)=P(A)P(B)推理:推理:A1、A2、An彼此独立,则彼此独立,则 P(A1A2A3An)=P(A1)P(A2)P(A3)P(An)三、概 率 分 布(一)离散型变量的概率分布(一)离散型变量的概率分布要了解离散型随机变量要了解离散型随机变量x的统计规律,必须知道的统计规律,必须知道它的一切可能值它的一切可能值xi及取每种可能值的概率及取每种可能值的概率pi。对离
10、散型变量对离散型变量x的一切可能值的一切可能值xi(i=1,2,3),及其对应的概率及其对应的概率piP(x=xi)=pi,i=1,2,3离散型变量的概率分布的特点离散型变量的概率分布的特点Pi 0 (i=1,2,)=1(二)连续型变量的概率分布(二)连续型变量的概率分布当试验资料为连续型变量,一般通过分组当试验资料为连续型变量,一般通过分组整理成频率分布表。如果从总体中抽取样本的整理成频率分布表。如果从总体中抽取样本的容量容量n相当大,则频率分布就趋于稳定,我们将相当大,则频率分布就趋于稳定,我们将它近似地看成总体概率分布。它近似地看成总体概率分布。对于一个连续型随机变量对于一个连续型随机变
11、量x,取值于区间,取值于区间a,b内的内的概率为函数概率为函数f(x)从从a到到b的积分,即:的积分,即:连续型随机变量的概率由概率分布密度函数所确定。连续型随机变量的概率由概率分布密度函数所确定。概率密度函数概率密度函数f(x)曲线与曲线与x轴所围成的面积为轴所围成的面积为1。随机变量可能取得的每一个实数值或某一范围的实数值是有一个相应概率于其对应的,这就是所要研究和掌握的规律,这个规律称为随机变量的概率分布。四、大 数 定 律大数定律:大数定律:是概率论中用来阐述大量随机是概率论中用来阐述大量随机现象平均结果稳定性的一系列定律的总称。现象平均结果稳定性的一系列定律的总称。主要内容:主要内容
12、:样本容量越大,样本统计数与样本容量越大,样本统计数与总体参数之差越小。总体参数之差越小。辛钦大数定律辛钦大数定律辛钦大数定律辛钦大数定律伯努利伯努利伯努利伯努利大数定律大数定律大数定律大数定律(1)1)伯努利大数定律大数定律设m是n次独立试验中事件A出现的次数,而p是事件A在每次试验中出现的概率,则对于任意小的正数,有如下关系:=1=1 lim Plim P 若试验条件不变,重复次数n接近无限大时,频率与理论概率的差值必定要小于一个任意小的正数,即这两者可以基本相等,这几乎是一个必然要发生的事情。(2)2)辛钦大数定律辛钦大数定律设x1,x2,x3,xn是来自同一总体的变量,对于任意小的正数
13、,有如下关系:=1lim P 若试验条件不变,重复次数n接近无限大时,随机变量的 X与总体平均数 之间的差一定小于一个任意小的正数,即这两者可以基本相等,这几乎是一个必然要发生的事情。几种常见的理论分布几种常见的理论分布几种常见的理论分布几种常见的理论分布随机变量的概率分布 (probability distribution)离散型变量(discrete random variable)连续型变量(continuous random variable)二项分布泊松分布正态分布变量第二节:几种常见的理论分布第二节:几种常见的理论分布一、二一、二一、二一、二 项项项项 分分分分 布布布布离散型随机
14、变量的分布哺乳动物种子穗子生物个体雄性雌性发芽不发芽有芒无芒成活死亡对立事件(一一)二项分布的概率函数二项分布的概率函数 为便于研究,通常给“此”事件以变量“1”,具概率p;给“彼”事件以变量“0”,具概率q其概率关系为:pq=1 如果我们每次抽取如果我们每次抽取0 0、1 1总体的总体的n n个个体,则所得变个个体,则所得变量量x将可能有将可能有0 0,1 1,n,共,共n+1n+1种。这种。这n+1n+1变量有它变量有它各自的概率而组成一个分布。这个分布叫做二项概各自的概率而组成一个分布。这个分布叫做二项概率分布,简称率分布,简称二项分布二项分布(binomial distribution
15、)(binomial distribution),也称为贝努里分布,记作也称为贝努里分布,记作B(n,p)。这种。这种“非此即彼非此即彼”的事件所构成的总体称为的事件所构成的总体称为二项总体二项总体。例如,观察施用某种农药后蚜虫的死亡数,记“死”为0,“活”为1。如果每次观察5只,则观察的结果将有0(5只全死)、1(4死1活)、2(3死2活)、3(2死3活)、4(1死4活)、5(5只全活),共6种变量。由这6种变量的相应概率组成的分布,就是n=5时活虫数的二项分布。红花豌豆和白花豌豆杂交,F2代出现红花的概率为p=3/4,出现白花的概率为q=1/4。如果将F1代种子成行种植,每行种4粒。问一行
16、全是红花、三株红花、二株红花、一株红花、0红花的概率各是多少。二项分布的概率函数二项分布的概率函数红花数组合数xf(x)4红3红2红1红0红(1,1,1,1)(1,1,1,1)4 4P(P(x x=4)=1=4)=1p p4 4=0.75=0.754 4=0.3164=0.3164(1,1,1,(1,1,1,0)0)(1,1,0,(1,1,0,1)1)(1,0,1,(1,0,1,1)1)(0,1,1,(0,1,1,1)1)3 3P(P(x x=3)=4=3)=4p p3 3q q1 1=40.75=40.753 30.25=0.42190.25=0.4219(1,1,0,(1,1,0,0)0)
17、(1,0,1,(1,0,1,0)0)(1,0,0,(1,0,0,1)1)(0,1,1,(0,1,1,0)0)(0,1,0,(0,1,0,1)1)(0,0,1,(0,0,1,1)1)2 2P(P(x x=2)=6=2)=6p p2 2q q2 2=60.75=60.752 20.250.252 2=0.2109=0.2109(1,0,0,(1,0,0,0)0)(0,1,0,(0,1,0,0)0)(0,0,1,(0,0,1,0)0)(0,0,0,(0,0,0,1)1)1 1P(P(x x=1)=4=1)=4p p1 1q q3 3=40.750.25=40.750.253 3=0.0409=0.0
18、409(0,0,0,(0,0,0,0)0)0 0P(P(x x=0)=1=0)=1q q4 4=0.25=0.254 4=0.0039=0.0039为方便,以“1”代表出现红花的事件,“0”代表出现白花的事件。上例各项的概率相当于(p+q)4的展开:(p+q)4=p4+4p3q+6p2q2+4pq3+q4 同理,以样本容量为n进行的抽样,得到的概率分布为(p+q)n的展开。(p+q)n=Cn0qn+Cn1p1qn-1+Cn2p2qn-2+Cn3p3qn-3+Cnxpxqn-x+Cnnpn=nx=0Cnxpxqn-x 每一项的系数为:Cnxn!x!(n-x)!二项分布概率函数二项分布概率函数:p
19、(x)Cnxpxqn-x由于二项式中由于二项式中p+q=1p+q=1,(p+q)n=1p(0)+p(1)+p(2)+p(x)+p(n)=1或者或者n n个事件构成一个完全事件系,所以有:个事件构成一个完全事件系,所以有:现已求出某事件发生的概率,若试验现已求出某事件发生的概率,若试验N次,次,则该事件发生的理论次数为:则该事件发生的理论次数为:理论次数理论次数NP(x)二项分布的概率累积函数为:二项分布的概率累积函数为:F(x)=P(x)=1(三)二项分布的形状和参数(三)二项分布的形状和参数(1)(1)当当p p值较小且值较小且n n不大不大时,分布是偏倚的。时,分布是偏倚的。随随n n的增
20、大,分布趋于的增大,分布趋于对称;对称;二项分布的二项分布的形状形状由由n n和和p p两个参数决定。两个参数决定。B(n,p)B(n,p)(2 2)当)当p p值趋于值趋于0.50.5时,分布趋于对称。时,分布趋于对称。统计学证明,服从二项分布B(n,p)的随机变量x所构成的总体的平均数x、标准差x与n、p这两个参数有关。一、二项分布xn pnpq=sx 在二项分布中,事件A发生的频率 x/n称为二项成数,即百分数或频率。则二项成数的平均数和标准差分别为:p pppq/n=sp多项式分布多项式分布 若总体内包含几种特性或分类标志,可以将总体中的若总体内包含几种特性或分类标志,可以将总体中的个
21、体分为几类,例如在给某一人群使用一种个体分为几类,例如在给某一人群使用一种医用物理治疗医用物理治疗仪仪,可能有好的疗效,有的没有疗效,可能有好的疗效,有的没有疗效,有的产生有的产生副作用,副作用,这种将变这种将变量量分为分为三三类或多类的总体称为多项总体,研究其类或多类的总体称为多项总体,研究其随机变量的概率分布可使用随机变量的概率分布可使用多项式分布多项式分布(multinomial(multinomial distribution)distribution)。设总体中共包含k项事件,它们的概率分别为:p1、p2、p3、pk,显然 p1+p2+p3+pk=1。若从这个总体随机抽取n个个体,那
22、么可能得到这k项的个数分别为 y1、y2、y3、yk,而y1+y2+y3+yk=n。其事件的概率为:这一概率分布称为多项式分布。例:某医用物理治疗仪对病人有效的概率为1/2,对病人无效的概率为1/3,有副作用的概率为1/6,若随机抽取2个使用该仪器的病人,那么我们的结果可能包括这样几种事件:两个均有效;两个均无效;两个均有副作用;一个有效、一个无效;一个有效、一个有副作用;一个无效、一个有副作用。试计算出现这些事件的概率。解:分别用y1、y2、y3分别代表用药有效的个体数、用药无效的个体数和用药有副作用的个体数。这些事件的概率的计算见下表:变量变量(y1、y2、y3)概率及其计算概率及其计算P
23、(y1、y2、y3)(0,0,2)(0,1,1)(0,2,0)(1,0,1)(1,1,0)(2,0,0)二、泊二、泊二、泊二、泊 松松松松 分分分分 布布布布泊松分布泊松分布(Poisson distribution)是一种可是一种可以用来描述和分析随机地发生在单位空间或以用来描述和分析随机地发生在单位空间或时间里的稀有事件的概率分布,也是一种离时间里的稀有事件的概率分布,也是一种离散型随机变量的分布。散型随机变量的分布。泊松分布是二项分布的一种特殊类型。泊松分布是二项分布的一种特殊类型。泊松分布的概率函数泊松分布的概率函数 可由二项分布概率函数推导出来可由二项分布概率函数推导出来!)(xex
24、Pl l=-x为参数,为参数,=np=np x=0,1,2,p(x)Cnxpx(1-p)n-x!)(xexPl l=-x=2 2=p(x)Cnxpx(1-p)n-x n p)1(pnp-=s s2 2=np(1-p)=np(1-p)=np=np=P()的形状由的形状由确定确定 较小时,泊松分布偏倚。较小时,泊松分布偏倚。增大时,泊松分布趋于对称。增大时,泊松分布趋于对称。无限增大时,泊松分布接近正态分布。无限增大时,泊松分布接近正态分布。对于小概率事件,可用泊松分布描述其概率分布。对于小概率事件,可用泊松分布描述其概率分布。二项分布当二项分布当p0.1和和np5时,可用泊松分布来近似。时,可用
25、泊松分布来近似。21!)(xexPl=-x三、正三、正三、正三、正 态态态态 分分分分 布布布布围绕在平均值左右,由平均值到分布的两侧,围绕在平均值左右,由平均值到分布的两侧,变量数减少,即变量数减少,即两头少,中间多,两侧对称。两头少,中间多,两侧对称。正态分布(正态分布(normal distribution)特点特点正态分布也称为高斯分布正态分布也称为高斯分布(Gauss distribution)。n大大p与与1-p接近接近大大二项分布二项分布泊松分布泊松分布正态分布正态分布正态分布是生物统计学的重要基础。正态分布是生物统计学的重要基础。(一)正态分布的概率函数(一)正态分布的概率函数
26、f(x)为正态分布的概率密度函数,表示某一定为正态分布的概率密度函数,表示某一定x值出现的概率值出现的概率密度函数值。密度函数值。总体平均数总体平均数总体标准差总体标准差圆周率,圆周率,3.14159e为自然对数底,为自然对数底,2.71828连续型随机变量的概率分布是用概率密度函数来描述的。连续型随机变量的概率分布是用概率密度函数来描述的。N(,2)(一)正态分布的概率函数x=x=时,时,f(x)f(x)值最大,正态分布曲线以平均数值最大,正态分布曲线以平均数为中心的分布。为中心的分布。(二)正态分布的特征(二)正态分布的特征1x-x-的绝对值相等时,的绝对值相等时,f(x)f(x)也相等,
27、正态分布也相等,正态分布密度曲线以密度曲线以为中心向左右两侧对称。为中心向左右两侧对称。(二)正态分布的特征(二)正态分布的特征2f(x)是非负函数,以是非负函数,以x轴为渐近线,轴为渐近线,x的取值区的取值区间为间为(-,+)(-,+)。(二)正态分布的特征(二)正态分布的特征3正态分布曲线由参数正态分布曲线由参数,决定,决定,确定正态分确定正态分布曲线在布曲线在x轴上的中心位置,轴上的中心位置,确定正态分布确定正态分布的变异度。的变异度。(二)正态分布的特征(二)正态分布的特征4正态分布曲线在正态分布曲线在x=x=处各有一个拐点,处各有一个拐点,曲线通过拐点时改变弯曲度曲线通过拐点时改变弯
28、曲度。(二)正态分布的特征(二)正态分布的特征5分布曲线与分布曲线与x轴围成的全部面积为轴围成的全部面积为1(二)正态分布的特征(二)正态分布的特征6若一个连续型随机变量若一个连续型随机变量x取取值于区间值于区间a,b,其概率为,其概率为ab(三)标准正态分布(三)标准正态分布N(,2)正态分布是依赖于参数正态分布是依赖于参数(,2 2)的一个曲线系,正态曲的一个曲线系,正态曲线的位置及形态随线的位置及形态随(,2 2)的不同而不同,这就给研究的不同而不同,这就给研究具体的正态分布总体带来了困难,我们现将其标准化。具体的正态分布总体带来了困难,我们现将其标准化。N(,2)N(0,1)u u表示
29、标准正态离差(表示标准正态离差(standard normal deviate)standard normal deviate),它表示离开平均数,它表示离开平均数有几个标准差有几个标准差。f(u)称为标准正态分布称为标准正态分布(standard normal distribution)或或u分布方程。分布方程。正态分布的曲线图正态分布的曲线图 -3 -2 -1 0 1 2 3正态分布曲线图正态分布曲线图(平均数为平均数为 ,标准差为,标准差为 )标准正态分布曲线图标准正态分布曲线图(平均数平均数 为为0,标准差,标准差 为为1)标准正态分布的概率累积函数记作标准正态分布的概率累积函数记作F
30、(u),它是,它是变量变量u小于某一定值的概率。小于某一定值的概率。ui 为了计算方便,对于不为了计算方便,对于不同的同的u值,计算出不同的值,计算出不同的F(x),编成函数表,称为正态分,编成函数表,称为正态分布表,从中可以查到布表,从中可以查到u任意任意一个区间内取值的概率。一个区间内取值的概率。标准正态分标准正态分布布u落在区间落在区间a,b的概率的概率2 一般正态分布的概率计算一般正态分布的概率计算若随机变量服从正态分布若随机变量服从正态分布N(,2 2),则,则x x的取值落在区的取值落在区间间xx1 1,x,x2 2 的概率,记作的概率,记作P(xP(x1 1xxxx2 2)。(四
31、)正态分布的概率计算(四)正态分布的概率计算2 一般正态分布的概率计算一般正态分布的概率计算服从正态分布服从正态分布N(,N(,2 2)的随机变量,的随机变量,x x的取值落在区的取值落在区间间xx1 1,x,x2 2 的概率,记作的概率,记作P(xP(x1 1xxx30时,时,其曲线接近正态分布曲线,其曲线接近正态分布曲线,df时则和正态分布曲线重合。时则和正态分布曲线重合。t分布曲线与横轴所围成的面积为分布曲线与横轴所围成的面积为1。同标准正态分布曲线一样,统计应用中最为关心的是同标准正态分布曲线一样,统计应用中最为关心的是t分布曲线下的面积(即概率)与横轴分布曲线下的面积(即概率)与横轴
32、t值间关系。值间关系。为使用方便,统计学家编制不同自由度为使用方便,统计学家编制不同自由度df下的下的t值表。值表。在相同的自由度在相同的自由度df时,时,t值越大,概率值越大,概率P越小。越小。在相同在相同t值时,双尾概率值时,双尾概率P为单尾概率为单尾概率P的两倍。的两倍。12df增大,增大,t分布接近正态分布,即分布接近正态分布,即t值接近值接近u值。值。3五五五五、F F 分布分布分布分布设从一正态总体设从一正态总体N(,N(,2 2)中随机抽取样本容量为中随机抽取样本容量为n1、n2的两个独立样本,其样本方差为的两个独立样本,其样本方差为s12、s22,则定义其,则定义其比值:比值:
33、此值具有此值具有s12的自由度的自由度df1=n1-1和和s22的自由度的自由度df2=n2-1。如果对一正态总体在特定的如果对一正态总体在特定的dfdf1 1和和dfdf2 2进行一系列进行一系列随机独立抽样,则所有可能的值就构成一个随机独立抽样,则所有可能的值就构成一个分布。分布。分布是随自由度分布是随自由度dfdf1 1和和dfdf2 2进行变化的一组曲线。进行变化的一组曲线。分布的概率累积函数分布的概率累积函数的取值区间为的取值区间为0,+0,+)分布曲线的形状仅决定于分布曲线的形状仅决定于dfdf1 1和和dfdf2 2。在。在dfdf1 11 1或或2 2时,时,分布曲线呈严重倾斜的反向型,当分布曲线呈严重倾斜的反向型,当dfdf1 1 3 3时,时,转为左偏曲线。转为左偏曲线。12