《第二概率与概率分布课件.ppt》由会员分享,可在线阅读,更多相关《第二概率与概率分布课件.ppt(63页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第二概率与概率分布第二概率与概率分布第1页,此课件共63页哦2.1 2.1 概率的统计定义概率的统计定义思考:投掷一枚硬币,出现正面的概率是多大?(0表示反面,1表示正面)反复做它,那么所有出现正面的结果平均值是多少?英国数学家皮尔逊做24000次抛硬币试验正面向上12012次频率=随着试验次数的增多,正面朝上的频率越来越接近0.5.反面向上11988次频率=第2页,此课件共63页哦频率是由样本数据计算得到的。由于样本分布的不均衡性,不同的随机试验,一个事件的出现频率也不一样,有一定的波动。随着试验次数的增大,频率将围绕着某一确定的常数P做平均幅度愈来愈小的变动,这就是所谓频率的稳定性,其中P
2、即为概率(表2-1)。简单的说概率就是频率的稳定值。在试验次数较多时,可以用频率作为概率的近似值。第3页,此课件共63页哦概率是事件在试验结果中出现可能性大小的定量计量概率是事件在试验结果中出现可能性大小的定量计量。概率是事件固有的属性,有以下明显的概率是事件固有的属性,有以下明显的性质性质:随机事件随机事件A A的概率:的概率:0 0P P(A A)1 1必然事件必然事件WW的概率为的概率为1 1,即,即P P(WW)=1=1不可能事件(不可能事件(V V)的概率为)的概率为0 0,即,即P P(V V)=0=0概率接近于概率接近于0 0(如(如P0.05P0.05)的事件称为小概率事件。的
3、事件称为小概率事件。第5页,此课件共63页哦2.2 2.2 概率分布概率分布一、一、随机变量随机变量表示随机现象结果的变量,也就是在随机试验中被测定的量,所取得的值称为观察值。随机变量随机变量离散型离散型连续型连续型(与我们前面所讲的连续型数据和离散型数据的意义一样)(与我们前面所讲的连续型数据和离散型数据的意义一样)第6页,此课件共63页哦二、离散型变量的概率分布随机变量取得的数值为有限个,或为无穷个孤立的值。将随机变量X所取得值x的概率P(X=xi)写成x的函数pi,称为随机变量X的概率函数pi=P(X=xi)。将X的一切可能值x1,x2,x3,xn,以及取得这些值的概率p1,p2,pn,
4、排列起来,构成了离散型随机变量的概率分布。常用概率分布表或概率分布图表示(如,p27表2-2图2-1)。概率函数应满足的条件:第7页,此课件共63页哦离散型变量概率的累积分布函数:离散型变量概率的向上累积。其公式为 ,即随机变量小于等于某一可能值(x0)的概率。第9页,此课件共63页哦离散型概率分布的例子离散型概率分布的例子例例:从从100件件产产品品(其其中中合合格格品品95件件,废废品品5件件)。任任意意抽抽取取10件,求每次抽到废品数的概率分布。件,求每次抽到废品数的概率分布。xp(x)0 123450.5837523670.3393909110.0702188090.006383528
5、0.0002510380.000003347 累积分布函数图累积分布函数图0 00.20.20.40.40.60.60.80.81 10 01 12 23 34 45 5xF(x)0 123450.5837523670.9231432780.9933620770.9997456050.9999966531.000000000概率分布表概率分布表概率分布表概率分布表累积概率分布表累积概率分布表累积概率分布表累积概率分布表第10页,此课件共63页哦离散型随机变量概率分布的特点离散型随机变量概率分布的特点列出随机变量所有可能值的列出随机变量所有可能值的xi,pi 组合组合 xi=随机变量值(取值)随
6、机变量值(取值)pi 为为 xi 的值对应的概率的值对应的概率互斥性互斥性(不相交不相交/无重复)无重复)0 p(xi)1p(xi)=1对于对于离散型离散型随机变量的任何值,都可以求出它的随机变量的任何值,都可以求出它的概率概率。第11页,此课件共63页哦三、三、连续型概率分布连续型概率分布连连续续型型随随机机变变量量(如如体体长长、体体重重、卵卵重重)则则不不同同,连连续续型型随随机机变变量量任任何值的概率都为何值的概率都为0 0。连续型连续型随机变量,仅研究随机变量,仅研究某一区间某一区间内取值的概率。内取值的概率。例例如如,某某品品种种小小麦麦的的高高度度为为100cm100cm120c
7、m120cm。我我们们可可以以说说该该品品种种的的任任何何一一株株小小麦麦的的高高度度准准确确地地等等于于某某一一标标准准高高度度(如如105cm105cm)的的概概率率等等于于0 0。我我们们只只能能确确定定它它高高度度的的范范围围在在某某一一固固定定的的区区间间内内,在在实实际际中中无限提高测定的精确度也无意义。无限提高测定的精确度也无意义。连连续续型型随随机机变变量量的的概概率率分分布布不不能能用用分分布布列列来来表表示示,改改用用随随机机变变量量x x在在某个区间内取值的概率某个区间内取值的概率P(P(axbaxb)来表示。来表示。随随机机变变量量X X的的值值落落在在区区间间(x x
8、,x x+x x)内内的的概概率率为为P P(x xX Xx x+x x)其中其中x x为区间长度。为区间长度。第12页,此课件共63页哦当当x趋于零时,此时区间概率称为趋于零时,此时区间概率称为密度函数密度函数:概率密度的图形概率密度的图形y=f(x),称为分布曲线。,称为分布曲线。概率是曲线下面积概率是曲线下面积概率是曲线下面积概率是曲线下面积!f(x)Xab概率密度曲线概率密度曲线概率密度曲线概率密度曲线f f(x x)与与与与x x轴所围成的面积为轴所围成的面积为轴所围成的面积为轴所围成的面积为1 1 分分分分布布布布函函函函数数数数(或或或或称称称称为为为为累累积积分分布布函函数数)
9、是是是是随随随随机机机机变变变变量量量量X X取取取取得得得得小小小小于于于于x x0 0的值的概率的值的概率的值的概率的值的概率第13页,此课件共63页哦概率密度函数图和概率分布函数图概率密度函数图和概率分布函数图概率密度函数图概率密度函数图 概率分布函数图概率分布函数图yp(x)yF(x)x1x2x2x1P(x1xx2)=F(x2)F(x1)第14页,此课件共63页哦连续型随机变量概率分布的性质:分布密度函数总是大于或等于0,即f(x)0;当随机变量x取某一特定值时,其概率等于0;即 (c为任意实数)因而,对于连续型随机变量,仅研究其在某一个区间内取值的概率,而不去讨论取某一个值的概率。第
10、15页,此课件共63页哦2.3 2.3 离散型概率分布离散型概率分布二项分布(binomial distribution)泊松分布(poisson distribution)超几何分布(hypergeometric probability distritution)负二项分布(Negative binomial distribution)第16页,此课件共63页哦u贝努利试验(Bernoulli trial):我们把只有两种可能观测值(每次试验只可能是两个对立事件之一)的随机试验统称为贝努利试验。这种试验在实际中广泛存在,如观察某一实验动物的卵孵化与否、某一实验动物是雌性还是雄性、实验反应是阴
11、性还是阳性等。un次独立地贝努利试验称为n重贝努利试验,其试验结果的分布(一种结果出现x次的概率是多少的分布)即为二项分布。u应用二项分布的重要条件是:每一种试验结果在每次试验中都有恒定的概率,各试验之间是重复独立的。一、二项分布一、二项分布 B(n,p)第17页,此课件共63页哦例:例3.1注意:1)放回式抽样适用于二项分布,非放回式抽样适用于超几何分布;2)通式为:n=试验次数;x=在n次试验中事件A出现的次数p=事件A发生的概率(每次试验都是恒定的)1p=事件 发生的概率P(x)=X 的概率函数为 P(X=x);F(x)=P(Xx)xnxxnppcxP-=)1()(第18页,此课件共63
12、页哦服从二项分布的随机变量的特征数服从二项分布的随机变量的特征数总体平均数总体平均数:np,p(用比率表示时)总体方差总体方差:(用比率表示时)偏斜度:偏斜度:峭度:峭度:从以上公式可以看出二项分布决定于两个参考数:试验次数n 和概率P,因此其图形变化趋势与这两个参数有关。第20页,此课件共63页哦 1 13.113.11 2 29.509.50 1 10 0 2 20 0 1 10 0 2 20.020.02 1 10 0 2 20.200.20 1 10.120.12 2 20.010.01 1 10.270.27 2 20.050.05 1 10.440.44 2 20.190.19 1
13、 10.980.98 2 20.950.95 1 10.840.84 2 20.510.51n=10,p0.0100.20.40.60.810246810n=100,p0.0100.10.20.30.40.50255075100n=500,p0.0100.10.20.30.40.50100200300400500n=10,p0.1000.10.20.30.40.50246810n=100,p0.1000.050.10.150.20255075100n=500,p0.1000.020.040.060.080.10100200300400500n=10,p0.5000.10.20.30246810
14、n=100,p0.5000.020.040.060.080.10255075100n=500,p0.5000.010.020.030.040.050100200300400500第21页,此课件共63页哦二项分布的应用条件有三:二项分布的应用条件有三:(1)各观察单位只具有互相对立的一种结果,如阳性或阴性,生存或死亡等,属于二项分类资料;(2)已知发生某一结果(如死亡)的概率为p,其对立结果的概率则为1-p=q,实际中要求 p 是从大量观察中获得的比较稳定的数值;(3)n个观察单位的观察结果互相独立,即每个观察单位的观察结果不会影响到其它观察单位的观察结果。第23页,此课件共63页哦二、泊松分
15、布二、泊松分布P(P()在生物学研究中,有许多事件出现的概率很小,而样本容量或试验次数却往往很大,即有很小的p值和很大的n值。这时二项分布就变成另外一种特殊的分布,即泊松分布。如,显微镜视野内染色体有变异的细胞计数、单位容积的水中细菌数目的分布、作物种子内杂草的分布以及样方内少见植物的个体数等都属于泊松分布。其概率函数可由二项分布的概率函数推导。第24页,此课件共63页哦1、泊松分布概率函数的推导、泊松分布概率函数的推导(将系数的分子分母同乘以(将系数的分子分母同乘以nx)(当(当(当(当n n时,系数的极限为时,系数的极限为时,系数的极限为时,系数的极限为1 1,且,且,且,且n n =)第
16、25页,此课件共63页哦平均数:平均数:=方差:方差:2=偏斜度:偏斜度:峭度:峭度:概率函数内的概率函数内的,不但是它的平均数,而且是它的方,不但是它的平均数,而且是它的方差。差。很大时,很大时,1和和2则接近于则接近于0,这时的泊松分布近似于,这时的泊松分布近似于正态分布。正态分布。2、服从泊松分布的随机变量的特征数服从泊松分布的随机变量的特征数第26页,此课件共63页哦3、泊松分布应用实例泊松分布应用实例例3.5 在麦田中,平均每10m2有一株杂草,问每100m2麦田中,有0株、1株、2株、杂草的概率是多少?解:先求出每100m2麦田中,平均杂草数 100/10 10株 将代入泊松分布的
17、概率密度函数中,p(x)=10 x/(x!e10),(e=2.71828)即可求出x 0,1,2,时所相应的概率。第27页,此课件共63页哦例:为监测饮用水的污染情况,现检验某社区每毫升饮例:为监测饮用水的污染情况,现检验某社区每毫升饮用水中细菌数,共得用水中细菌数,共得400400个记录如下:个记录如下:试分析饮用水中细菌数的分布是否服从泊松分布,计算每毫升水中细菌数的概率及理论次数并将頻率分布与泊松分布作直观比较。解:经计算得每毫升水中平均细菌数为0.500,x 0.5,s20.496,两者相接近,可认为服从泊松分布代入泊松分布公式1ml水中细菌数0123合计次数f243120316400
18、第28页,此课件共63页哦注意,二项分布的应用条件也是泊松分布的应用条件。要求n 次试验是相互独立的。然而一些具有传染性的罕见疾病的发病数,因为首例发生之后可成为传染源,会影响到后续病例的发生,所以不符合泊松分布的应用条件。1ml水中细菌数0123合计实际次数f243120316400频率0.60750.30000.07750.01501.00概率0.60650.30330.07580.01441.00理论频数242.60121.3230.325.76400第29页,此课件共63页哦2.4 主要的连续型随机变量的概率分布主要的连续型随机变量的概率分布正态分布正态分布 在生物统计学中,正态分布占
19、有极其重要的地位。许多生物学现象所产生的数据,都服从正态分布。一、正态分布(xN(,2))的密度函数与分布函数正态曲线正态分布的规律是数据分布集中在正态分布的规律是数据分布集中在平均数附近,并且在平均数的两侧平均数附近,并且在平均数的两侧成对称分布。正态分布成对称分布。正态分布密度函数密度函数的的图像,称为正态曲线。图像,称为正态曲线。密度函数:密度函数:分布(累积)函数:分布(累积)函数:第30页,此课件共63页哦正态分布密度曲线特点:正态分布密度曲线特点:密度曲线以x=直线为对称;x=和x=-所确定的点为曲线的两个“拐点”;曲线向左、向右无限延伸,以x轴为渐近线;x=时,f(x)具有最大值
20、,其值为;的大小,决定曲线的“胖”、“瘦”程度(展开程度),越小,曲线越“瘦”,数据越集中,越大,曲线越“胖”,数据越分散。固定时,值决定曲线的位置,当增大时曲线向右平移,当减少时曲线向左平移,但曲线形状不变。第31页,此课件共63页哦二、二、标准正态分布(标准正态分布(xN(0,1)=0,=1时的正态分布称为时的正态分布称为标准正态分布标准正态分布。密度函数:密度函数:分布分布(累积累积)函数:函数:第32页,此课件共63页哦标准正态分布有以下特性标准正态分布有以下特性:=0时,概率密度值最大;概率密度曲线向左、向右无限延伸,以x轴为渐近线;左右对称u=1和u=1是概率分布曲线的两个拐点;曲
21、线与横坐标轴所夹的图形面积为1;累积分布函数曲线从到0平稳上升,围绕点(0,0.5)对称;标准正态分布的偏斜度1和峭度2均为零。第33页,此课件共63页哦以下一些特征值很重要:以下一些特征值很重要:68.27%68.27%95.45%95.45%99.73%99.73%1 1 1 1 2 2 2 2 3 3 3 3 -3-3-3-3 -2-2 -1-1-1-1 P P(-1u-1u1 1)=0.6826=0.6826 P P(-2u-2u2 2)=0.9545=0.9545 P P(-3u-3u3 3)=0.9973=0.9973第34页,此课件共63页哦以下一些特征值很重要:以下一些特征值很
22、重要:90%90%95%95%1.645 1.645 1.645 1.645 1.96 1.96 1.96 1.96 2.582.582.582.58 -2.58-2.58-2.58-2.58 -1.96-1.96 -1.645-1.645-1.645-1.645 99%99%P(-1.96u1.96)=0.95P(-2.58u2.58)=0.99第35页,此课件共63页哦三、三、标准正态分布表的查法标准正态分布表的查法对于标准正态分布,其累积分布函数值F(u)可直接查表(书p315附表1)得到,其值等于标准正态曲线与横坐标轴从到u所夹的面积,该曲线下的面积即表示随机变量U 落入区间(,u)的
23、概率;标准正态分布查表常用的几个关系式:P(0U u1)=F(u1)=1F(u1)P(Uu1)=2F(u1)P(Uu1)=1 2F(u1)P(u1U u2)=F(u2)F(u1)u u第36页,此课件共63页哦x=5=109.2正态分布正态分布u=0=10.42标准正态分布标准正态分布v对于一般正态分布,要先进行标准化,再查表对于一般正态分布,要先进行标准化,再查表;标准化的公式为:标准化的公式为:第37页,此课件共63页哦例3.7查标准正态分布u-0.82及u1.15时的F(u)的值例3.8随机变量u服从正态分布N(0,1),问随机变量u的值落在(0,1.21)区间的概率?例3.9已知随机变
24、量u服从正态分布N(0,1),问随机变量u的值落在(-1.96,1.96)区间的概率是多少?例3.10已知某高粱品种的株高X服从正态分布N(156.2,4.822),求:(1 1)X X161cm164cm164cm的概率;的概率;(3 3)152152X X162162的概率。的概率。利用公式利用公式P(0Uu)=F(u)0.5利用公式利用公式 P(U u)=1 2F(u)或或 P(u1Uua)=时的ua值;下侧分位数:P(uua/2)=时的ua值(从附表2中以/2查出的ua即可);第39页,此课件共63页哦大数定律与中心极限定理的应用大数定律与中心极限定理的应用样本容量越大,样本统计数与总
25、体参数之差越小。对于容量大于30的样本,样本均值的分布可以较好地用一个正态分布近似(其中均值为,即,样本均值的平均值,标准差为 ,即样本均值的标准差)样本容量越大,近似的效果越好。如果原始总体就是正态分布,则对于任意样本容量n,样本均值都将是正态分布的。第40页,此课件共63页哦EXCEL在本章内容的应用EXCELEXCEL电子表格提供的粘帖函数电子表格提供的粘帖函数BINOMDIST 计算二项式分布的概率值NORMDIST 计算正态分布的累积函数NORMINV 计算正态分布累积函数的逆函数NORMSDIST 计算标准正态分布的累积函数NORMSINV计算标准正态分布累积函数的逆函数POISS
26、ON 计算泊松分布的概率第41页,此课件共63页哦AVERAGE计算算术平均值GEOMEAN 计算几何平均数MAX 计算最大值MEDIAN计算一组给定数字的中位数STDEV计算样本标准差STDEVP计算样本总体的标准差VAR计算样本的方差VARP计算样本总体的方差第42页,此课件共63页哦各种分布函数计算1、二项分布工具平均数、方差和标准差二项分布的概率函数为第43页,此课件共63页哦二项分布函数的概率及累积概率的计算实例二项分布函数的概率及累积概率的计算实例 已知某种猪病的死亡率为30%,现有10头病猪,如不给予治疗,问死亡4头及死亡4头和4头以下的概率为多少?解:死亡4头的概率计算公式为:
27、死亡4头和4头以下累积概率的计算公式为:第44页,此课件共63页哦用粘帖函数 BINOMDIST 计算死亡4头的概率计算本计算在编缉栏中为本计算在编缉栏中为BINOMDISTBINOMDIST(4 4,1010,0.300.30,FALSEFALSE)第45页,此课件共63页哦死亡4头和4头以下概率的计算本计算在编缉栏中为BINOMDIST(4,10,0.30,TRUE)第46页,此课件共63页哦利用BINOMDIST函数和填充柄计算第47页,此课件共63页哦第48页,此课件共63页哦2 2、泊松分布工具、泊松分布工具 泊松分布的概率函数 为常数,它等于平均数等于方差=2第49页,此课件共63
28、页哦泊松分布概率的计算实例泊松分布概率的计算实例 已知某一地区,出现怪胎的事件服从泊松分布P(2),请计算该地区出现3次怪胎的概率,及出现3次和3次以下怪胎的概率为多少?出现3次怪胎概率的公式为:出现3次和3次以下怪胎的概率计算公式为:第50页,此课件共63页哦用用POISSONPOISSON粘帖函数计算粘帖函数计算出现3次怪胎概率的计算本计算在编缉栏中显示POISSON(3,2,FALSE)第51页,此课件共63页哦出现3次和3次以下怪胎的概率计算本计算编缉栏中显示POISSON(3,2,TRUE)第52页,此课件共63页哦 3 3、正态分布工具、正态分布工具 用符号N(,2)表示(1)、正
29、态分布的概率函数为:第53页,此课件共63页哦NORMDIST粘帖函数:计算累积函数粘帖函数:计算累积函数 NORMINV粘帖函数:计算逆函数粘帖函数:计算逆函数 已知某品种成年猪体重的总体平均数=100kg,总体标准差=20kg。试计算成年猪体重在70kg以下的概率。计算公式如下:用正态分布粘帖函数的计算第54页,此课件共63页哦用NORMDIST粘帖函数计算概率 本计算在编缉栏中的形式为NORMDIST(70,100,20,TRUE)第55页,此课件共63页哦用NORMDIST粘帖函数计算函数值本计算在编缉栏中的形式为NORMDIST(70,100,20,FALSE)第56页,此课件共63
30、页哦 已知某品种成年猪体重的总体平均数=100kg,总体标准差=20kg。如果我们希望淘汰30%体重最轻的猪,问体重在多少kg以下的猪应给予淘汰。计算公式如下:第57页,此课件共63页哦用NORMINV粘贴函数计算 本计算在编缉栏中的形式为NORMINV(0.30,100,20)第58页,此课件共63页哦(2)、标准)、标准正态分布正态分布 用符号N(0,1)表示标准正态分布的概率函数为:标准化的公式为:第59页,此课件共63页哦利用标准正态分布函数计算概率利用标准正态分布函数计算概率 NORMSDIST粘贴函数:计算累积函数 NORMSINV粘贴函数:计算逆函数 已知某品种成年猪体重的总体平均数=100kg,总体标准差=20kg。试计算成年猪体重在70kg以下的概率。首先对70kg进行标准化,得u值等于-1.5,计算公式如下:第60页,此课件共63页哦用NORMSDIST粘帖函数计算概率 本例在编缉栏中的形式是NORMSDIST(-1.5)第61页,此课件共63页哦 当给定一尾概率值时,求其临界值就得利用NORMSINV函数。假定现要计算当一尾概率为0.025时,计算公式如下:第62页,此课件共63页哦用NORMSINV粘贴函数计算 本例在编缉栏中的形式是NORMSINV(0.025)第63页,此课件共63页哦