《几种常见的分布.doc》由会员分享,可在线阅读,更多相关《几种常见的分布.doc(9页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、如有侵权,请联系网站删除,仅供学习与交流几种常见的分布【精品文档】第 9 页一、常见数据类型在正式的解释分布之前,我们先来看一看平时遇到的数据。数据可大致分为离散型数据和连续型数据。离散型数据离散型数据顾名思义就是只取几个特定的值。例如:当你掷骰子的时候,结果只有1,2,3,4,5,6,不会出现类似1.5,2.5。连续型数据在一个给定的范围内,连续型数据可以取任意值。这个范围可以是有限的或者是无穷的。例如:一个人的体重或者身高,可以取值54kg,54.4kg,54.33333kg等等都没有问题。下面就开始介绍分布的类型。二、分布类型伯努利分布(Bernoulli Distribution)首先
2、从最简单的分布开始,伯努利分布实际上是一个听起来最容易理解的分布。伯努利分布一次实验有两个可能的结果,比如1代表success及0代表failure。随机变量XX一个取值为1并代表成功,成功概率为pp,一个取值为0表示失败,失败概率为qq或者说1p1p。这里,概率分布函数为px(1p)1xpx(1p)1x,其中x(0,1)x(0,1),我们也可以写成如下形式:P(x)=1p,p,x=0x=1P(x)=1p,x=0p,x=1成功和失败的概率没必要相同,也就是没必要都是0.5,但是这俩概率加和应该为1,比如可以是下面的图:这个图就是p(success)=0.15,p(failure)=0.85p(
3、success)=0.15,p(failure)=0.85。下面说一下随机变量的期望,一个分布的期望就是这个分布的均值。服从伯努利分布的随机变量XX的期望值就是:E(X)=1p+0(1p)=pE(X)=1p+0(1p)=p服从伯努利分布的随机变量的方差是:V(X)=E(X2)E(X)2=pp2=p(1p)V(X)=E(X2)E(X)2=pp2=p(1p)还有许多伯努利分布的例子,比如说明天是否会下雨,今天会不会去健身,明天乒乓球比赛是不是会赢。均匀分布(Uniform Distribution)当你掷骰子的时候,结果出现1到6中的任何一个,而任何一个结果出现的概率都是相同的,这就是均匀分布最原
4、始的雏形。你可能看出来了,与伯努利分布不同的是,这nn个出现的结果的概率都是相同的。一个随机变量XX为均匀分布是指密度函数如下:f(x)=1baabf(x)=1baabE(X)=(a+b)2E(X)=(a+b)2Variance-V(X)=(ba)212V(X)=(ba)212标准的均匀分布的密度参数为a=0a=0和b=0b=0,所以对于标准的均匀分布的密度函数为:f(x)=1,0,0x1otherwisef(x)=1,0x10,otherwise二项分布(Binomial Distribution)我们假定一个随机变量,比如XX,表示你赢得比赛的次数。XX可能的值是什么? 它可以是任何数字,
5、赢得比赛的次数。如果就两个可能的结果。 成功,失败。 因此,成功概率= 0.5,失败的概率可以容易地计算为:q=p1=0.5q=p1=0.5。只有两种结果是可能的分布,如成功或失败,以及所有试验的成功和失败概率相同的情况称为二项分布。发生结果的可能性不同时, 前面的例子如果实验成功的概率是0.2,那么失败的概率可以很容易地计算出来,q=10.2=0.8q=10.2=0.8。每次试验都是独立的,因为之前的结果并不决定或影响当前的结果。 只有两次重复n次的可能结果的实验称为二项式。 二项分布的参数是nn和pp,其中nn是试验的总数,pp是每个试验中成功的概率。基于上述解释,二项分布的性质是:1.
6、每次实验独立2. 试验中只有两种可能的结果 - 成功或失败。3. 共进行了nn次相同的试验。4. 所有试验的成功和失败的概率是相同的。 (试验是相同的。)二项分布的数学表达式由下式给出:P(x)=n!(nx)!x!pxqnxP(x)=n!(nx)!x!pxqnx一个二项分布图,其中成功的概率不等于失败的概率长这样:成功概率与失败概率相等,长这样:二项分布均值和方差:Mean -=np=npVariance -Var(X)=npqVar(X)=npq正态分布(Normal Distribution)正态分布可以表示宇宙中大多数的事件发生情况。 如果任何分布具有以下特征,则称为正态分布:1. 均值
7、、中位数、众数在一个分布中取相同的值;2. 分布曲线关于x=x=对称;3. 曲线下面的面积总和为;4. 中心位置的左半边和右半边对应位置的概率取值相同。正态分布与二项分布有很大的不同。 但是,如果试验次数接近无穷大,则形状将非常相似。服从正态分布的随机变量XX的密度函数为:f(x)=12e12(x)2xf(x)=12e12(x)2xE(X)=E(X)=Variance -Var(X)=2Var(X)=2这里(mean)和(standard deviation)是两个参数,随机变量XN(,)XN(,)的不同取值的变化图如下:标准正态分布的均值为0,方差为1,密度图如下:f(x)=12ex22xf
8、(x)=12ex22xE(X)=E(X)=Variance -Var(X)=Var(X)=指数分布(Exponential Distribution)我们再来考虑一下呼叫中心的例子。 想想通话间的时间间隔是多少? 指数分布来解决我们的问题。 指数分布对呼叫之间的时间间隔建模。其他例子:1. 两站地铁到达之间的时间长度2. 到达加油站的时间长度3. 空调的使用寿命指数分布广泛用于生存分析。 从机器的预期寿命到人的预期寿命,指数分布可用来传递这些结果。随机变量XX服从指数分布,它的PDF 为:f(x)=ex,x0f(x)=ex,x0参数00也叫做速率。对于生存分析,被称为设备在任何时间tt的故障率
9、,假设它存活到t。服从指数分布的随机变量XX的均值和方差:Mean -E(X)=1E(X)=1Variance -Var(X)=(1)2Var(X)=(1)2此外,速率越大,曲线越下降快,速率越低,曲线越平滑。 下图显示了这一点:为了简化计算,下面给出了一些公式。PXx=1exPXx=1ex对应于xx左边密度曲线下的面积。PXx=1exPXx=1ex对应于xx右侧密度曲线下的面积。Px1Xx2=ex1ex2Px12. 每次试验成功的概率相同,无穷小或者pp-03.np=np=,有限。正态分布和二项分布 & 正态分布和泊松分布正态分布是在以下条件下二项分布的另一种极限形式,条件如下:1. 试验次数无限大nn-2.pp和qq都不是无限小的。正态分布也是参数-的泊松分布的一个极限情况。指数分布和泊松分布如果随机事件之间的时间遵循速率为的指数分布,那么长度为tt的时间段内的事件总数遵循具有参数tt的泊松分布。总结概率分布在许多领域都很普遍,即保险学,物理学,工程学,计算机科学甚至社会科学,其中心理学和医学学生广泛使用概率分布。 它有一个简单的应用程序和广泛的使用。 这篇文章强调了在日常生活中观察到的六个重要分布,并解释了它们的应用。 现在你将能够识别,关联和区分这些分布。