《统计学概率和分布幻灯片.ppt》由会员分享,可在线阅读,更多相关《统计学概率和分布幻灯片.ppt(88页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、统计学概率和分布第1页,共88页,编辑于2022年,星期二概概率率是是0和和1之之间间的的一一个个数数目目,表表示示某某个个事件发生的可能性或经常程度。事件发生的可能性或经常程度。你买彩票中大奖的机会很小你买彩票中大奖的机会很小(接近接近0)但有人中大奖的概率几乎为但有人中大奖的概率几乎为1你被流星击中的概率很小你被流星击中的概率很小(接近接近0)但每分钟有流星击中地球的概率为但每分钟有流星击中地球的概率为1你今天被汽车撞上的概率几乎是你今天被汽车撞上的概率几乎是0但在北京每天发生车祸的概率是但在北京每天发生车祸的概率是1。第2页,共88页,编辑于2022年,星期二发发生生概概率率很很小小的的
2、事事件件称称为为小小概概率率事事件件(small probability event);小小概概率率事事件件不不那那么么可可能能发发生生,但但它它往往往往比比很很可可能能发发生生的的事事件更值得研究。件更值得研究。在在某某种种意意义义上上,新新闻闻媒媒体体的的主主要要注注意意力力大大都都集集中中在在小小概概率事件上。率事件上。第3页,共88页,编辑于2022年,星期二4.1 得到概率的几种途径得到概率的几种途径1 利用等可能事件利用等可能事件如如果果一一个个骰骰子子是是公公平平的的,那那么么掷掷一一次次骰骰子子会会以以等等可可能能(概概率率1/6,6种种可可能能之之一一)得得到到1至至6点点的
3、的中中的的每一个点。每一个点。抛抛一一个个公公平平的的硬硬币币,则则以以等等可可能能(概率概率1/2)出现正面或反面。出现正面或反面。第4页,共88页,编辑于2022年,星期二4.1 得到概率的几种途径得到概率的几种途径再再如如从从52张张牌牌中中随随机机抽抽取取一一张张,那那么么它它是是黑黑桃桃的的概概率率为为抽抽取取黑黑桃桃的的可可能能(k13)和和总总可可能能性性(n52)之之比,即比,即k/n=13/52=1/4;类类似似地地抽抽到到的的牌牌是是J、Q、K、A四四种种(共共 有有16种种 可可 能能)的的 概概 率率 是是16/52=4/13。第5页,共88页,编辑于2022年,星期二
4、4.1 得到概率的几种途径得到概率的几种途径其其实实即即使使没没有有学学过过概概率率,读读者者也也多半能够算出这些概率。多半能够算出这些概率。计计算算这这些些概概率率的的基基础础就就是是事事先先知知道道(或或者者假假设设)某某些些事事件件是是等等可可能能的的。这这种种事事件件为为等等可可能能事事件件(equally likely event)。第6页,共88页,编辑于2022年,星期二4.1 得到概率的几种途径得到概率的几种途径2 根据长期相对频数根据长期相对频数事件并不一定是等可能的,或者人们对事件并不一定是等可能的,或者人们对于其出现的可能性一无所知。于其出现的可能性一无所知。这时就要靠观
5、察它在大量重复试验中出这时就要靠观察它在大量重复试验中出现的频率来估计它出现的概率。现的频率来估计它出现的概率。它约等于事件出现的频数它约等于事件出现的频数k除以重复试验除以重复试验的次数的次数n,该比值,该比值k/n称为称为相对频数相对频数(relative frequency)或频率)或频率。第7页,共88页,编辑于2022年,星期二4.1 得到概率的几种途径得到概率的几种途径例如,刮发票的中奖密封时,大多得例如,刮发票的中奖密封时,大多得到到“谢谢谢谢”。如果你刮了。如果你刮了150张发票,张发票,只有只有3张中奖,你会认为,你的中张中奖,你会认为,你的中奖概率大约是奖概率大约是3/15
6、0=0.02如果一个学生在如果一个学生在200次上课时,无故次上课时,无故旷课旷课10次,那么其旷课的概率可能次,那么其旷课的概率可能被认为接近被认为接近10/200=0.05第8页,共88页,编辑于2022年,星期二4.1 得到概率的几种途径得到概率的几种途径试验次数试验次数n越大则该值越接近于想得越大则该值越接近于想得到的概率。到的概率。很多事件无法进行长期重复试验。很多事件无法进行长期重复试验。因此这种通过相对频数获得概率的因此这种通过相对频数获得概率的方法也并不是万能的。虽然如此,方法也并不是万能的。虽然如此,用相对频数来确定概率的方法是很用相对频数来确定概率的方法是很常用的。常用的。
7、你们可以举出无数类似的例子你们可以举出无数类似的例子第9页,共88页,编辑于2022年,星期二4.1 得到概率的几种途径得到概率的几种途径3 3 主观概率主观概率一一些些概概率率既既不不能能由由等等可可能能性性来来计计算算,也也不不可可能能从从试试验验得得出出。比比如如,你你今今年年想想学学开开车车概概率率、你你五五年年内内去去欧欧洲洲旅旅游游的的概概率率等等这这种种概概率率称称为为主主观观概概率率(subjective probability)。可可以以说说,主主观观概概率率是是一一次次事事件件的的概概率率。或或为为基基于于所所掌掌握握的的信信息息,某某人人对对某某事事件件发生的自信程度。发
8、生的自信程度。第10页,共88页,编辑于2022年,星期二4.2 概率的运算概率的运算 在掷骰子中,得到在掷骰子中,得到6点的概率是点的概率是1/6,而,而得到得到5点的概率也是点的概率也是1/6。那么掷一次骰子得到那么掷一次骰子得到5或者或者6的概率是的概率是多少呢?多少呢?在掷在掷10次骰子中有次骰子中有一半或以上的次数一半或以上的次数得得到到5或或6的概率又是多少呢?的概率又是多少呢?读者很快就可能很快会得到答案。但再读者很快就可能很快会得到答案。但再复杂一些,也许就不简单了。复杂一些,也许就不简单了。第11页,共88页,编辑于2022年,星期二4.2 概率的运算概率的运算 我们需要了解
9、怎样从简单的情况计算稍微我们需要了解怎样从简单的情况计算稍微复杂情况时的概率。复杂情况时的概率。需要读者回忆一下上中学时学过的集合概需要读者回忆一下上中学时学过的集合概念,比如两个集合的交和并,互余(互补)念,比如两个集合的交和并,互余(互补)等概念。等概念。在概率论中所说的事件(在概率论中所说的事件(event)相当)相当于集合论中的集合(于集合论中的集合(set)。而概率则是)。而概率则是事件的某种函数。事件的某种函数。为什么会这么说呢,让我们看掷两个骰为什么会这么说呢,让我们看掷两个骰子的试验。子的试验。第12页,共88页,编辑于2022年,星期二4.2 概率的运算概率的运算 如所关心的
10、是如所关心的是两骰子点数之和两骰子点数之和,则下表,则下表包含了所有包含了所有36种可能试验结果的搭配种可能试验结果的搭配和相应的点数和。和相应的点数和。第13页,共88页,编辑于2022年,星期二可以看出,如果我们考虑点数和等于可以看出,如果我们考虑点数和等于2的事件,则仅有一种可能的试验结果(两个骰子均为一点);而如果我们考的事件,则仅有一种可能的试验结果(两个骰子均为一点);而如果我们考虑点数和等于虑点数和等于7的事件,则有六种可能的试验结果。两个骰子点数之和总共有的事件,则有六种可能的试验结果。两个骰子点数之和总共有2至至12等等11种可能,即种可能,即有有11种可能的事件,而这种可能
11、的事件,而这11种事件相应于上面所说的种事件相应于上面所说的36种可能的试验结果的一些集合。这些事件和试种可能的试验结果的一些集合。这些事件和试验结果的集合归纳在下面表中:验结果的集合归纳在下面表中:第14页,共88页,编辑于2022年,星期二4.2 概率的运算概率的运算:1.互补事件的概率互补事件的概率如如果果今今天天下下雨雨的的概概率率是是10,则则今今天天不下雨的概率就是不下雨的概率就是90。如如果果你你中中奖奖的的概概率率是是0.0001,那那么么不不中奖的概率就是中奖的概率就是10.0001=0.9999。这这种种如如果果一一个个不不出出现现,则则另另一一个个肯肯定定出出现现的的两两
12、个个事事件件称称为为互互补补事事件件(complementary events,或或者者互互余余事件事件或或对立事件对立事件)。)。第15页,共88页,编辑于2022年,星期二4.2 概率的运算概率的运算:1.互补事件的概率互补事件的概率按按照照集集合合的的记记号号,如如果果一一个个事事件件记记为为A,那那么么另另一一个个记记为为AC(称称为为A的的余余集集或或补集)。补集)。显显然然互互补补事事件件的的概概率率之之和和为为1,即即P(A)+P(AC)=1,或者,或者P(AC)1P(A)。在在西西方方赌赌博博时时常常常常爱爱用用优优势势或或赔赔率率(odds)来形容输赢的可能。来形容输赢的可能
13、。它它是是互互补补事事件件概概率率之之比比,即即P(A)/P(AC)P(A)/1-P(A)来表示。来表示。第16页,共88页,编辑于2022年,星期二4.2 概率的运算概率的运算:2.概率的加法概率的加法如如果果两两个个事事件件不不可可能能同同时时发发生生,那那么么至至少少其其中中之之一一发发生生的的概概率率为为这这两两个概率的和。个概率的和。比比如如“掷掷一一次次骰骰子子得得到到3或或者者6点点”的的概概率率是是“得得到到3点点”的的概概率率与与“得得 到到6点点”的的 概概 率率 之之 和和,即即1/6+1/6=1/3。但但是是如如果果两两个个事事件件可可能能同同时时发发生生时时这样做就不
14、对了。这样做就不对了。第17页,共88页,编辑于2022年,星期二4.2 概率的运算概率的运算:2.概率的加法概率的加法假假定定掷掷骰骰子子时时,一一个个事事件件A为为“得得到到偶偶数数点点”(有有3种种可可能能:2、4、6点点),另另一一个个事事件件B为为“得得到到大大于于或或等等于于3点点”(有(有4种可能:种可能:3、4、5、6点);点);这这样样,事事件件A的的概概率率显显然然等等于于3/6=1/2,即即 P(A)=1/2。而而 事事 件件B的的 概概 率率 为为P(B)=4/6=2/3。但但是是,“得得到到大大于于或或等等于于3点点或或者者偶偶数数点点”的的 事事 件件 的的 概概
15、率率 就就 不不 是是P(A)+P(B)=1/2+2/3=7/6了;了;第18页,共88页,编辑于2022年,星期二4.2 概率的运算概率的运算:2.概率的加法概率的加法这这显显然然多多出出来来了了。概概率率怎怎么么能能够够大大于于1呢呢?按按照照中中学学时时关关于于集集合合的的记记号号,该该事事件件称称为为A和和B的的并并,记记为为AB。刚刚才才多多出出来来的的部部分分就就是是A和和B的的共共同同部部分分AB(称称为为A和和B的交)的概率(这个概率算了两遍);的交)的概率(这个概率算了两遍);它它为为“得得到到既既是是偶偶数数,又又大大于于等等于于3”的的部部分分,即即4和和6两两点点。出出
16、现现事事件件4或或者者6的的概概率为率为1/6+1/6=1/3。第19页,共88页,编辑于2022年,星期二4.2 概率的运算概率的运算:2.概率的加法概率的加法于于是是应应该该把把算算重重了了的的概概率率减减去去。这这样样“得得到到大大于于或或等等于于3点点或或者者偶偶数数点点”的的事事件件AB的的 概概 率率 就就 是是P(AB)P(A)+P(B)-P(AB)=1/2+2/3-1/35/6。这这种种P(AB)P(A)+P(B)-P(AB)的的公公式式也也适适用用于于两两个个不不可可能能同同时时发发生生的的事事件件;但但因因为为那那时时P(AB)=0,所所以以只只剩剩下下P(AB)P(A)+
17、P(B)了。了。第20页,共88页,编辑于2022年,星期二4.2 概率的运算概率的运算:2.概率的加法概率的加法这这种种交交等等于于空空集集(AB=F F,这这里里F F表表示示空空集集或或空空事事件件)的的事事件件为为两两个个不不可可能能同同时时发发生生的的事事件件,称称为为互互不不相相容容事事件件(mutually exclusive events)。第21页,共88页,编辑于2022年,星期二4.2 概率的运算概率的运算:3.概率的乘法概率的乘法如如果果你你有有一一个个固固定定电电话话和和一一个个手手机机,假假定定固固定定电电话话出出毛毛病病的的概概率率为为0.01,而而手机出问题的概
18、率为手机出问题的概率为0.05,那那么么,两两个个电电话话同同时时出出毛毛病病的的概概率率是是多少呢?多少呢?聪聪 明明 的的 读读 者者 马马 上上 会会 猜猜 出出,是是0.010.05=0.0005。但但 是是 这这 种种 乘乘 法法 法法 则则,即即 P(AB)P(A)P(B),仅仅 仅仅 在在 两两 个个 事事 件件 独独 立立(independent)时才成立。时才成立。第22页,共88页,编辑于2022年,星期二4.2 概率的运算概率的运算:3.概率的乘法概率的乘法如如果果事事件件不不独独立立则则需需要要引引进进条条件件概概率率(conditional probability)。
19、比比如如三三个个人人抽抽签签,而而只只有有一一个个人人能能够够抽抽中,因此每个人抽中的机会是中,因此每个人抽中的机会是1/3。假假定定用用A1、A2和和A3分分别别代代表表这这三三个个人人抽抽中中的的事事件件,那那么么,P(A1)=P(A2)=P(A3)=1/3。第23页,共88页,编辑于2022年,星期二4.2 概率的运算概率的运算:3.概率的乘法概率的乘法但但是是由由于于一一个个人人抽抽中中,其其他他人人就就不不可可能抽中,能抽中,所所以以,这这三三个个事事件件不不独独立立。刚刚才才的的乘乘法法规则不成立;规则不成立;这这 时时,P(A1A3)P(A1A2)P(A2A3)0;如如错错误误照
20、照搬搬乘乘法法规规则则会会得得到错误的到错误的(1/3)2=1/9。第24页,共88页,编辑于2022年,星期二4.2 概率的运算概率的运算:3.概率的乘法概率的乘法但但是是可可以以计计算算条条件件概概率率,比比如如第第一一个个人人抽抽到到(事事件件A1),则则在在这这个个条条件件下下其其他他两两个个人人抽抽到到的的概概率率都都为为0;记记为为P(A2|A1)=P(A3|A1)=0。如如第第一一个个人人没没有有抽抽到到(事事件件A1C),那那么么其其他他两两人人抽抽到到的的概概率率均均为为1/2,记记为为P(A2|A1C)=P(A3|A1C)=1/2。第25页,共88页,编辑于2022年,星期
21、二4.2 概率的运算概率的运算:3.概率的乘法概率的乘法一一般般地地,在在一一个个事事件件B已已经经发发生生的的情情况况下下,事事件件A发发生生的的条条件件概概率率定定义义为为(贝贝叶斯公式)叶斯公式)第26页,共88页,编辑于2022年,星期二离散型随机变量与连续型随机变量离散型随机变量与连续型随机变量第四章第四章 概率与概率分布概率与概率分布试验随机变量可能的取值抽查抽查100个产品个产品取到次品的个数取到次品的个数0,1,2,100一家餐馆营业一天一家餐馆营业一天顾客数顾客数0,1,2,抽查一批电子原件抽查一批电子原件使用寿命使用寿命X 0新建一座住宅楼新建一座住宅楼半年完成工程的百半年
22、完成工程的百分比分比0 X 100第27页,共88页,编辑于2022年,星期二分布分布随随机机变变量量取取一一切切可可能能值值或或范范围围的的概概率率或或概概率率的的规规律律称称为为概概率率分分布布(probability distribution,简简称称分分布布)。概概率率分分布布可可以以用用各各种种图图或或表表来来表表示示;一些可以用公式来表示。一些可以用公式来表示。概概率率分分布布是是关关于于总总体体的的概概念念。有有了了概率分布就等于知道了总体。概率分布就等于知道了总体。第28页,共88页,编辑于2022年,星期二分布分布前前面面介介绍绍过过的的样样本本均均值值、样样本本标标准准差差
23、和和样样本本方方差差等等样样本本特特征征的的概概念念是是相相应应的总体特征的反映。的总体特征的反映。我我们们也也有有描描述述变变量量“位位置置”的的总总体体均均值值、总总体体中中位位数数、总总体体百百分分位位数数以以及及描描述述变变量量分分散散(集集中中)程程度度的的总总体体标标准准差差和和总总体方差等概念。体方差等概念。第29页,共88页,编辑于2022年,星期二4.3 离散变量的分布离散变量的分布离离散散变变量量只只取取离离散散的的值值,比比如如骰骰子子的的点点数数、网网站站点点击击数数、顾顾客客人人数数等等等等。每每一一种种取取值值都都有有某某种种概概率率。各各种种取取值值点点的的概概率
24、率总总和和应应该是该是1。当然离散变量不不仅仅限于取非负整数值。当然离散变量不不仅仅限于取非负整数值。一一般般来来说说,某某离离散散随随机机变变量量的的每每一一个个可可能能取取值值xi都都相相应应于于取取该该值值的的概概率率p(xi),这这些些概概率率应该满足关系应该满足关系第30页,共88页,编辑于2022年,星期二4.3.1 二项分布二项分布最最简简单单的的离离散散分分布布应应该该是是基基于于可可重重复复的的有有两两结结果果(比比如如成成功功和和失失败败)的的相相同同独独立立试试验验(每每次次试试验验成成功功概概率率相相同同)的的分布,例如抛硬币。分布,例如抛硬币。比比如如用用p代代表表得
25、得到到硬硬币币正正面面的的概概率率,那那么么1p则是得到反面的概率。则是得到反面的概率。如如果果知知道道p,这这个个抛抛硬硬币币的的试试验验的的概概率率分布也就都知道了。分布也就都知道了。第31页,共88页,编辑于2022年,星期二4.3.1 二项分布二项分布这种有两个可能结果的试验有两个特点:这种有两个可能结果的试验有两个特点:一是各次试验互相独立,一是各次试验互相独立,二二是是每每次次试试验验得得到到一一种种结结果果的的概概率率不不变(这里是得到正面的概率总是变(这里是得到正面的概率总是p)。)。类类似似于于抛抛硬硬币币的的仅仅有有两两种种结结果果的的重重复复独独 立立 试试 验验 被被
26、称称 为为Bernoulli试试 验验(Bernoulli trials)。)。第32页,共88页,编辑于2022年,星期二4.3.1 二项分布二项分布下面试验可看成为下面试验可看成为Bernoulli试验:试验:每每一一个个进进入入某某商商场场的的顾顾客客是是否否购购买买某某商品商品每个被调查者是否认可某种产品每个被调查者是否认可某种产品每一个新出婴儿的性别。每一个新出婴儿的性别。根根据据这这种种简简单单试试验验的的分分布布,可可以以得得到到基于这个试验的更加复杂事件的概率。基于这个试验的更加复杂事件的概率。第33页,共88页,编辑于2022年,星期二4.3.1 二项分布二项分布为为了了方方
27、便便,人人们们通通常常称称Bernoulli试试验验的两种结果为的两种结果为“成功成功”和和“失败失败”。和和Bernoulli试试验验相相关关的的最最常常见见的的问问题题是是:如如果果进进行行n次次Bernoulli试试验验,每每次次成成功功的的概概率率为为p,那那么么成成功功k次次的的概概率率是是多少?多少?这这个个概概率率的的分分布布就就是是所所谓谓的的二二项项分分布布(binomial distribution)。第34页,共88页,编辑于2022年,星期二4.3.1 二项分布二项分布这这个个分分布布有有两两个个参参数数,一一个个是是试试验验次次数数n,另一个是每次试验成功的概率,另一
28、个是每次试验成功的概率p。基基于于此此,二二项项分分布布用用符符号号B(n,p)或或Bin(n,p)表示。表示。由由于于n和和p可可以以根根据据实实际际情情况况取取各各种种不不同同的值,因此二项分布是一族分布,的值,因此二项分布是一族分布,族内的分布以这两个参数来区分。族内的分布以这两个参数来区分。第35页,共88页,编辑于2022年,星期二4.3.1 二项分布二项分布二二项项分分布布的的概概率率通通常常用用二二项项分分布布表表来来查查出出。但但一一般般统统计计软软件件可可以以很很容容易易得得到这个概率。到这个概率。在在目目前前统统计计软软件件发发达达的的情情况况下下,涉涉及及的的二二项项分分
29、布布一一般般都都自自动动处处理理了了;在在处处理理实实际际问问题题中中很很少少会会遇遇到到直直接接计计算算二二项项分分布布概率的情况。概率的情况。第36页,共88页,编辑于2022年,星期二4.3.1 二项分布二项分布但但这这里里还还是是给给出出其其一一般般公公式式。下下面面p(k)代代表表在在n次次Bernoulli试试验验中中成成功功的的次次数数的概率,的概率,p为每次试验成功的概率。有为每次试验成功的概率。有这里为二项式系数,或记为第37页,共88页,编辑于2022年,星期二图图4.1 九个二项分布九个二项分布B(5,p)(p0.1到到0.9)的概率分布图的概率分布图第38页,共88页,
30、编辑于2022年,星期二4.3.3 Poisson分布分布另另一一个个常常用用离离散散分分布布是是Poisson分分布布(翻翻译译成成“泊泊松松分分布布”或或“普普阿阿松松分分布布”)。)。它它可可以以认认为为是是衡衡量量某某种种事事件件在在一一定定期期间出现的数目的概率。间出现的数目的概率。比比如如说说在在一一定定时时间间内内顾顾客客的的人人数数、打打入入电电话话总总机机电电话话的的个个数数、放放射射性性物物质质放放射射出来并到达某区域的粒子数等等。出来并到达某区域的粒子数等等。第39页,共88页,编辑于2022年,星期二4.3.3 Poisson分布分布在在不不同同条条件件下下,同同样样事
31、事件件在在单单位位时时间间中出现同等数目的概率不尽相同。中出现同等数目的概率不尽相同。比比如如中中午午和和晚晚上上某某商商店店在在10分分钟钟内内出出现现5个顾客的概率就不一定相同。个顾客的概率就不一定相同。因因此此,Poisson分分布布也也是是一一个个分分布布族族。族族中中不不同同成成员员的的区区别别在在于于事事件件出出现现数数目的均值目的均值l l不一样。不一样。第40页,共88页,编辑于2022年,星期二4.3.3 Poisson分布分布参数为参数为l l的的Poisson分布变量的概率分布分布变量的概率分布为(为(p(k)表示表示Poisson变量等于变量等于k的概率)的概率)第41
32、页,共88页,编辑于2022年,星期二参数为参数为3、6、10的的Poisson分布(只分布(只标出了标出了20之内的部分)之内的部分)这里点间的连线没有意义,仅仅为读者容易识别这里点间的连线没有意义,仅仅为读者容易识别而画,因为而画,因为Poisson变量仅取非负整数值变量仅取非负整数值第42页,共88页,编辑于2022年,星期二4.3.4 超几何分布超几何分布假假定定有有一一批批500个个产产品品,而而其其中中有有5个个次次品品。假假定定该该产产品品的的质质量量检检查查采采取取随随机机抽抽取取20个个产产品品进进行行检检查查。如如果果抽抽到到的的20个个产产品品中中含含有有2个个或或更更多
33、多不不合合格格产产品品,则则整个整个500个产品将会被退回。个产品将会被退回。这这时时,人人们们想想知知道道,该该批批产产品品被被退退回回的的概概率率是是多多少少?这这种种概概率率就就满满足足超超几几何何分分布(布(hypergeometric distribution)。第43页,共88页,编辑于2022年,星期二4.3.4 超几何分布超几何分布这这是是一一种种所所谓谓的的“不不放放回回抽抽样样”,也也就就是是说说,一一次次抽抽取取若若干干物物品品,每每检检查查一个之后并不放回;一个之后并不放回;超超几几何何分分布布族族的的成成员员被被三三个个参参数数决决定定,这这里里相相应应于于产产品品总
34、总个个数数n,其其中中不不合合格格产产品品数数目目m,不不放放回回抽抽样样的的数数目目t;而而样本中有样本中有x个不合格产品的概率为个不合格产品的概率为第44页,共88页,编辑于2022年,星期二离散型随机变量的数学期望和方差第45页,共88页,编辑于2022年,星期二离散型随机变量的数学期望(expected value)1.离散型随机变量X的所有可能取值xi与其取相对应的概率pi乘积之和2.描述离散型随机变量取值的集中程度3.记为 或E(X)4.计算公式为第46页,共88页,编辑于2022年,星期二离散型随机变量的方差(variance)1.随机变量X的每一个取值与期望值的离差平方和的数学
35、期望,记为 2 或D(X)2.描述离散型随机变量取值的分散程度3.计算公式为4.方差的平方根称为标准差,记为 或第47页,共88页,编辑于2022年,星期二离散型数学期望和方差(例题分析)【例例例例】一一家家电电脑脑配配件件供供应应商商声声称称,他他所所提提供供的的配配件件100100个中拥有次品的个数及概率如下表个中拥有次品的个数及概率如下表 次品数X=xi0123概率P(X=xi)pi0.750.120.080.05每每100100个配件中的次品数及概率分布个配件中的次品数及概率分布 求该供应商次品数的数学期望和标准差求该供应商次品数的数学期望和标准差 第48页,共88页,编辑于2022年
36、,星期二4.4 连续变量的分布连续变量的分布取取连连续续值值的的变变量量,如如高高度度、长长度度、重重量量、时时间间、距距离离等等等等;它它们们被被称称为为连连续续变变量量(continuous variable)。换换言言之之,一一个个随随机机变变量量如如果果能能够够在在一一区区间间(无无论论这这个个区区间间多多么么小小)内内取取任任何何值值,则则该该变变量量称称为为在在此此区区间间内内是是连连续的,其分布称为连续型概率分布。续的,其分布称为连续型概率分布。它它们们的的概概率率分分布布很很难难准准确确地地用用离离散散变变量量概率的条形图表示。概率的条形图表示。第49页,共88页,编辑于202
37、2年,星期二4.4 连续变量的分布连续变量的分布想想象象连连续续变变量量观观测测值值的的直直方方图图;如如果果其其纵纵坐坐标标为为相相对对频频数数,那那么么所所有有这这些些矩矩形形条条的的高高度度和和为为1;完完全全可可以以重重新新设设置置量量纲纲,使使得得这这些些矩矩形条的面积和为形条的面积和为1。不不断断增增加加观观测测值值及及直直方方图图的的矩矩形形条条的的数数目目,直直方方图图就就会会越越来来越越像像一一条条光光滑滑曲曲线线,其其下下面的面积和为面的面积和为1。该该曲曲线线即即所所谓谓概概率率密密度度函函数数(probability density function,pdf),简简称称
38、密密度度函函数数或或密密度。下图为这样形成的密度曲线。度。下图为这样形成的密度曲线。第50页,共88页,编辑于2022年,星期二逐渐增加矩形条数目的直方图和一个形逐渐增加矩形条数目的直方图和一个形状类似的密度曲线。状类似的密度曲线。第51页,共88页,编辑于2022年,星期二4.4 连续变量的分布连续变量的分布连连续续变变量量落落入入某某个个区区间间的的概概率率就就是是概概率率密密度度函函数数的的曲曲线线在在这这个个区区间间上上所所覆覆盖盖的的面面积积;因因此此,理理论论上上,这这个个概概率率就就是是密密度度函函数数在在这个区间上的积分。这个区间上的积分。对对于于连连续续变变量量,取取某某个个
39、特特定定值值的的概概率率都都是是零零,而而只只有有变变量量取取值值于于某某个个(或或若若干干个个)区区间间的的概率才可能大于概率才可能大于0。连连续续变变量量密密度度函函数数曲曲线线(这这里里用用f表表示示)下下面面覆盖的总面积为覆盖的总面积为1,即,即第52页,共88页,编辑于2022年,星期二4.4.1 正态分布正态分布在在北北京京市市场场上上的的精精制制盐盐很很多多是是一一公公斤斤袋袋装装,上上面面标标有有“净净含含量量1kg”的的字字样样。但但当当你你用用稍稍微微精精确确一一些些的的天天平平称称那那些些袋袋装装盐盐的的重重量量时时,会会发发现现有有些些可可能能会会重重些些,有有些些可可
40、能能会会轻轻些些;但但都都是是在在1kg左左右右。多多数数离离1kg不不远远,离离1kg越近就越可能出现,离越近就越可能出现,离1kg越远就越不可能。越远就越不可能。一一般般认认为为这这种种重重量量分分布布近近似似地地服服从从最最常常用用的的正正态态分分布布(normal distribution,又又叫叫高高斯斯分分布,布,Gaussian distribution)。第53页,共88页,编辑于2022年,星期二4.4.1 正态分布正态分布近近似似地地服服从从正正态态分分布布的的变变量量很很常常见见,象象测测量量误误差差、商商品品的的重重量量或或尺尺寸寸、某年龄人群的身高和体重等等。某年龄人
41、群的身高和体重等等。在在一一定定条条件件下下,许许多多不不是是正正态态分分布布的的样样本本均均值值在在样样本本量量很很大大时时,也可用正态分布来近似。也可用正态分布来近似。第54页,共88页,编辑于2022年,星期二4.4.1 正态分布正态分布正正态态分分布布的的密密度度曲曲线线是是一一个个对对称称的的钟钟型型曲曲线线(最最高高点点在在均均值值处处)。正正态态分分布布也也是是一一族族分分布布,各各种种正正态态分分布布根根据据它它们们的的均值和标准差不同而有区别。均值和标准差不同而有区别。一一个个正正态态分分布布用用N(m m,s s)表表示示;其其中中m m为为均均值值,而而s s为为标标准准
42、差差。也也常常用用N(m m,s s2 2)来来表表示示,这这里里s s2 2为为方方差差(标标准准差差的的平平方方)。第55页,共88页,编辑于2022年,星期二4.4.1 正态分布正态分布标标准准差差为为1的的正正态态分分布布N(0,1)称称为为标标准准正正态态分布分布(standard normal distribution)。标准正态分布的密度函数用标准正态分布的密度函数用f f(x)表示。表示。任任何何具具有有正正态态分分布布N(m m,s s)的的随随机机变变量量X都都可可以以用用简简单单的的变变换换(减减去去其其均均值值m m,再再除除以以标标准准差差s s):Z=(X-m)/s
43、m)/s,而而成成为为标标准准正正态态随随机机变量。这种变换和标准得分的意义类似。变量。这种变换和标准得分的意义类似。第56页,共88页,编辑于2022年,星期二两条正态分布的密度曲线。左边是两条正态分布的密度曲线。左边是N(-2,0.5)分布,右边是分布,右边是N(0,1)分布分布 第57页,共88页,编辑于2022年,星期二4.4.1 正态分布正态分布当当然然,和和所所有有连连续续变变量量一一样样,正正态态变变量量落落在在某某个个区区间间的概率就等于在这个区间上,密度曲线下面的面积。的概率就等于在这个区间上,密度曲线下面的面积。比比如如,标标准准正正态态分分布布变变量量落落在在区区间间(0
44、.51,1.57)中中的的概概率率,就是在标准正态密度曲线下面在就是在标准正态密度曲线下面在0.51和和1.57之间的面积。之间的面积。很很容容易易得得到到这这个个面面积积等等于于0.24682;也也就就是是说说,标标准准正正态态变变量量在在区区间间(0.51,1.57)中中的的概概率率等等于于0.24682。如如果果密密度度函数为函数为f f(x),那么这个面积为积分,那么这个面积为积分第58页,共88页,编辑于2022年,星期二标准正态变量在区间标准正态变量在区间(0.51,1.57)中的概中的概率率第59页,共88页,编辑于2022年,星期二4.4.1 正态分布正态分布我我们们有有必必要
45、要引引进进总总体体的的下下侧侧分分位位数数、上上侧侧分位数以及相应的尾概率的概念。分位数以及相应的尾概率的概念。对对于于连连续续型型随随机机变变量量X,a a下下侧侧分分位位数数(又又称称为为a a分分位位数数,a a-quantile)定定义义为为数数xa a,它它满足关系满足关系这里的这里的a a又又称为下(左)侧尾概率称为下(左)侧尾概率(lower/left tail probability)第60页,共88页,编辑于2022年,星期二4.4.1 正态分布正态分布而而a a上上侧侧分分位位数数(又又称称a a上上分分位位数数,a a-upper quantile)定定义义为为数数xa
46、a,它它满满足足关系关系这里的这里的a a也也称为上(右)侧尾概率称为上(右)侧尾概率(upper/right tail probability)。)。第61页,共88页,编辑于2022年,星期二4.4.1 正态分布正态分布对对于于非非连连续续型型的的分分布布,分分位位数数的的定定义稍微复杂一些;义稍微复杂一些;显显然然,对对于于连连续续分分布布,a a上上侧侧分分位位数数等等于于(1a)a)下下侧侧分分位位数数,而而(1a)a)下侧分位数等于下侧分位数等于a a上侧分位数。上侧分位数。第62页,共88页,编辑于2022年,星期二4.4.1 正态分布正态分布通通常常用用za a表表示示标标准准
47、正正态态分分布布的的a a上上侧侧分分位位数数,即即对对于于标标准准正正态态分分布布变变量量Z,有,有P(Zza a)=a a。图图4.64.6表表示示了了0.050.05上上侧侧分分位位数数za a=z0.050.05及及相相应应的的尾尾概概率率(a0.05a0.05)。有有些些书书用用符符号号z1 1a a而而不不是是za a;因因此此在在看参考文献时要注意符号的定义。看参考文献时要注意符号的定义。第63页,共88页,编辑于2022年,星期二N(0,1)分布右侧尾概率分布右侧尾概率P(zza a)=a a的示意图的示意图第64页,共88页,编辑于2022年,星期二4.4.2 c c2-分布
48、分布一一个个由由正正态态变变量量导导出出的的分分布布是是c c2-分分布布(chi-square distribution,也也翻翻译译为为卡卡方方分布分布)。该分布在一些检验中会用到。该分布在一些检验中会用到。n个个独独立立正正态态变变量量平平方方和和称称为为有有n个个自自由由度度的的c c2-分分布布,记记为为c c2(n)。c c2-分分布布为为一一族分布族分布,成员由自由度区分。成员由自由度区分。由由于于c c2-分分布布变变量量为为正正态态变变量量的的平平方方和和,它不会取负值。它不会取负值。第65页,共88页,编辑于2022年,星期二自由度为自由度为2、3、5的的c c2-分布密度
49、曲线图分布密度曲线图第66页,共88页,编辑于2022年,星期二4.4.3 t-分布分布正正态态变变量量的的样样本本均均值值也也是是正正态态变变量量,能能利利用用减减去去其其均均值值再再除除以以其其(总总体体)标标准准差差来得到标准正态变量。来得到标准正态变量。但但用用样样本本标标准准差差来来代代替替未未知知的的总总体体标标准准差差时时,得得到到的的结结果果分分布布就就不不再再是是标标准准正正态态分分布布了了。它它的的密密度度曲曲线线看看上上去去有有些些象象标标准准正正态态分分布布,但但是是中中间间瘦瘦一一些些,而而且且尾尾巴巴长长一一些些。这这种种分分布布称称为为t-分分布布(t-distr
50、ibution,或或学学生生分分布布,Students t)。第67页,共88页,编辑于2022年,星期二4.4.3 t-分布分布不不同同的的样样本本量量通通过过标标准准化化所所产产生生的的t分布也不同分布也不同,这样就形成一族分布。这样就形成一族分布。t分分布布族族中中的的成成员员是是以以自自由由度度来来区区分分的的。这这里里的的自自由由度度等等于于样样本本量量减减去去1(如如果果样样本本量量为为n,刚刚才才定定义义的的t分分布布的自由度为的自由度为n-1)。)。由由于于产产生生t分分布布的的方方式式很很多多,简简单单说说自自由由度度就就是是样样本本量量减减1是是不不准准确确的的。自自由度甚