《第六章概率分布优秀PPT.ppt》由会员分享,可在线阅读,更多相关《第六章概率分布优秀PPT.ppt(137页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第六章概率分布第一页,本课件共有137页第一节 概率的基本概念v一、概率v二、概率的基本性质v三、概率分布类型第二页,本课件共有137页一、概率v(一)随机现象v(二)事件与概率第三页,本课件共有137页(一)随机现象v1、确定性现象:在一定条件下事先可以断言必然会发生某种结果的现象。v必然现象:在一定条件下必然会发生的现象。v不可能现象:在一定条件下必然不会发生的现象。v2、随机现象:在一定条件下,事先不能断言会出现哪种结果的现象。v随机试验:对随机现象的一次观察。v随机试验是研究随机现象的手段。第四页,本课件共有137页随机现象的特点 v偶然性:一次试验前,不能预言发生哪一种结果。v必然性
2、:在相同条件下,进行大量次重复试验,呈现出统计规律性。第五页,本课件共有137页随机事件v随机事件:随机现象中出现的各种可能的结果,简称事件。v随机事件中有两种极端情况:必然事件和不可能事件。v必然事件:某一事件包含随机试验中所有可能的结果。v不可能事件:某一事件不包含随机试验中的任何结果。第六页,本课件共有137页(二)事件与概率v在N次重复试验中,事件A发生的次数为n,那么n与试验总次数N的比值,称为事件A发生的频率,记作:第七页,本课件共有137页那么什么是概率呢?v概率是表明随机事件出现可能性大小的客观指标。v概率的两种不同定义:后验概率、先验概率。第八页,本课件共有137页1、后验概
3、率v如果把一枚质地均匀的硬币抛出以后,正面向上的概率有多大呢?v假定,在n次抛掷(试验)中,硬币正面向上的次数为m,则正面朝上的频率为mn。这个频率不是概率,因为有随机误差的存在。在这n次试验中,可能碰巧正面朝上的情况多一点,在另外的n次试验中,也许正面朝上的情况就少一点。为了减少这种误差,就要加大试验的次数。第九页,本课件共有137页抛硬币v随着抛掷次数的不断增加,硬币正面朝上的次数与抛掷总次数的频率越来越趋于稳定在0.5附近,于是0.5就被认定为正面朝上的概率,这个概率称为后验概率。第十页,本课件共有137页后验概率 v后验概率是在大量试验的基础上建立起来的,假定用A表示一个随机事件,后验
4、概率就是在大量试验中随机事件A出现次数的稳定比率。即:对随机事件进行n次实验,某一事件A出现m次,m与n的比值叫做随机事件A的频率,当n时,随机事件A的频率m/n趋于某一常数P,则这一常数P就是随机事件A发生的概率,即 第十一页,本课件共有137页2、先验概率v在某些条件下,我们不做试验就可以确定随机事件的概率,这种无需进行大量实验的概率就是先验概率,也称古典概率。第十二页,本课件共有137页古典概型v先验概率涉及的问题都比较简单,例如掷骰子(touzi)、抛硬币等,这些随机现象有两个共同的特点:a、结果数目有限,b、各种结果出现的可能性被认为是相等的。满足这两个条件的模型,称为古典概型。第十
5、三页,本课件共有137页先验概率的定义v先验概率就是通过古典概型加以定义的。即某一随机事件A的概率为该事件所包含的可能结果个数m与所有可能结果的总数n的比值,即第十四页,本课件共有137页例题v例6-1,一个箱子里有100个球,其中97个是白色的,3个是红色的,从箱子里任意取出一个球,这个球是红色的概率是多少?v例6-2,抛掷硬币3次,问其中一次正面朝上的概率是多大?第十五页,本课件共有137页二、概率的基本性质v(一)概率的公理系统v(二)概率的加法定理v(三)概率的乘法定理第十六页,本课件共有137页(一)概率的公理系统v1、任何一个随机事件A的概率都是非负的。v2、在一定条件下必然发生的
6、事件即必然事件的概率为1。v3、在一定条件下,必然不发生的事件,即不可能事件的概率为0。v 0P(A)1,越接近1,事件发生的可能性越大,越接近0,可能性越小,2、3反过来不成立。第十七页,本课件共有137页(二)概率的加法定理v1、不相容事件:在一次实验中,不可能同时出现的事件。即,则称A与B为互不相容事件。v2、加法定理:两个互不相容事件A、B之和的概率,等于这两个事件的概率之和:P(A+B)=P(A )+P(B)。v3、推论:有限个互不相容事件和的概率,等于这些事件概率之和。第十八页,本课件共有137页(三)概率的乘法定理v1、独立事件:一个事件的出现对另一事件的出现不发生影响,则称这两
7、个事件为相互独立事件:。v2、相关事件:如果事件A的概率随事件B是否出现而改变,事件B的概率随事件A的出现而改变,则这两个事件为相关事件。v3、乘法定理:两个独立事件积的概率,等于这两个事件概率的乘积。即 。v4、推论:有限个独立事件积的概率,等于这些事件概率的乘积。第十九页,本课件共有137页例6-3v盒中有6支红粉笔、5支黄粉笔、2支绿粉笔和7支白粉笔。问任意摸得一只红色或绿色粉笔的概率是多少?任意摸得一支红色或黄色或白色粉笔的概率是多少?第二十页,本课件共有137页例6-4v某专业研究生复试,让考生从6个试题中任意抽取一题进行,若抽到每一题的概率为16,前一考生抽过的试题再放回,后一考生
8、再抽,问2个考生都抽到试题1的概率是多少?第二十一页,本课件共有137页练习v1、掷出一个骰子,计算骰子数字大于3的概率。v2、连续抛2枚硬币,计算两次都是正面朝上的概率。第二十二页,本课件共有137页三、概率分布类型v(一)按随机变量取值类型v(二)依分布函数的来源来分v(三)依据概率分布所描述的数据特征第二十三页,本课件共有137页(一)按随机变量取值类型v1、离散分布:随机变量只取孤立数值的分布。如二项分布、泊松分布、超几何分布。v2、连续分布:连续型随机变量的分布。如正态分布、负指数分布、威布尔分布等。第二十四页,本课件共有137页(二)依分布函数的来源来分v1、经验分布:根据观察或实
9、验所获得的数据而编制的次数分布或相对频率分布。经验分布往往是总体的一个样本,它可对所研究的对象给以初步描述,并作为推论总体的依据。v2、理论分布:(1)随机变量概率分布的函数数学模型。(2)按某种数学模型计算出的总体的次数分布。第二十五页,本课件共有137页(三)依据概率分布所描述的数据特征v1、基本随机变量分布:理论分布中描述构成总体的基本变量的分布。常用的有二项分布和正态分布。v2、抽样分布:样本统计量的理论分布。又称随机变量的函数分布。第二十六页,本课件共有137页第二节 正态分布(normal distribution)第二十七页,本课件共有137页正态分布v正态分布也称常态分布或常态
10、分配,是连续随机变量概率分布的一种,是在数理统计的理论与实际应用中占有最重要地位的一种理论分布。v正态分布是由棣莫弗1733年发现的。拉普拉斯高斯对正态分布的研究也做出了贡献,故有时称正态分布为高斯分布。第二十八页,本课件共有137页一、正态分布特征 v(一)正态分布曲线函数v(二)正态分布的特征v(三)标准正态分布第二十九页,本课件共有137页(一)正态分布曲线函数v 为待定参数(即理论平均数和理论标准差),且 ,则称随机变量X服从正态分布,记作:。v影响正态分布函数形态的有两个参数:。决定曲线的中心位置,决定曲线的陡峭程度。第三十页,本课件共有137页(二)正态分布的特征v1、正态分布的形
11、式是对称的(但对称的不一定是正态的),它的对称轴是经过平均数点的垂线。正态分布中,平均数、中数、众数三者相等。此点y值最大(0.3989)。左右不同间距的y值不同,各相同间距的面积相等,y值也相等。v2、正态分布的中央点(即平均数点)最高,然后逐渐向两侧下降,曲线的形式是先向内弯,然后向外弯,拐点位于正负1个标准差处,曲线两端间向靠近基线处无限延伸,但始终不能和基线相交。整条曲线呈现“中间高、两边低”的形状。第三十一页,本课件共有137页(二)正态分布的特征v3、正态曲线下的面积为1,由于它在平均数处左右对称,故过平均数点的垂线将正态曲线下的面积划分为相等的两部分,即各为0.50。正态曲线下每
12、一横坐标所对应的面积与总面积(总面积为1)之比其值等于该部分面积值,故正态曲线下的面积可视为概率,即值为每一横坐标值(加减一定标准差)的随机变量出现的概率。v4、正态分布是一族分布。当 时的正态分布称为标准正态分布,即作N(0,1)。第三十二页,本课件共有137页(二)正态分布的特征v5、正态分布中各差异量数值相互间有固定比率。v6、在正态曲线下,标准差与概率有一定的数量关系。第三十三页,本课件共有137页(三)标准正态分布v当 时的正态分布称为标准正态分布,记作N(0,1)。v标准正态分布的 是确定的,它的位置和形状也都是确定的。标准正态分布在Z0时达到最高点,曲线的拐点为Z1两点。v在数理
13、统计中,任何一般的正态分布都可以转化为标准正态分布。若 ,令 ,则ZN(0,1)。第三十四页,本课件共有137页标准正态分布的特点 v1、Z0处曲线位于最高点。v2、曲线以Z0为中心左右对称。v3、曲线从最高点向左右缓慢下降,以横轴为渐近线。v4、。v5、在Z1处有拐点。v6、从Z-3到Z3这个区间包括的概率几乎达到1。第三十五页,本课件共有137页二、正态分布表的编制与使用v(一)正态分布表的编制与结构v(二)正态分布表的使用第三十六页,本课件共有137页(一)正态分布表的编制与结构v1、第一栏是Z分数单位 v2、纵高y v3、概率值P 第三十七页,本课件共有137页(二)正态分布表的使用v
14、1、依据Z分数求概率P。v2、从概率(P)求Z分数。v3、已知概率P或Z值,求概率密度y。v4、将非标准正态分布转化为标准正态分布来查表求值。第三十八页,本课件共有137页1、依据Z分数求概率Pv(1)求某Z分数值与平均数(Z0)之间的概率。v(2)求某Z分数以上或以下的概率。v(3)求两个Z分数之间的概率。第三十九页,本课件共有137页例v设随机变量Z服从标准正态分布,求:vP0Z1、P-1Z0vPZ0、PZ0、PZ1、PZ1、PZ1vP-1Z1、P1Z2、P-2Z1第四十页,本课件共有137页2、从概率(P)求Z分数v(1)已知从平均数开始的概率值求Z值。v(2)已知位于正态分布两端的概率
15、值求该概率值分界点的Z值。v(3)若已知正态曲线下中央部分的概率,求Z分数是多少。第四十一页,本课件共有137页例vZN(0,1),已知下列概率,求Z0。vP0ZZ00.45vPZZ00.05 vP-Z0ZZ00.90第四十二页,本课件共有137页3、已知概率或Z值,求概率密度y v例,ZN(0,1),求下列情况下对应的曲线纵高YvZ1.93vZ=-1.93vP0ZZ00.32894第四十三页,本课件共有137页4、将非标准正态分布转化为标准正态分布来查表求值 v例,设随机变量X服从平均数为10,标准差为2的正态分布,求:vP10X12vP9X10vPX14第四十四页,本课件共有137页4、将
16、非标准正态分布转化为标准正态分布来查表求值v例,求以下概率:第四十五页,本课件共有137页三、次数分布是否正态的检验方法v 检验v偏态峰态量数描述方法v累加次数曲线法v直方图法v概率纸法等。第四十六页,本课件共有137页(一)皮尔逊偏态量数法 v正偏态:MMdMo;负偏态:MMdMo。v偏态量数:。vSK0,分布对称;SK0,正偏态;SK0,负偏态。第四十七页,本课件共有137页(二)峰度、偏度检验法v这种方法是根据分析分布的峰度系数与偏度系数,确定分布形态。一般情况下,需要观测数据的数目要足够大,应用这种方法才有意义。v1、偏度系数g1v2、峰度系数g2第四十八页,本课件共有137页1、偏度
17、系数g1vg10,分布对称;g10,正偏态;g10,负偏态。vN200时,g1才可靠。第四十九页,本课件共有137页2、峰度系数g2vg20,正态分布的峰度;g20,低阔;g20,高狭。vN1000时,g2才可靠。第五十页,本课件共有137页四、正态分布的一些实际应用v(一)标准分数及其应用v(二)利用正态分布,确定录取分数线 v(三)确定在正态分布下特定分数界限内的考生人数 v(四)划等级评定为测量数据v(五)确定测验题目的难易度v(六)在能力分组或等级评定时确定人数v(七)测验分数的正态化 第五十一页,本课件共有137页(二)利用正态分布,确定录取分数线v在选拔性或竞赛性的考试中,录取或授
18、奖的人数(或比率)往往是事先确定的。若考分呈正态分布,在根据考试结果确定分数线时,可将录取或授奖的人数比率作为正态分布中分数右侧,即上端的面积,由此找出相应标准分数Z值,然后根据 ,由Z求原始分数X。第五十二页,本课件共有137页例题v例,某项职业录取考试,在参加考试的1600人中准备录取200人,考试分数接近正态分布,平均分数为74,标准差为11,问录取分数线是多少?v例,在某年高考的平均分数为500,标准差为100的正态总体中,某考生得到650分。设当年高考录取率为10,问该生的成绩能否入围?第五十三页,本课件共有137页(三)确定在正态分布下特定分数界限内的考生人数 v例,某地区某年高考
19、物理科考生4.7万人,平均分为57.08,标准差为18.04。试问:v(1)成绩在90分以上有多少人?v(2)成绩在80分到90分之间有多少人?v(3)成绩60分以下有多少人?第五十四页,本课件共有137页(四)划等级评定为测量数据v例,A、B两位评定者对50名学生的口头表达能力作出优、良、中、及格、不及格五个等级的评定。由于评定者掌握的标准不可能完全相同,同一个学生,可能得到两个不同的等级评定。例如对于学生甲,A评定为“优”,B评定为“良”,对于学生乙,A评定为“良”,B评定为“优”。那么,学生甲与学生乙究竟哪个口头表达能力强?第五十五页,本课件共有137页不相上下?v(1)不同的评定者由于
20、各自的标准不同 v(2)等级分数界限宽,又不一定是等距尺度,所以不能计算平均分。第五十六页,本课件共有137页解决办法v要将等级评定转化为测量数据,然后求平均。v要求:数据必须是正态分布。第五十七页,本课件共有137页转换步骤 v(1)根据各等级被评者的数目求各等级的人数比率。v(2)求各等级比率值的中间值,作为该等级的中点。v(3)求各等级中点以上(或以下)的累加比率。v(4)用累加比率查正态表求Z值,该Z值就是各等级代表性的测量值。v(5)求被评者所得评定等级的测量数据的算术平均数,即为每个被评定者的综合评定分数。第五十八页,本课件共有137页(五)确定测验题目的难易度v测验题目的难易度一
21、般用答对者的百分数确定。但不是等距尺度,无法比较。办法是转换成难度分数。v原理是假设一个测验中不同难易测验题目的分布是正态的,即一个测验中通过率较大和较小的题目很少,而通过率居中的题目较多。v转换之后就有理由认为难度分数是等距尺度,不同题目之间的难易差异就可直接比较。第五十九页,本课件共有137页确定题目难易分数的具体步骤 v(1)计算各题目的通过率。v(2)用0.5减去通过率,不计正负号,获得正态分布表中的概率值。v(3)依据P值查正态表中相应的Z值,通过率大于50的Z值计为负值,通过率小于50的Z值计为正值。v(4)将查表得到的Z分数加上5,便可得到从010的十进制的难度分数值。第六十页,
22、本课件共有137页(六)在能力分组或等级评定时确定人数v假定能力是正态分布,这时若将能力分组,分成等距的几个等级,各组人数应是多少?v在确定各等级人数时,可将正态分布基线上Z-3至Z+3之间6个标准差的距离分成相等的几份(因为在Z3之间的面积已达到0.9973,几乎包括了全体学生),然后用附表1求出各段Z值间的面积,再乘以学生总人数,即为各等级人数。第六十一页,本课件共有137页例v如果100个人某种能力呈正态分布,欲将其分成甲、乙、丙、丁四个等距的等级,问各等级应有多少人?v分为五个等级、六个等级呢?第六十二页,本课件共有137页(七)测验分数的正态化v将样本原始分数分布转换成为正态分布,称
23、作次数分布的正态化。正态化是建立正态标准分数的关键。v前提条件:研究对象的总体事实上应该是正态分布。v正态化是将原始分数转换成Z分数,但转换后的Z分数往往有小数点,并且有负值,看着很不习惯,所以常常要进一步将其转换成T分数,转换公式为TKZ+C。也就是将标准分数扩大K倍,再移到C这个中心位置来表示分数。转换后得到的T值仍保持了Z分数的特征,是一种标准分数。第六十三页,本课件共有137页进行合理的转换,要求 vTKZ+Cv(1)K值应大于(至少等于)原始分数的标准差;v(2)C不应小于3K(一般考试中)或4K(在大规模考试中)。vT分数的平均数为C,标准差为K。第六十四页,本课件共有137页几种
24、常见的T分数v1、T分数:vT10Z+50。是麦克尔(W.A.McCall,1939年)创用的方法,常被用在心理与教育测验中建立常模。v2、离差智商:v韦氏量表:IQ15Z+100v比奈西蒙量表:IQ16Z+100v3、标准九:v标准九2Z+5v4、高考分数:vCEEB100Z+500(总分再进行转换)第六十五页,本课件共有137页如何将原始分数正态化?v(1)将原始数据整理成次数分布表。v(2)计算各分组上限以下的累加次数:cf。v(3)计算每组中点的累加次数,即前一组上限以下的累加次数加上该组次数的一半。v(4)各组中点以下的累加次数除以总数求累积比率。v(5)将各组中点以下累积比率视为正
25、态分布的概率,查正态表,将概率转化为Z分数,这一步是关键。v(6)将正态化的Z值利用公式T10Z+50加以直线转化。第六十六页,本课件共有137页第三节 二项分布 第六十七页,本课件共有137页第三节 二项分布 v二项分布(binominal distribution)是一种具有广泛用途的离散型随机变量的概率分布,它是由贝努里创始的,所以又叫做贝努里分布。v二项分布是心理与教育统计中常用的一种基本随机变量分布。第六十八页,本课件共有137页第三节 二项分布 v一、二项式定理v二、二项试验v三、二项分布v四、二项分布的性质v五、二项分布的应用第六十九页,本课件共有137页一、二项式定理v(一)排
26、列与组合v(二)二项式定理第七十页,本课件共有137页问题v从甲、乙、丙3名同学中选出2名参加某天的一项活动,其中1名学生参加上午的活动,1名参加下午的活动,有多少种不同的方法?v从甲、乙、丙3名同学中选出2名参加某天的一项活动,有多少种不同的选法?第七十一页,本课件共有137页1、排列v定义:从n个不同的元素中,任取m个(mn)元素,按一定的顺序排成一列,叫做从n个不同元素中取出m个元素的一个排列。v(1)当mn,所得排列称为选排列,记作:。v(2)当mn时,所得排列称为全排列,记作:。第七十二页,本课件共有137页练习v(1)用1到9这9个数字,可以组成多少个没有重复数字的三位数?v(2)
27、有5本不同的书,从中选3本送给3名同学,每人各1本,共有多少种不同的选法?第七十三页,本课件共有137页问题v从甲、乙、丙3名同学中选出2名参加某天的一项活动,有多少种不同的选法?第七十四页,本课件共有137页2、组合v定义:从n个不同元素中,任取m个(mn)元素,不管顺序,并成一组,称为从n个不同元素中取出m个元素的一个组合,记作 。第七十五页,本课件共有137页练习v平面内有10个点,以其中每2个点为端点的线段共有多少条?第七十六页,本课件共有137页(二)二项式定理第七十七页,本课件共有137页公式所表示的定理叫二项式定理v(1)右边的多项式叫做 的二项展开式,它一共有n+1项。v(2)
28、(r0,1,2,n)叫做二项式系数。v(3)p按降幂排列,指数从n逐渐减1直到0;q按升幂排列,指数从0逐渐增1直到n。v(4)各项次数和等于二项式次数。v(5)v(6)当项数为奇数时(二项式的指数n为偶数),中间一项的系数最大;当项数为偶数时(二项式的指数n为奇数),中间两项的系数相等且最大。第七十八页,本课件共有137页二、二项试验v问题:一位心理学家想了解儿童对于某种材料的再认能力。于是他设计了10个记忆项目,先让一个儿童识记,然后进行再认测验。结果,该儿童能够再认5个项目。现在要判断的是,该儿童对于这张材料究竟有没有再认能力?v二项试验的问题 第七十九页,本课件共有137页什么是二项试
29、验呢?v满足以下条件的试验被称为二项试验(或称贝努里试验):v1、任何一次试验恰好有两个结果,“成功”或“失败”,或 。(这里的“成功”或“失败”并不是真正意义上的成功或失败,只是说明有两种结果或状态。)v2、共有n次试验,并且n是预先给定的任一正整数。v3、每次试验各自独立,各次试验之间无相互影响。v4、某种结果出现的概率在任何一次试验中都是固定的。即任何一次试验中成功或失败的概率保持相同,成功的概率在第一次为P(A),在第n次试验中也是P(A),但成功与失败的概率可以相等也可以不等。即假设“成功”的概率为p,“失败”的概率为q,则p+q1。v5、试验可以在同样的条件下重复进行。第八十页,本
30、课件共有137页三、二项分布v重复进行n次二项试验,“成功”的次数可以从0到n不等。不同的“成功”次数所对应的概率也可能是不一样的。我们把重复进行n次二项试验后不同“成功”次数的概率分布,称为二项分布。v具体定义如下:设有n次试验,各次试验是彼此独立的,每次试验某事件出现的概率都是p,某事件不出现的概率都是q,(q1-p),则对于某事件出现X次(0,1,2,n)的概率分布为:v也即次数X服从二项分布,记作:Xb(x,n,p)。第八十一页,本课件共有137页例题v例,抛掷硬币3次,正面朝上的次数分别是0,1,2,3的概率分别是18,38,38,18。v例,一个学生完全凭猜测回答2道是非题,答对0
31、,1,2道题的概率是多大?v如果是3道是非题呢?第八十二页,本课件共有137页结论v可以说二项分布是用n次方的二项展开式来表达在n次二项试验中成功次数(x=0,1,n)的概率分布。二项展开式的通式就是二项分布函数,运用这一函数就可以直接求出成功事件恰好出现x次的概率。第八十三页,本课件共有137页例题v例,用二项展开式的通式计算一个学生会凭猜测答4道是非题,答对1道题和2道题的概率分别是多大?v例,设某班学生英语六级通过率为p0.90,抽取了3个学生,问其中通过英语六级的人数分别为0,1,2,3的概率是多少?通过英语六级的人数在2人及2人以上的概率为多少?第八十四页,本课件共有137页练习v从
32、男生占25的学校中随机抽取6个学生,问正好抽到4个男生的概率是多少?至多抽到2个男生的概率是多少?第八十五页,本课件共有137页四、二项分布的性质v(一)二项分布是离散型分布,概率直方图是跃阶式。因为X为不连续变量,用概率条图表示更合适,用直方图表示只是为了更形象。v1、当pq0.5时,二项分布图形左右对称。v2、当pq时,直方图呈偏态,pq与pq的偏斜方向相反。P值偏离0.5越远,图形偏斜程度越大。pq时,向右偏斜正偏态;pq时,向左偏斜,负偏态。v3、如果n很大,即使pq,偏态逐渐降低,最终成正态分布,二项分布的极限分布为正态分布。当pq且np5或pq且nq 5,这时,二项分布就可以当作一
33、个正态分布的近似图形,二项分布的概率可用正态分布的概率作为近似值。第八十六页,本课件共有137页(二)二项分布的平均数和标准差v如果二项分布满足当pq且np5或pq且nq5时,二项分布接近正态分布。这时,二项分布的X变量(即成功的次数)具有如下性质:,即X变量为的正态分布。其中n为独立试验的次数,p为成功事件的概率,q1-p。它们的含义是指在二项试验中,成功次数的平均数 ,成功次数的离散程度 。第八十七页,本课件共有137页验证v假设你在用请人预测从52张抽取大小王之后的扑克牌中抽出的牌的花色来测试人的特异功能(ESP)。在48次试验中,一个人能完全正确地预测14次的概率是多少?第八十八页,本
34、课件共有137页例v一份试卷由50道四选一的选择题(每题1分)组成,考生有把握地回答了其中30题,对剩余的2题只能进行猜测,问这20题的平均得分和标准差分别是多少?第八十九页,本课件共有137页五、二项分布的应用v二项分布在心理与教育研究中,主要用于解决含有机遇性质的问题。v所谓机遇问题,是指在实验或调查中,实验结果可能是由于猜测而造成的。v如果猜对的概率非常大,达到95%或99%,我们就认为他不是猜测的,可能真会。v原理:“小概率事件在一次试验中几乎不可能发生”。v“小概率事件”:概率不超过0.05的事件当做“小概率事件”。第九十页,本课件共有137页例题v例,心理学家想了解儿童的再认能力,
35、设计了10个记忆项目,让儿童识记之后再认,问儿童再认出几张,才能认为不是出于猜测因素?v例,有10道四择一的选择题,即每题有四个备选答案,其中只有一个是正确的,问答对几题才能说不是猜的结果?第九十一页,本课件共有137页例题v假如你忘记准备一次小测验,因此不得不猜测每一题的答案。这是个有40道题的对错选择题测验。你将完全凭运气至少答对26题的概率是多少?即P(X26)=?第九十二页,本课件共有137页第四节 样本分布第九十三页,本课件共有137页第四节 样本分布v总体分布:总体内个体观察值的次数分布或概率分布。v样本分布:样本内个体观察值的次数分布或概率分布。也即样本统计量的分布,它是统计推论
36、的重要依据。v常用的样本分布:平均数的分布、方差的分布。第九十四页,本课件共有137页第四节 样本分布v一、正态分布及渐近正态分布v二、t分布v三、分布v四、F分布第九十五页,本课件共有137页统计推论的基础v在科学研究中,一般是通过一个样本进行分析,只有知道了样本统计量的分布规律,才能依据样本对总体进行推论,也才能确定推论正确或错误的概率是多少。v要保证各个样本是独立的,各个样本都服从同样的分布。第九十六页,本课件共有137页一、正态分布及渐近正态分布v指样本统计量的分布为正态分布或接近正态分布的两种情况,凡符合这两种情况的分布,都可根据正态分布的概率进行统计推论。v(一)样本平均数的分布(
37、总体方差 已知)v(二)方差及标准差的分布第九十七页,本课件共有137页(一)样本平均数的分布(总体方差 已知)v所谓样本平均数的分布是指从基本随机变量为正态分布的总体(又称母总体)中,采用放回随机抽样方法,每次从这个总体中抽取大小为n的一个样本,计算出它的平均数 ,然后将这些个体放回总体去,再次抽取n个个体,又可计算出一个 ,再将n个个体放回去,再抽取n个个体,这样如此反复,可计算出无限多个 ,这无限多个平均数的分布是属于什么样的分布呢?就称为样本平均数的分布。第九十八页,本课件共有137页中心极限定理v中心极限定理是统计学中一个极为重要的定理。它包括以下三方面的内容:v1、当总体呈正态分布
38、时,从总体中抽取容量为n的一切可能样本的平均数的分布也呈正态分布;不论总体呈什么分布形态,当样本容量足够大时,样本平均数的分布也渐近正态分布。v2、从总体中抽取的全部样本平均数的平均数等于总体平均数。即v3、从总体中抽取的全部样本平均数的标准差等于总体标准差除以样本容量的算术平方根。即第九十九页,本课件共有137页1、总体分布为正态,总体方差()已知,样本平均数的分布为正态分布。第一百页,本课件共有137页Z分数v不论母总体的分布还是样本平均数的分布,都可通过求标准分数,将各自的正态分布形态转化为相同的标准正态分布。样本平均数的标准分数,可写作:第一百零一页,本课件共有137页2、总体分布非正
39、态,但 已知,这时当样本足够大时(n30),其样本平均数的分布为渐近正态分布。v接近正态分布的程度与样本容量n和总体偏斜程度有关。v(1)样本n越大,接近得越好。或总体偏态越小,接近程度越好。v(2)当偏斜较大时,n越大,才接近正态分布。第一百零二页,本课件共有137页(二)方差及标准差的分布v依随机取样的原则,自正态分布的总体中抽取容量为n的样本,当n足够大时(n30),样本方差及标准差的分布,渐趋于正态分布,这时,样本方差和标准差的平均数和标准差与母总体的 的关系近似表示如下:第一百零三页,本课件共有137页其它正态分布或渐近正态分布 v如两个样本平均数之差的分布、相关系数的分布、比率的分
40、布等 第一百零四页,本课件共有137页二、t分布vt分布(t-distribution)是统计分析中应用较多的一种随机变量函数的分布,是统计学者高赛特(Gosset)1908年在以笔名“student”发表的一篇论文中推导的一种分布。因此,这种分布有时也叫学生氏分布(students distribution),这种分布是一种左右对称、峰态比较高狭,分布形状随样本容量n-1的变化而变化的一族分布。第一百零五页,本课件共有137页所计算的统计量 第一百零六页,本课件共有137页自由度(degrees of freedom)v自由度(degrees of freedom)是指任何变量中可以自由变化
41、的数目,是t分布密度函数中的参数 ,它代表t分布中独立随机变量的数目,故曰自由度。v自由度一般用df表示,是指变量在特定条件下能自由变化数据的数目。v自由度的取值是由样本容量n减去由资料算出的各统计值受到限制的数目。第一百零七页,本课件共有137页(一)t分布的特点v1、平均数为0。v2、以平均值0左右对称的分布,左侧t为负值,右侧t为正值。v3、变量取值在-+之间。v4、与标准正态分布不同的地方:v标准正态分布不管样本容量n的大小,分布曲线只有一条,并且曲线形状不随n的大小而变化。而t分布随df的不同而不同,是一组曲线。v(1)当n+时,t分布接近正态分布,方差为1;v(2)当n-130(或
42、n30)时,t分布接近正态分布,方差大于1,随n-1的增大而方差渐趋于1;v(3)当n-130(或n30)时,t分布与正态分布相差较大,随n-1减少,离散程度(方差)越大,分布图的中间变化而尾部变高。第一百零八页,本课件共有137页(二)t分布表的使用(附表2)vt分布表由三部分构成:t值、自由度、显著性水平。v(1)表的左列为自由度;v(2)表的最上一行是某一t值分布在两尾端的概率,即双侧概率;v(3)表的最下一行是单侧界限,即某一t值在单侧尾端的概率。第一百零九页,本课件共有137页表示方法v双侧概率通常写作:v单侧概率写作:第一百一十页,本课件共有137页(1)已知自由度和概率P,求相应
43、的t值。第一百一十一页,本课件共有137页(2)已知t值和自由度,求相应的概率。第一百一十二页,本课件共有137页(三)样本平均数的分布(总体方差 未知)v1、总体分布为正态,方差()未知时,样本平均数的分布为t分布第一百一十三页,本课件共有137页(三)样本平均数的分布(总体方差 未知)v2、当总体分布为非正态而其方差又未知时,若满足n30这一条件,样本平均数的分布近似为t分布。v当n30时,应用正态表计算概率(近似值)或应用t分布表计算概率(较精确值)都可以。只是标准误的计算,要用样本方差来进行。第一百一十四页,本课件共有137页其它t分布v 未知时两样本平均数之差的分布、样本相关系数的分
44、布、回归系数的分布在一定条件下也遵从t分布。第一百一十五页,本课件共有137页三、分布v (为希腊字母,读音为Chi,读作卡方)分布是抽样分布中应用较多的一种抽样分布。它是刻画正态变量二次型的一种重要分布。v设XN(0,1),x1,x2,xn,是来自总体X的样本,则 是服从以n为自由度的 分布。第一百一十六页,本课件共有137页 可写作 v如果正态总体的平均数未知,若用样本平均数作为的估计值时:第一百一十七页,本课件共有137页(一)分布的特点v1、卡方分布是一个正偏态分布。随每次所抽取的随机变量X的个数(n的大小)不同,其分布曲线的形状不同,n或n-1越小,分布越偏斜。df很大时,接近正态分
45、布,当df时,分布即为正态分布。可见卡方分布是一族分布,正态分布是其中一个特例。v2、卡方值都为正值,即取值范围为0。卡方曲线下面积为1。v3、卡方分布的和也是卡方分布,即分布具有可加性。,则是一个遵从 的分布。v4、如果 ,这时卡方分布的平均数为 ,方差为 。v5、卡方分布是连续型分布,但有些离散型的分布近似卡方分布。第一百一十八页,本课件共有137页(二)卡方分布表的使用(附表12)v一般的卡方表列出了自由度及某一卡方值以上卡方分布曲线下的概率。v(1)表的左列为自由度;v(2)最上一行是概率值,即不同自由度时,某卡方值以上的概率;v(3)表中间所列数值为不同自由度及概率下的卡方值。第一百
46、一十九页,本课件共有137页公式表示v分布表列出了变量在不同自由度下的临界值 ,即 第一百二十页,本课件共有137页查表求值 vdf13时,确定 时,的临界值。v练习:第一百二十一页,本课件共有137页例v1,从 的正态总体中,随机抽取n10的样本为:10、20、17、19、25、24、22、31、26、26。求其 值,并求大于该值的概率。v2,若上题 已知,其 又是多少,大于该值以上的概率又是多少?第一百二十二页,本课件共有137页练习v已知一正态总体 ,从中抽取n=15的样本,求得 ,求其 值是多少?并求该值以上和以下的概率分别是多少?第一百二十三页,本课件共有137页应用v卡方分布在统计
47、分析中应用于计数数据的假设检验以及样本方差与总体方差差异是否显著的检验等。第一百二十四页,本课件共有137页四、F分布vF分布是统计分析中常用的一种样本分布。v设有两个正态分布的总体,其平均数与方差分别为:,从这两个总体中分别随机抽取容量为n1及n2的样本,每个样本都可计算出 值,这样可以得到无限多个 ,每个随机变量各除以对应的自由度df1与df2(df1=n1或n1-1,df2=n2或n2-1)之比,称为F比率,这无限多个F的分布称作F分布。第一百二十五页,本课件共有137页计算公式第一百二十六页,本课件共有137页v自一个正态总体中随机抽取容量为n1及n2两样本,其方差的比率分布为F分布,
48、分子的自由度为n1-1,分母的自由度为n2-1。因此,知道了同一总体不同样本的方差比率分布,即可分析任意两样本方差是否取自同一总体了。第一百二十七页,本课件共有137页(一)F分布的特点v1、F分布形态是一个正偏态分布,它的分布曲线随分子、分母的自由度不同而不同,随df1与df2的增加而渐趋正态分布。v2、F总为正值,因为F为两个方差的比率。v3、当分子的自由度为1,分母的自由度为任意值时,F值与分母自由度相同概率的t值(双侧概率)的平方相等。第一百二十八页,本课件共有137页附表3(双侧概率)v(1)左列为分母自由度;v(2)上列为分子自由度;v(3)表内横行数值上面 ,下面 。第一百二十九
49、页,本课件共有137页双侧第一百三十页,本课件共有137页附表4 v(1)左一列为分母的自由度;v(2)左二列为 概率:0.05、0.01,表示F曲线下某F值右侧的概率。v(3)表的最上行为分子的自由度,其值与分母自由度的值相似。第一百三十一页,本课件共有137页查表求值v含义:取自同一个正态总体的两个样本n1、n2之方差的比值F,只有5的样本可能比 大,只有1的可能比 大。第一百三十二页,本课件共有137页P191vdf11时,单侧概率所对应的F值与t值(双侧概率)的关系:第一百三十三页,本课件共有137页F检验与t检验的关系v这一关系说明当组间自由度为1时(即分子的自由度为1),F检验与t检验结果相同。第一百三十四页,本课件共有137页单侧概率第一百三十五页,本课件共有137页双侧概率第一百三十六页,本课件共有137页例v已知从一正态总体中抽取两个样本,v问两样本方差之比是否小于F0.01?第一百三十七页,本课件共有137页