《第二章spss生物统计学课件.ppt》由会员分享,可在线阅读,更多相关《第二章spss生物统计学课件.ppt(51页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第二章spss生物统计学第1页,此课件共51页哦 第一节第一节 事件与概率事件与概率 第二节第二节 概率分布概率分布 第三节第三节 正态分布正态分布 第四节第四节 二项分布二项分布 第五节第五节 泊松分布泊松分布 第六节第六节 样本平均数的抽样分布样本平均数的抽样分布 第七节第七节 t t 分布分布 第2页,此课件共51页哦第一节 事件与概率 一、事件一、事件(一)必然现象与随机现象(一)必然现象与随机现象 1 1、必然现象、必然现象 指在某些条件下,一定会发生的现象。(可分为必然事件和不可能事件两类)2 2、随机现象、随机现象 指在相同条件下重复进行试验,结果未必相同,这种现象称为随机现象。
2、事实证明,当在相同条件下进行大量观察时,随机现象大都呈现某种规律。概率论与数理统计概率论与数理统计就是研究随机现象统计规律性研究随机现象统计规律性的一门数学学科。第3页,此课件共51页哦 (二二)随机试验随机试验 (random trial)与事件与事件(random event)我们把对自然现象的一次观察或进行的一次科学试验统称为一个试验。如果这个试验具有下述三个特性就称其为随机试验,简称试验随机试验,简称试验。可以在相同条件下重复进行;每次试验的可能结果不止一个,并且事先能明确试验的所有可能结果;试验前不能确定哪一个结果会出现。随机试验的每一个可能结果称为随机事件,随机事件,简称事件简称事
3、件,通常用字母A、B、C等表示。第4页,此课件共51页哦 二、概 率(probability)(一)定义(一)定义 设在同一条件组S下进行了n次试验,事件A发生了m次。当随着n的增大,如果事件A发生的的频率频率mn稳定地接近某一数值p,则称p为随机事件A在条件组S下发生的概率,记为P(A)=p。当n 充分大时,P(A)=m n。(二)小概率事件与小概率原理(二)小概率事件与小概率原理 当事件A的概率与0非常接近时,称此事件为小概率事件小概率事件。小概率事件虽然不是不可能事件,但通常认为在一次试验中实际上是不可能发生的,称之为“小概率事件实际不可能性原理小概率事件实际不可能性原理”。这这是统计假
4、设检验的基础。是统计假设检验的基础。第5页,此课件共51页哦第二节 概率分布(probability distribution)若要全面了解试验,则必须知道试验的全部可能结果及各种结果发生的概率,即试验结果的概概率分布率分布。一、随机变量一、随机变量(random variable)(一)定义(一)定义 作一次试验或抽样观察,其结果有多种可能。每一种可能结果都可用一个数来表示。把这些数作为变量x 的取值范围,则试验或观察结果可用变量x来表示。变量x就称为随机变量随机变量。随机变量可用 x、y等字母表示。第6页,此课件共51页哦 (二)分类(二)分类 1 1、离散型随机变量、离散型随机变量 (d
5、iscrete random variable)如果表示试验结果的随机变量x,其可能取值为有限个或至多可列个有限个或至多可列个,并可以按一定顺序一一列举,则称x为离散型随机变量离散型随机变量。2 2、连续型随机变量、连续型随机变量 (continuous random variable)如果表示试验结果的随机变量x,其可能取值为某范围内的任何数值,表现为不可列性和连续不可列性和连续变异变异,则称x为连续型随机变量连续型随机变量。第7页,此课件共51页哦二、离散型随机变量的概率分布 (一)研究离散型随机变量的概率分布要解决的两个问题两个问题:要了解离散型随机变量x的统计规律,就必须知道它的一切可
6、能取值 ;取每种可能值的概率 。亦即,要想了解只取整数值的某一总体的全面情况,只须知道其个体的一切可能值其个体的一切可能值,以及取取各种可能值的个体在总体中所占的比率各种可能值的个体在总体中所占的比率。ixip第8页,此课件共51页哦 (二)离散型随机变量的概率分布(二)离散型随机变量的概率分布 将离散型随机变量x的一切可能取值 及其对应的概率 ,记作 上式即称为离散型随机变量x的概率分布或分布。也可用分布列表分布列表示离散型随机变量x的概率分布,离散型随机变量概率分布的基本性质:10iipp和变量xx1x2xn概率Pp1p2pn,.)2,1(ixiipiipxxP)(,.2,1i第9页,此课
7、件共51页哦三、连续型随机变量的概率分布三、连续型随机变量的概率分布 连续型随机变量的概率分布不能用分布列来表示,因为其可能取的值是不可数的。因此只能用随机变量用随机变量x x在某个区间内取值的概率在某个区间内取值的概率P(axb)P(axb)来表示来表示。(一)概率分布密度曲线和概率分布密度函数(参见P35)(二)连续型随机变量的概率由概率分布密度函数确定xdxfbxaPba)()(第10页,此课件共51页哦(三)连续型随机变量概率分布的性质 分布密度函数大于或等于0,即 当随机变量x取某一特定值时,其概率为0,即 在一次试验中x取值必在 范围内,为一必然事件。因此 0)(xfccdxxfc
8、xp0)()(x1)()(dxxfxpc为任意实数第11页,此课件共51页哦第三节第三节 正态分布正态分布(normal distribution)正态分布是一种很重要的特殊的连续型随机变量的连续型随机变量的概率分布概率分布。生物现象中有许多变量是服从或接近正态分布的;许多统计分析方法都是以正态分布为基础的;此外,还有不少随机变量在一定条件下以正态分布为其极限分布。因此,正态分布无论对理论研究还是实际应用,在统计学中均占有重要的地位。第12页,此课件共51页哦 一、正态分布的定义及其特征一、正态分布的定义及其特征 (一)定义(一)定义 若连续性随机变量x的概率分布密度函数为:其中,为平均数,为
9、方差,则称随机变量x服从正态分布,记为 相应的概率分布函数为222)(21)(xexf),(2xxxexF222)(21)(2第13页,此课件共51页哦 二、正态分布的特征二、正态分布的特征 f(x)是非负数,以x轴为渐进线;曲线在 处各有一个拐点;xx21)(fx正态分布正态分布密度函数曲线密度函数曲线 正态分布密度曲线是以 为对称轴的单峰、对称单峰、对称的悬钟形悬钟形;f(x)在 处达到极大值,极大值为第14页,此课件共51页哦 正态分布有两个参数,即平均数 和标准差 。是位置参数位置参数,是变异度参数变异度参数。分布密度曲线与横轴所夹的面积为1,即:dxexPx222)(21)(相同而相
10、同而不同的三个正态总体不同的三个正态总体 相同而相同而不同的三个正态总体不同的三个正态总体 第15页,此课件共51页哦 二、标准正态分布二、标准正态分布(standard normal distribution)(一)定义(一)定义 由于正态分布是依赖于参数 和 (或 )的一簇分布,造成研究具体正态总体时的不便。因此将一般的 转换为 的正态分布,则称 的正态分布为标准正态分布标准正态分布。标准正态分布的概率密度函数及分布函数如下:),(2N2deueu2221221)(,21)(第16页,此课件共51页哦 若随机变量u服从标准正态分布,记作 (二)标准化的方法(二)标准化的方法 对于任何一个服
11、从正态分布 的随机变量x,都可以通过标准化变换:即减平均数后再除以标准差减平均数后再除以标准差,将其变换为服从标准正态分布的随机变量u。对不同的u值编成函数表,称为正态分布表,从中可以查到任意一个区间内曲线下的面积,即为概率。/)(xu)1,0(Nu第17页,此课件共51页哦 三、正态分布的概率计算三、正态分布的概率计算 (一)标准正态分布的概率计算(一)标准正态分布的概率计算 设u服从标准正态分布,则u落在u1,u2)内的概率dueuuuPuuu21222121)(duedueuuuu1222222121查得。可由附表)与(而1)(12uu)()(12uu第18页,此课件共51页哦应熟记的几
12、种标准正态分布概率99.0)58.258.2(95.0)96.196.1(9973.0)33(9545.0)22(6826.0)11(uPuPuPuPuP01.0)58.2(05.0)96.1(0027.0)3(0455.0)2(3174.0)1(uPuPuPuPuP1)1()1()1()11(uPuPuPuP第19页,此课件共51页哦 (二)一般正态分布的概率计算(二)一般正态分布的概率计算 将区间的上下限标准化将区间的上下限标准化,服从正态分布的随机变量x落在x1,x2内的概率,等于服从标准正态分布的随机变量u落在 的概率。然后查标准正态分布的概率表查标准正态分布的概率表 例例 若x服从
13、的正态分布,试求 。令u=(x-30.26)/5.10,则u服从标准正态分布,故/,/21xx2210.5,26.3098.3264.21 xP6564.0)69.1()53.0()53.069.1()10.526.3098.3210.526.3010.526.3064.21()98.3264.21(uPxPxP第20页,此课件共51页哦 (三三)双侧概率(两尾概率)与单侧概率(一尾双侧概率(两尾概率)与单侧概率(一尾概率)概率)随机变量x落在平均数加减不同倍数标准差区间之外的概率称为双侧概率(两尾概率)双侧概率(两尾概率),记作 对应于双侧概率可以求得随机变量x小于 或大于 的概率,称为单侧
14、概率(一尾概率单侧概率(一尾概率),记作 。如x落在 之外的双侧 概率为0.05,而单侧概率为0.025。即kk2/)96.1,96.1(025.0)96.1()96.1(xPxP005.0)58.2()58.2(xPxP第21页,此课件共51页哦第四节第四节 二项分布二项分布(Binomial distributionBinomial distribution)一、贝努利试验及其概率公式一、贝努利试验及其概率公式 (一)独立试验和贝努利试验(一)独立试验和贝努利试验 将随机试验重复进行n次,若各次试验结果互相不影响,即每次试验结果出现的概率都不依赖于其它各次试验的结果,则称这n次试验是相互相
15、互独立独立的。对于n次独立的试验,如果每次试验结果出现且只出现对立事件A与 之一;在每次试验中出现A的概率是常数p(0p0,q0,p+q=1),则称随机变量x服从参数为n和p的二项分布,记为nkqpCkPknkknn,2,1,0,)(nkqpCkPkxPknkknn,2,1,0,)()(),(pnBx第23页,此课件共51页哦 (二)二项分布的性质(二)二项分布的性质 二项分布是一种离散型随机变量的概率分布,由n和p两个参数决定,参数n称为离散参数离散参数,只能取正整数;p是连续参数连续参数,取值为0与1之间的任何数值。二项分布具有概率分布的一切性质,即:(k=0,1,2,n)二项分布的概率之
16、和等于1,即:0)()(kPkxPn1)(0nnkknkknpqqpC第24页,此课件共51页哦 上面 是二项分布概率的基本性质;是我们在运算中经常要根据题目要求运算时要应用到的,要注意理解。mkknkknnqpCmkPmxP0)()()()()(21212121mmqpCmkmPmxmPmmkknkknnnmkknkknnqpCmkPmxP)()(第25页,此课件共51页哦三、二项分布的概率计算及其应用条件三、二项分布的概率计算及其应用条件 (一)概率计算(一)概率计算 二项分布的概率计算,可以直接利用二项概率公式进行。把时间A发生的次数k代入公式即可求得对应的概率。例例 有一批种蛋,其孵化
17、率为0.85,今在该批种蛋中任选6枚进行孵化,试给出孵化出小鸡的各种可能情况的概率。这个问题属于贝努里模型,其中 ,孵化6枚种蛋孵出的小鸡数x服从二项分布 .其中x的可能取值为0,1,2,3,4,5,6。85.0,6pn15.085.01q)85.0,6(B第26页,此课件共51页哦 其中 思考:求至少孵出3只小鸡的概率是多少?孵出的小鸡数在2-5只之间的概率是多大?00001139.0)15.0()15.0()85.0()0(660066 CP00038728.0)15.0()85.0(6)15.0()85.0()1(51161166CP00548648.0)15.0()85.0(15)15
18、.0()85.0()2(42262266CP04145344.0)15.0()85.0(20)15.0()85.0()3(33363366CP17617711.0)15.0()85.0(15)15.0()85.0()4(24464466CP39933478.0)15.0()85.0(6)15.0()85.0()5(15565566CP37714952.0)85.0()15.0()85.0()6(6066666CP第27页,此课件共51页哦 (二)应用条件(三个)二项分布的应用条件有三应用条件有三:各观察单位只具有互相对立的一种结果只具有互相对立的一种结果,如阳性或阴性,生存或死亡等,属于二项分
19、类资料。已知发生某一结果已知发生某一结果(如死亡)的概率为的概率为p p,其对立结果的概率则为1-P=q,实际中要求p 是从大量观察中获得的比较稳定的数值。n个观察单位的观察结果互相独立观察结果互相独立,即每个观察单位的观察结果不会影响到其它观察单位的结果。第28页,此课件共51页哦 四、二项分布的平均数与标准差四、二项分布的平均数与标准差 统计学证明,服从二项分布B(n,p)的随机变量之平均数、标准差与参数n、p有如下关系:当试验结果以事件当试验结果以事件A A发生次数发生次数k k表示时表示时 当试验结果以事件当试验结果以事件A A发生的频率发生的频率k kn n表示时表示时 也称率的标准
20、误。npqnpnpqppp/)(p第29页,此课件共51页哦第四节第四节 泊松分布泊松分布(Possion distributionPossion distribution)普阿松分布是一种可以用来描述和分析随机地发生在单位空间或时间里的稀有事件稀有事件的分布。所谓稀有事件即为小概率事件。要观察到这类事件,样本含量n必须很大。在生物、医学研究中,服从普阿松分布的随机变量是常见的。此外,由于普阿松分布是描述小概率事件的,因而二项分布中当p很小n很大时,可用普阿松分布逼近。第30页,此课件共51页哦第31页,此课件共51页哦 一、泊松分布的意义一、泊松分布的意义 (一)定义(一)定义 若随机变量x
21、(x=k)只取零和正整数值,且其概率分布为 其中k=0,1,;0;e=2.7182是自然对数的底数,则称X服从参数为的普阿松分布记为x xP()P()。(二)特征(二)特征 普阿松分布作为一种离散型随机变量的概率分布有一个重要的特征。ekkxPk!)(第32页,此课件共51页哦 这就是它的平均数平均数和方差方差相等,都等于常数都等于常数,即=2 2=。利用这一特征,可以初步判断一个随机变量是否服从普阿松分布。例例 我们调查了200个奶牛场,统计各场某10年内出现的怪胎(如缺皮症,全身无毛等)的头数,然后以怪胎头数把200个奶牛场分类,统计每类中奶牛场数目,结果如下:试研究10年内母牛怪胎数的概
22、率分布。1010年内母牛产怪胎次数(年内母牛产怪胎次数(m m)0 01 12 23 34 4总总 计计奶牛场数(奶牛场数(f f)109109656522223 31 1200200第33页,此课件共51页哦每一奶牛场10年内母牛产怪胎是稀有事件,先 假设假设母牛产怪胎数的概率分布为普阿松分布。根据观察结果计算每一奶牛场10年内母牛产怪胎的平均数 ,根据加权法可得 用 =0.61估计,代入 计算当m=0,1,2,3,4时的概率和理论次数(见表)。x61.020014332221650109nfxxekkxPk!)(怪胎数(怪胎数(m m)0 01 12 23 34 4总总 计计实际次数实际次
23、数(f f)109109656522223 31 1200200概概 率(理论)率(理论)0.54340.54340.33140.33140.10110.10110.02060.02060.00310.00310.99960.9996理理 论论 次次 数数108.68108.6866.2866.2820.2220.224.124.120.620.62199.92199.92x第34页,此课件共51页哦 由表中的结果可以看出,计算所得的理论次数与 实际次数十分接近,说明各奶牛场10年内出现怪胎次数是服从普阿松分布的,我们事先的假设是正确的。下面我们再来证实我们所得的资料是否具有普阿松分布的特征。
24、已经计算出 =0.61,样本方差计算如下,S2与 很接近,这正是普阿松分布所具有的特征。x611.0199200/122413322216501091/)(222222222nnfmfmSx第35页,此课件共51页哦 二、波松分布的概率计算二、波松分布的概率计算 是普阿松分布所依赖的唯一参数是普阿松分布所依赖的唯一参数。普阿松分布的概率计算,只要参数确定了,问题就解决了。把k=0,1,2,代入公式即可求得各项的概率。但是在大多数服从普阿松分布的实例中,分布参数往往是未知的,只能从所观察的随机从所观察的随机样本中计算出相应的样本平均数作为样本中计算出相应的样本平均数作为的估的估计值。计值。第36
25、页,此课件共51页哦 四、三种重要的概率分布之间的关系四、三种重要的概率分布之间的关系 前面讨论的三个重要的概率分布中,前两个概率分布属离散型的,后一个属连续型的。三者间的关系综述如下:对于二项分布,在n,p0,且np=(较小常数)情况下,二项分布趋于普阿松分布。在这种场合,普阿松分布中的参数用二项分布的np代之;在n,p0.5时,二项分布趋于正态分布。在这种场合,正态分布中的、2用二项分布的np、npq代之。第37页,此课件共51页哦 在实际计算中,当p0.1且n很大时,二项分布可由普阿松分布近似,当p0.1且n很大时,二项分布可由正态分布近似。二项分布普阿松分 布正态分布 p0.1 nP0
26、.1 n第38页,此课件共51页哦第六节第六节 样本平均数的抽样分布样本平均数的抽样分布 研究总体与从中抽取的样本之间的关系总体与从中抽取的样本之间的关系是统计学的中心内容。对这种关系的研究可从两方面着手:一是从从总体到样本总体到样本,这就是研究抽样分布的问题;二是从样本到总体从样本到总体,这就是统计推断问题。统计推断是以总体分布和样本抽样分布的理论关系为基础的。为了能正确地利用样本去推断总体,并能正确地理解统计推断的结论,须对样本的抽样分布有所了解。第39页,此课件共51页哦总体与样总体与样本间的关本间的关系系从总体从总体到样本到样本从样本从样本到总体到总体统计推统计推断断(目的目的)抽样分
27、布(基础)第40页,此课件共51页哦 一、样本平均数的抽样分布一、样本平均数的抽样分布 (一)基本概念(一)基本概念 1 1、返置抽样与不返置抽样、返置抽样与不返置抽样 由总体随机抽样(random sampling)的方法可分为有返置抽样和不返置抽样两种。前者指每次抽出一个个体后,这个个体应返置回原总体;后者指每次抽出的个体不返置回原总体。对于无限总体对于无限总体,返置与否关系不大,都可保证各个体被抽到的机会均等。对于有限总体对于有限总体,要保证随机抽样,就应该采取返置抽样,否则各个体被抽到的机会就不均等。第41页,此课件共51页哦 2 2、原始总体与样本平均数抽样总体、原始总体与样本平均数
28、抽样总体 设有一个总体,总体均数为,方差为2,总体中各变数为x,将此总体称为原总体原总体。现从这个总体中随机抽取含量为n的样本,样本平均数记为 。由这些样本算得的平均数有大有小,不尽相同,与原总体均数相比往往表现出不同程度的差异。这种差异是由随机抽样造成的,称为抽样误差抽样误差(Sampling error)(Sampling error)。显然,样本平均数 也是一个随机变量,其概率分布叫做样本平均数的抽样分布样本平均数的抽样分布。xx第42页,此课件共51页哦 由样本平均数构成的总体称为样本平均数的抽样总样本平均数的抽样总体体,其平均数和标准差分别记为 和 。是样本平均数抽样总体的标准差,简
29、称标准标准误误(Standard error)(Standard error),它表示平均数抽样误差的大小。xxx原总体(原总体(,)样本平均数的抽样总样本平均数的抽样总体(体(,)xx第43页,此课件共51页哦 3、原始总体与样本平均数抽样总体的两个参数间的原始总体与样本平均数抽样总体的两个参数间的关系关系 统计学上已证明 总体的两个参数与x 总体的两个参数有如下关系:为了验证这个结论及了解平均数抽样总体与原总体概率分布间的关系,可进行模拟抽样试验(请同学们参考有关书籍)。(二)x x变量与变量与 变量概率分布间的关系变量概率分布间的关系中中心极限定理心极限定理xnxx,x第44页,此课件共
30、51页哦 若随机变量x服从正态分布N(,2),x1,x2,.,xn是由x总体得来的随机样本,则统计量 =xn的概率分布也是正态分布,且有 即 服从正态分布N(,2n)。若随机变量x服从平均数是,方差是2的分布(不是正态分布);x1,x2,.,xn 是由此总体得来的随机样本,则统计量 =xn的概率分布,当n相当大时逼近正态分布N(,2n)。这就是中心极限定理。上述两个结果保证了样本样本平均数的抽样分布服从或者逼近正态分布平均数的抽样分布服从或者逼近正态分布。xx,xnx/22x第45页,此课件共51页哦 二、标准误二、标准误 (一)定义及其意义(一)定义及其意义 标准误(平均数抽样总体的标准差)
31、的大小反映样本平均数 的抽样误差的大小,即精确性的高低。标准误大,说明各样本均数间差异程度大,样本平均数 的精确性低。反之,小,说明间的差异程度小,样本平均数的精确性高。的大小与原总体的标准差成正比,与样本含量n的平方根成反比。从某特定总体抽样,因为是一常数,所以只有增大样本含量才能降只有增大样本含量才能降低样本均数的抽样误差低样本均数的抽样误差。nx/xxxxx第46页,此课件共51页哦 (二)计算(二)计算 在实际工作中,总体标准差往往是未知的,因而 无法求得。此时,可用样本标准差S估计。于是以 估计 。记 为 ,称作样本标准误或均数标准误。是平均数抽样误差的估计值。若样本中各观察值为 则
32、xnS/xnS/xSxSnxxx,.,21)1(/)()1()(222nnnxxnnxxnSSx第47页,此课件共51页哦(二)标准误与标准差的区别、联系(二)标准误与标准差的区别、联系 二者的区别区别:样本标准差样本标准差S S是反映样本中各变数 变异程度大小的一个指标,它的大小说明了对该样本代表性的强弱。样本标准误样本标准误 是样本平均数的标准差,它是抽样误差的估计值,其大小说明了样本间变异程度的大小及精确性的高低。联系联系:对于大样本资料大样本资料,常将样本标准差S与样本平均数 配合使用,记为 ,用以说明所考察性状或指标的优良性与稳定性。nxxx,.,21xSxSx 第48页,此课件共5
33、1页哦 对于小样本资料小样本资料,常将样本标准误与样本平均数配合使用,记为 ,用以表示所考察性状或指标的优良性与抽样误差的大小。xSx 第49页,此课件共51页哦第七节第七节 t t分布分布 (tdistribution)一、一、t t分布分布 由样本平均数抽样分布的性质(中心极限定理)知道:若 。将随机变量x标准化得:则 。当2 2未知时,以以S S代替代替所得到的统计量记为t。在计算时,由于采用S来代替,使得t 变量不再服从标准正态分布,而是服从t分布。它的概率密度函数如下:式中t的取值范围是-t30时,t 分布与标准正态分布的区别很小。不同自由度的不同自由度的t t分布分布 t分布受自由度自由度的制约,每一个自由度都有一条t分布曲线。t分布密度曲线以以t t0 0为中心,两边对称为中心,两边对称,且在t0时,分布密度函数取得最大值。第51页,此课件共51页哦