《田间试验与统计方法--第四章-理论分布和抽样分布.ppt》由会员分享,可在线阅读,更多相关《田间试验与统计方法--第四章-理论分布和抽样分布.ppt(87页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第四章第四章 理论分布与抽样分布理论分布与抽样分布第一节第一节 事件与概率事件与概率第二节第二节 概率分布概率分布第三节第三节 二项式分布二项式分布第四节第四节 正态分布正态分布第五节第五节 抽样分布抽样分布 一、事一、事 件件(一)必然现象与随机现象(一)必然现象与随机现象 必然现象必然现象(inevitablephenomena)或或确定性现象确定性现象(definitephenomena):):结果可预言,确定的,必然的,可重复结果可预言,确定的,必然的,可重复例,标准大气压下,水加热到例,标准大气压下,水加热到100C必然沸腾必然沸腾随机现象随机现象(randomphenomena)或
2、或不确定性现象不确定性现象(indefinitephenomena):):结果事前不可预言,呈偶然性、不确定性结果事前不可预言,呈偶然性、不确定性 例,种子发芽,抛硬币例,种子发芽,抛硬币随机现象或不确定性现象,有如下随机现象或不确定性现象,有如下特点特点:(1)在一定的条件实现时,有多种可能的结果发生,事前人们不在一定的条件实现时,有多种可能的结果发生,事前人们不能预言将出现哪种结果;对一次或少数几次观察或试验而言,能预言将出现哪种结果;对一次或少数几次观察或试验而言,其结果呈现偶然性、不确定性;其结果呈现偶然性、不确定性;(2)但在相同条件下进行大量重复试验时,其试验结果却呈现但在相同条件
3、下进行大量重复试验时,其试验结果却呈现出某种固有的特定的规律性出某种固有的特定的规律性频率的稳定性频率的稳定性,通常称之为随,通常称之为随机现象的统计规律性。机现象的统计规律性。(二)随机试验与随机事件(二)随机试验与随机事件 1、随机试验、随机试验 通常我们把根据某一研究目的通常我们把根据某一研究目的,在一定条件下对自然现象所在一定条件下对自然现象所进行的观察或试验统称为进行的观察或试验统称为试验试验(trial)。)。而一个试验如果满足下述三个特性而一个试验如果满足下述三个特性 ,则则 称称 其其 为为 一个一个 随机试随机试验验(random trial),),简称简称试验试验:(1)试
4、验可以在相同条件下多次)试验可以在相同条件下多次重复重复进行;进行;(2)每次试验的可能结果不止一个)每次试验的可能结果不止一个,并且事先知道会有哪,并且事先知道会有哪些可能的结果;些可能的结果;(3)每次)每次 试验总是恰好出现这些可能结果中的一个试验总是恰好出现这些可能结果中的一个,但在,但在一次试验之前却不能肯定这次试验会出现哪一个结果。一次试验之前却不能肯定这次试验会出现哪一个结果。例如小麦发芽试验,抛硬币。例如小麦发芽试验,抛硬币。2、随机事件、随机事件 随机试验的每一种可能结果,在一定条件下可随机试验的每一种可能结果,在一定条件下可能能发发生生,也,也可可能能不不发生,称为发生,称
5、为随机事件随机事件(randomevent),简称,简称事事件件(event),),通常用通常用A、B、C等来表示。等来表示。(1)基本事件)基本事件我我们们把把不不能能再再分的事件称为分的事件称为基本事件基本事件(elementaryevent),也也称称为为样本点样本点(samplepoint)。)。例如,在编号为例如,在编号为1、2、3、20的数字中随机抽取的数字中随机抽取1个,有个,有20种不同的可能结果:种不同的可能结果:“取取得得一一个个编编号号是是1”、“取得一个编号是取得一个编号是2”、“取得一个编取得一个编号是号是10”,这,这10个事件都是不可能再分的事件,它们都是基本事件
6、。个事件都是不可能再分的事件,它们都是基本事件。由若干个基本事件组合而成的事件称为由若干个基本事件组合而成的事件称为复合事件复合事件(compoundevent)。)。如如“取得一个编号是取得一个编号是2的倍数的倍数”是一个复合事件,它由是一个复合事件,它由“取得一个编取得一个编号是号是2”、“是是4”、“是是6、“是是8”“是是20”10个基本事件组合而成。个基本事件组合而成。(2)必然事件)必然事件 我们把在一定条件下必然会发生的事件称为我们把在一定条件下必然会发生的事件称为必然事件必然事件(certain event),用),用表示。其概率为表示。其概率为1 例如,标准大气压下,水加热到
7、例如,标准大气压下,水加热到100C必然沸腾,就是一个必然事件。必然沸腾,就是一个必然事件。(3)不可能事件)不可能事件 我们把在一定条件下不可能发生的事件称为我们把在一定条件下不可能发生的事件称为不可能事件不可能事件(impossible event),用),用表示。其概率为表示。其概率为0 例,没有生活能力的种子播种后会出苗,就是一个不可能事件。例,没有生活能力的种子播种后会出苗,就是一个不可能事件。必然事件与不可能事件实际上是确定性现象,即它们不是随机必然事件与不可能事件实际上是确定性现象,即它们不是随机事件,事件,但但 是是 为了方便起见,我们把它们看作为两个特殊的随机为了方便起见,我
8、们把它们看作为两个特殊的随机事件。事件。积事件积事件AB和事件和事件A+BABAB互斥事件互斥事件 对立事件对立事件 ABA+B,“或或A发生,或发生,或B发生发生”。AB,“A和和B同时发生或相继发生同时发生或相继发生”AB=V,事件,事件A和B互斥或互不相容互斥或互不相容A+B=U,AB=V,事件,事件B为事件为事件A的对立事件,并记的对立事件,并记B为为事件间的关系二二、概概 率率 研究随机试验,仅知道可能发生哪些随机事件是不够的,还需了解各种随机事件研究随机试验,仅知道可能发生哪些随机事件是不够的,还需了解各种随机事件发生的发生的可能性可能性大小,以揭示这些事件的内在的统计规律性,从而
9、指导实践。大小,以揭示这些事件的内在的统计规律性,从而指导实践。这就要求有一个能够这就要求有一个能够刻划事件发生可能性大小的数量指标刻划事件发生可能性大小的数量指标,这指标应该是事件本身所固有的,且不随人的主观意志而改变,这指标应该是事件本身所固有的,且不随人的主观意志而改变,人们人们称之为概率称之为概率(probability)。)。事件事件A的概率记为的概率记为P(A)。)。(一)(一)概率的统计定义概率的统计定义思思考考:投投掷掷一一枚枚硬硬币币,出出现现正正面面的的概概率率是是多多大大?(0表表示示反反面面,1表表示示正正面面)反反复复做做它它,那那么么所所有有出出现现正正面面的的结果
10、平均值是多少?结果平均值是多少?英国数学家皮尔逊做英国数学家皮尔逊做24000次抛硬币试验次抛硬币试验正面向上正面向上12012次次频率频率=随着试验次数的增多,正面朝上的频率越来越接近随着试验次数的增多,正面朝上的频率越来越接近0.5.二、概率二、概率 例,例,表表 在相同条件下盲在相同条件下盲蝽蝽象在某棉田危害程度的象在某棉田危害程度的调查结调查结果果调查调查株数株数(n)52550100200500100015002000受害株数受害株数(a)21215 33 72177 351 525 704棉株受害棉株受害频频率率(a/n)0.400.480.300.330.360.354 0.35
11、1 0.350 0.352调查株数调查株数n较多时的稳定频率才能较好地代表棉株受害的可能性较多时的稳定频率才能较好地代表棉株受害的可能性统计学上用统计学上用n较大时稳定的较大时稳定的p近似代表概率。通过大量实验而近似代表概率。通过大量实验而估计的概率称为估计的概率称为实验概率或统计概率实验概率或统计概率,以,以 表示。表示。此处此处P代表概率,代表概率,P(A)代表事件代表事件A的概率,的概率,P(A)变化的范围为变化的范围为01,即,即0P(A)1。(二)(二)概率的古典定义概率的古典定义概率的统计定义是在大量的概率的统计定义是在大量的试验试验中以中以频率的稳定性频率的稳定性为基础上提出来的
12、。为基础上提出来的。不不需需要要做做试试验验,根根据据随随机机事事件件本本身身的的特特性性就就可可以以确确定定事事件件出出现的概率,称为古典概率现的概率,称为古典概率。古典概型必须满足以下条件:古典概型必须满足以下条件:随机试验的全部可能结果(基本事件数)是随机试验的全部可能结果(基本事件数)是有限有限的;的;各基本事件间是各基本事件间是互不相容互不相容且发生是且发生是等可能等可能的。的。定义:定义:P(A)m/n m为事件为事件A中所包含的基本事件数中所包含的基本事件数 n为基本事件总数。为基本事件总数。例,在例,在1、2、3、20这这20个数字中随机抽取个数字中随机抽取1个,个,求下列事件
13、的概率求下列事件的概率(1)A“抽得抽得1个数字小于个数字小于5”(2)B=“抽得抽得1个数字是个数字是2的倍数的倍数”小概率事件小概率事件-随机事件的概率表示随机事件在试验中出现的随机事件的概率表示随机事件在试验中出现的可能性大小。随机事件的概率很小如,小于可能性大小。随机事件的概率很小如,小于0.05或或0.01或0.001小概率原理小概率原理-统计学上,把小概率事件在一次试验中看成是统计学上,把小概率事件在一次试验中看成是实际不可能发生的事件,称为小概率事件实际不可能性原理,实际不可能发生的事件,称为小概率事件实际不可能性原理,简称小概率原理。简称小概率原理。这里的这里的0.05或或0.
14、01称为小概率标准,农业试验研究中通常使用称为小概率标准,农业试验研究中通常使用这两个小概率标准。这两个小概率标准。小概率事件实际不可能性原理是统计学上进行小概率事件实际不可能性原理是统计学上进行假设检验(显著假设检验(显著性检验)的基本依据性检验)的基本依据。(三)(三)小概率事件实际不可能性原理小概率事件实际不可能性原理概概率率是是事事件件在在试试验验结结果果中中出出现现可可能能性性大大小小的的定定量量计计量量。它它是度量随机事件发生的可能性的统计学指标。是度量随机事件发生的可能性的统计学指标。是事件固有的属性,有以下明显的性质:是事件固有的属性,有以下明显的性质:随机事件随机事件A的概率
15、:的概率:0P(A)1必然事件必然事件W的概率为的概率为1,即,即P(W)=1不可能事件(不可能事件(V)的概率为的概率为0,即,即P(V)=0概率接近于概率接近于0(如(如P0.05)的事件称为小概率事件。的事件称为小概率事件。(四)(四)概率的性质概率的性质第二节第二节 概率分布概率分布 (probability distribution)一、随机变量一、随机变量二、概率分布二、概率分布一、随机变量一、随机变量(random variable)随机变量随机变量是指随机变数所取的某一个实数值。表示随机现象是指随机变数所取的某一个实数值。表示随机现象结果的变量结果的变量,也就是在随机试验中被测
16、定的量,所取得的值称也就是在随机试验中被测定的量,所取得的值称为观察值。为观察值。例例1:抛硬币试验,两种结果:抛硬币试验,两种结果:用数用数“1”表示表示“币值面向上币值面向上”,“0”表示表示“国徽面国徽面向上向上”把把 0,1作为变量作为变量y的取值的取值 可以简单地把抛硬币试验用取值为可以简单地把抛硬币试验用取值为0,1的变量来表示:的变量来表示:P(y=1)=0.5,P(y=0)=0.5 例例2:用:用“1”表示表示“能发芽种子能发芽种子”,其概率为,其概率为p;用;用“0”表示表示“不能发芽种子不能发芽种子”,其概率为,其概率为q。显然显然 p+q=1,则则 P(y=1)=p,P(
17、y=0)=q=1p。例例3:用变量:用变量y表示水稻产量,若表示水稻产量,若y大于大于500kg的概率为的概率为0.25,大于,大于300kg且等于小于且等于小于500kg的概率为的概率为0.65,等于小于,等于小于300kg的概率为的概率为0.1。则用变量则用变量y的取值范围来表示的试验结果为的取值范围来表示的试验结果为 P(y300)=0.10,P(300y500)=0.65,P(y500)=0.25。随机变量随机变量离散型离散型连续型连续型(与我们前面所讲的连续型数据和离散型数据的意义一样)(与我们前面所讲的连续型数据和离散型数据的意义一样)(一)(一)离散型随机变量离散型随机变量-当试
18、验只有几个确定的结果,并当试验只有几个确定的结果,并可一一列出,变量可一一列出,变量y的取值可用实数表示,且的取值可用实数表示,且y取某一值时,其取某一值时,其概率是确定的,这种类型的变量称为离散型随机变量。概率是确定的,这种类型的变量称为离散型随机变量。将这种变量的所有可能取值及其对应概率一一列出所形成将这种变量的所有可能取值及其对应概率一一列出所形成的分布称为离散型随机变量的概率分布:的分布称为离散型随机变量的概率分布:概率概率变变量量yiy1y2y3ynP1P2P3Pn也可用函数也可用函数f(y)表述,称为表述,称为概率函数概率函数。前面例前面例1、例、例2中的中的y就是离散型随机变量,
19、将其可能取值与对应概就是离散型随机变量,将其可能取值与对应概率一一列出,即为:率一一列出,即为:变量变量y01概率概率0.50.5变量变量y01概率概率qp常用概率分布表或概率分布图表示常用概率分布表或概率分布图表示常用概率分布表或概率分布图表示常用概率分布表或概率分布图表示离散型变量离散型变量概率的分布函数概率的分布函数:离散型变量概率的向上:离散型变量概率的向上累积。其公式为累积。其公式为 ,即随机,即随机变量小于等于某一可能值(变量小于等于某一可能值(x0)的概率。)的概率。离散型概率分布的例子离散型概率分布的例子例:例:从从100件产品(其中合格品件产品(其中合格品95件,废品件,废品
20、5件)中任取件)中任取10件,件,求每次抽到废品数的概率分布。求每次抽到废品数的概率分布。xp(x)0 123450.5837523670.3393909110.0702188090.0063835280.0002510380.000003347xF(x)0 123450.5837523670.9231432780.9933620770.9997456050.9999966531.000000000概率分布表概率分布表概率分布表概率分布表累积概率分布表累积概率分布表累积概率分布表累积概率分布表(二)(二)连续型随机变量连续型随机变量(continuousrandomvariate)-对于随机变
21、量,若存在非负可积函数对于随机变量,若存在非负可积函数f(y)(y),对任意,对任意a和和b(ab)都有都有P(ayb)=,则则称称y为为连续型随机变量连续型随机变量(continuousrandomvariate),f(y)称为称为y的的概率密度函数概率密度函数(probabilitydensityfunction)或或分布密度分布密度(distributiondensity)。上述例上述例3中的中的y就是一个连续型随机变量。就是一个连续型随机变量。概率密度的图形概率密度的图形f(x),称为分布曲线。称为分布曲线。概率是曲线下面积概率是曲线下面积概率是曲线下面积概率是曲线下面积!f(x)Xa
22、b概率密度曲线概率密度曲线概率密度曲线概率密度曲线f f(x x)与与与与x x轴所围成的面积为轴所围成的面积为轴所围成的面积为轴所围成的面积为 1 1分分分分布布布布函函函函数数数数(或或或或称称称称为为为为累累累累积积积积分分分分布布布布函函函函数数数数)是是是是随随随随机机机机变变变变量量量量X X取取取取得得得得小小小小于于于于x x0 0的值的概率的值的概率的值的概率的值的概率概率密度函数图和概率分布函数图概率密度函数图和概率分布函数图概率密度函数图概率密度函数图概率分布函数图概率分布函数图或或或或概率分布曲线概率分布曲线累积分布函数图累积分布函数图yp(x)yF(x)x1x2x2x
23、1P(x1xx2)=F(x2)F(x1)连续型随机变量概率分布的性质:连续型随机变量概率分布的性质:分布密度函数总是大于或等于分布密度函数总是大于或等于0,即,即f(x)0;当随机变量当随机变量x取某一特定值时,其概率等于取某一特定值时,其概率等于0;即即 (c为任意实数为任意实数)因而,对于连续型随机变量,仅研究其在某一个区间因而,对于连续型随机变量,仅研究其在某一个区间内取值的概率,而不去讨论取某一个值的概率内取值的概率,而不去讨论取某一个值的概率。第三节第三节 二项式分布二项式分布一、二项总体及二项式分布一、二项总体及二项式分布二、二项式分布的概率计算方法二、二项式分布的概率计算方法三、
24、二项式分布的形状和参数三、二项式分布的形状和参数四、多项式分布四、多项式分布一、二项总体及二项式分布一、二项总体及二项式分布二项总体二项总体(binarypopulation),就是非此即彼的两项构成的总,就是非此即彼的两项构成的总体体 例:例:小麦种子发芽和不发芽,小麦种子发芽和不发芽,大豆子叶色为黄色和青色,大豆子叶色为黄色和青色,调查棉田危害分为受害株和不受害株等等。调查棉田危害分为受害株和不受害株等等。通常将二项总体中的通常将二项总体中的“此此”事件以变量事件以变量“1”表示,具概率表示,具概率p;将将“彼彼”事件以变量事件以变量“0”表示,具概率表示,具概率q。因而二项总体又称为因而
25、二项总体又称为0、1总体总体,其概率则显然有:,其概率则显然有:p+q=1如果从二项总体进行如果从二项总体进行n次重复抽样,设出现次重复抽样,设出现“此此”的次数的次数为为y,那么,那么y的取值可能为的取值可能为0、1、2、n,共有,共有n+1种可种可能取值,这能取值,这n+1种取值各有其概率,因而由变量种取值各有其概率,因而由变量y及其概率及其概率就构成了一个分布,这个分布叫做就构成了一个分布,这个分布叫做二项式概率分布二项式概率分布,简称简称二项分布二项分布(binomialdistribution)。B(n,p)二项总体的抽样试验具有二项总体的抽样试验具有重复性和独立性重复性和独立性 重
26、复性重复性是指每次试验条件不变,即在每次试验中是指每次试验条件不变,即在每次试验中“此此”事件出现的概率皆为事件出现的概率皆为p 独立性独立性是指任何一次试验中是指任何一次试验中“此此”事件的出现与其余事件的出现与其余各次试验中出现何种结果无关各次试验中出现何种结果无关二、二项式分布的概率计算方法二、二项式分布的概率计算方法数学上的组合公式为:数学上的组合公式为:二项式中包含两项,这两项的概率为二项式中包含两项,这两项的概率为p、q,并且,并且p+q=1,可推知变量,可推知变量y的概率函数的概率函数为:为:累积函数累积函数F(yF(y):变量小于等于:变量小于等于y的所有可能取值的的所有可能取
27、值的概率之和概率之和理论次数理论次数:对于任意:对于任意y,理论次数,理论次数=nP(y)这一分布律也称这一分布律也称贝努里贝努里(Bernoulli)分布分布,并有,并有 的泰勒展开式为:的泰勒展开式为:可以看到,上式右边的每一项即为二项分布中变量可以看到,上式右边的每一项即为二项分布中变量y 取取0、1、2、n时的概率,又时的概率,又p+q=1,从而,从而(p+q)n=1 例例4.1 棉田盲危害的统计概率乃从调查棉田盲危害的统计概率乃从调查2000株后获得近似值株后获得近似值p=0.35。现受害株事件为现受害株事件为A,其概率为,其概率为p=0.35,未受害株事件为对立,未受害株事件为对立
28、事件,其概率事件,其概率q=(10.35)=0.65。如调查如调查5株为一个抽样单位,即株为一个抽样单位,即n=5,则受害株数,则受害株数y=0,1,2,3,4和和5的概率可以计算出来,的概率可以计算出来,如果每次抽如果每次抽5个单株,抽个单株,抽n=400次,则理论上我们能够得次,则理论上我们能够得到到y=2的次数应为:的次数应为:理论次数理论次数=400P(2)=4000.3364=134.56(次次)和其累计函数和其累计函数表表4.2 调查单调查单位位为为5株的概率分布表株的概率分布表(p=0.35,q=0.65)受害株数概率函数P(y)P(y)F(y)nP(y)P(0)0.11600.
29、116046.40P(1)0.31240.4284124.96P(2)0.33640.7648134.56P(3)0.18110.945972.44P(4)0.04880.994719.52P(5)0.00531.00002.12 受害株数受害株数(y)受害株数受害株数(y)图图4.1 棉株受危害的概率分布图棉株受危害的概率分布图(p=0.35,n=5)图图4.2 棉株受危害的累积概率函数图棉株受危害的累积概率函数图 (p=0.35,n=5)三、二项式分布的形状和参数三、二项式分布的形状和参数如如p=q,二项式分布呈对称形状,如,二项式分布呈对称形状,如pq,则表现偏斜形状,则表现偏斜形状 受
30、害株数受害株数(y)图4.3 棉株受盲椿害的概率函数f(y)图(p=0.5,n=5株)受害株数受害株数(y)图图4.1 棉株受盲蝽象为害的概率分布图棉株受盲蝽象为害的概率分布图(p=0.35,n=5)二项式分布的参数二项式分布的参数平均数、方差和标准差如下式平均数、方差和标准差如下式上述棉田受害率调查结果,上述棉田受害率调查结果,n=5,p=0.35,可求得总体参数为:,可求得总体参数为:=50.35=1.75株,株,株。株。四、多项式分布四、多项式分布所谓所谓多项总体多项总体,是指将变数资料分为,是指将变数资料分为3类或多类的总体。类或多类的总体。例如在给某一人群使用一种新药,可能有的疗效好
31、,有的没例如在给某一人群使用一种新药,可能有的疗效好,有的没有疗效,而另有疗效为副作用的,就是三项分布。有疗效,而另有疗效为副作用的,就是三项分布。多项总体的随机变量的概率分布即为多项总体的随机变量的概率分布即为多项式分布多项式分布(multinomialdistribution)。五、泊松分布五、泊松分布二项分布的一种极限分布二项分布的一种极限分布 (Poisson distribution)二项分布中往往会遇到一个概率p或q是很小的值,例如小于0.1,另一方面n又相当大,这样的二项分布必将为另一种分布所接近,或者为一种极限分布。这一种分布称泊松概率分布,简称泊松分布。令令np=m,则泊松分
32、布如下式:,则泊松分布如下式:y=0,1,2,泊松分布的平均数泊松分布的平均数 、方差、方差 和标准差和标准差 如下式如下式:m的大小决定其分布的大小决定其分布形状。当形状。当m值小时分值小时分布呈很偏斜形状,布呈很偏斜形状,m增大后则逐渐对称。增大后则逐渐对称。图4.4 不同m值的泊松分布第四节第四节 正态分布正态分布一、二项分布的极限一、二项分布的极限正态分布正态分布二、正态分布曲线的特性二、正态分布曲线的特性三、计算正态分布曲线区间面积或概率的方法三、计算正态分布曲线区间面积或概率的方法研究正态分布的意义意义:1.客观世界的许多现象的数据是服从正态分布规律的。2.在适当条件下,正态分布可
33、以用来作二项分布及其它间断性变数或连续性变数分布的近似分布。3.虽然某些总体不作正态分布,但从总体中随机抽出的样本平均数及其它一些统计数的分布,在样本容量适当大时仍然趋于正态分布。正态分布正态分布一、二项分布的极限一、二项分布的极限正态分布正态分布 以上述二项分布棉株受害率为例,假定受害概率以上述二项分布棉株受害率为例,假定受害概率p=1/2,那么,那么,p=q=1/2。现假定每个抽样单位包括。现假定每个抽样单位包括20株,这样将株,这样将有有21个组,其受害株的概率函数为个组,其受害株的概率函数为 于是概率分布计算如下:于是概率分布计算如下:现将这概率分布绘于图现将这概率分布绘于图4.5。从
34、图。从图4.5看出它是对称的,看出它是对称的,分布的平均数分布的平均数 和方差和方差 为:为:=npq=20(1/2)(1/2)=5(株株)2。=np=20(1/2)=10(株株),图4.5 棉株受害率(0.5+0.5)20分布图如如p=q,不论,不论n值值大或小,二项分布大或小,二项分布的多边形图必形成的多边形图必形成对称;对称;如如pq,而,而n很大很大时,这多边形仍趋时,这多边形仍趋对称对称。可以推导出正态分布的概率密度函数为:可以推导出正态分布的概率密度函数为:(49)其中,其中,y是所研究的变数;是所研究的变数;是概率是概率密度函数;密度函数;和和 为总体参数,为总体参数,表示所研究
35、总体平均数,表示所研究总体平均数,表表示所研究总体标准差示所研究总体标准差参数参数和和有如下的数学表述有如下的数学表述(410)令令 可将可将(49)式标准化为:式标准化为:(411)上式称上式称为标为标准化正准化正态态分布方程,它是参数分布方程,它是参数时的正态分布时的正态分布(图图4.7)。记作。记作N(0,1)。正态分布的曲线图正态分布的曲线图 -3 -2 -1 0 1 2 3图图4.6 正态分布曲线图正态分布曲线图(平均数为平均数为 ,标准差为,标准差为 )图图4.7 标准正态分布曲线图标准正态分布曲线图(平均数平均数 为为0,标准差,标准差 为为1)二、正态分布曲线的特点二、正态分布
36、曲线的特点:1.曲线以平均数为对称轴,左右对称;2.算术平均数、中数、众数三位合一;3.正态分布曲线是以平均数和标准差的不同而表现为一系列曲线;4.正态分布资料的次数分布表现为多数次数集中在算是平均数附近,距之俞远,次数俞少;5.正态分布曲线在离开平均数一个标准差处有拐点,且曲线是以x轴为渐进线;6.正态分布曲线与x轴间的面积为1,任何两个x定值间的面积或概率由平均数和标准差确定。正态分布正态分布图图4.8 标准差相同标准差相同(1)而平均数不而平均数不同同(=0、=1、=2)的三个正态分布的三个正态分布曲线曲线 图图4.9 平均数相同平均数相同(0)而标准差不而标准差不同同(=1、=1.5、
37、=2)的三个正态的三个正态分布曲线分布曲线 例如,上章水稻例如,上章水稻140行产量资料的样本分布表现出接近行产量资料的样本分布表现出接近正态分布正态分布ks数值(g)区间(g)区间内包括的次数次数%1s157.9 36.4121.5194.5 99 70.712s157.9 72.8 85.1230.7134 95.713s157.9109.2 48.7267.1140100.00表表4.5 140行水稻产量在行水稻产量在 1s,2s,3s范围内所包括的次数表范围内所包括的次数表三、计算正态分布曲线区间面积或概率的方法三、计算正态分布曲线区间面积或概率的方法概率可用曲线下区间的概率可用曲线下
38、区间的面积面积来表示,来表示,或者说,用其定积分的值表示或者说,用其定积分的值表示(413)同样可以计算曲线下从同样可以计算曲线下从到到y的面积,其公式如下:的面积,其公式如下:(414)这里这里FN(y)称为正态分布的称为正态分布的累积函数累积函数,具有平均数,具有平均数 和和标准差标准差 。A=P(ayb)fN(y)图图4.10正态分布密度函数的积分说明图面积正态分布密度函数的积分说明图面积A=P(ayb)现如给予变数任何一定值,例如现如给予变数任何一定值,例如a,那么,可以计算,那么,可以计算ya的的概率为概率为FN(a),即,即(415)如果如果a与与b(a30就可就可以应用这一定理。
39、以应用这一定理。平均数的标准化分布是将上述平均数平均数的标准化分布是将上述平均数 转换为转换为u变数。变数。(423)例例4.9 在江苏沛县调查在江苏沛县调查336个个m2小地老虎虫危害情况的小地老虎虫危害情况的结果,结果,=4.73头,头,=2.63,试问样本容量,试问样本容量n=30时,由于随机时,由于随机抽样得到样本平均数抽样得到样本平均数 等于或小于等于或小于4.37的概率为多少?的概率为多少?查附表查附表2,P(u0.75)=0.2266,即概率为,即概率为22.66%(属一尾属一尾概率概率)。(二二)两个独立样本平均数差数的分布两个独立样本平均数差数的分布 假定有两个正态总体各具有
40、平均数和标准差为假定有两个正态总体各具有平均数和标准差为 ,和和 ,从第一个总体随机抽取,从第一个总体随机抽取n1个观察值,同时独立地从第个观察值,同时独立地从第二个总体随时机抽取二个总体随时机抽取n2个观察值。这样计算出样本平均数个观察值。这样计算出样本平均数和标准差和标准差 ,s1和和 ,s2。从统计理论可以推导出其样本平均数的差数从统计理论可以推导出其样本平均数的差数()的抽样分布,具有以下特性:的抽样分布,具有以下特性:(1)如果两个总体各作正态分布,则其样本平均数差如果两个总体各作正态分布,则其样本平均数差数数()准确地遵循正态分布律,无论样本容量大或小,准确地遵循正态分布律,无论样
41、本容量大或小,都有都有N(,)。(2)两个样本平均数差数分布的平均数必等于两个总两个样本平均数差数分布的平均数必等于两个总体平均数的差数,即体平均数的差数,即 (3)两个独立的样本平均数差数分布的方差等于两个两个独立的样本平均数差数分布的方差等于两个总体的样本平均数的方差总和,即总体的样本平均数的方差总和,即 其差数标准差为:其差数标准差为:(424)这个分布也可标准化,获得这个分布也可标准化,获得u值。值。(425)小结:小结:l若两个样本抽自于同一正态总体,则其平均数差数的抽若两个样本抽自于同一正态总体,则其平均数差数的抽样分布不论容量大小亦作正态分布具:样分布不论容量大小亦作正态分布具:
42、l若两个样本抽自于同一总体,但并非正态总体,则其平均若两个样本抽自于同一总体,但并非正态总体,则其平均数差数的抽样分布按中心极限定理在数差数的抽样分布按中心极限定理在n1和和n2相当大时相当大时(大于大于30)才逐渐接近于正态分布。才逐渐接近于正态分布。l若两个样本抽自于两个非正态总体,当若两个样本抽自于两个非正态总体,当n1和和n2相当大、而相当大、而 与与 相差不太远时,也可近似地应用正态接近方法估计相差不太远时,也可近似地应用正态接近方法估计平均数差数出现的概率,当然这种估计的可靠性得依两总体平均数差数出现的概率,当然这种估计的可靠性得依两总体偏离正态的程度和相差大小而转移。偏离正态的程
43、度和相差大小而转移。三、二项总体的抽样分布三、二项总体的抽样分布(一一)二项总体的分布参数二项总体的分布参数 其中其中p为二项总体中要研究的属性事件发生的概率,为二项总体中要研究的属性事件发生的概率,q=1p。标准差标准差:方差方差:平均数平均数:(二二)样本平均数样本平均数(成数成数)的抽样分布的抽样分布 从二项总体进行抽样得到样本,样本平均数抽样分从二项总体进行抽样得到样本,样本平均数抽样分布的参数为:布的参数为:平均数平均数:方差方差:标准误标准误:同样同样n是样本容量。是样本容量。(三三)样本总和数样本总和数(次数次数)的抽样分布的抽样分布 从二项总体进行抽样得到样本,样本总和数的抽样
44、分从二项总体进行抽样得到样本,样本总和数的抽样分布参数为:布参数为:平均数平均数:方差方差:标准误标准误:例例4.9 棉田危害棉株分为受害株与未受害株。假棉田危害棉株分为受害株与未受害株。假定调查定调查2000株作为一个总体,受害株为株作为一个总体,受害株为704株。这是一株。这是一个二项总体,于是计算出受害率个二项总体,于是计算出受害率p=35.2%=0.352,=0.4776或或47.76%。现从这一总体抽样,以株为单位,用简单随机抽样现从这一总体抽样,以株为单位,用简单随机抽样方法,调查方法,调查200株棉株,获得株棉株,获得74株受害,那么,观察受株受害,那么,观察受害率害率(就是成数
45、,或者说是样本平均数就是成数,或者说是样本平均数)=37.0%,试问样本平均数与总体真值的差数的概率为多少?试问样本平均数与总体真值的差数的概率为多少?总体真值总体真值p=0.352,差数差数=()=(0.3700.352)=0.018。标准差标准差 =0.034或或3.4%。由于二项分布在由于二项分布在np及及nq大于大于5时,趋近于正态分布,时,趋近于正态分布,本例样本较大可看为正态分布,采用正态离差本例样本较大可看为正态分布,采用正态离差u查出概率。查出概率。于是于是 =0.53。如果以次数资料如果以次数资料(或称为或称为“样本总和数资料样本总和数资料”)表示表示也可得到同样结果。总体调
46、查也可得到同样结果。总体调查2000株中受害株有株中受害株有704株,株,调查调查200株的理论次数应为株的理论次数应为np=2000.352=70.4株。现株。现观察受害株为观察受害株为74株株(总和数总和数),差数差数=(np)=7470.4=3.6株,株,=3.6/6.754=0.53,与上相同,获得这种差数的概率为与上相同,获得这种差数的概率为0.59。查附表查附表3,当,当u=0.53,概率值为,概率值为0.59,即获得这种即获得这种|0.018的概率的概率(两尾概率两尾概率)为为0.59,这就说明样本估计的受害率为,这就说明样本估计的受害率为37.0有代表性有代表性(可以可以近似代表总体的受害率近似代表总体的受害率)。