《田间试验与统计方法--第四章-理论分布和抽样分布优秀PPT.ppt》由会员分享,可在线阅读,更多相关《田间试验与统计方法--第四章-理论分布和抽样分布优秀PPT.ppt(87页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第四章第四章 理论分布与抽样分布理论分布与抽样分布第一节第一节 事务与概率事务与概率其次节其次节 概率分布概率分布第三节第三节 二项式分布二项式分布第四节第四节 正态分布正态分布第五节第五节 抽样分布抽样分布 一、事一、事 件件(一)必定现象与随机现象(一)必定现象与随机现象 必定现象(必定现象(inevitablephenomena)或确定性现象()或确定性现象(definitephenomena):):结果可预言,确定的,必定的,可重复结果可预言,确定的,必定的,可重复例,标准大气压下,水加热到例,标准大气压下,水加热到100C必定沸腾必定沸腾随机现象(随机现象(randomphenome
2、na)或不确定性现象()或不确定性现象(indefinitephenomena):):结果事前不行预言,呈偶然性、不确定性结果事前不行预言,呈偶然性、不确定性例,种子发芽,抛硬币例,种子发芽,抛硬币随机现象或不确定性现象,有如下特点:随机现象或不确定性现象,有如下特点:(1)在确定的条件实现时,有多种可能的结果发生,事前人们不在确定的条件实现时,有多种可能的结果发生,事前人们不能预言将出现哪种结果;对一次或少数几次视察或试验而言,能预言将出现哪种结果;对一次或少数几次视察或试验而言,其结果呈现偶然性、不确定性;其结果呈现偶然性、不确定性;(2)但在相同条件下进行大量重复试验时,其试验结果却呈现
3、但在相同条件下进行大量重复试验时,其试验结果却呈现出某种固有的特定的规律性出某种固有的特定的规律性频率的稳定性,通常称之为随频率的稳定性,通常称之为随机现象的统计规律性。机现象的统计规律性。(二)随机试验与随机事务(二)随机试验与随机事务 1、随机试验、随机试验 通常我们把依据某一探讨目的通常我们把依据某一探讨目的,在确定条件在确定条件下对自然现象所进行的视察或试验统称为试验下对自然现象所进行的视察或试验统称为试验(trial)。)。而一个试验假如满足下述三个特性而一个试验假如满足下述三个特性 ,则则 称称 其其 为为 一个一个 随机试验(随机试验(random trial),简称试验:),简
4、称试验:(1)试验可以在相同条件下多次重复进行;)试验可以在相同条件下多次重复进行;(2)每次试验的可能结果不止一个)每次试验的可能结果不止一个,并且事先知,并且事先知道会有哪些可能的结果;道会有哪些可能的结果;(3)每次)每次 试验总是恰好出现这些可能结果中的一试验总是恰好出现这些可能结果中的一个个,但在一次试验之前却不能确定这次试验会出现哪,但在一次试验之前却不能确定这次试验会出现哪一个结果。一个结果。例如小麦发芽试验,抛硬币。例如小麦发芽试验,抛硬币。2、随机事务、随机事务 随机试验的每一种可能结果,在确定条件下随机试验的每一种可能结果,在确定条件下可可 能能 发发 生生,也,也 可可
5、能能 不不 发生,称为随机事务发生,称为随机事务(random event),简称),简称 事事 件件(event),通常),通常用用A、B、C等来表示。等来表示。(1)基本事务)基本事务 我我 们们 把把 不不 能能 再再 分的事务称为基本事务分的事务称为基本事务(elementary event),也也 称称 为为 样本点样本点(sample point)。)。例如,在编号为例如,在编号为1、2、3、20 的数字中随的数字中随机抽取机抽取1个,有个,有20种不同的可能结果:种不同的可能结果:“取取 得得 一一 个个 编编 号号 是是 1”、“取得一个取得一个编号是编号是2”、“取得一个编号
6、是取得一个编号是10”,这,这10个个事务都是不行能再分的事务,它们都是基本事事务都是不行能再分的事务,它们都是基本事务。务。由若干个基本事务组合而成的事务称为由若干个基本事务组合而成的事务称为 复合事复合事务务(compound event)。)。如如 “取得一个编号是取得一个编号是 2的倍数的倍数”是一个复是一个复合事务,它由合事务,它由 “取得一个编号是取得一个编号是2”、“是是4”、“是是6、“是是8”“是是20”10个基本事务组合而个基本事务组合而成。成。(2)必定事务)必定事务 我们把在确定条件下必定会发生的事务称为我们把在确定条件下必定会发生的事务称为必定事务(必定事务(cert
7、ain event),用),用表示。其概表示。其概率为率为1 例如,标准大气压下,水加热到例如,标准大气压下,水加热到100C必定必定沸腾,就是一个必定事务。沸腾,就是一个必定事务。(3)不行能事务)不行能事务 我们把在确定条件下不行能发生的事务称为我们把在确定条件下不行能发生的事务称为不行能事务(不行能事务(impossible event),用),用表示。表示。其概率为其概率为0 例,没有生活实力的种子播种后会出苗,就是例,没有生活实力的种子播种后会出苗,就是一个不行能事务。一个不行能事务。必定事务与不行能事务事实上是确定性现象,即必定事务与不行能事务事实上是确定性现象,即它们不是随机事务
8、,它们不是随机事务,但但 是是 为了便利起见,我们为了便利起见,我们把它们看作为两个特殊的随机事务。把它们看作为两个特殊的随机事务。积事务积事务AB和事务和事务A+BABAB互斥事务互斥事务 对立事务对立事务 ABA+B,“或或A发生,或发生,或B发生发生”。AB,“A和和B同时发生或相继发生同时发生或相继发生”AB=V,事务,事务A和和B互斥或互不相容互斥或互不相容A+B=U,AB=V,事务B为事务A的对立事务,并记B为事务间的关系二二、概概 率率 探讨随机试验,仅知道可能发生哪些随探讨随机试验,仅知道可能发生哪些随机事务是不够的,还需了解各种随机事务机事务是不够的,还需了解各种随机事务发生
9、的可能性大小,以揭示这些事务的内发生的可能性大小,以揭示这些事务的内在的统计规律性,从而指导实践。在的统计规律性,从而指导实践。这就要求有一个能够刻划事务发生可能这就要求有一个能够刻划事务发生可能性大小的数量指标,这指标应当是事务本性大小的数量指标,这指标应当是事务本身所固有的,且不随人的主观意志而变更,身所固有的,且不随人的主观意志而变更,人们称之为概率(人们称之为概率(probability)。)。事务事务A的概率记为的概率记为P(A)。)。(一)概率的统计定义(一)概率的统计定义思思索索:投投掷掷一一枚枚硬硬币币,出出现现正正面面的的概概率率是是多多大大?(0表表示示反反面面,1表表示示
10、正正面面)反反复复做做它它,那那么么全全部部出出现现正正面面的的结结果果平平均均值值是是多多少?少?英国数学家皮尔逊做英国数学家皮尔逊做24000次抛硬币试验次抛硬币试验正面对上正面对上12012次次频率频率=随着试验次数的增多,正面朝上的频率越来越接近随着试验次数的增多,正面朝上的频率越来越接近0.5.二、概率二、概率 例,例,表表 在相同条件下盲在相同条件下盲蝽蝽象在某棉田危害程度的象在某棉田危害程度的调查结调查结果果调查株数调查株数n较多时的稳定频率才能较好地代表棉株受害的可能性较多时的稳定频率才能较好地代表棉株受害的可能性统计学上用统计学上用n较大时稳定的较大时稳定的p近似代表概率。通
11、过大量试验而近似代表概率。通过大量试验而估计的概率称为试验概率或统计概率,以估计的概率称为试验概率或统计概率,以 表示。表示。此处此处P代表概率,代表概率,P(A)代表事务代表事务A的概率,的概率,P(A)变更的范围为变更的范围为01,即,即0P(A)1。(二)(二)概率的古典定义概率的古典定义概率的统计定义是在大量的试验中以频率的稳定性为基础上提出来的。概率的统计定义是在大量的试验中以频率的稳定性为基础上提出来的。不不须须要要做做试试验验,依依据据随随机机事事务务本本身身的的特特性性就就可可以以确确定定事事务务出出现现的的概概率率,称称为古典概率。为古典概率。古典概型必需满足以下条件:古典概
12、型必需满足以下条件:随机试验的全部可能结果(基本事务数)是有限的;随机试验的全部可能结果(基本事务数)是有限的;各基本事务间是互不相容且发生是等可能的。各基本事务间是互不相容且发生是等可能的。定义:定义:P(A)m/n m为事务为事务A中所包含的基本事务数中所包含的基本事务数 n为基本事务总数。为基本事务总数。例,在例,在1、2、3、20这这20个数字中随机抽取个数字中随机抽取1个,个,求下列事务的概率求下列事务的概率(1)A“抽得抽得1个数字小于个数字小于5”(2)B=“抽得抽得1个数字是个数字是2的倍数的倍数”小概率事务小概率事务-随机事务的概率表示随机事务在试验中出现的随机事务的概率表示
13、随机事务在试验中出现的可能性大小。随机事务的概率很小如,小于可能性大小。随机事务的概率很小如,小于0.05或或0.01或或0.001小概率原理小概率原理-统计学上,把小概率事务在一次试验中看成是统计学上,把小概率事务在一次试验中看成是实际不行能发生的事务,称为小概率事务实际不行能性原理,实际不行能发生的事务,称为小概率事务实际不行能性原理,简称小概率原理。简称小概率原理。这里的这里的0.05或或0.01称为小概率标准,农业试验探讨中通常运用称为小概率标准,农业试验探讨中通常运用这两个小概率标准。这两个小概率标准。小概率事务实际不行能性原理是统计学上进行假设检验(显著小概率事务实际不行能性原理是
14、统计学上进行假设检验(显著性检验)的基本依据。性检验)的基本依据。(三)(三)小概率事务实际不行能性原理小概率事务实际不行能性原理概概率率是是事事务务在在试试验验结结果果中中出出现现可可能能性性大大小小的的定定量量计计量量。它它是度量随机事务发生的可能性的统计学指标。是度量随机事务发生的可能性的统计学指标。是事务固有的属性,有以下明显的性质:是事务固有的属性,有以下明显的性质:随机事务随机事务A的概率:的概率:0P(A)1必定事务必定事务W的概率为的概率为1,即,即P(W)=1不行能事务(不行能事务(V)的概率为)的概率为0,即,即P(V)=0概率接近于概率接近于0(如(如P0.05)的事务称
15、为小概率事务。)的事务称为小概率事务。(四)(四)概率的性质概率的性质其次节其次节 概率分布概率分布 (probability distribution)一、随机变量一、随机变量二、概率分布二、概率分布一、随机变量一、随机变量(random variable)随机变量是指随机变数所取的某一个实数值。表示随机现象随机变量是指随机变数所取的某一个实数值。表示随机现象结果的变量结果的变量,也就是在随机试验中被测定的量,所取得的值称也就是在随机试验中被测定的量,所取得的值称为视察值。为视察值。例例1:抛硬币试验,两种结果:抛硬币试验,两种结果:用数用数“1”表示表示“币值面对上币值面对上”,“0”表示
16、表示“国徽面国徽面对上对上”把把 0,1作为变量作为变量y的取值的取值 可以简洁地把抛硬币试验用取值为可以简洁地把抛硬币试验用取值为0,1的变量来表示:的变量来表示:P(y=1)=0.5,P(y=0)=0.5 例例2:用:用“1”表示表示“能发芽种子能发芽种子”,其概率为,其概率为p;用;用“0”表示表示“不能发芽种子不能发芽种子”,其概率为,其概率为q。明显明显 p+q=1,则则 P(y=1)=p,P(y=0)=q=1p。例例3:用变量:用变量y表示水稻产量,若表示水稻产量,若y大于大于500kg的概率为的概率为0.25,大于,大于300kg且等于小于且等于小于500kg的概率为的概率为0.
17、65,等于小于,等于小于300kg的概率为的概率为0.1。则用变量则用变量y的取值范围来表示的试验结果为的取值范围来表示的试验结果为 P(y300)=0.10,P(300y500)=0.65,P(y500)=0.25。随机变量随机变量离散型离散型连续型连续型(与我们前面所讲的连续型数据和离散型数据的意义一样)(与我们前面所讲的连续型数据和离散型数据的意义一样)(一)(一)离散型随机变量离散型随机变量-当试验只有几个确定的结果,并当试验只有几个确定的结果,并可一一列出,变量可一一列出,变量y的取值可用实数表示,且的取值可用实数表示,且y取某一值时,其取某一值时,其概率是确定的,这种类型的变量称为
18、离散型随机变量。概率是确定的,这种类型的变量称为离散型随机变量。将这种变量的全部可能取值及其对应概率一一列出所形成将这种变量的全部可能取值及其对应概率一一列出所形成的分布称为离散型随机变量的概率分布:的分布称为离散型随机变量的概率分布:概率概率也可用函数也可用函数f(y)表述,称为表述,称为概率函数概率函数。前面例前面例1、例、例2中的中的y就是离散型随机变量,将其可能取值与对应概就是离散型随机变量,将其可能取值与对应概率一一列出,即为:率一一列出,即为:常用概率分布表或概率分布图表示常用概率分布表或概率分布图表示常用概率分布表或概率分布图表示常用概率分布表或概率分布图表示离散型变量离散型变量
19、概率的分布函数概率的分布函数:离散型变量概率的向上:离散型变量概率的向上累积。其公式为累积。其公式为 ,即随机,即随机变量小于等于某一可能值(变量小于等于某一可能值(x0)的概率。)的概率。离散型概率分布的例子离散型概率分布的例子例:例:从从100件产品(其中合格品件产品(其中合格品95件,废品件,废品5件)中任取件)中任取10件,件,求每次抽到废品数的概率分布。求每次抽到废品数的概率分布。概率分布表概率分布表概率分布表概率分布表累积概率分布表累积概率分布表累积概率分布表累积概率分布表(二)连续型随机变量(二)连续型随机变量(continuousrandomvariate)-对于随机变量,若存
20、在非负可积函数对于随机变量,若存在非负可积函数f(y)(y),对随意,对随意a和和b(ab)都有都有P(ayb)=,则则称称y为连续型随机变量为连续型随机变量(continuousrandomvariate),f(y)称为称为y的概率密度函数的概率密度函数(probabilitydensityfunction)或分布密度或分布密度(distributiondensity)。上述例上述例3中的中的y就是一个连续型随机变量。就是一个连续型随机变量。概率密度的图形概率密度的图形f(x),称为分布曲线。,称为分布曲线。概率是曲线下面积概率是曲线下面积概率是曲线下面积概率是曲线下面积!f(x)Xab概率
21、密度曲线概率密度曲线概率密度曲线概率密度曲线f f(x x)与与与与x x轴所围成的面积为轴所围成的面积为轴所围成的面积为轴所围成的面积为 1 1分分分分布布布布函函函函数数数数(或或或或称称称称为为为为累累累累积积积积分分分分布布布布函函函函数数数数)是是是是随随随随机机机机变变变变量量量量X X取取取取得得得得小小小小于于于于x x0 0的值的概率的值的概率的值的概率的值的概率概率密度函数图和概率分布函数图概率密度函数图和概率分布函数图概率密度函数图概率密度函数图概率分布函数图概率分布函数图或或或或概率分布曲线概率分布曲线累积分布函数图累积分布函数图yp(x)yF(x)x1x2x2x1P(
22、x1xx2)=F(x2)F(x1)连续型随机变量概率分布的性质:连续型随机变量概率分布的性质:分布密度函数总是大于或等于分布密度函数总是大于或等于0,即,即f(x)0;当随机变量当随机变量x取某一特定值时,其概率等于取某一特定值时,其概率等于0;即即 (c为随意实数为随意实数)因而,对于连续型随机变量,仅探讨其在某因而,对于连续型随机变量,仅探讨其在某一个区间内取值的概率,而不去探讨取某一个一个区间内取值的概率,而不去探讨取某一个值的概率。值的概率。第三节第三节 二项式分布二项式分布一、二项总体及二项式分布一、二项总体及二项式分布二、二项式分布的概率计算方法二、二项式分布的概率计算方法三、二项
23、式分布的形态和参数三、二项式分布的形态和参数四、多项式分布四、多项式分布一、二项总体及二项式分布一、二项总体及二项式分布二项总体二项总体(binarypopulation),就是非此即彼的两项构成的总,就是非此即彼的两项构成的总体体例:小麦种子发芽和不发芽,例:小麦种子发芽和不发芽,大豆子叶色为黄色和青色,大豆子叶色为黄色和青色,调查棉田危害分为受害株和不受害株等等。调查棉田危害分为受害株和不受害株等等。通常将二项总体中的通常将二项总体中的“此此”事务以变量事务以变量“1”表示,具概率表示,具概率p;将将“彼彼”事务以变量事务以变量“0”表示,具概率表示,具概率q。因而二项总体又称为因而二项总
24、体又称为0、1总体,其概率则明显有:总体,其概率则明显有:p+q=1假如从二项总体进行假如从二项总体进行n次重复抽样,设出现次重复抽样,设出现“此此”的次数的次数为为y,那么,那么y的取值可能为的取值可能为0、1、2、n,共有,共有n+1种可种可能取值,这能取值,这n+1种取值各有其概率,因而由变量种取值各有其概率,因而由变量y及其概率及其概率就构成了一个分布,这个分布叫做二项式概率分布,就构成了一个分布,这个分布叫做二项式概率分布,简称二项分布简称二项分布(binomialdistribution)。B(n,p)二项总体的抽样试验具有重复性和独立性二项总体的抽样试验具有重复性和独立性 重复性
25、是指每次试验条件不变,即在每次试验中重复性是指每次试验条件不变,即在每次试验中“此此”事务出现的概率皆为事务出现的概率皆为p 独立性是指任何一次试验中独立性是指任何一次试验中“此此”事务的出现与其余各事务的出现与其余各次试验中出现何种结果无关次试验中出现何种结果无关二、二项式分布的概率计算方法二、二项式分布的概率计算方法数学上的组合公式为:数学上的组合公式为:二项式中包含两项,这两项的概率为二项式中包含两项,这两项的概率为p、q,并且,并且p+q=1,可推知变量,可推知变量y的概率函数的概率函数为:为:累积函数累积函数F(y)F(y):变量小于等于:变量小于等于y y的全部可能取值的概率之和的
26、全部可能取值的概率之和理论次数:对于随意理论次数:对于随意y,理论次数,理论次数=nP(y)这一分布律也称这一分布律也称贝努里贝努里(Bernoulli)分布分布,并有,并有 的泰勒绽开式为:的泰勒绽开式为:可以看到,上式右边的每一项即为二项分布中变量可以看到,上式右边的每一项即为二项分布中变量y 取取0、1、2、n时的概率,又时的概率,又p+q=1,从而,从而(p+q)n=1 例例4.1 棉田盲危害的统计概率乃从调查棉田盲危害的统计概率乃从调查2000株后获得近似值株后获得近似值p=0.35。现受害株事务为现受害株事务为A,其概率为,其概率为p=0.35,未受害株事务为对立,未受害株事务为对
27、立事务,其概率事务,其概率q=(10.35)=0.65。如调查如调查5株为一个抽样单位,即株为一个抽样单位,即n=5,则受害株数,则受害株数y=0,1,2,3,4和和5的概率可以计算出来,的概率可以计算出来,假如每次抽假如每次抽5个单株,抽个单株,抽n=400次,则理论上我们能够得次,则理论上我们能够得到到y=2的次数应为:的次数应为:理论次数理论次数=400P(2)=4000.3364=134.56(次次)和其累计函数和其累计函数表表4.2 调查单调查单位位为为5株的概率分布表株的概率分布表(p=0.35,q=0.65)受害株数受害株数(y)受害株数受害株数(y)图图4.1 棉株受危害的概率
28、分布图棉株受危害的概率分布图(p=0.35,n=5)图图4.2 棉株受危害的累积概率函数图棉株受危害的累积概率函数图 (p=0.35,n=5)三、二项式分布的形态和参数三、二项式分布的形态和参数如如p=qp=q,二项式分布呈对称形态,如,二项式分布呈对称形态,如pqpq,则表现偏斜形态,则表现偏斜形态 受害株数受害株数(y)受害株数受害株数(y)图图4.1 棉株受盲蝽象为害的概率分布图棉株受盲蝽象为害的概率分布图(p=0.35,n=5)二项式分布的参数二项式分布的参数平均数、方差和标准差如下式平均数、方差和标准差如下式上述棉田受害率调查结果,上述棉田受害率调查结果,n=5,p=0.35,可求得
29、总体参数为:,可求得总体参数为:=50.35=1.75株,株,株。株。四、多项式分布四、多项式分布所谓所谓多项总体多项总体,是指将变数资料分为,是指将变数资料分为3类或多类的总体。类或多类的总体。例如在给某一人群运用一种新药,可能有的疗效好,例如在给某一人群运用一种新药,可能有的疗效好,有的没有疗效,而另有疗效为副作用的,就是三项分布。有的没有疗效,而另有疗效为副作用的,就是三项分布。多项总体的随机变量的概率分布即为多项总体的随机变量的概率分布即为多项式分布多项式分布(multinomialdistribution)。五、泊松分布五、泊松分布二项分布的一种极限分布二项分布的一种极限分布 (Po
30、isson distribution)二项分布中往往会遇到一个概率p或q是很小的值,例如小于0.1,另一方面n又相当大,这样的二项分布必将为另一种分布所接近,或者为一种极限分布。这一种分布称泊松概率分布,简称泊松分布。令令np=m,则泊松分布如下式:,则泊松分布如下式:y=0,1,2,泊松分布的平均数泊松分布的平均数 、方差、方差 和标准差和标准差 如下式如下式:m的大小确定其分布形态。当m值小时分布呈很偏斜形态,m增大后则渐渐对称。第四节第四节 正态分布正态分布一、二项分布的极限一、二项分布的极限正态分布正态分布二、正态分布曲线的特性二、正态分布曲线的特性三、计算正态分布曲线区间面积或概率的
31、方法三、计算正态分布曲线区间面积或概率的方法探讨正态分布的意义:客观世界的很多现象的数据是听从正态分布规律的。在适当条件下,正态分布可以用来作二项分布及其它间断性变数或连续性变数分布的近似分布。虽然某些总体不作正态分布,但从总体中随机抽出的样本平均数及其它一些统计数的分布,在样本容量适当大时仍旧趋于正态分布。正态分布正态分布一、二项分布的极限一、二项分布的极限正态分布正态分布 以上述二项分布棉株受害率为例,假定受害概率以上述二项分布棉株受害率为例,假定受害概率p=1/2,那么,那么,p=q=1/2。现假定每个抽样单位包括。现假定每个抽样单位包括20株,这样将株,这样将有有21个组,其受害株的概
32、率函数为个组,其受害株的概率函数为 于是概率分布计算如下:于是概率分布计算如下:现将这概率分布绘于图现将这概率分布绘于图4.5。从图。从图4.5看出它是对称的,看出它是对称的,分布的平均数分布的平均数 和方差和方差 为:为:=npq=20(1/2)(1/2)=5(株株)2。=np=20(1/2)=10(株株),如如p=q,不论,不论n值值大或小,二项分布大或小,二项分布的多边形图必形成的多边形图必形成对称;对称;如如pq,而,而n很大很大时,这多边形仍趋时,这多边形仍趋对称对称。可以推导出正态分布的概率密度函数为:可以推导出正态分布的概率密度函数为:(49)其中,其中,y是所探讨的变数;是所探
33、讨的变数;是概率是概率密度函数;密度函数;和和 为总体参数,为总体参数,表示所探讨总体平均数,表示所探讨总体平均数,表表示所探讨总体标准差示所探讨总体标准差参数参数和和有如下的数学表述有如下的数学表述(410)令令 可将可将(49)式标准化为:式标准化为:(411)上式称上式称为标为标准化正准化正态态分布方程,它是参数分布方程,它是参数时的正态分布时的正态分布(图图4.7)。记作。记作N(0,1)。正态分布的曲线图正态分布的曲线图 -3 -2 -1 0 1 2 3图图4.6 正态分布曲线图正态分布曲线图(平均数为平均数为 ,标准差为,标准差为 )图图4.7 标准正态分布曲线图标准正态分布曲线图
34、(平均数平均数 为为0,标准差,标准差 为为1)二、正态分布曲线的特点:二、正态分布曲线的特点:曲线以平均数为对称轴,左右对称;曲线以平均数为对称轴,左右对称;算术平均数、中数、众数三位合一;算术平均数、中数、众数三位合一;正态分布曲线是以平均数和标准差的不同而表现正态分布曲线是以平均数和标准差的不同而表现为一系列曲线;为一系列曲线;正态分布资料的次数分布表现为多数次数集中在正态分布资料的次数分布表现为多数次数集中在算是平均数旁边,距之俞远,次数俞少;算是平均数旁边,距之俞远,次数俞少;正态分布曲线在离开平均数一个标准差处有拐点,正态分布曲线在离开平均数一个标准差处有拐点,且曲线是以且曲线是以
35、x轴为渐进线;轴为渐进线;正态分布曲线与正态分布曲线与x轴间的面积为轴间的面积为1,任何两个,任何两个x定值定值间的面积或概率由平均数和标准差确定。间的面积或概率由平均数和标准差确定。正态分布正态分布图图4.8 标准差相同标准差相同(1)而平均数不而平均数不同同(=0、=1、=2)的三个正态分布的三个正态分布曲线曲线 图图4.9 平均数相同平均数相同(0)而标准差不而标准差不同同(=1、=1.5、=2)的三个正态的三个正态分布曲线分布曲线 例如,上章水稻例如,上章水稻140行产量资料的样本分布表现出接近行产量资料的样本分布表现出接近正态分布正态分布表表4.5 140行水稻产量在行水稻产量在 1
36、s,2s,3s范围内所包括的次数表范围内所包括的次数表三、计算正态分布曲线区间面积或概率的方法三、计算正态分布曲线区间面积或概率的方法概率可用曲线下区间的概率可用曲线下区间的面积面积来表示,来表示,或者说,用其定积分的值表示或者说,用其定积分的值表示(413)同样可以计算曲线下从同样可以计算曲线下从到到y的面积,其公式如下:的面积,其公式如下:(414)这里这里FN(y)称为正态分布的称为正态分布的累积函数累积函数,具有平均数,具有平均数 和和标准差标准差 。A=P(ayb)fN(y)图图4.10正态分布密度函数的积分说明图面积正态分布密度函数的积分说明图面积A=P(ayb)现如赐予变数任何确
37、定值,例如现如赐予变数任何确定值,例如a,那么,可以计算,那么,可以计算ya的的概率为概率为FN(a),即,即(415)假如假如a与与b(a30就可就可以应用这确定理。以应用这确定理。平均数的标准化分布是将上述平均数平均数的标准化分布是将上述平均数 转换为转换为u变数。变数。(423)例4.9 在江苏沛县调查336个m2小地老虎虫危害状况的结果,=4.73头,=2.63,试问样本容量n=30时,由于随机抽样得到样本平均数 等于或小于4.37的概率为多少?查附表查附表2,P(u0.75)=0.2266,即概率为,即概率为22.66%(属一尾属一尾概率概率)。(二二)两个独立样本平均数差数的分布两
38、个独立样本平均数差数的分布 假定有两个正态总体各具有平均数和标准差为假定有两个正态总体各具有平均数和标准差为 ,和和 ,从第一个总体随机抽取,从第一个总体随机抽取n1个视察值,同时独立地从个视察值,同时独立地从其次个总体随时机抽取其次个总体随时机抽取n2个视察值。这样计算出样本平均个视察值。这样计算出样本平均数和标准差数和标准差 ,s1和和 ,s2。从统计理论可以推导出其样本平均数的差数从统计理论可以推导出其样本平均数的差数()的抽样分布,具有以下特性:的抽样分布,具有以下特性:(1)假如两个总体各作正态分布,则其样本平均数差数假如两个总体各作正态分布,则其样本平均数差数()精确地遵循正态分布
39、律,无论样本容量大或小,精确地遵循正态分布律,无论样本容量大或小,都有都有N(,)。(2)两个样本平均数差数分布的平均数必等于两个总体两个样本平均数差数分布的平均数必等于两个总体平均数的差数,即平均数的差数,即 (3)两个独立的样本平均数差数分布的方差等于两个两个独立的样本平均数差数分布的方差等于两个总体的样本平均数的方差总和,即总体的样本平均数的方差总和,即 其差数标准差为:其差数标准差为:(424)这个分布也可标准化,获得这个分布也可标准化,获得u值。值。(425)小结:小结:l若两个样本抽自于同一正态总体,则其平均数差数的抽若两个样本抽自于同一正态总体,则其平均数差数的抽样分布不论容量大
40、小亦作正态分布具:样分布不论容量大小亦作正态分布具:l若两个样本抽自于同一总体,但并非正态总体,则其平均若两个样本抽自于同一总体,但并非正态总体,则其平均数差数的抽样分布按中心极限定理在数差数的抽样分布按中心极限定理在n1和和n2相当大时相当大时(大于大于30)才渐渐接近于正态分布。才渐渐接近于正态分布。l若两个样本抽自于两个非正态总体,当若两个样本抽自于两个非正态总体,当n1和和n2相当大、而相当大、而l 与与 相差不太远时,也可近似地应用正态接近方法估计相差不太远时,也可近似地应用正态接近方法估计平均数差数出现的概率,当然这种估计的牢靠性得依两总体平均数差数出现的概率,当然这种估计的牢靠性
41、得依两总体偏离正态的程度和相差大小而转移。偏离正态的程度和相差大小而转移。三、二项总体的抽样分布三、二项总体的抽样分布(一一)二项总体的分布参数二项总体的分布参数 其中其中p为二项总体中要探讨的属性事务发生的概率,为二项总体中要探讨的属性事务发生的概率,q=1p。标准差标准差:方差方差:平均数平均数:(二二)样本平均数样本平均数(成数成数)的抽样分布的抽样分布 从二项总体进行抽样得到样本,样本平均数抽样分从二项总体进行抽样得到样本,样本平均数抽样分布的参数为:布的参数为:平均数平均数:方差方差:标准误标准误:同样同样n是样本容量。是样本容量。(三三)样本总和数样本总和数(次数次数)的抽样分布的
42、抽样分布 从二项总体进行抽样得到样本,样本总和数的抽样分从二项总体进行抽样得到样本,样本总和数的抽样分布参数为:布参数为:平均数平均数:方差方差:标准误标准误:例例4.9 棉田危害棉株分为受害株与未受害株。假棉田危害棉株分为受害株与未受害株。假定调查定调查2000株作为一个总体,受害株为株作为一个总体,受害株为704株。这是一株。这是一个二项总体,于是计算出受害率个二项总体,于是计算出受害率p=35.2%=0.352,=0.4776或或47.76%。现从这一总体抽样,以株为单位,用简洁随机抽样现从这一总体抽样,以株为单位,用简洁随机抽样方法,调查方法,调查200株棉株,获得株棉株,获得74株受
43、害,那么,视察受株受害,那么,视察受害率害率(就是成数,或者说是样本平均数就是成数,或者说是样本平均数)=37.0%,试问样本平均数与总体真值的差数的概率为多少?试问样本平均数与总体真值的差数的概率为多少?总体真值总体真值p=0.352,差数差数=()=(0.3700.352)=0.018。标准差标准差 =0.034或或3.4%。由于二项分布在由于二项分布在np及及nq大于大于5时,趋近于正态分布,时,趋近于正态分布,本例样本较大可看为正态分布,接受正态离差本例样本较大可看为正态分布,接受正态离差u查出概率。查出概率。于是于是 =0.53。假如以次数资料假如以次数资料(或称为或称为“样本总和数
44、资料样本总和数资料”)表示表示也可得到同样结果。总体调查也可得到同样结果。总体调查2000株中受害株有株中受害株有704株,株,调查调查200株的理论次数应为株的理论次数应为np=2000.352=70.4株。现株。现视察受害株为视察受害株为74株株(总和数总和数),差数差数=(np)=7470.4=3.6株,株,=3.6/6.754=0.53,与上相同,获得这种差数的概率为与上相同,获得这种差数的概率为0.59。查附表查附表3,当,当u=0.53,概率值为,概率值为0.59,即获得这种即获得这种|0.018的概率的概率(两尾概率两尾概率)为为0.59,这就说明样本估计的受害率为,这就说明样本估计的受害率为37.0有代表性有代表性(可以可以近似代表总体的受害率近似代表总体的受害率)。