《1.1.总体与样本.ppt》由会员分享,可在线阅读,更多相关《1.1.总体与样本.ppt(67页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、本章转入课程的第二部分本章转入课程的第二部分数理统计数理统计数理统计的特点是应用面广,分支数理统计的特点是应用面广,分支较多较多.如生物统计、金融统计和医学统如生物统计、金融统计和医学统计等计等.由于学时有限,课程的这部分内容由于学时有限,课程的这部分内容重点在于介绍数理统计的一些重要概念重点在于介绍数理统计的一些重要概念和典型的统计方法,它们是实际中最常和典型的统计方法,它们是实际中最常用的知识用的知识.数理统计学是一门应用性很强的学数理统计学是一门应用性很强的学科科.它是研究怎样以它是研究怎样以有效的方式有效的方式收集、收集、整理和分析整理和分析带有随机性的数据带有随机性的数据,以便对,以
2、便对所考察的问题作出推断和预测,直至为所考察的问题作出推断和预测,直至为采取一定的决策和行动提供依据和建议采取一定的决策和行动提供依据和建议.数理统计不同于一般的资料统计,它数理统计不同于一般的资料统计,它更侧重于更侧重于应用随机现象本身的规律性进行应用随机现象本身的规律性进行资料的收集、整理和分析资料的收集、整理和分析.由于大量随机现象必然呈现出它的规由于大量随机现象必然呈现出它的规律性,因而从理论上讲,只要对随机现象律性,因而从理论上讲,只要对随机现象进行足够多次观察,被研究的随机现象的进行足够多次观察,被研究的随机现象的规律性一定能清楚地呈现出来规律性一定能清楚地呈现出来.只允许我们对随
3、机现象进行次数不多的观只允许我们对随机现象进行次数不多的观察试验,也就是说察试验,也就是说,我们获得的只是局部我们获得的只是局部观察资料观察资料.但客观上但客观上数理统计的任务就是研究怎样有效数理统计的任务就是研究怎样有效地收集、整理、分析所获得的地收集、整理、分析所获得的有限有限的资的资料,对所研究的问题料,对所研究的问题,尽可能地作出精尽可能地作出精确而可靠的结论确而可靠的结论.在数理统计中,不是对所研究的对象在数理统计中,不是对所研究的对象全体全体(称为称为总体总体)进行观察,而是抽取其中进行观察,而是抽取其中的部分的部分(称为称为样本样本)进行观察获得数据(进行观察获得数据(抽抽样样)
4、,并通过这些数据对总体进行推断),并通过这些数据对总体进行推断.因为抽样的结果带有随机性,不能不因为抽样的结果带有随机性,不能不把它当作随机现象来处理把它当作随机现象来处理.可见,在数理可见,在数理统计中必然要用到概率论的理论和方法统计中必然要用到概率论的理论和方法.下面我们以一例进行说明:下面我们以一例进行说明:1.1.总体和样本总体和样本一、总体和样本一、总体和样本例例 某钢铁厂某天生产某钢铁厂某天生产10000根钢筋,规根钢筋,规定强度小于定强度小于52kg/mm2的算作次品,如的算作次品,如何来求这批钢筋的次品率?是否需要测何来求这批钢筋的次品率?是否需要测量每根钢筋的强度呢?量每根钢
5、筋的强度呢?一般来说是不需要的一般来说是不需要的.只要从这只要从这10000根钢筋中抽取一部分,比如根钢筋中抽取一部分,比如100根,测量根,测量这这100根钢筋的强度的,就可以推断出整根钢筋的强度的,就可以推断出整批钢筋的次品率了,这就是批钢筋的次品率了,这就是抽样检验抽样检验.事实上,全面检验是有困难的事实上,全面检验是有困难的(1)有些检验是有破坏性的,如使用寿命有些检验是有破坏性的,如使用寿命;(2)产品数量大,或检验成本太高,人力、物力、产品数量大,或检验成本太高,人力、物力、时间不允许等时间不允许等例如:有一批棉花,需要检查纤维的长度,我们例如:有一批棉花,需要检查纤维的长度,我们
6、当然不可能去测量每一根棉花纤维的长度。当然不可能去测量每一根棉花纤维的长度。数理统计提供了一整套方法,保证可以通数理统计提供了一整套方法,保证可以通抽样检验做出可靠的科学结论。抽样检验做出可靠的科学结论。直观地说,直观地说,被观察对象的全体称作被观察对象的全体称作总体总体;总体;总体的每一基本单元称作的每一基本单元称作个体或样品个体或样品;从总;从总体中抽出的一部分个体组成体中抽出的一部分个体组成一个样本一个样本,样本中所含个体的个数称作样本的样本中所含个体的个数称作样本的容量容量或大小。或大小。如前例所说,如前例所说,10000根钢筋的强度是根钢筋的强度是总体,每一根钢筋的强度是一个个体,总
7、体,每一根钢筋的强度是一个个体,抽查的抽查的100根钢筋的强度是一个样本,它根钢筋的强度是一个样本,它的容量是的容量是100。更确切的说,对这批钢筋,我们关心的更确切的说,对这批钢筋,我们关心的是它的强度的分布,如强度低于是它的强度的分布,如强度低于52kg/mm2的比例是多少的比例是多少.设设 X表示表示“任一根钢筋的强度任一根钢筋的强度”,X是是一个随机变量一个随机变量.它的概率分布就反映了这批它的概率分布就反映了这批钢筋的强度的分布,钢筋的强度的分布,即把总体看做一个随机即把总体看做一个随机变量。变量。从总体中抽取一个个体就是做一次随从总体中抽取一个个体就是做一次随机试验,而机试验,而“
8、任取任取n根钢筋,测其强度根钢筋,测其强度”就是就是做做n次随机试验,次随机试验,得到容量为得到容量为n的样的样本本.因为抽取是随机的,故可以样本看做因为抽取是随机的,故可以样本看做n个随机变量个随机变量。当试验是重复独立试验时,当试验是重复独立试验时,与总体与总体有相同的分布,这样的样本有相同的分布,这样的样本称称作简单随机样本。作简单随机样本。定义定义设设是一个随机变量是一个随机变量,是一组是一组相互独立与相互独立与具有相同分布的随机变量具有相同分布的随机变量.称称为为总体总体,为来自总体为来自总体的的简简单随机样本单随机样本,简称简称样本样本.为样本为样本容量容量.在一次试验中在一次试验
9、中,样本的观察值样本的观察值称作称作样本值样本值.由定义由定义,若总体若总体是离散型随机变量,其分是离散型随机变量,其分布律为布律为则样本则样本的联合分布为的联合分布为若若是连续型随机变量,其分布密度为是连续型随机变量,其分布密度为则样本则样本的联合分布密度是的联合分布密度是 二、频率分布表与直方图二、频率分布表与直方图一、频率分布表 设总体 是离散型随机变量,是一组样本值,取到的值为 ,并且取到 的个数分别为 ,则样本容量 ,我们称 为 出现的频数,而 出现的频率为 显然,根据样本值把诸 的频数和频率列成表格,称作频数分布表和频率分布表.例1 对100块焊接完的电路板进行检查,每块板上焊点不
10、光滑的个数的频数分布表和频率分布表如下图所示 (不光滑点的个数)1 2 3 4 5 6 7 8 9 10 11 12合计 (频数)4 4 5 10 9 15 15 14 9 7 5 3100 (=/100)1从上表可大体知道这批电路板的不光滑情况,可近似地从上表可大体知道这批电路板的不光滑情况,可近似地作为作为“每块板上不光滑点个数每块板上不光滑点个数”X的分布律的分布律.二、直方图 当总体是连续型随机变量时,可采用直方图当总体是连续型随机变量时,可采用直方图来处理数据来处理数据(样本值样本值).设设为给定的一为给定的一组样本值,处理步骤如下:组样本值,处理步骤如下:1)简化数据,令)简化数据
11、,令由于数据总在某个某个数值由于数据总在某个某个数值上下波动,可以选上下波动,可以选取适当的常数取适当的常数,把样本值化为位数较少的整数,把样本值化为位数较少的整数,为方面起见,化简后的数值为方面起见,化简后的数值仍记为仍记为.2)求求中的最大最小值中的最大最小值.记记3)分组分组.a)确定组数和组距确定组数和组距.选定组数选定组数,取组距,取组距一般情况下,一般情况下,应取数据的最小单位的整数倍应取数据的最小单位的整数倍.b)确定各组的上下界确定各组的上下界.取第一组的下界取第一组的下界应略小于应略小于,使得,使得落入第落入第一组内,即一组内,即然后令然后令为了使每个数据都落入组内,应使分点
12、为了使每个数据都落入组内,应使分点比样本比样本值多一位小数值多一位小数.4)计算频率,记计算频率,记为落入第为落入第个区间的频数,则频个区间的频数,则频率为率为5)画直方图画直方图.以以为底,为底,为高画小长方形为高画小长方形.显然,所有小长方形面积之和等于显然,所有小长方形面积之和等于1:样本直方图与密度函数样本直方图与密度函数的关系?的关系?根据大数定律,根据大数定律,近似等于随机变量近似等于随机变量落入区间落入区间内内的概率,即的概率,即设设的密度函数为的密度函数为,则,则如果如果在区间在区间内连续内连续 下面举例说明画直方图的全过程及注意事项下面举例说明画直方图的全过程及注意事项例例2
13、某食品厂为加强质量管理,在某天生产的一大某食品厂为加强质量管理,在某天生产的一大批罐头中抽查了批罐头中抽查了100个,测得内装食品的净重数据个,测得内装食品的净重数据如下(单位:如下(单位:g):):342341348 346343342346341344348346346341 344342344345340344344343344342 343345339350337345342349336348 344345332342341350343347340344 353341340353346345346341339342 352342350348344350335340338345 3453
14、49336342338343343341347341 347344339347358343347346344345 350341338343339343346342339343 350341346341345344342解解1)简化数据简化数据.取取c=340,d=1.令令.简化后的数据如下图简化后的数据如下图21863261486614245044342235-110-3 59-4845-82110 3704131036561-12122108410-50-2559-42-23317174-171837645101-23-1362-13101615422)求最大值和最小值求最大值和最小值.由
15、上表知,最小值为由上表知,最小值为-8,最大值为,最大值为18.3)分组分组a)确定组数和组距确定组数和组距.考虑到样本容量考虑到样本容量n=100,取组数取组数m=10.由于由于(18+8)/10=2.6,取组距取组距.b)确定各组的上、下界确定各组的上、下界.取取,依次得依次得-5.5,-2.5,0.5,3.5,6.5,9.5,12.5,15.5,18.5.4)计算频率计算频率5)画直方图画直方图.注意注意.序号k 组 频数频率1(-8.5,-5.510.012(-5.5,-2.540.043(-2.5,0.5120.124(0.5,3.5320.325(3.5,6.5300.306(6.
16、5,9.5120.127(9.5,12.570.078(12.5,15.510.019(15.5,18.510.01三、经验分布函数 对给定的一组样本值,将它们按从小到大的顺对给定的一组样本值,将它们按从小到大的顺序排列:序排列:对任意实数对任意实数,定义,定义称称为为经验分布函数经验分布函数.例如例如,给定样本值,给定样本值5,3,7,5,4.将它们从小到大将它们从小到大重新排列重新排列:3,4,5,5,7.经验分布函数为经验分布函数为根据经验分布函数的定义,根据经验分布函数的定义,等于样本值落入区间等于样本值落入区间的频率的频率,记记,的概率的概率.把样本值把样本值看做看做次独立重复试验的
17、结果次独立重复试验的结果,在这在这次试验中事件次试验中事件发生的频率为发生的频率为.根据贝努根据贝努利大数定律利大数定律,对任意的对任意的,有有事实上,可以证明下述更强的结论:事实上,可以证明下述更强的结论:定理定理(格列汶科格列汶科)设总体设总体的分布函数为的分布函数为,当当,经验分布函数,经验分布函数以概率以概率1关于关于一致一致地收敛于地收敛于,即即注:上述定理表明,当样本容量注:上述定理表明,当样本容量充分大时充分大时,样本取值的分布相当准确的反映总体的分布样本取值的分布相当准确的反映总体的分布.总体(理论分布)总体(理论分布)?样本样本样本值样本值统计是从手中已有的资料统计是从手中已
18、有的资料-样本值,去推断样本值,去推断总体的情况总体的情况-总体分布总体分布F(x)的性质的性质.总体分布决定了样本取值的概率规律,也就是总体分布决定了样本取值的概率规律,也就是样本取到样本值的规律,因而可以由样本值去推断样本取到样本值的规律,因而可以由样本值去推断总体总体.样本是联系二者的桥梁样本是联系二者的桥梁由由样样本本值值去去推推断断总总体体情情况况,需需要要对对样样本本值值进进行行“加加工工”,这这就就要要构构造造一一些些样样本本的的函函数数,它它把把样样本中所含的(某一方面)的信息集中起来本中所含的(某一方面)的信息集中起来.四、统计量和抽样分布四、统计量和抽样分布1.统计量统计量
19、这种这种不含任何未知参数的样本的函数称为统计不含任何未知参数的样本的函数称为统计量量.它是完全由样本决定的量它是完全由样本决定的量.几个常见统计量几个常见统计量样本均值样本均值样本方差样本方差它反映了总体均值它反映了总体均值的信息的信息它反映了总体方差它反映了总体方差的信息的信息样本样本k阶原点矩阶原点矩样本样本k阶中心矩阶中心矩k=1,2,它反映了总体它反映了总体k 阶矩阶矩的信息的信息它反映了总体它反映了总体k 阶阶中心矩的信息中心矩的信息2.顺序统计量顺序统计量定义定义:设设为取自总体为取自总体X的样本,的样本,将其按大小顺序排序将其按大小顺序排序则称则称X(k)为第为第k个次序统计量个
20、次序统计量(No.kOrderStatistic)特别地,称特别地,称为最小顺序统计量为最小顺序统计量(MinimumorderStatistic)称称为最大顺序统计量为最大顺序统计量(MaximumorderStatistic)。称称 为偶数为偶数 为奇数为奇数为样本中位数为样本中位数.称称为样本极差,反映了样本的离散为样本极差,反映了样本的离散程度,也反映了总体的离散程度程度,也反映了总体的离散程度.3.单个次序统计量的分布单个次序统计量的分布定理:设总体定理:设总体X的密度函数为的密度函数为p(x),分布函数分布函数为为F(x),为样本,则第为样本,则第k个次序统计量个次序统计量 的密度
21、函数为的密度函数为推论推论1:最大次序统计量:最大次序统计量的概率密度函数为的概率密度函数为推论推论2:最小次序统计量:最小次序统计量的概率密度函数为的概率密度函数为xx+xn-kk-11图图58x(k)的取值示意图的取值示意图样本的每一分量小于等于样本的每一分量小于等于x 的概率为的概率为F(x),落入落入区间区间(x,x+x概率为概率为F(x+x)-F(x),落入区间落入区间(x+x,b的概率为的概率为1-F(x+x),而将而将n个分量分成个分量分成这样的三组,总的分法有这样的三组,总的分法有种,于是,若以种,于是,若以Fk(x)记记 的分布函数,则由多的分布函数,则由多项分布可得项分布可
22、得两边同除以两边同除以 x,并令并令 x0,即有即有5.抽样分布抽样分布统计量既然是依赖于样本的,而统计量既然是依赖于样本的,而后者又是随机变量,故统计量也是随后者又是随机变量,故统计量也是随机变量,因而就有一定的分布,这个机变量,因而就有一定的分布,这个分布叫做分布叫做统计量的统计量的“抽样分布抽样分布”.抽样分布就是通常的随机变量函数的分布抽样分布就是通常的随机变量函数的分布.只是强调这一分布是由一个统计量所产生的只是强调这一分布是由一个统计量所产生的.研研究统计量的性质和评价一个统计推断的优良性,究统计量的性质和评价一个统计推断的优良性,完全取决于其抽样分布的性质完全取决于其抽样分布的性
23、质.抽样分布抽样分布精确抽样分布精确抽样分布渐近分布渐近分布(小样本问题中使用)(小样本问题中使用)(大样本问题中使用(大样本问题中使用)三三.统计三大分布统计三大分布记为记为分布分布1、定义定义:设设相互独立相互独立,都服从正态都服从正态分布分布N(0,1),则称随机变量:则称随机变量:所服从的分布为自由度为所服从的分布为自由度为 n的的 分布分布.分布是由正态分布派生出来的一种分布分布是由正态分布派生出来的一种分布.分布的密度函数为分布的密度函数为来定义来定义.其中伽玛函数其中伽玛函数通过积分通过积分由由分布的定义,不难得到:分布的定义,不难得到:1.设设相互独立相互独立,都服从正态分布都
24、服从正态分布则则2.设设且且X1,X2相互相互独立,则独立,则这个性质叫这个性质叫分布的可加性分布的可加性.应用中心极限定理可得,若应用中心极限定理可得,若,则当则当n充分大时,充分大时,若若的分布近似正态分布的分布近似正态分布N(0,1).则则可以求得,可以求得,E(X)=n,D(X)=2n若若T的密度函数为:的密度函数为:记为记为Tt(n).定定义义:设设XN(0,1),Y,且且X与与Y相相互独立,则称变量互独立,则称变量所服从的分布为自由度为所服从的分布为自由度为n的的t 分布分布.2、t 分布分布具有自由度为具有自由度为n的的t分布的随机变量分布的随机变量T的数的数学期望和方差为学期望
25、和方差为:E(T)=0;D(T)=n/(n-2),对对n2当当n充分大时,其图形类似于标准正态分充分大时,其图形类似于标准正态分布密度函数的图形布密度函数的图形.t分布的密度函数关于分布的密度函数关于x=0对称,且对称,且由由定义可见,定义可见,3、F分布分布定义定义:设设X与与Y相互相互独立,则称统计量独立,则称统计量服从自由度为服从自由度为n1及及n2的的F分布,分布,n1称为第称为第一自由度,一自由度,n2称为第二自由度,记作称为第二自由度,记作FF(n1,n2).F(n2,n1)即它的数学期望并不依赖于第一自由度即它的数学期望并不依赖于第一自由度n1.X的数学期望为的数学期望为:若若n
26、22若若XF(n1,n2),X的概率密度为的概率密度为分位数分位数(一)总体分位数(一)总体分位数定义定义1.5.4:设总体设总体X的分布函数为的分布函数为F(x),满足满足的的x称称为为X的上的上侧侧-分位数,如下分位数,如下图图所示。所示。位数都在书后附表中可以查到。图位数都在书后附表中可以查到。图5-9给出了四种给出了四种常用分布的常用分布的分位点表示方法,其中分位点表示方法,其中N(0,1)的的分位点通常记成分位点通常记成u.几种常用分布几种常用分布的分的分这里要注意到如下几个有用的事实。这里要注意到如下几个有用的事实。,要求的分位数,要求的分位数x,可化成求可化成求1)若若N(0,1
27、)的分位数的分位数.此时,此时,故故从而从而2)对于对于T t(n),由密度函数的对称性可知由密度函数的对称性可知即即3)对于)对于F分布分布由于由于所以所以即即(5-3-10)4)对)对分布分布,记它的记它的-上侧分位数上侧分位数则满足则满足附表只列到附表只列到n=45,n45时时分位数分位数(一)总体分位数(一)总体分位数定义定义1.5.4:设总体设总体X的分布函数为的分布函数为F(x),满足满足的的 称称为为X的的p-分位数,如下分位数,如下图图所示。所示。位数都在书后附表中可以查到。图位数都在书后附表中可以查到。图5-9给出了四种给出了四种常用分布的常用分布的p-分位点表示方法,其中分
28、位点表示方法,其中N(0,1)的的p分位点通常记成分位点通常记成uP.图图5-9几种常用分布几种常用分布的分的分(二)样本分位数(二)样本分位数定义定义:设:设为取自总体为取自总体X的的次序统计量,称次序统计量,称mp为样本为样本p分位数分位数。(。(SamplepQuantile)特别地,当特别地,当p=时,称时,称mp为为样本中位数样本中位数。当总体为当总体为正态分布正态分布时,教材上给出了时,教材上给出了几个重要的抽样分布定理几个重要的抽样分布定理.这里我们不加这里我们不加证明地叙述证明地叙述.除定理除定理2外,其它几个定理外,其它几个定理的证明都可以在教材上找到的证明都可以在教材上找到
29、.四、几个重要的抽样分布定理四、几个重要的抽样分布定理n元元正态分布的几条重要性质正态分布的几条重要性质定理定理.X=(X1,X2,Xn)服从服从n元正态分布元正态分布a1X1+a2X2+an Xn均服从正态分布均服从正态分布.对一切不全为对一切不全为0的实数的实数a1,a2,an,如果如果X1,X2,Xn 是来自总是来自总体体则则定理定理1(样本均值的分布样本均值的分布)设设X1,X2,Xn是取自正态总体是取自正态总体的样本,则有的样本,则有n取不同值时样本均值取不同值时样本均值的分布的分布定理定理2(样本方差的分布样本方差的分布)设设X1,X2,Xn是取自正态总体是取自正态总体的样本的样本
30、,分别为样本均值和样本方差分别为样本均值和样本方差,则有则有n取不同值时取不同值时的分布的分布定理定理3设设X1,X2,Xn是取自正态总体是取自正态总体的样本的样本,分别为样本均值和样本方差分别为样本均值和样本方差,则有则有定理定理4(两总体两总体样本样本均值差的分布均值差的分布)分别是这两个样本的分别是这两个样本的且且X与与Y独立独立,X1,X2,是取自是取自X的样本的样本,取自取自Y的样本的样本,分别是这两个样本的样本方差分别是这两个样本的样本方差,均值均值,则有则有Y1,Y2,是是样本样本定理定理5(两总体两总体样本样本方差比的分布方差比的分布)分别是这两个样本的分别是这两个样本的且且X与与Y独立独立,X1,X2,是取自是取自X的样本的样本,取自取自Y的样本的样本,分别是这两个样本的样本方差分别是这两个样本的样本方差,均值,均值,则有则有Y1,Y2,是是样本样本上述上述5个抽样分布定理很重要,个抽样分布定理很重要,要牢固掌握要牢固掌握.