《统计基本概念.pptx》由会员分享,可在线阅读,更多相关《统计基本概念.pptx(115页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、作出精确而可靠的结论作出精确而可靠的结论.数理统计可以分为数理统计可以分为两大类两大类:一类是如何合理地安排试验,一类是如何合理地安排试验,-描述统计学描述统计学如:试验设计、抽样方法。如:试验设计、抽样方法。另一类是研究如何分析所获得的随机数据,另一类是研究如何分析所获得的随机数据,对所研究对所研究的问题进行科学的、合理的估计和推断,的问题进行科学的、合理的估计和推断,尽可能地尽可能地为为采取一定的决策提供依据,采取一定的决策提供依据,-推断统计学推断统计学,如:参数估计、假设如:参数估计、假设 检验等。检验等。以获取有效的随机数据。以获取有效的随机数据。数理统计数理统计第1页/共115页1
2、00100个样品进行强度测试,于是面临下列几个问题:个样品进行强度测试,于是面临下列几个问题:例如例如某厂生产一型号的合金材料,某厂生产一型号的合金材料,用随机的方法选取用随机的方法选取1、估计这批合金材料的强度均值是多少、估计这批合金材料的强度均值是多少?(参数的点估计问题)参数的点估计问题)2、强度均值在什么范围内?、强度均值在什么范围内?(参数的区间估计问题)参数的区间估计问题)3、若规定强度均值不小于某个定值为合格,那么这、若规定强度均值不小于某个定值为合格,那么这批材料是否合格?批材料是否合格?(参数的假设检验问题)参数的假设检验问题)4、这批合金的强度是否服从正态分布?、这批合金的
3、强度是否服从正态分布?5、若这批材料是由两种不同工艺生产的,那么不同、若这批材料是由两种不同工艺生产的,那么不同的工艺对合金强度有否影响?的工艺对合金强度有否影响?若有影响,那一种工艺若有影响,那一种工艺生产的强度较好?生产的强度较好?(分布检验问题)分布检验问题)(方差分析问题)方差分析问题)第2页/共115页6、若这批合、若这批合金金由几种原料用不同的比例合成,那么由几种原料用不同的比例合成,那么如何表达这批合金的强度与原料比例之间的关系?如何表达这批合金的强度与原料比例之间的关系?(回归分析问题)回归分析问题)我们依次讨论参数的点估计、区间估计、假设检验、我们依次讨论参数的点估计、区间估
4、计、假设检验、方差分析、回归分析方差分析、回归分析下面引入一些数理统计中的术语。下面引入一些数理统计中的术语。第3页/共115页二、统计量二、统计量一、总体与样本一、总体与样本 抽样和抽样分布抽样和抽样分布三、几个常用的分布三、几个常用的分布四、正态总体统计量的分布四、正态总体统计量的分布第4页/共115页1.1.总体总体研究对象的某项数量指标值全体称为总体总体(母体母体)个体个体总体中每个成员(元素)研究某批灯泡的质量研究某批灯泡的质量总体总体考察国产考察国产 轿车的质量轿车的质量总体总体一一 总体和样本总体和样本第5页/共115页破坏性的试验更是不允许对整个总体进行考察破坏性的试验更是不允
5、许对整个总体进行考察.考察某工厂生产的灯泡寿命考察某工厂生产的灯泡寿命考察某型号手机的质量考察某型号手机的质量考察吸烟和患肺癌的关系考察吸烟和患肺癌的关系在实际问题中,在实际问题中,要考察整个总体往往是不可能的,要考察整个总体往往是不可能的,因为它需要耗费太多的资源和太多的时间因为它需要耗费太多的资源和太多的时间.有些有些2.2.样本样本第6页/共115页样本中所包含的个体数目称为样本容量样本中所包含的个体数目称为样本容量.从国产轿车中从国产轿车中抽抽5 5辆进行辆进行耗油量试验。耗油量试验。样本容量为样本容量为5 5。为了推断总体分布及各种特征,为了推断总体分布及各种特征,一个可行的办法一个
6、可行的办法是从该总体中按一定的规则抽取若干个个体进行观察是从该总体中按一定的规则抽取若干个个体进行观察和试验,和试验,以获得有关总体的信息以获得有关总体的信息.这一抽取过程称为这一抽取过程称为“抽样抽样”,所抽取的部分个体称为样本所抽取的部分个体称为样本.第7页/共115页方法方法.由于抽样的目的是为了对总体进行统计推断,由于抽样的目的是为了对总体进行统计推断,为了使抽取的样本能很好地反映总体,为了使抽取的样本能很好地反映总体,必须考虑抽样必须考虑抽样 统计中,采用的抽样方法是随机抽样法,统计中,采用的抽样方法是随机抽样法,即子样中每个个体是从母体中随意地取出来的。即子样中每个个体是从母体中随
7、意地取出来的。第8页/共115页(1 1)重复(返回)抽样重复(返回)抽样分量分量X Xk k与所考察的总体有相同的分布与所考察的总体有相同的分布.从总体中抽取个体检查后放回,从总体中抽取个体检查后放回,母体成分不变(分布不变)母体成分不变(分布不变)相互独立的随机变量相互独立的随机变量.第9页/共115页对无限母体而言做无返回抽取,并不改变母体的成分对无限母体而言做无返回抽取,并不改变母体的成分独立且同分布于母体独立且同分布于母体(2 2)非重复(无返回)抽样非重复(无返回)抽样取出样本后改变了母体的成分,所以取出样本后改变了母体的成分,所以 对有限母体,对有限母体,不相互独立,不相互独立,
8、第10页/共115页(2)(2)独立同分布性独立同分布性它要求抽取的样本满足下面两点它要求抽取的样本满足下面两点:(1)(1)代表性代表性(随机性):(随机性):最常用的一种抽样方法叫作最常用的一种抽样方法叫作“简单随机抽样简单随机抽样”。其中每一个分量其中每一个分量Xk k与所考察的总体有相同的分布与所考察的总体有相同的分布.每一个个体被抽到的可能性相同。每一个个体被抽到的可能性相同。从总体中抽取样本的每一个从总体中抽取样本的每一个分量分量Xk是随机的是随机的,是相互独立的随机变量是相互独立的随机变量.若不特别说明,就指简单随机样本若不特别说明,就指简单随机样本.简单随机样本是应用中最常见的
9、情形,简单随机样本是应用中最常见的情形,今后当说到今后当说到“X1,X2,Xn是取自某总体的样本是取自某总体的样本”时,时,第11页/共115页简单随机样本可以用与总体独立同分布的简单随机样本可以用与总体独立同分布的n个相互个相互独立的随机独立的随机变量变量若总体若总体X的分布函数为的分布函数为联合分布函数为联合分布函数为若总体若总体X X的分布密度函数为的分布密度函数为表示表示.则其简单随机样本的则其简单随机样本的则其简单随机样本的则其简单随机样本的联合密度函数为联合密度函数为离散总体离散总体则样本的分布列则样本的分布列第12页/共115页样本的联合概率密度为(2)总体X的概率密度为例1对下
10、列总体分别求出样本的联合分布第13页/共115页我们只能观察到随机变量取的值我们只能观察到随机变量取的值,而见不到随机变量而见不到随机变量.3.3.总体、样本、样本值的关总体、样本、样本值的关系系事实上我们抽样后得到的资料都是具体的、确定的值事实上我们抽样后得到的资料都是具体的、确定的值.它们是样本取到的值而不是样本它们是样本取到的值而不是样本.因而可以由样本值去推断总体因而可以由样本值去推断总体.总体分布决定了样本取值的概率规律,总体分布决定了样本取值的概率规律,也就是样本也就是样本取到样本值的规律,取到样本值的规律,去推断总体的情况去推断总体的情况-总体分布总体分布F(x)的性质的性质.样
11、本是联系二者的桥梁样本是联系二者的桥梁统计是从手中已有的资料统计是从手中已有的资料-样本值,样本值,第14页/共115页4.4.样本的分布样本的分布1 1)样本的频数分布)样本的频数分布将将n个样本值个样本值按从小到大排列,把相同按从小到大排列,把相同的数合并,并指出其频数(样本中各数出现的次数)的数合并,并指出其频数(样本中各数出现的次数)x频数频数频率频率第15页/共115页1 1)样本的经验分布函数)样本的经验分布函数样本值样本值 样本值小于或等于样本值小于或等于x x的个数,作的个数,作 样本的经验分布函数样本的经验分布函数给出了在给出了在n n次独立重复试验中,事件次独立重复试验中,
12、事件出现的频率,具有分布函数的一切性质。如:出现的频率,具有分布函数的一切性质。如:非降,右连续;非降,右连续;第16页/共115页由频数分布知由频数分布知第17页/共115页若样本为若样本为n维维r.vr.v,那么对于每一样本值,那么对于每一样本值就可作一个经验分布函数,故就可作一个经验分布函数,故是随机变量是随机变量-n次独立重复试验中,事件次独立重复试验中,事件发生的频率。发生的频率。由伯努利大数定律,由伯努利大数定律,第18页/共115页格列汶科进一步证明了:当格列汶科进一步证明了:当n时,时,Fn(x)以以概率概率1 1关于关于x一致收敛于一致收敛于F(x),即,即这就是著名的格列汶
13、科定理这就是著名的格列汶科定理.格列汶科定理的优缺点格列汶科定理的优缺点1 1、当样本容量、当样本容量n足够大时,对所有的足够大时,对所有的x,Fn(x)与与F(x)之差的绝对值都很小,且这件事发生的概之差的绝对值都很小,且这件事发生的概率为率为1.1.第19页/共115页2、Fn(x)是一统计量,则 也是一统计量,用来表示Fn(x)与F(x)的最大差异,且概率为1的收敛于零。3、定理没有给出 的分布或极限分布 这就是我们可以由样本推断总体的基本理论依据第20页/共115页定理:样本均值以概率收敛于EX,样本方差以概率收敛于总体方差DX,样本矩以概率收敛于总体矩第21页/共115页五、直方图五
14、、直方图(1)(1)离散情况离散情况(2)(2)连续情况连续情况其中其中 为未知。如何估计为未知。如何估计?ip 设设总总体体X为为连连续续型型随随机机变变量量,如如何何估估计计未未知的密度函数知的密度函数f(x)?第22页/共115页定义定义1 设设 是来自总体是来自总体X的一个样本,的一个样本,为一实值连续函数,为一实值连续函数,其不包含任何其不包含任何未知参数,则称未知参数,则称为一个为一个统计量统计量。为为的观测值。的观测值。注:注:是随机变量的函数仍为随机变量。是随机变量的函数仍为随机变量。便是一个数。便是一个数。注:统计量是随机变量。注:统计量是随机变量。二 统计量1.1.统计量统
15、计量第23页/共115页例1为来自总体的样本 未知,已知,判断下列函数哪些是统计量。第24页/共115页2.几个常见的统计量几个常见的统计量样本均值样本方差它反映了总体它反映了总体 均值的信息均值的信息是来自总体X的一个样本,它反映了总体它反映了总体 方差的信息方差的信息样本标准差第25页/共115页证证左边重要公式重要公式第26页/共115页样本k 阶原点矩样本k 阶中心矩它反映了总体它反映了总体k阶矩阶矩的信息的信息它反映了总体k 阶中心矩的信息第27页/共115页常见统计量的性质常见统计量的性质第28页/共115页第29页/共115页是来自总体例2设的一样本,总体的阶矩存在,证明(1)(
16、2)证证独立且与同分布独立且与同分布由辛钦大数定律,知第30页/共115页充分统计量与完备统计量充分统计量定义:设 是来自总体X具有分布函数 当给定 时,若样本 的条件分布与参数 无关,则称 是 的 充分统计量 第31页/共115页充分统计量含义 样本中包含关于总体分布中未知参 数的信息,是因为样本的联合分布与参 数有关。对统计量T,如果已经知道它的 值以后,样本的条件分布就与参数无关。即在统计量T中包含了参数的全部信息。第32页/共115页用定义证明T是充分统计量例1 设 总体 服从两点分布 ,即 是来自总体 的一个样本,证明样本均值 是参数 的充分统计量证明:由于第33页/共115页当已知
17、 时,样本 的条件概率 第34页/共115页第35页/共115页例2 设 是来自泊松分布 的一个样本,证明样本均值 是 的充分统计量证明:由泊松分布性质知 在给定 后,对 任意 有 样本 的条件概 率为:第36页/共115页第37页/共115页例3 设 是来自正态总体 的样本,证明 是充分统计量证明:由条件知 在给定 后,对 任意 有 ,样本 的条件概 率密度为:第38页/共115页第39页/共115页因子分解定理定理(费希尔奈曼准则)设 是来自总体X具有分布函数 则 为 的充分统计量的充要条件是:样本的联合分布密度函数可以分解为 第40页/共115页第41页/共115页用因子分解定理证明充分
18、统计量例1 设 总体 服从两点分布 ,即 是来自总体 的一个样本,证明样本均值 是参数 的充分统计量 证明:由于第42页/共115页第43页/共115页例2 设 是来自泊松分布 的一个样本,证明样本均值 是 的充分统计量证明:样本 的联合分布律为第44页/共115页例3 设 是来自正态总体 的样本,证明 是 的充分统计量证明:样本 的联合分布密度为:第45页/共115页第46页/共115页例4 设 是来自正态总体 的一个样本,证明 是 的充分统计量证明:样本 的联合分布密度为:第47页/共115页例5 设x1,x2,xn是取自总体U(0,)的样本,即总体的密度函数为p(x;)=1/,0,0 x
19、 0 ,0 ,其他于是样本的联合密度函数为第48页/共115页取T=x(n),并令 g(t;)=(1/)n nI I t t ,h(x)=1,由因子分解定理知T=x(n)是 的充分统计量。p(x1;)p(xn;)=0,其它 (1/)n n,0minximaxxi 由于诸xi 0 0,所以我们可将上式改写为p(x1;)p(xn;)=(1/)n nI I x(n)第49页/共115页定理:设 是单值可逆函数,则 也是 的充分统计量结论:结论:1 1 统计量用来推测参数的值统计量用来推测参数的值;2 2 充分统计量把可能丢失信息的统计量筛选充分统计量把可能丢失信息的统计量筛选;3 3 最优统计量在充
20、分统计量之中最优统计量在充分统计量之中;4 4 一个参数的充分统计量不唯一一个参数的充分统计量不唯一.问题:在什么情况下,它是唯一的?问题:在什么情况下,它是唯一的?第50页/共115页充分性原则:在统计学中有一个 基本原则-在充分统计量存在的场合,任何统计推断都可以基于充分统计量进行,这可以简化统计推断的程序。第51页/共115页完备统计量定义 设总体 的分布函数族为 若对任意一个满足 的随机变量 ,总有则称 为完备的分布函数族 若若一一统统计计量量T T 的的分分布布函函数数族族是是完完备的,则该统计量为完备统计量备的,则该统计量为完备统计量第52页/共115页性质第53页/共115页v例
21、 设 是来自总体 服从两点分布 的样本,样本均值 是参数 的充分统计量,验证 也是完备统计量 证明:由于第54页/共115页第55页/共115页 如果一个统计量既是充分统计量,又是完备统计量,则称为充分完备统计量。定理:设 来自总体 的一个样本,的充分完备统计量 如如果果无无偏偏估估计计存存在在,则则 是是唯唯一一的的最最优优无偏估计量无偏估计量第56页/共115页指数型分布族定义:设 是来自正态总体X 的一个样本,其分布密度为 ,如果样本的联合分布密度具有形式其中 只与参数 有关,只与样本有关,则称 为指数型分布族第57页/共115页定理:设总体 的分布密度 为指数型分布族,则是 参数 的充
22、分完备统计量例1 设 是来自泊松分布 的样本,则样本的联合分布律为第58页/共115页例2 设 是来自正态总体 的样本,它的联合分布密度为:是 的充分完备统计量 第59页/共115页统计量既然是依赖于样本的,而样本是随机变量,故统计量也是随机变量,因而就有一定的分布,这个分布叫做统计量的“抽样分布”.常用的有三三.抽样分布抽样分布分布,正态分布,t 分布,F 分布第60页/共115页(1)(1)标准正态分布标准正态分布X的上(045时,由时,由第67页/共115页记为Tt(n).服从自由度为n 的t 分布.(3)t 分布设XN(0,1),Y则称变量,且X与Y相互独立,当n 充分大时,其图形类似
23、于标准正态分布密度函数的图形。t 分布的密度函数关于x=0对称性质第68页/共115页(1)具有自由度为)具有自由度为n 的的t 分布的随机变量分布的随机变量T 的的当当n充分大时,其图形类似于标准正态分布密度充分大时,其图形类似于标准正态分布密度(2)t 分布的密度函数关于分布的密度函数关于x=0对称,且对称,且2.性质性质数学期望和方差为数学期望和方差为:E(T)=0;D(T)=n/(n-2),对对n2函数的图形函数的图形.很大很大.不难看到,当不难看到,当n充分大时,充分大时,t 分布近似分布近似N (0,1)分布分布.但对于较小的但对于较小的n,t分布与分布与N(0,1)分布相差分布相
24、差第69页/共115页3、t分布的分位点分布的分位点对于给定的正数对于给定的正数称满足条件称满足条件的点的点为为分位点分位点”。分布的分布的“上上例例查查t分布表,附表分布表,附表3第70页/共115页取取当当时时 分布上侧分布上侧分位点分位点 分布下侧分布下侧分位点分位点 分布双侧分布双侧分位点分位点t t的分布的双侧的分布的双侧分位点为满足分位点为满足第71页/共115页(4)(4)F 分布的F分布,n1称为第一自由度,设X与Y相互独立,则称统计量服从自由度为称为第二自由度,记作由定义可得性质第72页/共115页F F 分布的分位点对于给定的正数称满足条件为分布的的点上 分位点第73页/共
25、115页即它的数学期望并不依赖于第一自由度即它的数学期望并不依赖于第一自由度n1.(2)X的数学期望为的数学期望为:若若n22(1)由定义可见,由定义可见,F(n2,n1)2.性质性质第74页/共115页(3)F分布的分位点分布的分位点对于给定的正数对于给定的正数称满足条件称满足条件的点的点为为分位点分位点分布的上分布的上第75页/共115页F分布的性质分布的性质第76页/共115页表中所给的表中所给的都是很小的数,如都是很小的数,如0.01,0.05等等当当表中查不出,由性质(表中查不出,由性质(2)较大时,如较大时,如0.95,第77页/共115页例1设随机变量求的分布。解解 随机变量与独
26、立因而由于由定理3得由题可知第78页/共115页四四.正态总体抽样分布定理正态总体抽样分布定理的样本,则有 定理定理1(1(样本均值的分布样本均值的分布)设X1,X2,Xn 是来自正态总体第79页/共115页第80页/共115页定理定理2 (2 (样本方差的分样本方差的分布布)设X1,X2,Xn 是取自正态总体样本,分别为样本均值和样本方差.则有的和相互独立。第81页/共115页第82页/共115页第83页/共115页分别是这两个样本的均值,且X 与Y 独立,是取自X 的样本,样本,分别是这两个样本的样本方差,则有是取自Y的定理定理 3(3(两总体样本均值差的分两总体样本均值差的分布布)第84
27、页/共115页第85页/共115页第86页/共115页第87页/共115页例2一个样本,求设是来自正态总体的(1)(2)由定理2知解解 第88页/共115页例2一个样本,求设是来自正态总体的(1)(2)查表可得第89页/共115页思考与练习思考与练习是来自正态总体的样1.设本,则有(A);(B);(C);(D)第90页/共115页一些非正态总体样本均值得分布定理:设总体 的分布是任意的,但具有有限方差,为来自总体 的样本,则当 时样本均值 有即当 充分大时,近似服从正态分布第91页/共115页定理:设总体 的分布是任意的,其均值为 方差为 且四阶中心矩 有限,为 来自总体 的样本,则当 时,样
28、本方差 有即当 充分大时,近似服从正态分布第92页/共115页定理:设总体 的分布是任意的,其均值为 且具有有限方差,为来自总 体 的样本,则当 时有即当 充分大时,近似服从正态分布前面三个定理是研究大样本统计问题的理论依据第93页/共115页次序统计量及其分布次序统计量及其分布 一、次序统计量一、次序统计量。一、一、定义定义设设x1,x2,xn 是取自总体是取自总体X的样本的样本,x(i)称为该样本的第称为该样本的第i 个次序统计量,它的取值个次序统计量,它的取值 是将样本观测值由小是将样本观测值由小到大排列后得到的第到大排列后得到的第i 个个观测值。其中观测值。其中x(1)=min x1,
29、x2,xn 称为该样本称为该样本的最小次序统计量,称的最小次序统计量,称x(n)=max x1,x2,xn 为为该样本的最大次序统计量。该样本的最大次序统计量。第94页/共115页例例 设总体设总体X 的分布为仅取的分布为仅取0,1,2的的离散均匀分布,分布列为离散均匀分布,分布列为0 01 12 2 1/31/31/31/31/31/3在一个样本中,在一个样本中,x1,x2,xn 是独立同分布的,是独立同分布的,而次序统计而次序统计量量 x(1),x(2),x(n)则既不独立,分布也则既不独立,分布也不相同,看下例。不相同,看下例。现从中抽取容量为现从中抽取容量为现从中抽取容量为现从中抽取容
30、量为3 3的样本,其一切可能取值有的样本,其一切可能取值有的样本,其一切可能取值有的样本,其一切可能取值有3 33 3=27=27种,下表列出了这些值,由此种,下表列出了这些值,由此种,下表列出了这些值,由此种,下表列出了这些值,由此第95页/共115页一二三一二三一二三000100200001101201002102202010110210011111211012112212020120220021121221022122222第96页/共115页 0 1 2 0 1 2这三个次序统计量的分布是不相同的。可给出的可给出的 x x(1)(1),x x(2)(2),x x(3)(3)分布列如下:
31、分布列如下:0 1 2第97页/共115页进一步,我们可以给出两个次序统计量的联合分布,如,x(1)和x(2)的联合分布列为01207/279/273/27104/273/272001/27x(1)x(2)第98页/共115页因为 P(x(1)=0,x(2)=0)=7/27 ,二者不等,由此可看出x(1)和 x(2)是不独立的。而 P(x(1)=0)*P(x(2)=0)=(19/27)*(7/27),第99页/共115页定理1:次序统计量是充分统计量证明:第100页/共115页二、单个次序统计量的分布定理2 设总体X的密度函数为p(x),分布 函数为F(x),x1,x2,xn为样本,则第k个
32、次序统计量x(k)的密度函数为第101页/共115页第102页/共115页第103页/共115页三、多个次序统计量的联合分布对任意多个次序统计量可给出其联合分布,以两个为例说明:定理3 次序统计量(x(i),x(j),(i j)的联合分布密度函数为第104页/共115页第105页/共115页对n个次序统计量也可给出其联合分布,定理:设总体 的密度函数为 分布 函数为F(x),为样本,则次序统计量 的联合分布密度函数为第106页/共115页样本中位数和样本极差设 是来自总体 的样本,是次序统计量,则样本中位数定义为第107页/共115页第108页/共115页分布族定义 设随机变量 的密度函数为则称 服从 分布,记为其中 为参数第109页/共115页第110页/共115页伽玛分布性质第111页/共115页第112页/共115页分布族定义 设随机变量 的密度函数为则称 服从 分布,记为其中 为参数第113页/共115页性质第114页/共115页感谢您的观看!第115页/共115页