《(概率论与数理统计-茆诗松)-第5章-统计量及其分布-PPT.ppt》由会员分享,可在线阅读,更多相关《(概率论与数理统计-茆诗松)-第5章-统计量及其分布-PPT.ppt(42页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、l样本均值l样本方差l样本标准差l样本偏度5.3 统计量及其分布l样本峰度l次序统计量l样本分位数l样本中位数5.3.1 统计量与抽样分布当人们需要从样本获得对总体各种参数的认识时,最好的方法是构造样本的函数,不同的函数反映总体的不同特征。定义5.3.1 设设 x1,x2,xn 为取自某总体的样为取自某总体的样 本,若样本函数本,若样本函数T=T(x1,x2,xn)中不含有中不含有 任何未知参数。则称任何未知参数。则称T为统计量。为统计量。统计量的分布称为抽样分布。统计量的分布称为抽样分布。按照这一定义:若 x1,x2,xn 为样本,则 以及经验分布函数F Fn n(x x)都是统计量是统计量
2、。而当,2 未知时,x1,x1/等均不是统计量不是统计量。l统计量是样本的一个函数l统计量是统计推断的基础l 尽管统计量不依赖于未知参数,但是它的分布一般是依赖于未知参数的。5.3.2 样本均值及其抽样分布 定义5.3.2 设 x1,x2,xn为取自某总体的样本,其算术平均值称为样本均值,一般用 表示,即思考:在分组样本场合,样本均值如何计算?二者结果相同吗?x x=(x1+xn)/n定理5.3.2 数据观测值与均值的偏差平方和 最小,即在形如 (xic)2 的函数中,样本均值的基本性质:定理5.3.1 若把样本中的数据与样本均值之差 称为偏差,则样本所有偏差之和为0,即 最小,其中c为任意给
3、定常数。样本均值的抽样分布:定理5.3.3 设x1,x2,xn 是来自某个总体的样本,x为样本均值。(1)若总体分布为N(,2),则xx的精确分布为N(,2/n);若总体分布未知或不是正态分布,但 E(x)=,Var(x)=2,则n 较大时 的渐近分 布为N(,2/n)。这里渐近分布是指n 较大时的近似分布.中心极限定理(central limit theorem)x x 的的的的分分分分布布布布趋趋趋趋于于于于正正正正态态态态分分分分布布布布的的的的过过过过程程程程在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布一种理论概率分布推断总体均值的理论基础样本均值的抽样分布大
4、家有疑问的,可以询问和交流大家有疑问的,可以询问和交流可以互相讨论下,但要小声点可以互相讨论下,但要小声点可以互相讨论下,但要小声点可以互相讨论下,但要小声点5.3.3 样本方差与样本标准差称为样本标准准差。s*=s*2定义5.3.3称为样本方差,其算术平方根在n 不大时,常用 作为样本方差,其算术平方根也称为样本标准差。xi与样本均值的平均偏差平方和与样本均值的平均偏差平方和在这个定义中,(xi x)2n1称为偏差平方和的自由度。其含义是:x在 确定后,n 个偏差x1x,x2x,xnx能自由取值,因为只有n1个数据可以自由变动,而第n个则不 (xi x)=0.称为偏差平方和,中样本偏差平方和
5、有三个不同的表达式:(xix)2=xi2 (xi)2/n=xi2 nx它们都可用来计算样本方差。思考:分组样本如何计算样本方差?样本均值的数学期望和方差,以及样本方差的数学期望都不依赖于总体的分布形式。定理5.3.4 设总体 X 具有二阶矩,即 E(x)=,Var(x)=2 ,x1,x2,xn 为从该总体得到的样本,x和s2 分别是样本均值和样本方差,则E(x)=,Var(x)=2/n,E(s2)=2 习题5.3Q8Q3Q75.3 统计量及其分布(续)l样本矩l次序统计量l样本分位数l箱线图5.3.4 样本矩及其函数 样本均值和样本方差的更一般的推广是样本矩,这是一类常见的统计量。定义5.3.
6、4 ak=(xik)/n 称为样本 k 阶原点矩,特别,样本一阶原点矩就是样本均值。称为样本k阶中心矩矩。特别,样本二阶中心矩就是样本方差。bk=(xi x)k/n当总体关于分布中心对称时,我们用当总体关于分布中心对称时,我们用x和和 s刻画样本特征很有代表性,而当其不对称时,刻画样本特征很有代表性,而当其不对称时,只用只用 就显得很不够。为此,需要一些刻画就显得很不够。为此,需要一些刻画分布形状的统计量,如样本偏度和样本峰度,它分布形状的统计量,如样本偏度和样本峰度,它们都是样本中心矩的函数。们都是样本中心矩的函数。样本偏度1反映了总体分布密度曲线的对称性信息。样本峰度2反映了总体分布密度曲
7、线在其峰值附近的陡峭程度。定义:1=b3/b23/2 称为样本偏度,2=b4/b22 称为样本峰度。x和和 s偏态与峰态分布的形状扁平分布扁平分布扁平分布扁平分布尖峰分布尖峰分布尖峰分布尖峰分布偏态偏态偏态偏态峰态峰态峰态峰态左偏分布左偏分布左偏分布左偏分布右偏分布右偏分布右偏分布右偏分布与标准正态与标准正态与标准正态与标准正态分布比较!分布比较!分布比较!分布比较!偏度 峰度数据分布偏斜程度的测度偏态系数=0=0为对称分布偏态系数 0 0为右偏分布偏态系数 0 0为左偏分布偏态系数大于1或小于-1,被称为高度偏态分布;偏态系数在0.51或 -1-0.5之间,被认为是中等偏态分布;偏态系数越接
8、近0,偏斜程度就越低 数据分布扁平程度的测度峰态系数=0=0扁平峰度适中峰态系数000为尖峰分布5.3.5 次序统计量及其分布 一、定义定义5.3.7 设设 x1,x2,xn 是取自总体是取自总体X的样本的样本,x(i)称为该样本的第称为该样本的第i 个次序统计量,它的取值个次序统计量,它的取值 是将样本观测值由小是将样本观测值由小到大排列后得到的第到大排列后得到的第 i 个个 观测值。观测值。其中,其中,x(1)=min x1,x2,xn 称为该样本的最小次序统计量,称为该样本的最小次序统计量,称称 x(n)=max x1,x2,xn 为该样本的最大次序统计量。为该样本的最大次序统计量。例例
9、5.3.65.3.6 设总体设总体X X 的分布为仅取的分布为仅取0 0,1 1,2 2的的离散离散 均匀分布,分布列为均匀分布,分布列为0 0 1 1 2 2 1/31/3 1/3 1/31/3 1/3在一个样本中,在一个样本中,x1,x2,xn 是独立同分布的,而是独立同分布的,而次序统计次序统计量量 x(1),x(2),x(n)则既不独立,分布也则既不独立,分布也不相同,看下例。不相同,看下例。现从中抽取容量为现从中抽取容量为现从中抽取容量为现从中抽取容量为3 3的样本,其一切可能取值有的样本,其一切可能取值有的样本,其一切可能取值有的样本,其一切可能取值有3 33 3=27=27种,种
10、,种,种,(表表表表5.3.6)5.3.6)0 0 1 1 2 2 1/31/3 1/3 1/31/3 1/3P(x(1)=0)=?0 1 2 0 1 2可以清楚地看到这三个次序统计量的分布是不相同的。三个次序统计量的分布是不相同的。可给出的可给出的 x x(1)(1),x x(2)(2),x x(3)(3)分布列如下:分布列如下:0 1 2进一步,我们可以给出两个次序统计量的联合分布,如,x(1)和x(2)的联合分布列为01207/279/273/27104/273/272001/27x(1)x(2)因为 P(x(1)=0,x(2)=0)=7/27 ,二者不等,由此可看出x(1)和和 x(2
11、)是不独立的是不独立的。而 P(x(1)=0)*P(x(2)=0)=(19/27)*(7/27),二、单个次序统计量的分布定理5.3.5 设总体X的密度函数为p(x),分布 函数为F(x),x1,x2,xn为样本,则第k个 次序统计量x(k)的密度函数为例例5.3.7 设总体密度函数为设总体密度函数为 p(x)=3x2,0 x 1.从该总体抽得一个容量为从该总体抽得一个容量为5的样本,的样本,试计算试计算 P(x(2)1/2)。例例5.3.8 设总体分布为设总体分布为U(0,1),x1,x2,xn为样为样 本,试求第本,试求第 k 个次序统计量的分布。个次序统计量的分布。三、多个次序统计量的联
12、合分布对任意多个次序统计量可给出其联合分布,以两个为例说明:定理5.3.6 在定理5.3.5的记号下,次序统计 量(x(i),x(j),(i j)的联合分布密度函数为次序统计量的函数在实际中经常用到。次序统计量的函数在实际中经常用到。如如 样本极差样本极差 Rn=x(n)x(1)令令 R=x(n)x(1),由 R 0,可以推出0 x(1)=x(n)R 1 R,则例5.3.9 设总体分布为U(0,1),x1,x2,xn 为 样本,则(x(n),x(1)的联合密度函数为p1,n(y,z)=n(n1)(zy)n-2,0 y z 1这正是参数为(n1,2)的贝塔分布。5.3.6 样本分位数与样本中位数
13、样本中位数也是一个很常见的统计量,它也是次序统计量的函数,通常如下定义:更一般地,样本p分位数mp可如下定义:四分位数计算例:某数学补习小组11人年龄(岁)为:17,19,22,24,25,28,34,35,36,37,38(另一种方法)三个四分位数的位置分别为:Q1所在的位置=(11+1)/4=3,Q2所在的位置=2(11+1)/4=6,Q3所在的位置=3(11+1)/4=9。下四分位数、中位数和上四分位数,即:Q1=22(岁)、Q2=28(岁)、Q3=36(岁)定理5.3.7 设总体密度函数为p(x),xp为其p分 位数,p(x)在xp处连续且 p(xp)0,则特别,对样本中位数,当n时近
14、似地有当n 时样本 p 分位数 mp 的渐近分布为例5.3.10 设总体为柯西分布,密度函数为p(x,)=1/(1+(x)2),x x +不难看出不难看出不难看出不难看出 是该总体的中位数,即是该总体的中位数,即是该总体的中位数,即是该总体的中位数,即x0.5=。设设设设 x1,x2,xn 是来自该总体的样本,当样本量是来自该总体的样本,当样本量是来自该总体的样本,当样本量是来自该总体的样本,当样本量n n 较大时,样本中位数较大时,样本中位数较大时,样本中位数较大时,样本中位数m0.5 的渐近分布为的渐近分布为的渐近分布为的渐近分布为m0.5 AN(,2/4n).Q30l 通常,样本均值在概
15、括数据方面具有一定的优通常,样本均值在概括数据方面具有一定的优通常,样本均值在概括数据方面具有一定的优通常,样本均值在概括数据方面具有一定的优势。势。势。势。l 但当数据中含有极端值时,使用中位数比使用但当数据中含有极端值时,使用中位数比使用但当数据中含有极端值时,使用中位数比使用但当数据中含有极端值时,使用中位数比使用均值更好,中位数的这种抗干扰性在统计中称为均值更好,中位数的这种抗干扰性在统计中称为均值更好,中位数的这种抗干扰性在统计中称为均值更好,中位数的这种抗干扰性在统计中称为具有具有具有具有稳健性稳健性稳健性稳健性。5.3.7 五数概括与箱线图次序统计量的应用之一是五数概括与箱线图。
16、在得到有序样本后,容易计算如下五个值:最小观测值 xmin=x(1),最大观测值 xmax=x(n),中位数 m0.5,第一4分位数 Q1=m0.25,第三4分位数 Q3=m0.75.所谓五数概括就是指用这五个数:xmin,Q1,m0.5,Q3,xmax来大致描述一批数据的轮廓。单批数据箱线图(箱线图的构成)中位数中位数4 46 68 810101212QQU UUQQL LLX X最大值最大值最大值X X最小值最小值最小值Median/Quart./RangeMedian/Quart./Range箱线图箱线图箱线图箱线图单批数据箱线图(例题分析)最小值最小值最小值141141141最大值最大
17、值最大值237237237中位数中位数中位数182182182下四分位数下四分位数下四分位数170.25170.25170.25上四分位数上四分位数上四分位数197197197140 150 160 170 180 190 200 210 220 230 240140 150 160 170 180 190 200 210 220 230 240140 150 160 170 180 190 200 210 220 230 240某电脑公司销售量数据的某电脑公司销售量数据的某电脑公司销售量数据的某电脑公司销售量数据的Median/Quart./RangMedian/Quart./Rang箱线图
18、箱线图箱线图箱线图多批数据箱线图(例题分析)【例例例例】从从某某大大学学经经济济管管理理专专业业二二年年级级学学生生中中随随机机抽抽取取1111人人,对对 8 8门门 主主要要课课程程的的考考试试成成绩绩进进行行调调查查,所所得得结结果果如如表表。试试绘绘制制各各科科考考试试成成绩绩的的批批比比较较箱箱线线图图,并并分分析析各各科科考考试试成成绩绩的的分分布布特特征征多批数据箱线图(例题分析Median/Quart./Range)8 8门课程考试成绩的门课程考试成绩的门课程考试成绩的门课程考试成绩的Median/Quart./RangeMedian/Quart./Range箱线图箱线图箱线图箱线图1111名学生名学生名学生名学生8 8门课程考试成绩的门课程考试成绩的门课程考试成绩的门课程考试成绩的Median/Quart./RangeMedian/Quart./Range箱线图箱线图箱线图箱线图min-max25%-75%median value455565758595105学生1学生2学生3学生4学生5学生6学生7学生8学生9学生10学生11多批数据箱线图(例题分析Median/Quart./Range)作 业习题5.37、8、15、17、1830(2)(3)33(2)35