《《管理统计学》第四章.ppt》由会员分享,可在线阅读,更多相关《《管理统计学》第四章.ppt(38页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第第4 4章章 抽样与参数估计抽样与参数估计 一、样本平均数的抽样分布一、样本平均数的抽样分布 身份 X 母亲 父亲 女儿 儿子 1 1 3 5(1)总体分布(2)样本分布 样本 样本均值 母亲,父亲 母亲,女儿 母亲,儿子 父亲,女儿 父亲,儿子 女儿,儿子 1 2 3 2 3 4样本样本均值的概率分布分布是:样本均值的均值是:1+2+3+2+3+46 X 概率分布 1 2 3 4 1/6 2/6 2/6 1/6(1)如果原来的总体呈正态分布,则无论样本容量为多大,样本均值的抽样分布都呈正态分布。(2)如果原来的总体不呈正态分布,且样本容量不小于30,则样本均值的抽样分布近似于正态分布。例如
2、例如,表示表示“生产线上生产出来的零件的直径生产线上生产出来的零件的直径”的随机变量的随机变量X,通常服从通常服从正态分布正态分布。比率比率(频率频率)分布分布均匀分布均匀分布总体分布的总体分布的特例特例(1)(1)当一个总体的变量的取值都相同时当一个总体的变量的取值都相同时,该随机该随机变量就服从变量就服从均匀分布均匀分布。(2)(2)对于对于有限总体有限总体而言而言,相同个体重复的比率相同个体重复的比率,就就是个体出现的概率。因此有限总体的不同个体的是个体出现的概率。因此有限总体的不同个体的比率分布比率分布(频率分布频率分布),),就是有限总体的就是有限总体的概率分布概率分布。例如例如,一
3、个总体包括一个总体包括:红色球红色球4 4枚、蓝色球枚、蓝色球5 5枚、枚、黄色球黄色球7 7枚枚,共共1616枚。红色球出现的比率是枚。红色球出现的比率是 ,蓝蓝色球是色球是 ,黄色球是黄色球是 。这也是表示颜色的随机。这也是表示颜色的随机变量变量X的概率分布。的概率分布。不重复抽样不重复抽样 大致判断出总体分布的类型后,用大致判断出总体分布的类型后,用样本参数样本参数推断总体分布的相应参数。推断总体分布的相应参数。1.1.点估计点估计2.2.区间估计区间估计重复抽样重复抽样 不同样本算得的不同样本算得的 的估计值不同,因此的估计值不同,因此 还还希望根据所给的样本确定一个希望根据所给的样本
4、确定一个随机区间随机区间,使其使其包含参数真值的概率达到指定的要求。包含参数真值的概率达到指定的要求。均值均值方差方差方差未知方差未知方差已知方差已知区间估计的种类区间估计的种类区间区间估计估计均值均值均值均值差差重复重复抽样抽样不重复不重复抽样抽样方差方差已知已知方差方差未未知且知且相等相等方差方差未未知且知且任意任意方差未知方差未知方差已知方差已知一个总体一个总体两个总体两个总体方差方差方差方差比比 P(X za)P(X za/2)重复抽样重复抽样区间估计区间估计的理论基础的理论基础n若若 X 服从服从标准正态标准正态分布分布,那么那么:一个总体一个总体方差已知方差已知时时均值均值的置信区
5、间的置信区间 P(z/2 2)需要的定理需要的定理若随机变量若随机变量则有如下定理成立:则有如下定理成立:n因为因为 服从服从标准标准正态正态分布分布,所所以:以:P(z)单侧置信区间单侧置信区间双侧置信区间:双侧置信区间:均值的标准误差均值的标准误差(抽样平均误差抽样平均误差)即任何一个分布函数的标准差即任何一个分布函数的标准差,是原来分布函数标准差的是原来分布函数标准差的分之一分之一,或者说或者说分布的方差分布的方差,就是就是分布方差的分布方差的分之一。分之一。均值的标准误差又称为抽样平均误差或均值均值的标准误差又称为抽样平均误差或均值标准误、标准误。标准误、标准误。样本均值(样本均值(S
6、ample Mean)样本均值样本均值 又称样本平均数又称样本平均数仅适用于仅适用于刻度刻度级级的数据的数据。未分组数列未分组数列分组数列分组数列:组中值组中值:频次或次数频次或次数加权平均数加权平均数简单平均数简单平均数例题例题 设某厂生产的灯泡寿命设某厂生产的灯泡寿命X XN N(,1001002 2),),现随机抽取现随机抽取5 5只只,测量其寿命如下测量其寿命如下:14551455,15021502,13701370,16101610,14301430,则该厂灯泡的平均使用寿则该厂灯泡的平均使用寿命的估计值为多少?命的估计值为多少?某工业企业有职工某工业企业有职工1000010000人
7、,其中工人人,其中工人80008000人,干部人,干部20002000人,为了了解职工家庭生活状况,人,为了了解职工家庭生活状况,在工人和干部两个组均以在工人和干部两个组均以5%5%的比例抽选职工进行的比例抽选职工进行调查,结果如下表调查,结果如下表:按家庭按家庭人均月收入(元)人均月收入(元)职工人数(人)职工人数(人)工人工人干部干部200200以下以下200300200300300400300400400600400600600600以上以上20206060200200808040405 51313606017175 5合合 计计400400100100一个总体一个总体方差未知方差未知时
8、时均值均值的置信区间的置信区间需要的定理需要的定理若随机变量若随机变量则有如下定理成立:则有如下定理成立:P(t t(n-1)-1))P(t t/2(n-1)-1))方差和标准差方差和标准差样本方差样本方差 的计算公式如下的计算公式如下:样本标准差样本标准差(Standard Deviation)s的定义是的定义是:均值的标准误差均值的标准误差(抽样平均误差抽样平均误差)即任何一个分布函数的标准差即任何一个分布函数的标准差,是原来分布函数标准差的是原来分布函数标准差的分之一分之一,或者说或者说分布的方差分布的方差,就是就是分布方差的分布方差的分之一。分之一。均值的标准误差又称为抽样平均误差或均
9、值均值的标准误差又称为抽样平均误差或均值标准误、标准误。标准误、标准误。一个总体一个总体方差方差的区间估计的区间估计需要的定理需要的定理若随机变量若随机变量则有如下定理成立:则有如下定理成立:P((n-1)-1))2 两个总体两个总体均值均值的置信区间的置信区间已知总体方差已知总体方差,均值差的推算;均值差的推算;需要的定理需要的定理若随机变量若随机变量则:则:未知总体方差未知总体方差,但但 =,均值差推断,均值差推断需要的定理需要的定理若随机变量若随机变量则:则:未知总体方差未知总体方差,但但 ,均值差推断,均值差推断需要的定理需要的定理若随机变量若随机变量则:则:两个总体两个总体方差比方差
10、比的置信区间的置信区间(1,2 未知未知)需要的定理需要的定理若随机变量若随机变量则:则:因此因此,方差比方差比的置信区间为:的置信区间为:q 反映了估计的可靠度反映了估计的可靠度,越小越小,越可靠越可靠.q 置信区间的长度置信区间的长度 反映了估计精度反映了估计精度 越小越小,1-越大越大,估计的可靠度越高估计的可靠度越高,但但q 确定后确定后,置信区间置信区间 的选取方法不唯一的选取方法不唯一,常选最小的一个常选最小的一个.几点说明几点说明越小越小,估计精度越高估计精度越高.这时这时,往往增大往往增大,因而估计精度降低因而估计精度降低.当置信区间为当置信区间为区间的长度为区间的长度为 达到
11、最短q 选取置信区间时选取置信区间时,为何要取为何要取?取 =0.05例例2 2 某厂利用两条自动化流水线罐装番茄某厂利用两条自动化流水线罐装番茄酱。现分别从两条流水线上抽取了容量分酱。现分别从两条流水线上抽取了容量分别为别为1313与与1717的两个相互独立的样的两个相互独立的样本:本:与已知已知:假设两条流水线上罐装的番茄酱的重量都服从假设两条流水线上罐装的番茄酱的重量都服从正态分布正态分布,其均值分别为其均值分别为 1与与 2,则则(1)(1)若它们的方差相同若它们的方差相同,求均值差求均值差的置信度为的置信度为0.95 0.95 的置信区间的置信区间;(2)(2)求方差比的求方差比的0
12、.950.95的置信区间。的置信区间。SPSS在参数估计中的应用在参数估计中的应用点估计点估计AnalyzeDescriptive StatisticsFrequencies,进入频次分析模块进入频次分析模块FrequenciesAnalyzeDescriptive StatisticsDescriptives,进入描述统计模块进入描述统计模块Descriptives点估计点估计区间估计区间估计AnalyzeDescriptive StatisticsExploreSpread vs.Level with Levene Test:输出散布输出散布层次图,包括回归直线斜率及方差齐次性的层次图,包
13、括回归直线斜率及方差齐次性的Levene检验。若无分组变量,此选项无效检验。若无分组变量,此选项无效。Transformed:对原始数据进行转换,有对原始数据进行转换,有:三次三次方方(Cube)(Cube)、平方平方(Square)、平方根平方根(1/(1/Square root)取对数取对数(Logarithm)。Power estimation:转换幂值估计,表示对每一组转换幂值估计,表示对每一组数据产生一个中位数范围的自然对数与四分位数数据产生一个中位数范围的自然对数与四分位数范围的自然对数的散点图范围的自然对数的散点图;None:不生成散布不生成散布层次图层次图;Statistics
14、的界面解释的界面解释Descriptives:输出均值的输出均值的95%95%置信区间置信区间、中位数中位数、众数众数、均值标准差均值标准差、方差方差、标准差标准差、Min、Max、R、四分位距四分位距、峰度系数和斜度系数。峰度系数和斜度系数。M-estimators:做中心趋势的粗略最大似然确定,做中心趋势的粗略最大似然确定,输出输出4 4个不同权重的最大似然确定数。当数据分布个不同权重的最大似然确定数。当数据分布均匀且两尾巴较长或数据中存在极端值时,可以均匀且两尾巴较长或数据中存在极端值时,可以提供比较合理的估计提供比较合理的估计。Outliers:输出输出5 5个最大值和最小值个最大值和最小值。Percentiles:输出第输出第5%、10%、25%、50%、75%、90%和和95%百分位数百分位数。第四节第四节 样本容量的确定样本容量的确定n一个总体情形的样本容量确定n两个总体情形的样本容量确定 例1 某市居民人均月消费支出的标准差为2000元,假定想估计人均月消费支出9%的置信区间,希望允许的误差为100元,应抽取多大的样本容量?例2 欲在置信水平95%下对某两个城市旅游人均消费额之差进行估计,根据以往的资料知道,两城市人均消费额的标准差分别为400元和350元,如果允许的误差为50元,应抽取的两个样本的容量应是多少?