《(精品)统计学第7章.ppt》由会员分享,可在线阅读,更多相关《(精品)统计学第7章.ppt(71页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第7章 参数估计 7.1 参数估计的一般问题 7.2 一个总体参数的区间估计 7.3 两个总体参数的区间估计 7.4 样本量的确定统计推断的过程样样本本总体总体总体均值、比总体均值、比总体均值、比总体均值、比例、方差等例、方差等例、方差等例、方差等样本统计量样本统计量例如:样本均值、例如:样本均值、比例、方差比例、方差参数估计在统计方法中的地位7.1 参数估计的一般问题 7.1.1 估计量与估计值 7.1.2 点估计与区间估计 7.1.3 评价估计量的标准7.1.1 估计量与估计值 参数估计时,用于估计总体参数的统计量称为总体参数的估计量(estimator),而估计量的具体值则称为总体参数的
2、估计值(estimated value).参数若用 表示,估计量则用 表示.7.1.2 点估计与区间估计1.点估计(point estimate)根据样本数据求得估计量的取值作为未知参数的估计值.例如:用样本均值直接作为总体均值的估计,用两个样本均值之差直接作为总体均值之差的估计.优点:结果十分明晰,只有一个值,便于决策。缺点:没有给出估计值接近总体参数程度的信息。参数估计的主要方法有矩估计法、最大似然法、最小二乘法等.2.区间估计(interval estimate)(1)在点估计的基础上,给出总体参数估计的一个区间 范围,该区间由样本统计量加减抽样误差而得到的.(2)根据样本统计量的抽样分
3、布能够对样本统计量与总 体参数的接近程度给出一个概率度量.比如,某班级平均分数在7585之间,置信水平是95%样本统计量(点估计)置信区间置信下限置信上限(1)由样本统计量所构造的总体参数的估计区间称为置信区间.其中区间的最小值称为置信下限,最大值称为置信上限.(2)统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间.(3)用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值.我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个.置信区间(1)将构造置信区间的步骤重
4、复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平(2)表示为(1-称为显著性水平,是总体参数未在区间内的比例(3)常用的置信水平值有 99%,95%,90%相应的 为0.01,0.05,0.10置信水平 置信区间与置信水平 均值的抽样分布(1-(1-)%)%区间包含了区间包含了区间包含了区间包含了%的区间未包含的区间未包含的区间未包含的区间未包含 1-1-/2 2 /2 2区间估计的图示 X95%95%的样本的样本的样本的样本 -1.96-1.96 x x +1.96+1.96 x x99%99%的样本的样本的样本的样本 -2.582.58 x x +2.58+2.58x x90
5、%90%的样本的样本的样本的样本 -1.65-1.65 x x +1.65+1.65 x x置信区间(95%的置信区间)重复构造出的20个置信区间 点估计值影响区间宽度的因素1、总体数据的离散程度,用来测度2、样本容量,3、置信水平(1-),影响 z 的大小7.1.3 评价估计量的标准1.无偏性(unbiasedness)估计量抽样分布的数学期望等于被估计的总体参数。设 为未知参数 的估计量,若则称为 的无偏估计量。P P()B BA A无偏无偏无偏无偏无偏无偏有偏有偏有偏有偏有偏有偏2.有效性(efficiency)设 为 的两个无偏估计量,若则称 比 有效.对同一总体参数的两个无偏点估计量
6、,有更小标准差的估计量更有效。的抽样分布 的抽样分布P()3.一致性(consistency)若随着样本容量的增大,估计量 的取值越来越接近被估计的参数 ,则称 为 的一致估计量.AB较小的样本量较大的样本量P()7.2 一个总体参数的区间估计 7.2.1 总体均值的区间估计 7.2.2 总体比例的区间估计 7.2.3 总体方差的区间估计7.2.1 总体均值的区间估计 1.正态总体且方差已知,或非正态总体且大样本.2.正态总体且方差未知、小样本.1.正态总体且方差已知,或非正态总体且大样本设,是来自总体的样本,则(7.1)那末总体均值 的置信度为 的置信区间为(7.2)称为边际误差或误差限.当
7、总体非正态但样本容量较大时近似可得上述的置信区间。且当 未知时则可用 代替.(7.3)其中例7.1 一家食品生产企业以生产袋装食品为主,按规定每袋重量应为100克.为对产量质量进行监测,企业质检部门经常要进行抽检,以分析每袋重量是否符合要求.现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如表7-2.已知产品重量的分布服从正态分布,且总体标准差为10克.试估计该批产品平均重量的95%置信区间.表7-2 25 袋食品的重量即这批袋装食品平均重量的95%置信区间为 (101.44,109.28)已知 根据样本数据计算得:解:由于从而总体均值的0.95置信区间为例7.2 一家保险公司收集到由3
8、6投保人组成的随机样本,得到每个投保人的年龄(周岁)数据如下表.试建立投保人平均年龄(周岁)90%的置信区间.表7-3 36个投保人年龄的数据36个投保人年龄的数据个投保人年龄的数据 233539273644364246433133425345544724342839364440394938344850343945484532解:即投保人平均年龄90%的置信区间为 (37.37,41.63)由于 n 较大,可认为样本均值近似服从正态分布,且总体方差应由样本方差代替.根据样本数据计算得:由于从而总体均值90%的置信区间为例3 某种零件的长度服从正态分布,从该批产品中随机抽取9件,测得其平均长度为
9、 21.4 mm。已知总体标准差 0.15 mm,试建立该种零件平均长度的置信区间,给定置信水平为 0.95。总体均值的区间估计(例题分析)根据 公式,得 的 0.95 置信区间为即解:已知由于例4 某大学从该校学生中随机抽取 100 人,调查到他们平均每天参加体育锻炼的时间为 26 分钟。试以 95%的置信水平估计该大学全体学生平均每天参加体育锻炼的时间(已知总体方差为 36)。总体均值的区间估计(例题分析)得 的 0.95 置信区间为解:已知由于 n 较大,可认为近似有。而 则2.正态总体且方差未知、小样本设,则(7.4)对于给定的显著性水平,有则总体均值 的置信度为的置信区间为(7.5)
10、图7-7 不同自由度的t分布与正态分布比较 t t分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。一个特定的t分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布 X X X Xt 分布与标准正态分布的比较t t 分布分布标准正态分布标准正态分布t t不同自由度的t分布标准正态分布t t(dfdf=13)=13)t t(dfdf=5)=5)Z Z图7-7 不同自由度的t分布与正态分布比较 已知某种灯泡的寿命服从正态分布,现从一批灯泡中随机抽取16只,测得其使用寿命(单位:小时)如下.建立该批灯泡平均使用寿命95%的置信区间.例7.316灯泡使用寿命的数据灯泡使
11、用寿命的数据 1510152014801500145014801510152014801490153015101460146014701470解:已知 但总体方差未知.根据样本数据计算得从而 的 95%置信区间为在时,.由于该种灯泡平均使用寿命的置信区间为1476.8小时1503.2小时.练习题 一大型超市为研究顾客的购买额,抽取了100个样本顾客,这些顾客的平均花费水平为80元,标准差为25元,求90%的置信区间。解:已知已知 n n=100=100,=80=80,1 1-=90%=90%,=1.65=1.65 =(75.875,84.125)=(75.875,84.125)表7-4 不同情
12、况总体均值的区间估计总体分布 样本容量 已知 未知 正态 总体 小样本 非正态 总体 大样本7.2.2 总体比例的区间估计设 ,当 较大时,则近似有从而(7.6)在 的置信度下,的置信区间为(7.8)例7.4 某城市想要估计下岗职工中女性所占的比例,随机抽取了100名下岗职工,其中65人为女性职工.试以95%的置信水平估计该城市下岗职工中女性比例的置信区间.解:已知 ,由于从而该市下岗职工中女性比例的 95%置信区间为 (55.65%,74.35%)总体比例的区间估计(例题分析)例2 一家销售调研公司从一个大社区中选取一个100名男子的随机样本,发现其中40%的人最喜欢其客户公司生产的剃须刀片
13、。那么在该社区所有男子中,求最喜欢该客户公司刀片的所占比例的95%的置信区间.解:已知 n=100,p=40%,1-=95%,=1.96=0.4 1.96 =0.4 1.96 0.05 =0.4 0.1 =(0.3,0.5)即该社区中最喜欢该客户公司刀片所占比例95%的置信区间为(30%,50%)7.2.3 总体方差的区间估计设 是来自总体的样本,则从而则 的置信度为 的置信区间为(7.11)(7.10)图7-8 总体方差区间估计的图示 1-1-1-1-总体方差总体方差总体方差1-1-1-的置信区间的置信区间的置信区间自由度为自由度为自由度为自由度为n n-1-1的的的的 图7-8 总体方差区
14、间估计的图示例7.5 利用例7.1的数据,以0.95的置信水平建立该种食品重量方差的置信区间.解:已知总体服从正态分布,查表得 从而 的 0.95 置信区间为即而标准差的0.95置信区间图7-9 一个总体参数的估计与抽样分布待估参数待估参数待估参数待估参数均值均值比例比例方差方差大样本大样本小样本小样本大样本大样本 2 2分布分布 2 2已知已知 2 2已知已知Z Z分布分布 2 2未知未知Z Z分布分布Z Z分布分布Z Z分布分布 2 2未知未知t t分布分布图7-9 一个总体参数的估计与抽样分布7.3 两个总体参数的区间估计 7.3.1 两个总体均值之差的区间估计 7.3.2 两个总体比例
15、之差的区间估计 7.3.3 两个总体方差比的区间估计7.3.1 两个总体均值之差的区间估计设两个总体的均值为 和 ,两个总体均值之差,即 的估计,分别就独立样本与匹配样本两种情况讨论.1.两个总体均值之差的估计:独立样本 设分别从两个总体各自抽取随机样本,即两个样本相互独立.(1)大样本的估计()当两个总体都服从正态分布,且 和 已知.分别从两总体抽取的样本均值为 和 ,样本容量分别为 和 ,则(7.12)从而的 置信度的置信区间为(7.13)()当两个总体分布非正态,但和都很大,则在 和已知时,可近似按(7.13)式得出 的置信区间;而在总体方差未知时,则用样本方差代替.(7.14)某地区教
16、育委员会想估计两所中学的学生高考时的英语平均分数之差,为此在两所中学独立地抽取两个随机样本,有关数据如下表.建立两所中学高考英语平均分数之差0.95的置信区间.表7-6 两个样本的有关数据例7.6 中学 1中学2解:由于n1=46,n2=33 都较大,根据(7.14)式从而两所中学高考英语平均分数之差的0.95置信区间为 (5.03,10.97)两个总体均值之差的估计(例题分析)例2 一个银行负责人想知道储户存入两家银行的钱数。他从两家银行各抽取了一个由 25 个储户组成的随机样本,样本平均值如下:银行 A:4500元;银行 B:3250元。设已知两个总体服从方差分别为和的正态分布。试求的置信
17、区间估计。解:已知从而的置信度为的置信区间为(2)小样本的估计()方差未知但相等 当两个总体都服从正态分布,和 未知但相等,即 .则对于两个独立样本和,的估计量为(7.15)(7.16)从而 的 置信度的置信区间为(7.17)可以证明例7.7 为估计两种方法组装产品所需时间的差异,分别对两种不同的组装方法各随机安排12个工人,每个工人组装一件产品的时间(分钟)如下表.假定两种方法组装产品的时间服从正态分布,且方差相等.试以95%的置信水平建立两种方法组装产品所需平均时间差值的置信区间.表7-7 两个方法组装产品所需的时间2 21 1解:根据样本数据计算得从而两种方法组装产品所需平均时间之差的置
18、信区间为 (0.14,7.26)由于 ,得例 2 为了比较两位银行职员为新顾客办理个人结算帐目的平均时间长度,分别给两位职员随机按排了10位顾客,并记录下为每位顾客办理帐单所需的时间(单位:分钟),相应的样本均值和方差为:。假定每位职员办理帐单所需时间均服从正态分布,且方差相等,试求两位职员办理帐单所需的服务时间之差的 95%的区间估计。两个总体均值之差的估计(例题分析)解:已知从而 95%的置信区间为由于,则查表得即两个总体均值之差的估计(例题分析)()方差未知且不相等当两个总体都服从正态分布,和 未知且 ,这时分别用 和估计 和.则(7.18)v 应取整数.从而 的置信度为 的近似置信区间
19、为(7.19)例7.8 沿用前例.假定第一种方法随机安排12个工人,第二种方法随机安排8个工人,即 ,所得的有关数据如表.假定两种方法组装产品的时间服从正态分布,且方差不相等.以95%的置信水平建立两种方法组装产品所需平均时间差值的置信区间.表7-7 两个方法组装产品所需的时间 2 21 1解:根据样本数据计算得从而两种方法组装产品所需平均时间之差的置信区间为 (0.192,9.058)由于 ,得2.两个总体均值之差的估计:匹配样本匹配样本:一个样本中的数据与另一个样本中的数据相对应.1)、匹配大样本 两个匹配的大样本(n1 30和n2 30)两个总体各观察值的配对差服从正态分布 两个总体均值
20、之差d=1-2在1-置信水平下的置信区间为对应差值的均值对应差值的标准差(7.20)2)、匹配小样本 两个匹配的小样本(n1 30和n2 30)两个总体各观察值的配对差服从正态分布 两个总体均值之差d=1-2在1-置信水平下的置信区间为对应差值的均值对应差值的标准差(7.21)例7.9 由10名学生组成一个随机样本,让他们分别采用A和B两套试卷进行测试,结果如下表.假定两种试卷分数之差服从正态分布.试建立两种试卷平均分数之差 的95%的置信区间.表7-9 10名学生两套试卷的得分 解:根据样本数据计算得从而两种试卷所产生的平均分数之差的置信区间为 (6.33,15.67)由于 ,得7.3.2
21、两个总体比例之差的区间估计设两个总体的比例分别为 和,分别从两个总体各抽取样本容量为 和 的随机样本,样本比例为 和.则当 和 都很大时,近似有所以 的置信度为 的近似置信区间为(7.23)(7.24)例7.10 在某个电视节目的收视率调查中,农村随机调查了400人,有32%的人收看了该节目;城市随机调查了500人,有45%的人收看了该节目.试以0.95的置信水平估计城市与农村收视率差别的置信区间.解:已知 ,由于从而城市与农村收视率差值的置信区间为 (6.68%,19.32%)1 12 27.3.3 两个总体方差比的区间估计设两个总体都服从正态分布,分别从两个总体抽取样本量和 的样本,样本方
22、差为 和.由于所以的置信度为 的置信区间为(7.26)从而对给定的置信度,有图7-10 两个总体方差比的区间估计(图示)F F F FF F F F1-1-1-1-F F F F总体方差比总体方差比总体方差比1-1-1-的置信区间的置信区间的置信区间方差比置信区间示意图方差比置信区间示意图方差比置信区间示意图方差比置信区间示意图(7.27)例7.11 为了研究男女学生在生活费(元)支出上的差异,在某大学各随机抽取25名男学生和25名女学生,得到下面的结果:男学生:女学生:试以90%置信水平估计男女学生生活费支出方差比的置信区间.假定学生的生活费服从正态分布,已知 ,查表得即根据(7.27)式,
23、则于是按(7.27)式,得 的 0.90 置信区间解:图7-11 两个总体参数的估计与抽样分布待估参数待估参数待估参数待估参数均值差均值差比例差比例差方差比方差比独立大样本独立大样本独立小样本独立小样本匹配样本匹配样本独立大样本独立大样本 1 12 2、2 22 2已知已知 1 12 2、2 22 2未知未知Z Z分布分布Z Z分布分布 1 12 2、2 22 2已知已知 1 12 2、2 22 2未知未知Z Z分布分布 1 12 2=2 22 2 1 12 2 2 22 2正态总体正态总体F F分布分布Z Z分布分布t t分布分布t t分布分布t分布和分布和z分布分布图7-11 两个总体参数
24、的估计与抽样分布7.4 样本容量的确定 7.4.1 估计总体均值时样本量的确定 7.4.2 估计总体比例时样本量的确定7.4.1 估计总体均值时样本量的确定对规定的允许误差 E 和置信度 ,在于是对确定的允许误差E 和置信度 ,样本容量的计算公式条件下求所需的样本容量 n。当总体分布正态,则(7.28)(7.29)样本量的圆整法则:当计算出的样本量不是整数时,将小数点后面的数值一律进位成整数,如24.68取25,24.32也取25等等.(7.29)式的说明(7.29)式表明 n 与 E、和 有如下关系.(1)越大,则所需 n 越大,即 n 与 成正比.(2)越大,则所需 n 越小,即 n 与
25、成反比.(3)越大,则所需 n 越大,即 n 与 成正比.例7.12 拥有工商管理学士学位的大学毕业生年薪的标准差大约为2000元,假定想要估计平均年薪0.95的置信区间,希望边际误差为400元,应抽取多大的样本容量?解:已知 则根据(7.30)式,得即应抽取 97人作为样本.7.4.2 估计总体比例时样本量的确定 当 未知时,可用 代替,或取最大值 0.5。从而(7.30)(7.31)对规定的允许误差E 和置信度 ,在条件下求所需的样本容量 n。当 p 近似正态分布,则例7.13根据以往的生产统计,某种产品的合格率约为0.90,现要求边际误差为0.05,在求95%的置信区间时,应抽取多少个产品作为样本?解:已知 ,则根据(7.32)式,得即应抽取139个产品作为样本.