《第五章 抽样推断.pptx》由会员分享,可在线阅读,更多相关《第五章 抽样推断.pptx(145页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第一节第一节 抽样推断概述抽样推断概述第三节第三节 参数估计参数估计第二节第二节 抽样分布抽样分布第四节第四节 抽样设计抽样设计第五章第五章 抽样推断抽样推断康师傅矿物质水康师傅矿物质水“太酸太酸”吗?吗?成都消费者尹先生到四川大学华西附二院看望一生病的朋成都消费者尹先生到四川大学华西附二院看望一生病的朋友,并给朋友买去一件康师傅矿物质水。就在他拿出来准友,并给朋友买去一件康师傅矿物质水。就在他拿出来准备给朋友喝时,邻床一位姓金的先生提醒他说:这种水备给朋友喝时,邻床一位姓金的先生提醒他说:这种水PHPH值偏低,呈酸性,不适合常喝,体质较弱的病人更不宜饮值偏低,呈酸性,不适合常喝,体质较弱的病
2、人更不宜饮用。用。尹先生对此半信半疑,先后带了两瓶水到四川省人民医院尹先生对此半信半疑,先后带了两瓶水到四川省人民医院和成都市二医院分别进行和成都市二医院分别进行PHPH值检测。两次检测均显示,其值检测。两次检测均显示,其PHPH值仅为值仅为5.85.86.26.2,根本达不到中国,根本达不到中国生活饮用水卫生标生活饮用水卫生标准(准(GB5749-2006GB5749-2006)规定的规定的6.56.58.58.5。1010月月6 6日,尹先生日,尹先生要求重庆顶津公司就康师傅瓶装水的要求重庆顶津公司就康师傅瓶装水的“PHPH值值”问题给消费问题给消费者一个说法,并向记者反映了此事。尹先生的
3、要求合理吗?者一个说法,并向记者反映了此事。尹先生的要求合理吗?康师傅矿物质水是真的康师傅矿物质水是真的“太酸太酸”吗?吗? 一、抽样调查及其特点一、抽样调查及其特点(一)抽样调查的概念一)抽样调查的概念统计推断统计推断参数(未知量)参数(未知量)统统计量(已知量计量(已知量) 与全面调查相比,抽样调查既节省了人力、物力、与全面调查相比,抽样调查既节省了人力、物力、财力和时间,又达到了认识总体数量特征的目的。财力和时间,又达到了认识总体数量特征的目的。我国在我国在19941994年确立了以周期性普查为基础,以经常年确立了以周期性普查为基础,以经常性抽样调整为主体,同时辅之以性抽样调整为主体,同
4、时辅之以重点调查、科学核重点调查、科学核算等综合运用的统计调查方法体系。算等综合运用的统计调查方法体系。 有些事物在测量或试验时有破坏性有些事物在测量或试验时有破坏性,不可能进行不可能进行全面调查全面调查.例如例如:灯泡耐用时间试验灯泡耐用时间试验,电视机抗震电视机抗震能力实验能力实验,人体白血球数量的化验等等人体白血球数量的化验等等.例如例如:了解某林区有多少树了解某林区有多少树,鱼塘有多少条鱼等。鱼塘有多少条鱼等。例如例如:在产品成批或大量连续生产过程中,利用在产品成批或大量连续生产过程中,利用抽样调查可及时提供产品质量信息,进行质量抽样调查可及时提供产品质量信息,进行质量控制。控制。 例
5、如例如:农产量全面调查的统计资料数字要等收割完农产量全面调查的统计资料数字要等收割完毕以后一段时间才能得到毕以后一段时间才能得到,而抽样调查的统计数字而抽样调查的统计数字在收获的同时就可以得到在收获的同时就可以得到,一般能早两个月左右一般能早两个月左右,这这对于安排农产品的收购对于安排农产品的收购,储存和运输等都是有利的储存和运输等都是有利的.例如例如:有些国家在人口和农业调查中有些国家在人口和农业调查中,根据调查项目根据调查项目的粗细要求不同的粗细要求不同,分别进行普查和抽样调查分别进行普查和抽样调查,有这两有这两种调查所得资料不但便于核对差错种调查所得资料不但便于核对差错,而且可以满足而且
6、可以满足不同的需要不同的需要.就是调查对象,又称总体或母体,是就是调查对象,又称总体或母体,是由许多性质相同的调查单位组成,常由许多性质相同的调查单位组成,常用用N表示全及总体的单位数目。表示全及总体的单位数目。又称样本或子样,是指从全及总体中又称样本或子样,是指从全及总体中按照随机原则抽取的那部分个体的组按照随机原则抽取的那部分个体的组合。合。抽样总体的单位数称为抽样总体的单位数称为样本容样本容量量,通常用通常用n表示。表示。1nN 。n30称为大样本称为大样本,n 30称为小样本称为小样本.n/N称为抽样比称为抽样比.例如:例如:在在100100万户居民中,随机抽取万户居民中,随机抽取10
7、001000户居民进行户居民进行家庭收支情况调查,其中的家庭收支情况调查,其中的100100万户居万户居民就是全及总民就是全及总体,而被抽中的体,而被抽中的1000户居民则构成抽样总体。户居民则构成抽样总体。:全及全及平均数平均数总体是非标总体是非标准差及方差准差及方差总体标准差总体标准差及方差及方差全及全及成数成数0N1NN性别:性别:男、女(非男)男、女(非男)产品质量产品质量:合格、不合格:合格、不合格1 01 0NNP1NNQ010101NNNNNNNNNQP且有PNNNNNfXfXP10101PQPQPQQPPQNNNPNPffXXp22010212201)(25. 05 . 02m
8、ax时,有当QPPPPQ12PQPPPPPXVPP11218. 0)95. 01 (95. 095. 054002095400380203804000101PQPXNNQNNPNNNpP所以有:,则件,件,件,己知NNXXX,210N1NmiimiiiNiiffXXNXX111或miiimiiNiifXXfXXN1211211或miiimiiNiifXXfXXN121212211或PNNQNNP1,01PQPPP1PQPPP12有最大值时,当PQP5 . 0nnxxx,210n1nmiimiiiniiffxxnxx111或miiimiiniifxxfsxxns121121111或miiimii
9、niifxxfsxxns12121221111或为自由度为自由度为 的无偏估计2为 的无偏估计pnnqnnp1,01pqnnppnnsp111pqnnppnnsp1112为为 的的无偏估计无偏估计2P为为 的的无偏估计无偏估计P重复抽样重复抽样从总体从总体N N个单位中随机抽取一个样本容个单位中随机抽取一个样本容量为量为n n的样本,每次从总体中抽取一个,的样本,每次从总体中抽取一个,并把结果登记下来,又放回总体中重新并把结果登记下来,又放回总体中重新参加下一次的抽选。又称参加下一次的抽选。又称放回抽样放回抽样不重复抽样不重复抽样每次从总体中抽选一个单位后就不每次从总体中抽选一个单位后就不再将
10、其放回参加下一次的抽选。又再将其放回参加下一次的抽选。又称称不放回抽样不放回抽样.总体单位数总体单位数N N不变,同一单位可能不变,同一单位可能多次被抽中。多次被抽中。总体单位数减少总体单位数减少n n,同一单位只可同一单位只可能被抽中一次。能被抽中一次。根据取样方式不同,可分为:根据取样方式不同,可分为:根据对样本的要求不同,可分为:根据对样本的要求不同,可分为:考虑顺序抽样考虑顺序抽样考虑各单位的中选顺序。考虑各单位的中选顺序。ABCCBA例如例如: :从从1,2,31,2,3三个数中取两个数排成一个两位数三个数中取两个数排成一个两位数, ,显显然十位数取然十位数取1,1,个位数取个位数取
11、2,2,和十位数取和十位数取2,2,个位数取个位数取1 1是是完全不同的完全不同的. .综合起来共有综合起来共有四种抽样方法四种抽样方法考虑顺序的重复抽样考虑顺序的重复抽样不考虑顺序的不重复抽样不考虑顺序的不重复抽样不考虑顺序的重复抽样不考虑顺序的重复抽样考虑顺序的不重复抽样考虑顺序的不重复抽样不考虑顺序抽样不考虑顺序抽样不考虑各单位的中选顺序。不考虑各单位的中选顺序。ABCCBA例如例如: :从三个产品中抽取两个进行质量检验从三个产品中抽取两个进行质量检验, ,第一个第一个选选1 1号产品号产品, ,第二个选第二个选2 2号产品组成一组号产品组成一组, ,和第一个选和第一个选2 2号产品号产
12、品, ,第二个选第二个选1 1号产品组成一组没有什么差别号产品组成一组没有什么差别. .考虑顺序的不重复抽样考虑顺序的不重复抽样不考虑顺序的不重复抽样不考虑顺序的不重复抽样考虑顺序的重复抽样考虑顺序的重复抽样不考虑顺序的重复抽样不考虑顺序的重复抽样)!/(!nNNpnNnN1nN nC 把填湖南风采把填湖南风采3535选选7 7福利彩票号码看作一次抽福利彩票号码看作一次抽样,则它属于哪一种抽样?中特等奖的概率样,则它属于哪一种抽样?中特等奖的概率是多少?(是多少?(0909选选6 6呢?)呢?)不考虑顺序的不重复抽样,不考虑顺序的不重复抽样,nNC8347680/1/1735C表明大量随机观象
13、表明大量随机观象平均结果平均结果具有具有稳定性稳定性的性的性质。质。大数定律论证了如果独立随机变量总体大数定律论证了如果独立随机变量总体存在有限的平均数和方差,则对于充分大的存在有限的平均数和方差,则对于充分大的样本可以近乎样本可以近乎100%100%的概率,期望样本平均的概率,期望样本平均数与总体平均数的绝对离差数与总体平均数的绝对离差为任意小。为任意小。 1)(limXxPn抽样平均数和总体平均数的离差究竟有多大抽样平均数和总体平均数的离差究竟有多大? ?离差离差不超过一定范围的概率究竟有多少不超过一定范围的概率究竟有多少? ?这个离差的分这个离差的分布究竟怎样布究竟怎样? ?总体密度曲线
14、总体密度曲线:样本容量越大,所分组数越多,各组的频率就样本容量越大,所分组数越多,各组的频率就越接近于总体在相应各组取值的概率设想样本容量无限增越接近于总体在相应各组取值的概率设想样本容量无限增大,分组的组距无限缩小,那么频率分布直方图就会无限接大,分组的组距无限缩小,那么频率分布直方图就会无限接近于一条光滑曲线近于一条光滑曲线,这条曲线叫做总体密度曲线这条曲线叫做总体密度曲线它反映了总体在各个范围内取值的概率根据这条曲线,可它反映了总体在各个范围内取值的概率根据这条曲线,可求出总体在区间求出总体在区间(a,b)内取值的概率等于总体密度曲线,直内取值的概率等于总体密度曲线,直线线x=a,x=b
15、及及x轴所围图形的面积轴所围图形的面积概率密度函数概率密度函数0.0010.0090.0190.0650.130.1450.1920.1770.1470.0590.0360.0130.00700.050.10.150.20.2511.11.21.31.41.51.61.71.81.922.1其他00.0050.010.0150.020.025012300.020.040.060.080.10.1211.11.21.31.41.51.61.71.81.922.100.10.20.30.40.511.141.281.421.561.71.841.982.122.26如果变量总体存在有限的平均数和方
16、如果变量总体存在有限的平均数和方差,那么不论这差,那么不论这个总体的分布如何,个总体的分布如何,随着样本容量的增加,样本平均数的随着样本容量的增加,样本平均数的分布,便趋近于分布,便趋近于正态分布正态分布。 一个任意分布的总体 x 当样本容量足够大时(n 30) ,样本均值的抽样分布逐渐趋于正态分布 xn 样本均值的抽样分布样本均值的抽样分布与中心极限定理与中心极限定理X5x50 x5 . 2xXN(,2/n)中心极限定理中心极限定理 (central limit theorem)X第二节第二节 抽样分布抽样分布 样本统样本统计量计量总体未总体未知参数知参数样本统样本统计量计量样本统样本统计量
17、计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量主要样本主要样本统计量统计量xp2S分布的形状分布的形状及接近总体及接近总体参数的程度参数的程度注意:注意:统计量的取值不但和样本容量有关,而且和抽样方法统计量的取值不但和样本容量有关,而且和抽样方法有关,以下分别研究重复抽样和不重复抽样的抽样分布。有关,以下分别研究重复抽样和不重复抽样的抽样分布。把某一抽样方法的全部可能的样本指标与其相把某一抽样方法的全部可能的样本指标与其相应的概率排列起来
18、,就得到样本的概率分应的概率排列起来,就得到样本的概率分布。布。 若将若将样本指标的取值分别记为样本指标的取值分别记为 其相应的其相应的概率记为概率记为P1,P2,Pn,将它们按顺序排列起来,将它们按顺序排列起来,可得如下概率分布表。可得如下概率分布表。,.,21nxxx x1x2xnxnP)(xPnP1P2P学生学生成绩成绩 30 40 50 60 70 80 90按随机原则抽选出名学按随机原则抽选出名学生,并计算平均分数。生,并计算平均分数。平均数的抽样分布平均数的抽样分布样本样本均值均值样本样本 均值均值样本样本均值均值ABCDABCEABCFABCGABDEABDFABDGABEFAB
19、EGABFGACDEACDF4547.55052.55052.5555557.56052.555ACDGACEFACEGACFGADEFADEGADFGAEFGBCDEBCDFBCDGBCEF57.557.56062.56062.56567.55557.56060BCEGBCFGBDEFBDEGBDFGBEFGCDEFCDEGCDFGCEFGDEFG62.56562.56567.5706567.57072.575样本均值样本均值 45 47.5 50 52.5 55 57.5 60出现次数出现次数 1 1 2 3 4 4 5样本均值样本均值 62.5 65 67.5 70 72.5 75出现次
20、数出现次数 4 4 3 2 1 1二者均值相等二者均值相等样本均值样本均值 45 47.5 50 52.5 55 57.5 60出现次数出现次数 1 1 2 3 4 4 5离差离差 -15 -12.5 -10 -7.5 -5 -2.5 0样本均值样本均值 62.5 65 67.5 70 72.5 75出现次数出现次数 4 4 3 2 1 1离差离差 2.5 5 7.5 10 12.5 15学生学生成绩成绩 30 40 50 60 70 80 90离差离差 -30 -20 -10 0 10 20 302007. 7100214201747122nNnNx07. 7xn1)()(XxXxE抽样平均
21、数的标准差反映了样本平均数与总体平均数的抽样平均数的标准差反映了样本平均数与总体平均数的平均误差程度,因为平均误差程度,因为22)()(XxExExE这一这一误差是由于抽样而产生的,故称为抽样平均误差以误差是由于抽样而产生的,故称为抽样平均误差以 表示。表示。nXnXx)()()(21.1.抽样平均误差比总体标准差小得多,仅为总抽样平均误差比总体标准差小得多,仅为总体标准差的体标准差的 ,所以用样本平均数来代表总,所以用样本平均数来代表总体平均数是更有效的;体平均数是更有效的;2.2.抽样平均误差和总体标准差成正比变化,而抽样平均误差和总体标准差成正比变化,而和样本单位和样本单位n n的平方根
22、成反比变化。例如,在同的平方根成反比变化。例如,在同一总体中,如果抽样平均误差允许增加一倍,一总体中,如果抽样平均误差允许增加一倍,则样本单位数只需要原来的则样本单位数只需要原来的1/41/4,如果样本容量,如果样本容量扩大为原来的扩大为原来的9 9倍,则抽样平均误差缩小倍,则抽样平均误差缩小2/32/3。n/1MiixXxM121xiXixM1)(2nxxS注意:不要混淆抽样注意:不要混淆抽样标准差与样本标准差!标准差与样本标准差!PXp)1 ()(2PPPPXpEp)(nPPnPpp)1 ()()()(5)1(,5)1,(pnnpnPPPNp)()(PpPpEn1X510样本抽样分布样本抽
23、样分布原总体分布原总体分布xX抽样误差抽样误差167CM 169CM 172CM 160CM 162CM 167CM 175CM 180CM 165CM 167CM170CM 175CM 178CM 180CM 162CM 173CM 155CM 160CM 170CM 165CM平均身高平均身高=169.8CM平均身高平均身高=174.6CM总平均身高总平均身高=168.6CM样本变量样本变量410450480500410450480500-430445455430-465475445465-490445475490-样本日平均工资样本日平均工资(元)(元)频数频数频率频率430445455
24、4654754902222222/122/122/122/122/122/12合计合计121460122*4902*4752*4652*4552*4452*430)(ffxxE33.383)()(22ffxExx?58.1933.393)()(2xx? XxE)(111Nn)111 ()()(2NnnXx不重复抽样与重复抽样的平均误差公式相比,不重复抽样与重复抽样的平均误差公式相比,多乘了一个修正系数(多乘了一个修正系数(n/N),n/N),显然(显然(n/N)n/N)小于,所以,不重复抽样的平均误差小于重复抽小于,所以,不重复抽样的平均误差小于重复抽样的平均误差当很大,样的平均误差当很大,n
25、 n相对很小时,相对很小时, (n/N)n/N)接近于,对平均误差影响不大因此,在实接近于,对平均误差影响不大因此,在实际工作中,一般按不重复抽样的方法抽取样本,而际工作中,一般按不重复抽样的方法抽取样本,而按重复抽样的公式计算抽样平均误差按重复抽样的公式计算抽样平均误差教师是否博士教师是否博士 是是 是是 否否 否否 否否 是是 具有博士学位的具有博士学位的比率:比率:0.5比率的标准差:比率的标准差:0.5从总体中按重复抽样方法随机从总体中按重复抽样方法随机抽取人,计算其比率和标抽取人,计算其比率和标准差准差p样本成数抽样分布样本成数抽样分布样本样本 比率比率 离差离差 样本样本 比率比率
26、 离差离差ABCDABCEABCFABDEABDFABEFACDEACDF0.50.50.750.50.750.750.250.5000.2500.250.25-0.250ACEFADEFBCDEBCDFBCEFBDEFCDEF0.50.50.250.50.50.50.2500-0.25000-0.25Pnpp5 . 0p5245 . 05 . 01)1 (1581. 015375. 0)(2NnNnPPffppp全部可能样本成数的均值等于总全部可能样本成数的均值等于总体比率,即:体比率,即: 从非正态总体中抽取的样本成数当从非正态总体中抽取的样本成数当n足够大时其分布接近正态分布。足够大时其
27、分布接近正态分布。 从正态总体中抽取的样本成数不论容从正态总体中抽取的样本成数不论容量大小其分布均为正态分布。量大小其分布均为正态分布。样本成数的标准差为总体标准差的样本成数的标准差为总体标准差的 。n1)()(PpPpE样本成数的抽样分布样本成数的抽样分布5)1 (5)1 (,(pnnpnPPPNp学生学生成绩成绩 60 70 80 90均值均值 75方差方差 125从中按重复抽样方式抽取人,从中按重复抽样方式抽取人,计算样本的均值及方差计算样本的均值及方差S 。x方差的抽样分布方差的抽样分布A60B70C80D90A6060 60600060 7065255060 807010020060
28、 9075225450B7070 6065255070 70700070 8075255070 9080100200C8080 607010020080 7075255080 80800080 90852550D9090 607522545090 708010020090 8085255090 909000nxxnxxSn22)(1)(221nxxSn5 .62)(22mSSEnn125)(2121mSSEnn125221nS2nSNnnPPNnNnPPp1111当N500时,有NnNnNNnN11)1 (;PPPXpp例:从某公司名营业员中,随机抽取例:从某公司名营业员中,随机抽取名营业员,
29、其平均营业额为百元,标准名营业员,其平均营业额为百元,标准差为百元,则抽样平均误差为:差为百元,则抽样平均误差为:重复抽样:重复抽样:不重复抽样:不重复抽样:22121.2(100 xn百元)22121001)(1)1.1(1001000 xnnN(百元)抽抽 样样 方方 法法 均均 值值 方方 差差 标标 准差准差(1)从无)从无限总体抽限总体抽 样样和有限总体和有限总体放回抽样放回抽样(2)从有限)从有限总体不放回总体不放回抽样抽样xxE )(xxE )(nx2222xN nnNnxxNnNn2,xxNnNnn和即均值推断的抽样误差抽样误差抽样误差抽样误差抽样误差抽抽 样样 方方 法法 均
30、均 值值 方方 差差 标标 准差准差(1)从无)从无限总体抽限总体抽 样样和有限总体和有限总体放回抽样放回抽样(2)从有限)从有限总体不放回总体不放回抽样抽样PnnEPEi)/()(PnnEPEi)/()(2/PPQ n2PPQ NnnNPPQnPPQ NnnN根据中心极限定理,只要样本足够大,根据中心极限定理,只要样本足够大, 的分布就近的分布就近似正态分布。(似正态分布。(np和和nq大于大于5时)时)抽样误差抽样误差抽样误差抽样误差P标准差、样本标准差、样本平均数的标准差及标准差、样本标准差、样本平均数的标准差及抽样误差的区别与联系抽样误差的区别与联系 标准差(标准差()是总体各单位标志
31、值的变异程度指标。是总体各单位标志值的变异程度指标。它是总体各单位在某一变量上的取值它是总体各单位在某一变量上的取值X X与该变量的平均与该变量的平均值值 的离差平方加以平均再开方求得。计算公式为:的离差平方加以平均再开方求得。计算公式为:其中其中N N为总体单位总数,即变量值的个数。为总体单位总数,即变量值的个数。 样本标准差样本标准差S S是样本中各单位在某一变量上的取值是样本中各单位在某一变量上的取值X X与该变量的样本平均值与该变量的样本平均值 的离差的平均,其计算公的离差的平均,其计算公式为:式为: 其中其中n n为样本单位数样本标为样本单位数样本标准差反映抽样总体在某一变量上的差异
32、程度准差反映抽样总体在某一变量上的差异程度xx2()xxsn2()xxN标准差、样本标准差、样本平均数的标准差及标准差、样本标准差、样本平均数的标准差及抽样误差的区别与联系抽样误差的区别与联系样本平均数的标准差则是指:从总体中抽出所样本平均数的标准差则是指:从总体中抽出所有可能的样本,每个样本都由有可能的样本,每个样本都由n个单位组成,都有个单位组成,都有一个样本平均数,这些样本平均数与样本平均数一个样本平均数,这些样本平均数与样本平均数的平均数的离差的平均值其计算公式为:的平均数的离差的平均值其计算公式为:根据无偏性原则,式中样本平均数的平均数等于总根据无偏性原则,式中样本平均数的平均数等于
33、总体平均数即,则上式又可以写成:体平均数即,则上式又可以写成:其中为样本总数其中为样本总数xx2()xxx样 本 数 目()Ex 2()xxM标准差、样本标准差、样本平均数的标准差及标准差、样本标准差、样本平均数的标准差及抽样误差的区别与联系抽样误差的区别与联系抽样误差即抽样平均误差,它就是样本平均数抽样误差即抽样平均误差,它就是样本平均数的标准差由于总体平均数是不可知的,所以的标准差由于总体平均数是不可知的,所以仅具有理论意义,实际计算时则是根仅具有理论意义,实际计算时则是根据样本平均值的标准差与总体方差的关系推算,因据样本平均值的标准差与总体方差的关系推算,因此,此式常用表示,其中此,此式
34、常用表示,其中n为样本单位数为样本单位数2()xxM2xn2xnn第三节第三节 参数估计参数估计 也叫抽样估计,就是根据也叫抽样估计,就是根据样本指样本指标标数值对数值对总体指标总体指标数值作出估计数值作出估计或推断。或推断。 参数估计参数估计通常,把用来估计总体特征的样本指标叫通常,把用来估计总体特征的样本指标叫估计估计量或统计量,量或统计量,待估计的总体指标叫待估计的总体指标叫总体参数总体参数。特点特点1、它在逻辑上运用、它在逻辑上运用归纳推理归纳推理而不是演绎推理。而不是演绎推理。 2、在方法上运用不确定的、在方法上运用不确定的概率估计方法概率估计方法,而不是运用确定的数学分析方法。而不
35、是运用确定的数学分析方法。 3、抽样估计存在、抽样估计存在抽样误差抽样误差。 统计推断结论是否准确与否,有几个问题:统计推断结论是否准确与否,有几个问题: 1.1.对统计推断结论有多大的把握;对统计推断结论有多大的把握; 2. 2. 区间估计中的可信度和精度的关系问题;区间估计中的可信度和精度的关系问题; 3.3.得到的结论是否有实际意义;得到的结论是否有实际意义; 4.4.统计推断结论正确与否,与我们对总体统计推断结论正确与否,与我们对总体的了解有关的了解有关;一、参数估计的基本概念一、参数估计的基本概念(一)(一)允许误差允许误差又称又称极限误差,指样本统计量与被估计总体参数的离差绝对极限
36、误差,指样本统计量与被估计总体参数的离差绝对值可允许变动的范围。只要估计值与被估计值之间的离差不值可允许变动的范围。只要估计值与被估计值之间的离差不超过允许范围,这种估计都是有效的。超过允许范围,这种估计都是有效的。例如:例如:估计高一男生估计高一男生身高身高160厘米,允许误差厘米,允许误差16厘米,若实际身高在厘米,若实际身高在144176厘米厘米之间都应该认为估计有效。此处,允许误差的区间之间都应该认为估计有效。此处,允许误差的区间144176厘米称为厘米称为估计区间估计区间,允许误差与估计值之比称为,允许误差与估计值之比称为误差率误差率,(1-误差率)称为误差率)称为估计精度估计精度。
37、注意:注意:允许误差愈小,抽样估计的精度愈高,反之,允许误差愈小,抽样估计的精度愈高,反之,表明精度愈低。表明精度愈低。pxPpXx或ppxxPpPXxX或即上式上式表明,样本平均数(成数)是以总体平均数(成数)表明,样本平均数(成数)是以总体平均数(成数)为中心,在相应的区间内变动。为中心,在相应的区间内变动。由于总体成数和总体平均数是未知的,它要求靠实由于总体成数和总体平均数是未知的,它要求靠实测的抽样平均数和抽样成数来估计,因而抽样误差测的抽样平均数和抽样成数来估计,因而抽样误差的实际意义是希望总体平均数(成数)落在某个已的实际意义是希望总体平均数(成数)落在某个已知的范围内。知的范围内
38、。所以前面的不等式应变换为所以前面的不等式应变换为:ppxxpPpxXx或即在一个特定的全及总体中,当抽样方法和样本容量在一个特定的全及总体中,当抽样方法和样本容量固定时,抽样平均误差是一个定值,因此,抽样极固定时,抽样平均误差是一个定值,因此,抽样极限误差通常以抽样平均误差为标准单位来衡量。即限误差通常以抽样平均误差为标准单位来衡量。即抽样极限误差通常表示为抽样平均误差的抽样极限误差通常表示为抽样平均误差的多少倍多少倍,即即 /ppxxzz或由于由于z z值与样本估计值落入允值与样本估计值落入允许误差范围内的概率有关,许误差范围内的概率有关,因此,因此,z z也称为也称为概率度概率度。(二)
39、(二)置信度置信度又称估计推断的概率保证程度,表明估计的可靠程度。又称估计推断的概率保证程度,表明估计的可靠程度。例如:例如:若要求若要求95%的可靠程度,则表示如果进行多次重复估计,则平的可靠程度,则表示如果进行多次重复估计,则平均每均每100次估计将有次估计将有95次是正确的,只有次是正确的,只有5次估计错误。次估计错误。95%就就称为置信度或称概率保证程度。称为置信度或称概率保证程度。概率保证程度概率保证程度 F F(t t)也可表示为:也可表示为:称显著性水平,表示估计值落在区间以外的可能性。称显著性水平,表示估计值落在区间以外的可能性。在大样本(在大样本( )的条件下,样本平均数的分
40、布接近正态分)的条件下,样本平均数的分布接近正态分布,这时可根据概率度布,这时可根据概率度t t和置信度的对应函数关系通过和置信度的对应函数关系通过正态正态分布概率表分布概率表互相查找。互相查找。1)(tF30n抽样指标和总体指标的误差不超过一定范抽样指标和总体指标的误差不超过一定范围的概率大小,称之为概率保围的概率大小,称之为概率保证程度,也证程度,也叫抽样估计的置信度,一般用叫抽样估计的置信度,一般用F(t)表示:表示: 置信度置信度)()(zFXxPx1在大样本下在大样本下0.6827xxX样本抽样分布曲线样本抽样分布曲线原总体分布曲线原总体分布曲线X0.9545X样本抽样分布曲线样本抽
41、样分布曲线原总体分布曲线原总体分布曲线2xxX 0.9973X3xxX问题:问题:第一,我们为什么以这一个而第一,我们为什么以这一个而不是那一个统计量来估计某个总体不是那一个统计量来估计某个总体参数?参数?估计值的优良标准估计值的优良标准第二,如果有两个以上的统计第二,如果有两个以上的统计量可以用来估计某个总体参数,其量可以用来估计某个总体参数,其估计结果是否一致?是否一个统计估计结果是否一致?是否一个统计量要优于另一个?量要优于另一个?oemmx估计值的优良标准:估计值的优良标准:无偏性、有效性、一致性无偏性、有效性、一致性若,则称为的无偏若,则称为的无偏估计量估计量)(E若,则称为比更有效
42、的估计量若,则称为比更有效的估计量2121若越大越小,则称为的一致估计量若越大越小,则称为的一致估计量nn1)(limPn学生学生成绩成绩 30 40 50 60 70 80 90按随机原则抽选出名学生,按随机原则抽选出名学生,并计算平均分数和中位分数。并计算平均分数和中位分数。样本均值样本均值 45 47.5 50 52.5 55 57.5 60出现次数出现次数 1 1 2 3 4 4 5样本均值样本均值 62.5 65 67.5 70 72.5 75出现次数出现次数 4 4 3 2 1 1样本中位数样本中位数 45 50 55 60 65 70 75出现次数出现次数 4 3 8 5 8 3
43、 4-1-10 01 12 23 34 45 56 67 78 89 94545505055556060656570707575中位数的中位数的抽样分布抽样分布平均数的平均数的抽样分布抽样分布emxemExE)()(0 01 12 23 34 45 56 67 71001002002003003004004001252125)(21nSE5 .62)(2nSE有有偏偏无无偏偏学生学生成绩成绩 30 40 50 60 70 80 90按随机原则抽选出按随机原则抽选出5名学名学生,并计算平均分数。生,并计算平均分数。样本样本均值均值 样本样本均值均值ABCDEABCDFABCDGABCEFABCE
44、GABCFGABDEFABDEGABDFGABEFGACDEF5052545456585658606258ACDEGACDFGACEFGADEFGBCDEFBCDEGBCDFGBCEFGBDEFGCDEFG60626466606264666870样本均值样本均值 50 52 54 56 58 60出现次数出现次数 1 1 2 2 3 3样本均值样本均值 62 64 66 68 70 出现次数出现次数 3 2 2 1 10 01 12 23 34 45 56 6454547.547.5505052.552.5555557.557.5606062.562.5656567.567.5707072.5
45、72.57575n=4时时 的的抽样分布抽样分布xn=5时时 的的抽样分布抽样分布xq 为的无偏、有效、一致估计量;为的无偏、有效、一致估计量;q 为的无偏、有效、一致估计量;为的无偏、有效、一致估计量;q 为的无偏、有效、一致估计量。为的无偏、有效、一致估计量。xX1nSpP三、参数估计方法三、参数估计方法从总体中抽取一个随机样本,计算与总从总体中抽取一个随机样本,计算与总体参数相应的样本统计体参数相应的样本统计量,然后把该统量,然后把该统计量视为总体参数的估计值,称为参数计量视为总体参数的估计值,称为参数的点估计,又称定值估计。的点估计,又称定值估计。点估计点估计pPsxX, 的抽样分布的
46、抽样分布x点估计的最大好处:给出确定的值点估计的最大好处:给出确定的值点估计的最大问题:无法控制误差点估计的最大问题:无法控制误差例:根据某班男生身高服从例:根据某班男生身高服从 ,样本,样本资料为资料为165165,167167,169169,172172,172172,175175(单位:(单位:厘米),试估计厘米),试估计 和和 的值。的值。),(2Nx解:由于解:由于 和和 S分别是分别是 和和 的优良估计量,的优良估计量,而而)(17.170)175173172169167165(611cmxnxx57.14)(1122xxnS)(82. 3cmS 区间估计区间估计根据给定的置信度要
47、求,指出总体参数根据给定的置信度要求,指出总体参数被估计的上限和下限。被估计的上限和下限。一般,对于总体被估计参数一般,对于总体被估计参数 ,找出样本的两个估,找出样本的两个估计量计量 和和 (其中(其中 ),使区间(),使区间( ) 涵盖涵盖给估计参数真值的概率为给估计参数真值的概率为1-1-,其中其中为介于为介于0-10-1之之间的已知数,即间的已知数,即122121,1)(21P称称区间(区间( )为总体参数的估计区间,)为总体参数的估计区间, 为估计为估计下限,下限, 为估计上限,为估计上限,1- 1- 为为估计置信度,估计置信度,为为显显著性水平。著性水平。21,12以样本统计量为中
48、心,以以样本统计量为中心,以抽样平均误差为距离单位,可抽样平均误差为距离单位,可以构造一个区间,并可以一定以构造一个区间,并可以一定的概率保证待估计的总体参数的概率保证待估计的总体参数落在这个区间之中。区间越大,落在这个区间之中。区间越大,则概率保证程度越高。则概率保证程度越高。置信区间:置信区间:是从样本数据计算出来的一个区间。是从样本数据计算出来的一个区间。例如:例如:95%的置信区间的置信区间表示在所有的样本当中,有表示在所有的样本当中,有95%的样的样本会把总体参数包含在区间之中。本会把总体参数包含在区间之中。ppxxpPpxXx或即68.27%95.45%99.73%),(2nXNx
49、Xxx2x3x2xx3xxxxxxxXxXx,或,其中,其中, 为极限误差为极限误差xxZ四、常见的参数估计四、常见的参数估计x1,12222ffxxsnxxs22snsnx或NnnsNnnx1122或xxZxxxxxxXxXx,或,总体平均数的区间估计总体平均数的区间估计目标目标:xxxx 任务任务: 计算计算 及及xxxx 而而转化为求转化为求xx2n2(1)nnN重复抽样重复抽样不重复抽样不重复抽样2未知用未知用221()1isxxn代替代替按按 日产量分组日产量分组(件)(件)组中值组中值(件)(件)工人数工人数(人)(人)1101141141181181221221261261301
50、3013413413813814211211612012412813213614037182321186433681221602852268823768165605887006489284648600784合计合计100126004144xfxffxx2件件47.69941441126100126002ffxxsfxfx件614.01000100110047.6122Nnnsx件203.1614.096.1xxZXXN203. 11261000203. 11261000,203. 1126203. 1126XNXppppppPpPp,或,其中,其中, 为极限误差为极限误差ppZnnp12p11