《第七章 统计 抽样推断.ppt》由会员分享,可在线阅读,更多相关《第七章 统计 抽样推断.ppt(102页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第二节第二节 总体和样本总体和样本第五节第五节 抽样设计抽样设计第七章第七章 抽样推断抽样推断第一节第一节 抽样推断概述抽样推断概述 第三节:点估计和抽样平均误差第三节:点估计和抽样平均误差 第四节:抽样分布和区间估计第四节:抽样分布和区间估计第一节第一节 抽样推断概述抽样推断概述 指样本单位的抽取不受主指样本单位的抽取不受主观因素及其他系统性因素观因素及其他系统性因素的影响,每个总体单位都的影响,每个总体单位都有均等的被抽中机会有均等的被抽中机会一一、抽样推断抽样推断按照按照随机原则随机原则 从全部研究对象中抽取一从全部研究对象中抽取一部分单位进行调查,并以调查结果对总部分单位进行调查,并以
2、调查结果对总体数量特征作出具有一定可靠程度的估体数量特征作出具有一定可靠程度的估计与推断,从而认识总体的一种统计方计与推断,从而认识总体的一种统计方法。法。统计推断统计推断总体指标:总体指标:参数参数(未知量)(未知量)样本总体指标:样本总体指标:统统计量(已知量计量(已知量)抽样推断抽样推断欲了解某湖中鱼的总产量,如果湖中有欲了解某湖中鱼的总产量,如果湖中有N条鱼,条鱼,平均每条鱼的重量为平均每条鱼的重量为 kg,湖中鱼的总产量,湖中鱼的总产量就为就为N kg.但由于不方便在湖中进行全面调查,因此,总但由于不方便在湖中进行全面调查,因此,总产量也是未知的,这可以通过抽样来估计。产量也是未知的
3、,这可以通过抽样来估计。例例1 对湖中鱼产量的估计。对湖中鱼产量的估计。首先,为了便于抽样,需要对总体做一下处首先,为了便于抽样,需要对总体做一下处理。在湖面上均匀地打捞出若干网鱼,假设共理。在湖面上均匀地打捞出若干网鱼,假设共有有N1条,将它们做上记号后重新扔回湖中。这条,将它们做上记号后重新扔回湖中。这样就可以从湖中进行抽样了,重复刚才的做法,样就可以从湖中进行抽样了,重复刚才的做法,再次从湖中均匀地打捞出若干网鱼,假设共有再次从湖中均匀地打捞出若干网鱼,假设共有n条,这条,这n条就构成了一个样本。条就构成了一个样本。一般而言,这一般而言,这n条鱼会有一部分有记号,设其条鱼会有一部分有记号
4、,设其为为n1条,另外一部分则没有记号,它必然为条,另外一部分则没有记号,它必然为n-n1条,样本中有记号的鱼所占的比重条,样本中有记号的鱼所占的比重(记作记作p)为为n1/n.可以这样去推理:鱼在湖中的游动具有一定可以这样去推理:鱼在湖中的游动具有一定的随机性质,如果网是均匀撒出的,则打捞出的的随机性质,如果网是均匀撒出的,则打捞出的鱼应当对湖中整个的鱼具有较好的代表性。整个鱼应当对湖中整个的鱼具有较好的代表性。整个湖中有记号的鱼所占的比重湖中有记号的鱼所占的比重(记为记为P)N1/N虽然未知,虽然未知,但可以通过有记号的鱼所占的比重但可以通过有记号的鱼所占的比重n1/n去估计,去估计,即即
5、于是,整个湖中鱼的总数目于是,整个湖中鱼的总数目N的点估计就是的点估计就是同上,如果将样本中同上,如果将样本中n条鱼的平均重量计算出条鱼的平均重量计算出来,记为来,记为 ,它就可以作为湖中全部鱼的平,它就可以作为湖中全部鱼的平均重量均重量 的估计量,则湖中鱼产量的点估计的估计量,则湖中鱼产量的点估计量为量为例例2 某工厂生产了一批产品,共某工厂生产了一批产品,共10000件,须经件,须经检验后方可出厂,按规定次品率不得超过检验后方可出厂,按规定次品率不得超过3。现从中抽取现从中抽取100件产品,结果发现有件产品,结果发现有5件次品,问件次品,问这批产品能否投入市场?这批产品能否投入市场?统计假
6、设统计假设 H0:很明显样本很明显样本100件产品的实际次品率高于规定的件产品的实际次品率高于规定的要求,高出要求,高出2。高出的。高出的2是由于什么原因造是由于什么原因造成的呢?成的呢?深入考察就会发现有两种可能性:一种情况是该深入考察就会发现有两种可能性:一种情况是该批批10000件产品的次品率超过件产品的次品率超过3,高出的,高出的2是是由于选取由于选取100件产品的随机性而造成的;另一种件产品的随机性而造成的;另一种情况是情况是10000件产品的次品率不符合要求,样本件产品的次品率不符合要求,样本的次品率高出原来的假设不是偶然的或随机的,的次品率高出原来的假设不是偶然的或随机的,而是有
7、其内在的、必然的系统性原因。而是有其内在的、必然的系统性原因。随机原则的实现随机原则的实现抽签法抽签法是将总体中每个单位的是将总体中每个单位的是将总体中每个单位的是将总体中每个单位的编号编号编号编号写在外形完全写在外形完全写在外形完全写在外形完全一致的签上,将其搅拌均匀,从中任意抽一致的签上,将其搅拌均匀,从中任意抽一致的签上,将其搅拌均匀,从中任意抽一致的签上,将其搅拌均匀,从中任意抽选,签上的号码所对应的单位就是样本单选,签上的号码所对应的单位就是样本单选,签上的号码所对应的单位就是样本单选,签上的号码所对应的单位就是样本单位。位。位。位。随机数表法随机数表法将总体中每个单位将总体中每个单
8、位将总体中每个单位将总体中每个单位编上号码编上号码编上号码编上号码,然后使,然后使,然后使,然后使用随机数表,查出所要抽取的调查单用随机数表,查出所要抽取的调查单用随机数表,查出所要抽取的调查单用随机数表,查出所要抽取的调查单位。位。位。位。计算机模拟法计算机模拟法是将随机数字编制为程序存储在是将随机数字编制为程序存储在是将随机数字编制为程序存储在是将随机数字编制为程序存储在计算计算计算计算机机机机中,需要时将总体中各单位编上号中,需要时将总体中各单位编上号中,需要时将总体中各单位编上号中,需要时将总体中各单位编上号码,启用码,启用码,启用码,启用随机数字发生器随机数字发生器随机数字发生器随机
9、数字发生器输出随机数输出随机数输出随机数输出随机数字,然后从总体中找到相应总体单位字,然后从总体中找到相应总体单位字,然后从总体中找到相应总体单位字,然后从总体中找到相应总体单位形成样本。形成样本。形成样本。形成样本。二、特点:二、特点:1、样本单位是按随机原则抽取的、样本单位是按随机原则抽取的2、抽样推断是一种从数量上由部分推断总体、抽样推断是一种从数量上由部分推断总体 的研究方法的研究方法3、抽样推断是采用概率估计的方法、抽样推断是采用概率估计的方法 4、抽样推断的误差可以事先计算并加以控制、抽样推断的误差可以事先计算并加以控制 与全面调查相比,抽样调查既节省了人力、与全面调查相比,抽样调
10、查既节省了人力、物力、财力和时间,又达到了认识总体数量特物力、财力和时间,又达到了认识总体数量特征的目的。征的目的。我国在我国在19941994年确立了以周期性普查年确立了以周期性普查为基础,以经常性抽样调查为主体,同时辅之为基础,以经常性抽样调查为主体,同时辅之以以重点调查、科学核算等综合运用的统计调查重点调查、科学核算等综合运用的统计调查方法体系。方法体系。三、优点:三、优点:1、更科学、更科学2、更经济、更经济3、时效性强、时效性强 4、应用广、应用广四、抽样推断的应用四、抽样推断的应用(1)调查具有破坏性的场合)调查具有破坏性的场合(2)对无限总体或总体规模非常大的场合)对无限总体或总
11、体规模非常大的场合 进行调查进行调查(3)不必要进行全面调查但又需要知道)不必要进行全面调查但又需要知道 总体的全面情况时总体的全面情况时(4)对全面调查的结果进行核查和修正)对全面调查的结果进行核查和修正(5)对资料时效性要求很强的场合)对资料时效性要求很强的场合 q不可能不可能进行全面调查时进行全面调查时q不必要不必要进行全面调查时进行全面调查时q来不及来不及进行全面调查时进行全面调查时q对全面调查资料进行对全面调查资料进行补充修正补充修正时时抽样推断的应用抽样推断的应用抽样推断的理论基础抽样推断的理论基础大数定律大数定律中心极限定律中心极限定律表明大量随机观象表明大量随机观象平均结果平均
12、结果具有具有稳定性稳定性的性的性质。质。大数定律论证了如果独立随机变量总体大数定律论证了如果独立随机变量总体存在有限的平均数和方差,则对于充分大的存在有限的平均数和方差,则对于充分大的样本可以近乎样本可以近乎100%100%的概率,期望样本平均的概率,期望样本平均数与总体平均数的绝对离差数与总体平均数的绝对离差为任意小。为任意小。如果变量总体存在有限的平均数和方如果变量总体存在有限的平均数和方差,那么不论这差,那么不论这个总体的分布如何,个总体的分布如何,随着样本容量的增加,样本平均数的随着样本容量的增加,样本平均数的分布,便趋近于分布,便趋近于正态分布正态分布。按照总体所包含总体单位个数的多
13、少,可按照总体所包含总体单位个数的多少,可以分为有限总体和无限总体。以分为有限总体和无限总体。第二节第二节 总体和样本总体和样本 按照按照样样本本单单位的来源不同,可将位的来源不同,可将总总体分体分为为目目标总标总体和抽体和抽样总样总体体。(一一)总体总体一、总体和总体指标一、总体和总体指标目标总体目标总体抽样总体抽样总体是所要认识研究对象的全体,它由具是所要认识研究对象的全体,它由具有某种共同性质或特征的单位所组成。有某种共同性质或特征的单位所组成。常用常用N表示全及总体的单位数目。表示全及总体的单位数目。是指从中抽取样本的总体,亦即样本是指从中抽取样本的总体,亦即样本单位实际来源的总体。单
14、位实际来源的总体。根据总体各个单位的标志值或标志根据总体各个单位的标志值或标志特征所计算的反映总特征所计算的反映总体某种属性的体某种属性的综合指标综合指标,又称,又称总体参数总体参数。总体指标总体指标设总体中设总体中 个总体单位某项标志的标志值分别个总体单位某项标志的标志值分别为为 ,其中具有某种属性的有,其中具有某种属性的有 个个单位,不具有某种属性的有单位,不具有某种属性的有 个单位,则个单位,则(二二)主要的总体指标主要的总体指标 总体平均数(又叫总体均值):总体平均数(又叫总体均值):或记作:或记作:总体单位标志值的标准差:总体单位标志值的标准差:总体单位标志值的方差总体单位标志值的方
15、差:总体成数:总体成数:6.总体是非标志的标准差:总体是非标志的标准差:7.总体是非标志的方差:总体是非标志的方差:5.总体是非标志的平均数:总体是非标志的平均数:(一一)样本样本二、样本和样本指标二、样本和样本指标又称子样,是指从总体中按照随机原则抽取的又称子样,是指从总体中按照随机原则抽取的那部分个体的集合。那部分个体的集合。样本的单位数称为样本的单位数称为样本容样本容量量,通常用,通常用n表示。表示。1nN。n30称为大样本称为大样本,n 30称为小样本称为小样本.n/N称为抽样比称为抽样比.例如:例如:在在100100万户居民中,随机抽取万户居民中,随机抽取10001000户居民进行户
16、居民进行家庭收支情况调查,其中的家庭收支情况调查,其中的100100万户居万户居民就是总体,民就是总体,而被抽中的而被抽中的1000户居民则构成样本。户居民则构成样本。(二二)主要的样本指标主要的样本指标指根据抽样总体各个单位的标志值指根据抽样总体各个单位的标志值或标志特征计算的综合指标,又被或标志特征计算的综合指标,又被称为称为统计量,统计量,它是它是随机变量。随机变量。样本指标样本指标设样本中设样本中 个样本单位某项标志的标志值个样本单位某项标志的标志值分别为分别为 ,其中具有和不具有某,其中具有和不具有某种属性的样本单位数目分别为种属性的样本单位数目分别为 和和 个,则个,则 样本平均数
17、(又叫样本均值):样本平均数(又叫样本均值):样本单位标志值的标准差:样本单位标志值的标准差:样本单位标志值的方差:样本单位标志值的方差:为自由度为自由度为 的无偏估计 样本成数:样本成数:样本单位是非标志的标准差:样本单位是非标志的标准差:样本单位是非标志的方差:样本单位是非标志的方差:为为 的的无偏估计无偏估计5.样本单位是非标志的平均数:样本单位是非标志的平均数:三、抽样方法的分类三、抽样方法的分类重复抽样重复抽样从总体从总体N N个单位中随机抽取一个样本容个单位中随机抽取一个样本容量为量为n n的样本,每次从总体中抽取一个,的样本,每次从总体中抽取一个,并把结果登记下来,又放回总体中重
18、新并把结果登记下来,又放回总体中重新参加下一次的抽选。又称参加下一次的抽选。又称放回抽样放回抽样不重复抽样不重复抽样每次从总体中抽选一个单位后就不每次从总体中抽选一个单位后就不再将其放回参加下一次的抽选。又再将其放回参加下一次的抽选。又称称不放回抽样不放回抽样.总体单位数总体单位数N N不变,同一单位可能不变,同一单位可能多次被抽中。多次被抽中。总体单位数减少总体单位数减少n n,同一单位只可能,同一单位只可能被抽中一次。被抽中一次。根据取样方式不同,可分为:根据取样方式不同,可分为:抽样方法的分类抽样方法的分类根据对样本的要求不同,可分为:根据对样本的要求不同,可分为:考虑顺序抽样考虑顺序抽
19、样不考虑顺序抽样不考虑顺序抽样考虑各单位的中选顺序。考虑各单位的中选顺序。ABCCBA不考虑各单位的中选顺序。不考虑各单位的中选顺序。ABCCBA考虑顺序的重复抽样考虑顺序的重复抽样不考虑顺序的不重复抽样不考虑顺序的不重复抽样考虑顺序的不重复抽样考虑顺序的不重复抽样不考虑顺序的重复抽样不考虑顺序的重复抽样综合起来共有综合起来共有四种抽样方法四种抽样方法样本的可能数目样本的可能数目考虑顺序的不重复抽样考虑顺序的不重复抽样不考虑顺序的不重复抽样不考虑顺序的不重复抽样考虑顺序的重复抽样考虑顺序的重复抽样不考虑顺序的重复抽样不考虑顺序的重复抽样 第三节:点估计和抽样平均误差第三节:点估计和抽样平均误差
20、 人们每时每刻都在做估计。根据婴儿的哭声人们每时每刻都在做估计。根据婴儿的哭声估计其冷热和什么时候吃奶、根据望闻问切来估计其冷热和什么时候吃奶、根据望闻问切来估计病人的病情、根据外表估计一个人的身高估计病人的病情、根据外表估计一个人的身高体重、根据前几天的数据估计今天的股市行情,体重、根据前几天的数据估计今天的股市行情,根据营业数据等估计一个公司的业绩等等。估根据营业数据等估计一个公司的业绩等等。估计就是根据你拥有的信息来对现实世界进行某计就是根据你拥有的信息来对现实世界进行某种判断。统计中的估计也不例外,它是完全根种判断。统计中的估计也不例外,它是完全根据数据做出的。据数据做出的。点估计点估
21、计从总体中抽取一个随机样本,计算与总从总体中抽取一个随机样本,计算与总体参数相应的样本统计体参数相应的样本统计量,然后把该统量,然后把该统计量视为总体参数的估计值,称为参数计量视为总体参数的估计值,称为参数的点估计。的点估计。简单,具体明确简单,具体明确优点优点缺点缺点无法控制误差,仅适用于对推断的准无法控制误差,仅适用于对推断的准确程度与可靠程度要求不高的情况确程度与可靠程度要求不高的情况 的抽样分布的抽样分布点估计的最大好处:给出确定的值点估计的最大好处:给出确定的值点估计的最大问题:无法控制误差点估计的最大问题:无法控制误差抽样估计量的优良标准抽样估计量的优良标准设为待估计的总体参数,设
22、为待估计的总体参数,为样本统为样本统计量,则的优良标准为:计量,则的优良标准为:若,则称为的无偏若,则称为的无偏估计量估计量指样本指标的均值应等于被估指样本指标的均值应等于被估计的总体指标计的总体指标无偏性无偏性若,则称为比更有效的估计量若,则称为比更有效的估计量若越大越小,则称为的一致估计量若越大越小,则称为的一致估计量作为优良的估计量,除了满足无偏作为优良的估计量,除了满足无偏性的要求外,其方差应比较小性的要求外,其方差应比较小有效性有效性指随着样本单位数指随着样本单位数 的增大,样本的增大,样本估计量将在概率意义下越来越接近估计量将在概率意义下越来越接近于总体真实值于总体真实值一致性一致
23、性抽样估计量的优良标准抽样估计量的优良标准问题:问题:第一,我们为什么以这一个而第一,我们为什么以这一个而不是那一个统计量来估计某个总体不是那一个统计量来估计某个总体参数?参数?估计值的优良标准估计值的优良标准第二,如果有两个以上的统计第二,如果有两个以上的统计量可以用来估计某个总体参数,其量可以用来估计某个总体参数,其估计结果是否一致?是否一个统计估计结果是否一致?是否一个统计量要优于另一个?量要优于另一个?估计值的优良标准:估计值的优良标准:无偏性、有效性、一致性无偏性、有效性、一致性q 为的无偏、有效、一致估计量;为的无偏、有效、一致估计量;q 为的无偏、有效、一致估计量;为的无偏、有效
24、、一致估计量;q 为的无偏、有效、一致估计量。为的无偏、有效、一致估计量。数理统计证明:数理统计证明:抽样估计量的优良标准抽样估计量的优良标准一、抽样误差一、抽样误差统计误差统计误差指统计调查结果所获得的统计数字指统计调查结果所获得的统计数字与与客观事物实际数值的差别。客观事物实际数值的差别。(一)登记性误差(一)登记性误差偶然性登记误差偶然性登记误差系统性登记误差系统性登记误差 (二)代表性误差(二)代表性误差 指采用非全面调查的方式,利用部分单位资料推断总指采用非全面调查的方式,利用部分单位资料推断总体资料时所产生的误差。体资料时所产生的误差。1、系统性误差、系统性误差 抽取样本单位时,未
25、用、破坏随机原则产生的误差。抽取样本单位时,未用、破坏随机原则产生的误差。2、随机误差、随机误差 遵循随机原则下产生的误差,遵循随机原则下产生的误差,即抽样误差。即抽样误差。抽样误差的定义:抽样误差的定义:在随机抽样的条件下,在克服了或消灭了登记性在随机抽样的条件下,在克服了或消灭了登记性误差的条件下,样本指标与总体指标之间的误差。误差的条件下,样本指标与总体指标之间的误差。如:如:1、抽样误差是个概念,只能理解无法计算;、抽样误差是个概念,只能理解无法计算;2、抽样误差是个变量,随着样本不同而不同。、抽样误差是个变量,随着样本不同而不同。问:抽样误差是个变量,那么抽样误差有多少个问:抽样误差
26、是个变量,那么抽样误差有多少个变量值?变量值?平均误差平均误差二、抽样平均误差二、抽样平均误差(一)抽样平均误差的定义公式(一)抽样平均误差的定义公式1 1、平均数的抽样平均误差、平均数的抽样平均误差2 2、成数的抽样平均误差、成数的抽样平均误差(二)抽样平均误差的计算公式(二)抽样平均误差的计算公式1 1、平均数的抽样平均误差、平均数的抽样平均误差n:样本容量样本容量总体方差总体方差(1)重复抽样时)重复抽样时已知总体标准差:已知总体标准差:(2)不重复抽样时)不重复抽样时n:样本容量样本容量总体方差总体方差N:总体单位数总体单位数不是成数,是抽样不是成数,是抽样比例,又叫修正系比例,又叫修
27、正系数数2 2、成数的抽样平均误差、成数的抽样平均误差(1)重复抽样时)重复抽样时n:样本容量样本容量P(1-P):是非标志的方差是非标志的方差(2)不重复抽样时)不重复抽样时n:样本容量样本容量P(1-P):是非标志的方差是非标志的方差N:总体单位数总体单位数下面举例说明抽样平均误差的计算式和其定义式等价下面举例说明抽样平均误差的计算式和其定义式等价例:例:设有甲、乙、丙、丁四个人,他们的年龄分别是20、21、23、24岁,现从中抽取2人(n=2)调查他们的平均年龄。试计算抽样平均误差。解:解:1、重复条件下:、重复条件下:序序号号样本样本资料资料(样本(样本平均值)平均值)1 12 23
28、34 45 56 67 78 89 91010111112121313141415151616甲甲 甲甲甲甲 乙乙甲甲 丙丙甲甲 丁丁乙乙 甲甲乙乙 乙乙乙乙 丙丙乙乙 丁丁丙丙 甲甲丙丙 乙乙丙丙 丙丙丙丙 丁丁丁丁 甲甲丁丁 乙乙丁丁 丙丙丁丁 丁丁 合计合计-甲、乙、丙、丁四个人,他们的年龄分别是20、21、23、24岁20 2020 2120 2320 2421 2021 2121 2321 2423 2023 2123 2323 2424 2024 2124 2324 24 20 20.5 21.5 22 20.5 21 22 22.5 21.5 22 23 23.5 22 22.5
29、 23.5 24 4 2.25 0.25 0 2.25 1 0 0.25 0.25 0 1 2.25 0 0.25 2.25 4 20解:解:1、重复条件下:、重复条件下:用定义公式计算用定义公式计算用计算公式计算用计算公式计算2、不重复条件下:、不重复条件下:用定义公式计算用定义公式计算用计算公式计算用计算公式计算通过上例还可以得出所有样本平均数的平均数如下:通过上例还可以得出所有样本平均数的平均数如下:可以得出如下结论:无论重复抽样还是可以得出如下结论:无论重复抽样还是不重复抽样,所有样本平均数的平均数等不重复抽样,所有样本平均数的平均数等于总体平均数即:于总体平均数即:同理:无论重复抽样
30、还是不重复抽样,所有样本成数的同理:无论重复抽样还是不重复抽样,所有样本成数的平均数等于总体成数即:平均数等于总体成数即:由上述结论可得:由上述结论可得:可见抽样平均误差也是一个标准差的概念。可见抽样平均误差也是一个标准差的概念。平均数的抽样平均误差是所有可能的样本的平均数的标准差;平均数的抽样平均误差是所有可能的样本的平均数的标准差;同理同理,成数的抽样平均误差是所有可能的样本的成数的标准差。成数的抽样平均误差是所有可能的样本的成数的标准差。对抽样平均误差的确切定义:对抽样平均误差的确切定义:概括为:抽样平均误差是所有可能的样本指标概括为:抽样平均误差是所有可能的样本指标的标准差。的标准差。
31、影响抽样误差的因素影响抽样误差的因素q总体各单位标志值的差异程度(即总体各单位标志值的差异程度(即标准差的大小):标准差的大小):越大,抽样误差越大,抽样误差越大;越大;q样本单位数的多少:样本单位数的多少:越大,抽样误越大,抽样误差越小;差越小;q抽样方法:抽样方法:不重复抽样的抽样误差不重复抽样的抽样误差比重复抽样的抽样误差小;比重复抽样的抽样误差小;q抽样组织方式:抽样组织方式:在总体变异程度较在总体变异程度较大的情况下,分层抽样的误差较简单大的情况下,分层抽样的误差较简单随机抽样的误差小。随机抽样的误差小。关于总体方差的估计方法关于总体方差的估计方法q用过去同类问题全面调查或抽样调查的
32、经用过去同类问题全面调查或抽样调查的经验数据代替;验数据代替;q用样本标准差用样本标准差 代替总体标准差代替总体标准差 ,用,用 代替代替 。抽样平均误差的计算公式抽样平均误差的计算公式抽样极限抽样极限误差误差指在一定的概率保证程度下,抽指在一定的概率保证程度下,抽样指标与总体指标之间抽样误差样指标与总体指标之间抽样误差的最大可能范围,也称作的最大可能范围,也称作抽样允抽样允许误差。许误差。常用常用表示表示。上式表明,样本平均数(成数)是以总体平均数(成数)上式表明,样本平均数(成数)是以总体平均数(成数)为中心,在相应的区间内变动。为中心,在相应的区间内变动。样本统样本统计量计量总体未总体未
33、知参数知参数样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量抽样分布抽样分布样本统计量所有可能值的样本统计量所有可能值的概率分布概率分布主要样本主要样本统计量统计量平均数比率(成数)方差平均数比率(成数)方差 第四节:抽样分布和区间估计第四节:抽样分布和区间估计平均数的抽样分布平均数的抽样分布q全部可能样本平均数的均值等于总体均全部可能样本平均数的均值等于总体均值,即:值,即:q从非正态总体中抽取的样本平
34、均数当从非正态总体中抽取的样本平均数当n n足够大时其分布接近正态分布。足够大时其分布接近正态分布。q从正态总体中抽取的样本平均数不论容从正态总体中抽取的样本平均数不论容量大小其分布均为正态分布。量大小其分布均为正态分布。q样本均值的标准差为总体标准差的样本均值的标准差为总体标准差的 。统计学统计学第七章第七章 抽样推断抽样推断比率的抽样分布比率的抽样分布q全部可能样本比率的均值等于总体比率,全部可能样本比率的均值等于总体比率,即:即:q从非正态总体中抽取的样本比率,当从非正态总体中抽取的样本比率,当n n足够大时其分布接近正态分布。足够大时其分布接近正态分布。q从正态总体中抽取的样本比率,不
35、论容从正态总体中抽取的样本比率,不论容量大小其分布均为正态分布。量大小其分布均为正态分布。q样本比率的标准差为总体标准的样本比率的标准差为总体标准的 。统计学统计学第七章第七章 抽样推断抽样推断全部可能样本比率的均值等于总全部可能样本比率的均值等于总体比率,即:体比率,即:从非正态总体中抽取的样本比率当从非正态总体中抽取的样本比率当n足够大时其分布接近正态分布。足够大时其分布接近正态分布。从正态总体中抽取的样本比率不论容从正态总体中抽取的样本比率不论容量大小其分布均为正态分布。量大小其分布均为正态分布。样本比率的标准差为总体标准差的样本比率的标准差为总体标准差的 。比率的抽样分布比率的抽样分布
36、统计学统计学第七章第七章 抽样推断抽样推断二、区间估计二、区间估计 以一定的把握程度估计总体指标在什么范围内,以一定的把握程度估计总体指标在什么范围内,并给出这个范围的概率(可信程度、置信度、把握程并给出这个范围的概率(可信程度、置信度、把握程度)。度)。1 1、估计总体平均数时、估计总体平均数时 (1)的概率为的概率为0.6827;(2)的概率为的概率为0.9545;(3)的概率为的概率为0.9973;(4)的概率为的概率为 。抽样估计的置信度抽样估计的置信度抽样指标和总体指标的误差不超过一定抽样指标和总体指标的误差不超过一定范围的概率大小,我们将它称之为概率范围的概率大小,我们将它称之为概
37、率保保证程度,也叫抽样估计的置信度,一证程度,也叫抽样估计的置信度,一般用般用F(z)(或或 )表示。即:表示。即:置信度置信度z值与相应的概率保证程度存在一一对应关,值与相应的概率保证程度存在一一对应关,常用常用z值及相应的概率保证程度为:值及相应的概率保证程度为:z值值 概率保证程度概率保证程度1.00 0.6827 1.96 0.9500 2.00 0.9545 3.00 0.9973在在大大样样本本下下为为Z的函数:的函数:ZF(Z)11.96230.68270.95000.95450.9973为概率、置信度、把握程度和可信程度;也为概率、置信度、把握程度和可信程度;也表表示为示为(1
38、-)为为显著性水平。显著性水平。2 2、估计总体成数时、估计总体成数时的概率为 。置信水平置信水平(%)Z 90959968.2795.4599.730.100.050.011.641.962.58123以样本统计量为中心,以抽以样本统计量为中心,以抽样平均误差为距离单位,可以构样平均误差为距离单位,可以构造一个区间,并可以一定的概率造一个区间,并可以一定的概率保证待估计的总体参数落在这个保证待估计的总体参数落在这个区间之中。区间越大,则概率保区间之中。区间越大,则概率保证程度越高。证程度越高。区间估计原理区间估计原理总体平均数的区间估计总体平均数的区间估计表表达达式式其中,其中,为极限误差为
39、极限误差步骤步骤 计算样本平均数计算样本平均数 ;搜集总体方差的经验数据搜集总体方差的经验数据 ;或计;或计算样本方差算样本方差 ,即,即总体平均数的区间估计总体平均数的区间估计步步骤骤 计算抽样平均误差计算抽样平均误差:重复抽样时重复抽样时:不重复抽样时不重复抽样时:总体平均数的区间估计总体平均数的区间估计步步骤骤 计算抽样极限误差:计算抽样极限误差:确定总体平均数的置信区间:确定总体平均数的置信区间:总体平均数的区间估计总体平均数的区间估计 【例例例例1 1】对对对对一一一一批批批批产产产产品品品品随随随随机机机机抽抽抽抽取取取取100100件件件件,测测测测量量量量其其其其长长长长度度度
40、度 的的的的 平平平平 均均均均 长长长长 度度度度 为为为为 10cm10cm,标标标标 准准准准 差差差差 为为为为 0.5cm0.5cm,试试试试 以以以以95.45%95.45%的概率估计该批产品平均长度的区间范围。的概率估计该批产品平均长度的区间范围。的概率估计该批产品平均长度的区间范围。的概率估计该批产品平均长度的区间范围。解:解:解:解:已知已知 ,n=100 =95.45%,可得,可得 z=2 答:该批产品平均长度在答:该批产品平均长度在答:该批产品平均长度在答:该批产品平均长度在9.99.9,10.1 10.1 范围内变动。范围内变动。范围内变动。范围内变动。【例例例例2 2
41、】对对对对某某某某工工工工厂厂厂厂工工工工人人人人随随随随机机机机抽抽抽抽取取取取5050人人人人调调调调查查查查他他他他们们们们的的的的月工资资料如下:月工资资料如下:月工资资料如下:月工资资料如下:月工资(元)月工资(元)人数(人)人数(人)550以下以下550650650750750以上以上1015205合合 计计50试以试以试以试以95.45%95.45%的概率估计该厂工人平均工资的区间范围。的概率估计该厂工人平均工资的区间范围。的概率估计该厂工人平均工资的区间范围。的概率估计该厂工人平均工资的区间范围。月工资月工资(元)(元)人数(人)人数(人)f组中值组中值(元)(元)Xxf550
42、以下以下550650650750750以上以上101520550060070080050009000140004000合合 计计5032000196001600360025600196000240007200012800 420000 =95.45%,可得,可得 z=2 答答答答:该该该该厂厂厂厂工工工工人人人人的的的的平平平平均均均均工工工工资资资资在在在在613.82613.82,666.18 666.18 范范范范围围围围内变动。内变动。内变动。内变动。【例例3 3】某企业生产某种产品的工某企业生产某种产品的工人有人有10001000人,某日采用不重复抽样人,某日采用不重复抽样从中随机抽
43、取从中随机抽取100100人调查他们的当人调查他们的当日产量,要求在日产量,要求在9595的概率保证程的概率保证程度下,度下,估计该厂全部工人的日平均估计该厂全部工人的日平均产量和日总产量。产量和日总产量。按按 日产量分组日产量分组(件)(件)组中值组中值(件)(件)工人数工人数(人)(人)11011411411811812212212612613013013413413813814211211612012412813213614037182321186433681221602852268823768165605887006489284648600784合计合计1001260041441001
44、00名工人的日产量分组资料名工人的日产量分组资料解:解:统计学统计学第六章第六章 抽样推断抽样推断则该企业工人人均产量则该企业工人人均产量 及日总产及日总产量量 的置信区间为:的置信区间为:即该企业工人人均产量在即该企业工人人均产量在124.797124.797至至127.203127.203件之间,其日总产量在件之间,其日总产量在124797124797至至127303127303件之间,估计的可靠程度为件之间,估计的可靠程度为9595统计学统计学第六章第六章 抽样推断抽样推断 练练练练习习习习:某某某某厂厂厂厂负负负负责责责责人人人人预预预预估估估估计计计计60006000根根根根某某某某
45、零零零零件件件件的的的的长长长长度度度度,随随随随机机机机抽抽抽抽取取取取350350根根根根,测测测测验验验验得得得得其其其其平平平平均均均均长长长长度度度度为为为为21.4mm21.4mm,样样样样本本本本标标标标准准准准差差差差为为为为0.15mm0.15mm,试试试试求求求求总总总总体体体体均均均均值值值值的的的的置置置置信信信信度度度度为为为为95%95%的置信区间?的置信区间?的置信区间?的置信区间?解:解:解:解:已知已知 ,n=350,N=6000 =95%,可得,可得 z=1.96 答答答答:总总总总体体体体均均均均值值值值的的的的置置置置信信信信度度度度为为为为95%95%
46、的的的的置置置置信信信信区区区区间间间间为为为为21.3821.38,21.42 21.42。总体成数的区间估计总体成数的区间估计表表达达式式其中,其中,为极限误差为极限误差步步骤骤 计算样本成数计算样本成数 ;2.计算抽样平均误差:计算抽样平均误差:重复抽样条重复抽样条件下件下不重复抽不重复抽样条件下样条件下总体成数的区间估计总体成数的区间估计步步骤骤3.计算抽样极限误差:计算抽样极限误差:4.确定总体成数的置信区间:确定总体成数的置信区间:总体成数的区间估计总体成数的区间估计【例例4 4】若例若例3 3中工人日产量在中工人日产量在118118件以上者为完成生产定额任务,要件以上者为完成生产
47、定额任务,要求在求在9595的概率保证程度下,估计的概率保证程度下,估计该厂全部工人中完成定额的工人比该厂全部工人中完成定额的工人比重及完成定额的工人总数。重及完成定额的工人总数。总体成数的区间估计总体成数的区间估计按按 日产量分组日产量分组(件)(件)组中值(件)组中值(件)工人数(人)工人数(人)110114114118118122122126126130130134134138138142112116120124128132136140371823211864合计合计100100名工人的日产量分组资料名工人的日产量分组资料完成定额完成定额的人数的人数解:解:则该企业全部工人中完成定额的工
48、人比则该企业全部工人中完成定额的工人比重重 及完成定额的工人总数及完成定额的工人总数 的置信的置信区间为:区间为:即该企业工人中完成定额的工人比重在即该企业工人中完成定额的工人比重在0.84320.8432至至0.95680.9568之间,完成定额的工人之间,完成定额的工人总数在总数在843.2843.2至至956.8956.8人之间,估计的可人之间,估计的可靠程度为靠程度为9595。【例例例例5 5】对对对对一一一一批批批批粮粮粮粮食食食食作作作作物物物物的的的的种种种种子子子子随随随随机机机机抽抽抽抽取取取取200200粒粒粒粒,进进进进行行行行发发发发芽芽芽芽实实实实验验验验,结结结结果
49、果果果有有有有180180粒粒粒粒发发发发芽芽芽芽。试试试试以以以以95%95%的的的的概概概概率率率率估计该批种子发芽的区间范围。估计该批种子发芽的区间范围。估计该批种子发芽的区间范围。估计该批种子发芽的区间范围。解:解:解:解:n=200n=200 =95%,可得,可得 z=1.96 答答答答:有有有有95%95%的的的的概概概概率率率率认认认认为为为为该该该该批批批批种种种种子子子子发发发发芽芽芽芽率率率率内内内内85.84%85.84%,94.16%94.16%范围内。范围内。范围内。范围内。样本容量的确定样本容量的确定影响样本容量的因素影响样本容量的因素q总体各单位标志值的差异程度(
50、即标准总体各单位标志值的差异程度(即标准差的大小):差的大小):越大,所需样本容量越多越大,所需样本容量越多q允许的极限误差允许的极限误差的大小:的大小:越大,所越大,所需样本容量越小;需样本容量越小;q推断的可靠程度,即置信度:推断的可靠程度,即置信度:对可靠程对可靠程度要求越高,所需样本容量越大;度要求越高,所需样本容量越大;q抽样方法和抽样组织方式:抽样方法和抽样组织方式:重复抽样比重复抽样比不重复抽样所需样本容量要多;类型抽样不重复抽样所需样本容量要多;类型抽样比简单随机抽样所需样本容量多。比简单随机抽样所需样本容量多。样本容量样本容量调查误差调查误差调查费用调查费用小样本容量小样本容