《理学统计学抽样推断.pptx》由会员分享,可在线阅读,更多相关《理学统计学抽样推断.pptx(154页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、1.1 抽样方案的设计一、抽样估计的意义和一般步骤二、抽样方案设计的基本准则第1页/共154页一、抽样估计的意义和一般步骤 抽样估计的定义 抽样估计的特点 抽样估计的运用 抽样估计的一般步骤 总体参数与样本指标第2页/共154页指指样样本本单单位的抽取不受主位的抽取不受主观观因素及其他系因素及其他系统统性性因素的影响,每个因素的影响,每个总总体体单单位都有均等的被抽中位都有均等的被抽中机会机会抽样估计第六章 抽样推断按照随机原则 从调查对象中抽取一部分单位进行调查,并以调查结果对总体数量特征作出具有一定可靠程度的估计与推断,从而认识总体的一种统计方法第3页/共154页统计推断全及总体指标:参数
2、(未知量)样本总体指标:统计量(已知量)抽样估计第六章 抽样推断第4页/共154页并非所有的抽样估计都按随机原并非所有的抽样估计都按随机原则抽取样本,也有则抽取样本,也有非随机抽样非随机抽样总体总体随机样本随机样本非随机样本非随机样本与总体分布特征相同与总体分布特征相同与总体分布特征不同与总体分布特征不同第六章 抽样推断第5页/共154页q按随机原则抽取样本单位q目的是推断总体的数量特征q抽样推断的结果具有一定的可靠程度,抽样误差可以事先计算并控制抽样估计的特点第六章 抽样推断第6页/共154页q不可能进行全面调查时q不必要进行全面调查时q来不及进行全面调查时q对全面调查资料进行补充修正时抽样
3、估计的应用第六章 抽样推断第7页/共154页第六章 抽样推断抽样调查研究Sampling Study为什么要抽样?1.涉及破坏受试对象质量控制2.取得精确可靠的结果3.实际情况的约束时间,成本等第8页/共154页设计抽样方案抽取样本单位收集样本数据计计算算样样本本统统计计量量推断总体参数抽样估计的一般步骤第六章 抽样推断第9页/共154页设总体中设总体中 个总体单位某项标志的标志值分别个总体单位某项标志的标志值分别为为 ,其中具有某种属性的有,其中具有某种属性的有 个个单位,不具有某种属性的有单位,不具有某种属性的有 个单位,则个单位,则 总体平均数(又叫总体均值):总体平均数(又叫总体均值)
4、:指被估计的总体指标,又被称为指被估计的总体指标,又被称为全及指标全及指标总体参数第六章 抽样推断第10页/共154页 总体单位标志值的标准差:总体单位标志值的标准差:总体单位标志值的方差:总体单位标志值的方差:第六章 抽样推断第11页/共154页 总体成数:总体成数:总体是非标志的标准差:总体是非标志的标准差:总体是非标志的方差:总体是非标志的方差:第六章 抽样推断第12页/共154页设样本中设样本中 个样本单位某项标志的标志值个样本单位某项标志的标志值分别为分别为 ,其中具有和不具有某,其中具有和不具有某种属性的样本单位数目分别为种属性的样本单位数目分别为 和和 个,则个,则 样本平均数(
5、又叫样本均值):样本平均数(又叫样本均值):指根据样本单位的标志值计算的用以估计和推断相应总体指标指根据样本单位的标志值计算的用以估计和推断相应总体指标的综合指标,又被称为的综合指标,又被称为估计量或统计量估计量或统计量样本指标第六章 抽样推断第13页/共154页1.样本平均数的计算公式为:计算公式第14页/共154页 样本单位标志值的标准差:样本单位标志值的标准差:样本单位标志值的方差:样本单位标志值的方差:为自由度第15页/共154页2.样本方差的计算公式为:计算公式第16页/共154页第17页/共154页 样本成数:样本成数:样本单位是非标志的标准差:样本单位是非标志的标准差:样本单位是
6、非标志的方差:样本单位是非标志的方差:第六章 抽样推断第18页/共154页1.1 抽样方案的设计一、抽样估计的意义和一般步骤二、抽样方案设计的基本准则三、抽样方案设计的主要内容第19页/共154页 随机原则随机原则抽取样本单位时,应确保每个总体单位都有被抽取的可能;在对样本单位的资料进行搜集和整理时,不能随意遗漏或更换样本单位 抽样误差最小在其他条件相同的情况下,选抽样误差最小的方案 费用最少费用最少在其他条件相同的情况下,选费用最少的方案设计抽样方案时,通常是设计抽样方案时,通常是在误差达到一定要求的条在误差达到一定要求的条件下,选择费用最少的方案件下,选择费用最少的方案抽样方案设计的基本准
7、则第六章 抽样推断第20页/共154页1.1 抽样方案的设计一、抽样估计的意义和一般步骤二、抽样方案设计的基本准则三、抽样方案设计的主要内容第21页/共154页 编制抽样框 确定抽样方法 确定抽样组织方式 确定样本容量三、抽样方案设计的主要内容第22页/共154页抽样框指包括全部抽样单位的名单框架,仅对有限总体而言指包括全部抽样单位的名单框架,仅对有限总体而言主要形式名单抽样框区域抽样框时间表抽样框编制抽样框第六章 抽样推断第23页/共154页区域抽样框区域抽样框在商场的大门口在微波炉柜台前在市区街道旁边在某个住宅小区中山区沙河口区星海街道黑石礁街道尖山一委尖山二委居民一组居民二组某外国公司在
8、大连进行微波炉市场调查:第六章 抽样推断第24页/共154页时间表抽样框时间表抽样框连续出产的产品总体可以编制抽样框:均匀的出产时间、可以预见到的产品总量。连续到加油站加油的汽车总体无法编制抽样框:时间不定、总量也无法确定。第六章 抽样推断第25页/共154页确定抽样方法重复抽样又被称作重置抽样、有放回抽样又被称作重置抽样、有放回抽样抽出个体登记特征放回总体继续抽取特点特点同一总体单位有可能被重复抽中,而且每次抽取都是独立进同一总体单位有可能被重复抽中,而且每次抽取都是独立进行行第六章 抽样推断第26页/共154页不重复抽样又被称作不重置抽样、不放回抽样又被称作不重置抽样、不放回抽样抽出个体登
9、记特征继续抽取特点特点同一总体中每个单位被抽中的机会并不均等,在连续抽取时,每次同一总体中每个单位被抽中的机会并不均等,在连续抽取时,每次抽取都不是独立进行抽取都不是独立进行是最为常用的抽样方法,用于无限总是最为常用的抽样方法,用于无限总体和许多有限总体样本单位的抽样。体和许多有限总体样本单位的抽样。确定抽样方法第六章 抽样推断第27页/共154页确定抽样组织方式1 1 简单随机抽样(纯随机抽样)简单随机抽样(纯随机抽样)对总体单位逐一编号,然后按随机原则直接从总体中抽出若干单位构成对总体单位逐一编号,然后按随机原则直接从总体中抽出若干单位构成样本样本应用应用仅适用于规模不大、内部各单位标志值
10、差异较小的总体仅适用于规模不大、内部各单位标志值差异较小的总体是最简单、最基本、最符合随机原则,是最简单、最基本、最符合随机原则,但同时也是抽样误差最大的抽样组织形式但同时也是抽样误差最大的抽样组织形式第六章 抽样推断第28页/共154页2 2 类型抽样(分层抽样)类型抽样(分层抽样)将总体全部单位分类,形成若干个类型组,然后从各类型中分别抽取样本单位将总体全部单位分类,形成若干个类型组,然后从各类型中分别抽取样本单位组成样本。组成样本。总体N样本n等额抽取等比例抽取能使样本结构更接近于总体结构,提高样本的代表性;能同时推断总体指标和各子总体的指标确定抽样组织方式第六章 抽样推断第29页/共1
11、54页3 3 等距抽样(机械抽样或系统抽样)等距抽样(机械抽样或系统抽样)将总体单位按某一标志排序,而后按一定的间隔抽取样本单位。将总体单位按某一标志排序,而后按一定的间隔抽取样本单位。随机起点随机起点半距起点半距起点对称起点对称起点(总体单位按某一标志排序)按无关标志排队,其抽样效果相当于按无关标志排队,其抽样效果相当于简单随机抽样简单随机抽样;按有关标志排队,其抽样效果相当于按有关标志排队,其抽样效果相当于类型抽样类型抽样。确定抽样组织方式第六章 抽样推断第30页/共154页4 4 整群抽样(集团抽样)整群抽样(集团抽样)将总体全部单位分为若干将总体全部单位分为若干“群群”,然后随机抽取一
12、部分,然后随机抽取一部分“群群”,被抽中群,被抽中群体的所有单位构成样本体的所有单位构成样本例:总体群数例:总体群数R=16 R=16 样本群数样本群数r=4r=4ABCDEFGHIJKLMNOPLHPD样本容量简单、方便,能节省人力、物力、财简单、方便,能节省人力、物力、财力和时间,但其样本代表性可能较差力和时间,但其样本代表性可能较差确定抽样组织方式第六章 抽样推断第31页/共154页55多阶段抽样多阶段抽样 指分两个或两个以上的阶段来完成抽取样本单位的过程指分两个或两个以上的阶段来完成抽取样本单位的过程例:在某省例:在某省100100多万农户抽取多万农户抽取10001000户调查农户生产
13、性投资情况。户调查农户生产性投资情况。第一阶段:从该省所有县中抽取第一阶段:从该省所有县中抽取5 5个县个县第二阶段:从被抽中的第二阶段:从被抽中的5 5个县中各抽个县中各抽4 4个乡个乡 第三阶段:从被抽中的第三阶段:从被抽中的2020个乡中各抽个乡中各抽5 5个村个村 第四阶段:从被抽中的第四阶段:从被抽中的100100个村中各抽个村中各抽1010户户样本样本n=10010=1000(n=10010=1000(户户)确定抽样组织方式第六章 抽样推断第32页/共154页q调查对象的性质特点q对调查对象的了解程度(抽样框的特点)q抽样误差的大小q人力、财力和物力等条件的限制在实际工作中,选择适
14、当的抽样组织方式主要应考虑:确定抽样组织方式第六章 抽样推断第33页/共154页确定样本容量n30n30,为大样本;,为大样本;n 30n 30,为小样本,为小样本样本容量样本容量指样本中含有的总体单位的数目,通常用n 来表示。确定适当样本容量的意义:确定适当样本容量的意义:qq若若n过大,调查工作量增大,体现不出抽样调查的优越性;过大,调查工作量增大,体现不出抽样调查的优越性;qq若若n 过小,抽样误差会增大,抽样推断就会失去价值。过小,抽样误差会增大,抽样推断就会失去价值。第六章 抽样推断第34页/共154页样本的可能数目样本的可能数目在考虑顺序的抽样条件下,从总体在考虑顺序的抽样条件下,
15、从总体N N中随机抽取中随机抽取n n个样本个样本单位共有多少种可能的抽选结果单位共有多少种可能的抽选结果 重复抽样的可能样本数目:重复抽样的可能样本数目:不重复抽样的可能样本数目:不重复抽样的可能样本数目:共n个确定样本容量第六章 抽样推断第35页/共154页第六章 抽样推断1.1 抽样方案的设计1.2 简单随机抽样的抽样误差的测定1.3 简单随机抽样的抽样估计第36页/共154页一、抽样分布二、抽样估计量的优良标准三、抽样误差的概念四、抽样平均误差五、抽样极限误差1.2 简单随机抽样的抽样误差的测定第37页/共154页样本统计量总体未知参数样本统计量样本统计量样本统计量样本统计量样本统计量
16、样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量抽样分布样本统计量所有可能值的概率分布主要样本统计量平均数比率(成数)方差第六章 抽样推断第38页/共154页例:某大公司人事部经理整理其2500个中层干部的档案。其中一项内容是考察这些中层干部的平均年薪及参加过公司培训计划的比例。总体:2500名中层干部,如果:上述情况可由每个人的个人档案中得知,可容易地测出这2500名中层干部的平均年薪及标准差。假如:1:已经得到了如下的结果:总体均值:51800 总体标准差:=4000第39页/共154页 上述总体均值、总体标准差、比例均称为总体的参数 2、同时,有1500人参加了公司
17、培训,则参加公司培训计划的比例为:P=1500/2500=0.60如:上例中的中层干部平均年薪,年薪标准差及受培训人数所占比例均为该公司中层干部这一总体的参数。抽样估计就是要通过样本而非总体来估计总体参数。第40页/共154页 如果抽样的样本与前一次的不同,则可得到另外的平均年薪样本均值、标准差以及受训干部的比例。如果多次抽样,则可得到多个不同的结果。下表是一个假设的经过500次抽样后的情况表。第41页/共154页 下表给出了500个 的频数分布与相对频数分布,第42页/共154页图4.1 500个 的相对频数分布 这里,的相对频数分布,就称为 的抽样分布。第43页/共154页 正是抽样分布及
18、其特征使得用样本统计量估计总体参数的“精确程度”能够给予概率上的描述。一般地,样本统计量的可能取值及其取值概率所形成的概率分布,统计上称为抽样分布(sampling distribution)。精确度可靠度第44页/共154页平均数的抽样分布q全部可能样本平均数的均值等于总体均值,即:q从非正态总体中抽取的样本平均数当n足够大时其分布接近正态分布。q从正态总体中抽取的样本平均数不论容量大小其分布均为正态分布。q样本均值的标准差为总体标准差的。第六章 抽样推断第45页/共154页比率的抽样分布q全部可能样本比率的均值等于总体比率,即:q从非正态总体中抽取的样本比率,当n足够大时其分布接近正态分布
19、。q从正态总体中抽取的样本比率,不论容量大小其分布均为正态分布。q样本比率的标准差为总体标准差的。第六章 抽样推断样本比率的抽样分布是样本比率所有可能值的概率分布。第46页/共154页样本抽样分布原总体分布第六章 抽样推断第47页/共154页一、抽样分布二、抽样估计量的优良标准三、抽样误差的概念四、抽样平均误差五、抽样极限误差1.2 简单随机抽样的抽样误差的测定第48页/共154页抽样估计量的优良标准设为待估计的总体参数,为样本统计量,则的优良标准为:若,则称为的无偏估计量指样本指标的均值应等于被估计的总体指标无偏性第六章 抽样推断第49页/共154页若,则称为比更有效的估计量若越大越小,则称
20、为的一致估计量作为优良的估计量,除了满足无偏性的要求外,其方差应比作为优良的估计量,除了满足无偏性的要求外,其方差应比较小较小有效性指随着样本单位数指随着样本单位数 的增大,样本估计量将在概率意义下越来的增大,样本估计量将在概率意义下越来越接近于总体真实值越接近于总体真实值一致性抽样估计量的优良标准第六章 抽样推断第50页/共154页q 为的无偏、有效、一致估计量;q 为的无偏、有效、一致估计量;q 为的无偏、有效、一致估计量。数理统计证明:抽样估计量的优良标准第六章 抽样推断第51页/共154页一、抽样分布二、抽样估计量的优良标准三、抽样误差的概念四、抽样平均误差五、抽样极限误差1.2 简单
21、随机抽样的抽样误差的测定第六章 抽样推断第52页/共154页说说明明q对于任何一个样本,其抽样误差都不可能测量出来q抽样误差的大小可以依据概率分布理论加以说明指样本估计量与总体参数之间数量上的差异,仅指由于按照随指样本估计量与总体参数之间数量上的差异,仅指由于按照随机原则抽取样本而产生的代表性误差,不包括登记性误差和系机原则抽取样本而产生的代表性误差,不包括登记性误差和系统偏差统偏差抽样误差第六章 抽样推断第53页/共154页影响因素影响因素1、样本单位数。(越大,误差越小)2、总体内各单位被研究标志的变异程度。(越大,误差越大)3、抽样方法。(不重复小于重复)4、抽样组织形式。(通常采用机械
22、和类型抽样方式组织抽样调查)第54页/共154页一、抽样分布二、抽样估计量的优良标准三、抽样误差的概念四、抽样平均误差五、抽样极限误差1.2 简单随机抽样的抽样误差的测定第55页/共154页抽样平均误差指每一个可能样本的估计值与总体指标值之间离差的平指每一个可能样本的估计值与总体指标值之间离差的平均数,即样本估计量的标准差均数,即样本估计量的标准差式中:式中:为样本平均数的抽样平均误差;为样本平均数的抽样平均误差;为可能的样本数目;为可能的样本数目;为第为第 个可能样个可能样本的平均数;本的平均数;为总体平均数为总体平均数注意:不要混淆抽样标准差与样本标准差!第六章 抽样推断第56页/共154
23、页例现有A、B、C、D四名工人构成的总体,他们的日产量分别为22、24、26、28件。从四名工人中任取两名构成一个样本,请利用重复抽样和不重复抽样的方法计算抽样平均误差。【分析】先计算出三类数值:根据抽样平均误差的计算公式,我们必须本题要求我们计算抽样平均误差。可能样本总数。总体平均日产量、样本平均日产量、第57页/共154页总体平均日产量1、重复抽样。样本数为第58页/共154页2、不重复抽样。样本数为第59页/共154页但是,上面计算抽样平均误差的这个理论公式,在实际应用上会存在两个困难:运用这个公式要求把所有的样本都抽选出来,然后计算它们的指标数值。这在实际应用过程中几乎是不可能的。运用
24、上面公式要求总体平均数的数值是已知的。但实际上,总体平均数的数值是未知的,它正是抽样调查要推断的。第60页/共154页抽样平均误差的计算公式 样本平均数的抽样平均误差当N500时,有重复抽样时:不重复抽样时:第六章 抽样推断第61页/共154页 如果总体单位数很“大”而样本容量很“小”,则该修正因子趋近于1,这时,对不重复抽样可直接按重复抽样的公式去计算。一个经验的衡量标准是n/N=0.05。称为修正因子第62页/共154页 样本成数的抽样平均误差重复抽样时:不重复抽样时:当N500时,有抽样平均误差的计算公式第六章 抽样推断第63页/共154页影响抽样误差的因素q总体各单位的差异程度(即标准
25、差的大小):越大,抽样误差越大;q样本单位数的多少:越大,抽样误差越小;q抽样方法:不重复抽样的抽样误差比重复抽样的抽样误差小;q抽样组织方式:简单随机抽样的误差最大。第六章 抽样推断第64页/共154页一、抽样分布二、抽样估计量的优良标准三、抽样误差的概念四、抽样平均误差五、抽样极限误差1.2 简单随机抽样的抽样误差的测定第65页/共154页68.27%95.45%99.73%抽样极限误差第六章 抽样推断第66页/共154页抽样极限误差指在一定的概率保证程度下,抽样误差不允许超过的某一给定范围,也称作允许误差、误差范围、误差置信限等 由于提高把握程度,会增大允许误差,使估计精度降低,而缩小允
26、许误差,由于提高把握程度,会增大允许误差,使估计精度降低,而缩小允许误差,提高估计的精度,又会降低估计的把握程度,所以提高估计的精度,又会降低估计的把握程度,所以在实际中应根据具体情况,在实际中应根据具体情况,先确定一个合理的把握程度再求相应的允许误差或先确定一个允许误差范围再先确定一个合理的把握程度再求相应的允许误差或先确定一个允许误差范围再求相应的把握程度。求相应的把握程度。第六章 抽样推断第67页/共154页抽样极限误差的计算公式(大样本条件下)样本平均数的极限误差:样本成数的极限误差:Z Z为概率度,是给定概率保证程度下样本均值为概率度,是给定概率保证程度下样本均值偏离总体均值的抽样平
27、均误差的倍数。偏离总体均值的抽样平均误差的倍数。第六章 抽样推断第68页/共154页Z Z与相应的概率保证程度存在一一对应关系,与相应的概率保证程度存在一一对应关系,常用常用Z Z值及相应的概率保证程度值及相应的概率保证程度为:为:z值 概率保证程度1.00 0.6827 1.65 0.9000 1.96 0.9500 2.00 0.9545 2.58 0.9900 3.00 0.9973抽样极限误差的计算公式(大样本条件下)第六章 抽样推断第69页/共154页第70页/共154页标准正态分布函数值表第71页/共154页注意:1、统计学上往往用抽样极限误差来测度抽样误差的大小或者说测度点估计的
28、精度。原因:总体参数值往往并不知道,因此,实际抽样误差与抽样平均误差也往往无法求出,但在抽样分布大体知道的情况下,抽样极限误差是可以估计出来的。一定概率下抽样误差的可能范围(也称允许误差):第72页/共154页 2、抽样极限误差的估计总是要和一定的概率保证程度联系在一起的。原因:样本统计量往往是一随机变量,它与总体参数真值之差也是一个随机变量,因此就不能期望某次抽样的样本估计值落在一定区间内是一个必然事件,而只能给予一定的概率保证。因此,在进行抽样估计时,既需要考虑抽样误差的可能范围,同时还需考虑落到这一范围的概率大小。前者是估计的准确度问题,后者是估计的可靠性问题,两者紧密联系不可分开。这也
29、正是区间估计所关心的主要问题。第73页/共154页第六章 抽样推断1.1 抽样方案的设计1.2 简单随机抽样的抽样误差的测定1.3 简单随机抽样的抽样估计第74页/共154页一、点估计二、区间估计三、样本数目的确定1.3 简单随机抽样的抽样估计第75页/共154页点估计指直接以样本指标来估计总体指标,也叫定值估计简单,具体明确简单,具体明确优点优点缺点缺点无法控制误差,仅适用于对推断的准确程度与可靠程度要求不高的无法控制误差,仅适用于对推断的准确程度与可靠程度要求不高的情况情况第六章 抽样推断第76页/共154页 用样本统计量样本统计量(sample statistics)可以作为其对应的总体
30、的点估计量点估计量(point estimator)。但要估计总体的某一指标,并非只能用一个样本指标,而可能有多个指标可供选择,即对同一总体参数,可能会有不同的估计量。点估计量的性质:估计量优劣的衡量 作为一个好的点估计量,统计量必须具有如下性质:无偏性、有效性、一致性第77页/共154页 在上例中,假如随机抽取了一个容量为30的样本:年薪 是否参加过培训计划 49094.3 Yes 53263.9 Yes 49643.5 Yes 点估计(Point Estimation)假如根据该样本求得的年薪样本平均数、标准差及参加过培训计划人数的比例分别为:第78页/共154页 则可用上述结果分别代表2
31、500名中层干部的平均年薪、年薪的标准差及受训比例。上述估计总体参数的过程被称为点估计(point estimation);样本均值(标准差/比例)称为总体均值(标准差/比例)的点估计量(point estimator);样本均值(标准差/比例)的具体数值称为总体均值(标准差/比例)的点估计值(point estimate)。由于点估计量是由样本测算的,因此也称为样本统计量。第79页/共154页一、点估计二、区间估计三、样本数目的确定1.3 简单随机抽样的抽样估计第80页/共154页二、区间估计 区间估计的定义和原理 总体平均数的区间估计总体成数的区间估计第81页/共154页区间估计指根据样本
32、指标和抽样极限误差以一定的可靠程度推断总体指标的可能范围;其中,被推断的总体指标的下限与上限所包括的区间称为置信区间,估计的可靠程度也称为置信度。(这里只讨论常用的大样本的情况)(这里只讨论常用的大样本的情况)第六章 抽样推断是根据样本估计量以一定的可靠程度推断总体参数所在的区间范围。第82页/共154页 一般地,设总体参数为,L、U为由样本确定的两个统计量值,对于给定的(0 =30?知否?用s代替总体是否接近正态分布?知否?用s代替增大样本容量至n=30yesNoyesNoyesyesNoNo第96页/共154页【例】某商场从一批袋装食品中随机抽取10袋,测得每袋重量(单位:克)分别为789
33、、780、794、762、802、813、770、785、810、806。要求以95%的把握程度,估计这批食品的平均每袋重量的抽样极限误差。第97页/共154页解:第98页/共154页总体成数的区间估计表达式其中,为极限误差第六章 抽样推断第99页/共154页步骤 计算样本成数 ;搜集总体方差的经验数据 ;计算抽样平均误差:重复抽样条件下重复抽样条件下不重复抽样条件下不重复抽样条件下总体成数的区间估计第六章 抽样推断第100页/共154页步骤 计算抽样极限误差:确定总体成数的置信区间:总体成数的区间估计第六章 抽样推断第101页/共154页【例B】若例A中工人日产量在118件以上者为完成生产定
34、额任务,要求在95的概率保证程度下,估计该厂全部工人中完成定额的工人比重及完成定额的工人总数。总体成数的区间估计第六章 抽样推断第102页/共154页按按 日产量分组日产量分组(件)(件)组中值(件)组中值(件)工人数(人)工人数(人)110114114118118122122126126130130134134138138142112116120124128132136140371823211864合计合计100100名工人的日产量分组资料完成定额的人数完成定额的人数第六章 抽样推断第103页/共154页解:第六章 抽样推断第104页/共154页则该企业全部工人中完成定额的工人比重 及完成定
35、额的工人总数 的置信区间为:即该企业工人中完成定额的工人比重在0.8432至0.9568之间,完成定额的工人总数在843.2至956.8人之间,估计的可靠程度为95。第六章 抽样推断第105页/共154页一、点估计二、区间估计三、样本数目的确定1.3 简单随机抽样的抽样估计第106页/共154页三、样本容量的确定 确定样本容量的意义 推断总体平均数所需的样本容量 推断总体成数所需的样本容量 必要样本容量的影响因素第107页/共154页样本容量调查误差调查费用小样本容量节省费用但调查误差大大样本容量调查精度高但费用较大找出在规定误差范围内的最小样本容量确定样本容量的意义确定样本容量的意义找出在限
36、定费用范围内的最大样本容量第六章 抽样推断第108页/共154页确定方法推断总体平均数所需的样本容量推断总体平均数所需的样本容量 重复抽样条件下:重复抽样条件下:通常的做法是先确定置信度,然后限定抽样极限误差。或 S通常未知。一般按以下方法确定其估计值:过去的经验数据;试验调查样本的S。计算结果通常向上进位第六章 抽样推断第109页/共154页 不重复抽样条件下:不重复抽样条件下:确定方法推断总体平均数所需的样本容量推断总体平均数所需的样本容量第六章 抽样推断第110页/共154页【例A】某食品厂要检验本月生产的10000袋某产品的重量,根据上月资料,这种产品每袋重量的标准差为25克。要求在9
37、5.45的概率保证程度下,平均每袋重量的误差范围不超过5克,应抽查多少袋产品?第六章 抽样推断第111页/共154页解:第六章 抽样推断第112页/共154页确定方法推断总体成数所需的样本容量推断总体成数所需的样本容量 重复抽样条件下:重复抽样条件下:通常的做法是先确定置信度,然后限定抽样极限误差。计算结果通常向上进位 通常未知。一般按以下方法确定其估计值:过去的经验数据;试验调查样本的 ;取方差的最大值0.25。第六章 抽样推断第113页/共154页 不重复抽样条件下:不重复抽样条件下:确定方法推断总体成数所需的样本容量推断总体成数所需的样本容量第六章 抽样推断第114页/共154页【例B】
38、某企业对一批总数为5000件的产品进行质量检查,过去几次同类调查所得的产品合格率为93、95、96,为了使合格率的允许误差不超过3,在99.73的概率保证程度下,应抽查多少件产品?【分析】因为共有三个过去的合格率的资料,为保证推断的把握程度,应选其中方差最大者,即P=93。第六章 抽样推断第115页/共154页解:第六章 抽样推断第116页/共154页必要样本容量的影响因素必要样本容量的影响因素q总体方差的大小;q允许误差范围的大小;q概率保证程度;q抽样方法;q抽样的组织方式。第六章 抽样推断第117页/共154页说明:说明:4、重复抽样应比不重复抽样抽取较多的单位数。1、总体方差 (是非标
39、志总体为P(1-P))越大,表明离散程度越大,应抽取较多的单位数。2、允许误差 (或者 )越小,表明推断的精度要求增高,应抽取较多的单位数。3、置信水平 越大,表明推断的可靠程度要求增高,应抽取较多的单位数。第118页/共154页抽样复查的方法其全面调查时的登记其全面调查时的登记结果为结果为2.28612.2861亿元亿元其抽样复查的结果为其抽样复查的结果为2.17342.1734亿元亿元随机抽取随机抽取五个下属单位五个下属单位修正系数为 则:则:该企业集团所拥有的固定资产原值应为16.8510.9507=16.020(亿元)所拥有固定资产原值的普查结果为16.851亿元某企业集团总体总体第六
40、章 抽样推断第119页/共154页中心极限定理的内容中心极限定理的内容中心极限定理是指从总体中抽取样本容量为n的样本,当样本容量足够大时,其统计量的分布可用正态概率分布近似。第120页/共154页第121页/共154页上图中,在图的上部分中,三个总体分别为均匀分布、U形分布和J形分布,即都是非正态的。随着样本容量的增加,抽样分布开始发生变化。当样本容量为2时,抽样分布开始呈现与总体分布不同的外形;当样本容量为5时,抽样分布开始呈现一个钟形;当样本容量为30时,三个抽样分布近似于同一种分布,即正态分布。因而,当样本容量足够大时,抽样分布可用正态概率分布近似。第122页/共154页t t分布分布样
41、本统计量的抽样分布,并不完全服从正态分布,而是服从与正态分布相似的t分布。当样本容量不大于30,而且总体标准差未知时,可以使用t分布。t分布为对称分布。对于不同的样本容量都有一个不同的t分布,随着样本容量增加,t分布的形状由平坦逐渐变得接近正态分布。当样本容量大于30时,t分布就非常接近于正态分布。第123页/共154页假设检验在统计方法中的地位统计方法描述统计推断统计参数估计假设检验第124页/共154页假设检验 所谓假设检验,就是事先对总体参数或总体分布形式作出一个假设,然后利用样本信息来判断原假设是否合理,即判断样本信息与原假设是否有显著差异,从而决定是否接受或否定原假设 第125页/共
42、154页一、与参数估计的推断角度不同。它是先对总体参数的值提出一个假设,然后利用样本信息去检验假设是否成立。二、首先提出原假设和替换假设(备择假设)三、进行假设正确性检验是基于“小概率事件原理”要确定显著性水平,通常取0.05、0.1、0.01四、双侧检验、单侧检验第126页/共154页总体总体假设检验的过程(提出假设抽取样本作出决策)抽取随机样本抽取随机样本均值均值 X X=20=20我认为人口的平均年龄是50岁 提出假设提出假设 拒绝假设!别无选择.作出决策作出决策第127页/共154页假设检验的步骤提出原假设和备择假设确定适当的检验统计量规定显著性水平计算检验统计量的值作出统计决策第12
43、8页/共154页提出原假设和备择假设 什么是原假设?1.待检验的假设,又称“0假设”2.如果错误地作出决策会导致一系列后果3.总是有等号 ,或 4.表示为 H0H0:某一数值 指定为=号,即 或 例如,H0:3190(克)第129页/共154页 什么是备择假设?1.与原假设对立的假设2.总是有不等号:,或 3.表示为 H1H1:某一数值,或 某一数值例如,H1:3910(克),或3910(克)提出原假设和备择假设第130页/共154页 什么是检验统计量?1.用于假设检验问题的统计量2.选择统计量的方法与参数估计相同,需考虑是大样本还是小样本总体方差已知还是未知3.检验统计量的基本形式为确定适当
44、的检验统计量第131页/共154页规定显著性水平 什么显著性水平?1.是一个概率值2.原假设为真时,拒绝原假设的概率被称为抽样分布的拒绝域3.表示为 常用的 值有0.01,0.05,0.104.由研究者事先确定第132页/共154页作出统计决策1.计算检验的统计量2.根据给定的显著性水平,查表得出相应的临界值Z或Z/23.将检验统计量的值与 水平的临界值进行比较4.得出接受或拒绝原假设的结论第133页/共154页假设检验中的小概率原理 什么小概率?1.在一次试验中,一个几乎不可能发生的事件发生的概率2.在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设;反之,小概率事件没有发生,则认为原假
45、设是合理的。3.小概率由研究者事先确定第134页/共154页 1、提出原假设(null hypothesis)和备择假设(alternative hypothesis)原假设为正待检验的假设:H0;备择假设为可供选择的假设:H1 一般地,假设有三种形式:(1 1)双侧检验)双侧检验:H0:0;H1:0 (2 2)左侧检验)左侧检验:H0:0;H1:0 或 H0:0;H1:0 或 H0:0 假设检验的步骤第135页/共154页 2、选择适当的统计量,并确定其分布形式 统计量是根据所涉及的问题而定的,如总体均值、比例(率)可选取正态分布的Z统计量等。3、选择显著性水平或置信度,确定临界值 显著性水
46、平为原假设为真时,样本点落在临界值外的概率(即抽样结果远离中心点的概率,它为小概率),也是原假设为真时,拒绝原假设所冒的风险。临界值将样本点所落区域分为拒绝域与接受域,临界值“外”为拒绝域,“内”为接受域。第136页/共154页 通过样本计算统计量的具体值,与临界值比较,根据落入拒绝域或接受域的情况来拒绝或接受原假设。4、作出结论第137页/共154页 由于假设检验是根据有限的样本信息来推断总体特征,由样本的随机性可能致使判断出错。(一)第一类错误 当原假设为真时,而拒绝原假设所犯的错误,称为第I类错误或拒真错误。易知犯第I类错误的概率就是显著性水平:假设检验中的两类错误(二)第二类错误 当原
47、假设为假时,而接受原假设所犯的错误,称为第II类错误或采伪错误。犯第II类错误的概率常用表示:第138页/共154页 假设检验中的四种可能情况 H0为真 H0不真 接受H0 Good Bad/Type II error 拒绝H0 Bad/Type I error Good第139页/共154页1、犯第一类错误与犯第二类错误的概率存在此消彼长的关系;2、若要同时减少 与 ,须增大样本容量n。3、通常的作法是,取显著性水平较小,即控制犯第一类错误的概率在较小的范围内;4、在犯第二类错误的概率不好控制时,将“接受原假设”更倾向于说成“不拒绝原假设”。注意:第140页/共154页 一、总体均值的假设检
48、验 (一)总体方差已知,正态总体,样本大小不限 如果总体XN(,2),在方差已知的情况下,对总体均值进行假设检验。由于 总体均值和比例的假设检验 注意:如果总体方差未知,且总体分布未知,但如果是大样本(n=30),仍可通过 Z 统计量进行检验,只不过总体方差需用样本方差 s 替代。因此,可通过构造Z统计量来进行假设检验:第141页/共154页 例1:根据以往的资料,某厂生产的产品的使用寿命服从正态分布N(1020,1002)。现从最近生产的一批产品中随机抽取16件,测得样本平均寿命为1080小时。问这批产品的使用寿命是否有显著提高(显著性水平:5%)?由=0.05,查表得临界值:Z=Z 0.0
49、5=1.645 提出假设:H0:=1020 ,H1:1020 检验统计量:比较:计算的Z=2.4 Z=1.645 判断:拒绝H0,接受H1,即这批产品的寿命确有提高。第142页/共154页 (二)总体方差未知,正态总体,小样本 注:如果总体分布也未知,则没有适当的统计量进行假设检验,唯一的解决办法是增大样本,以使样本均值趋向于正态分布,从而再采用Z统计量。这时只能用 t 统计量进行假设检验:第143页/共154页【例】某厂采用自动包装机分装产品,假定每包产品的重量服从正态分布,每包标准重量为1000克。某日随机抽查9包,测得样本平均重量为986克,样本标准差为24克。试问在0.05的检验水平上
50、,能否认为这天自动包装机工作正常?第144页/共154页解:第145页/共154页 二、总体比例的假设检验 大样本下,样本比例样本比例趋向于正态分布,因此可通过构造Z统计量的方法进行假设检验:注:1、如果总体比例P未知,可用样本比例p替代。2、Z统计量只适合大样本情况下的总体比例检验。第146页/共154页【例】某研究者估计本市居民家庭的电脑拥有率为30%。现随机抽查了200个家庭,其中68个家庭拥有电脑。在10%的置信水平下,试问该研究者的估计是否可信?第147页/共154页解:第148页/共154页 区间估计与假设检验的关系 1、区别:区间估计是依据样本资料估计总体的未知参数的可能范围;假