《模块五-抽样估计2ppt课件.pptx》由会员分享,可在线阅读,更多相关《模块五-抽样估计2ppt课件.pptx(87页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、模块五抽样估计任务 1抽样与抽样分布任务 2总体均值的区间估计任务 3总体比例的区间估计任务 4必要样本量的确定模块五抽样估计2模块五抽样估计2知识目标知识目标了解抽样方法的选择了解抽样方法的选择了解抽样分布原理了解抽样分布原理能力目标能力目标能够恰当地选择抽样方法并实施抽样能够恰当地选择抽样方法并实施抽样模块五抽样估计2任务引入任务引入某大学经管学院希望了解在校大学生的消费水平和消费结构。学院共有 2 200 名学生,要求随机抽取 40 名学生作为样本,应当怎样随机抽取这 40 名学生呢?模块五抽样估计2任务分析任务分析在市场调查工作中,为了获得研究对象总体的数量特征值,可以采用普查的方法。
2、但很多时候,不可能实施普查或普查在时间、人力、物力、财力上不够经济。这时,通常选择抽样估计的方法,即从总体中随机抽选一部分个体构成样本,计算样本的综合特征值,用样本信息去推算总体指标。本任务完成的是抽样估计的第一个环节抽取样本。同时介绍抽样分布的有关知识,为下一个任务参数估计的学习打下基础。模块五抽样估计2相关知识相关知识一、抽样估计一、抽样估计抽样估计是指在随机抽样的基础上,利用样本的实际资料计算样本统计量,并以样本统计量对总体参数作出具有一定可靠程度估计的一种统计分析方法。抽样估计具有以下几个特点:1.1.是一种通过部分认识总体的统计分析方法。是一种通过部分认识总体的统计分析方法。2.2.
3、以概率抽样为基础,按随机原则抽取样本。以概率抽样为基础,按随机原则抽取样本。3.3.可以用一定的概率将估计误差控制在一定的范围之内。可以用一定的概率将估计误差控制在一定的范围之内。模块五抽样估计2抽样估计要点图解模块五抽样估计2二、概率抽样方法二、概率抽样方法概率抽样又称为等概率抽样或随机抽样,是调查者按照随机原则抽取样本的方法。非概率抽样又称为不等概率抽样或非随机抽样,是调查者根据自己的方便或主观判断抽取样本的方法。模块五抽样估计2概率抽样与非概率抽样的区别模块五抽样估计2概率抽样方法模块五抽样估计21.1.简单随机抽样简单随机抽样简单随机抽样是按随机原则直接从总体 N 个单位中抽取 n 个
4、单位组成样本,总体中每个单位都有被抽中的机会。简单随机抽样分两种。(1)重复抽样重复抽样也称回置抽样,是指每次抽取一个样本单位登记后再放回总体中参加下一次抽取的方法,每一个样本单位都有被重复抽中的可能。模块五抽样估计2(2)不重复抽样不重复抽样也称不回置抽样,是指每次抽取一个样本登记后不放回总体中参加下一次抽取的方法,每一个样本单位只有一次被抽取的可能。简单随机抽样的优点是当总体单位数不大或总体容量虽然较大但比较集中时,采用简单随机抽样容易取得较好的抽样效果。模块五抽样估计22.2.等距抽样等距抽样等距抽样又称系统抽样或机械抽样,是将总体各单位按一定标志或次序排列,然后按相等的距离或间隔抽取样
5、本单位。系统抽样两种抽取方式。(1)等概率系统抽样等概率系统抽样是指每个单位被抽中的概率是相等的。(2)不等概率系统抽样(PPS 系统抽样)不等概率系统抽样是指每个单位被抽中的概率是与该单位的规模成比例的。模块五抽样估计23.3.分层抽样分层抽样分层抽样也称类型抽样,先将总体所有单位按与研究内容密切相关的主要因素分成若干层,然后在各层中按随机原则抽取一定数量的单位构成样本。分层抽样的常用方法有比例抽样法和加权比例抽样法两种。模块五抽样估计2(1)比例抽样法比例抽样法是按照每层单位数在总体中所占的比例抽取样本单位数,适用于层与层之间变异程度大,各层内部变异程度不大的总体。各层的抽样单位数为:式中
6、,N 是总体单位总数,Ni 是每层的单位数,n 是应抽取的样本单位总数,ni 是各层应抽取的样本单位数,k 是分层的层数,是总体中各层单位数占总体单位总数的比重。模块五抽样估计2(2)加权比例抽样法加权比例抽样法是以每层的单位数与层内的标准差结合作为权数确定每层应抽取样本数的方法。各层的抽样单位数为:式中,n 是应抽取的样本单位总数,ni 是各层应抽取的样本单位数,Wi 是各层单位数占总体单位数的比重,si 是各层内部的标准差,是同时考虑到各组的单位数比重和标准差后确定的各层的权数。模块五抽样估计24.4.整群抽样整群抽样整群抽样是先将所有总体单位分割为若干小群组,然后从中随机抽取一部分群,对
7、中选群中的所有单位实施全面调查的一种抽样方法。优点是以群为单位抽取,简化了抽样的工作量,节省了调查费用,也方便了调查的实施。缺点是样本单位在总体中分布不均匀,因此抽样误差常常大于简单随机抽样。5.多阶段抽样多阶段抽样多阶段抽样又称为多级抽样,是指在抽取样本时,分为两个及两个以上的阶段从总体中抽取样本的一种抽样方式。模块五抽样估计2三、样本统计量的抽样分布三、样本统计量的抽样分布1.1.几个基本概念几个基本概念(1)参数与统计量总体参数是总体的综合特征值,总体参数通常是未知的,需要通过样本统计量推算获得。样本统计量是根据样本数据计算出的样本的综合特征值。常用总体参数与样本统计量的计算公式见表。模
8、块五抽样估计2参数与统计量模块五抽样估计2 总体参数与样本统计量的计算公式模块五抽样估计2(2)样本容量和样本个数样本容量是指一个样本所包含的样本单位数,一般用 n 表示。样本个数是指从总体中可能抽取的样本个数。如果采用重复抽样的方法,从总体N 个单位中,随机抽取 n 个单位构成一个样本,则共可抽取 Nn 个样本。如果采用不重复抽样的方法,共可抽取 个样本。模块五抽样估计2模块五抽样估计2重复抽样和不重复抽样条件下的样本及样本统计量模块五抽样估计2重复抽样和不重复抽样条件下的样本及样本统计量模块五抽样估计2 重复抽样和不重复抽样条件下样本均值的抽样分布模块五抽样估计23.均值的抽样分布与总体分
9、布的关系均值的抽样分布与总体分布的关系抽样分布与总体分布的关系模块五抽样估计2模块五抽样估计2模块五抽样估计24.样本比例的抽样分布样本比例的抽样分布比例是指总体中具有某种属性或特征的单位数与总体单位数之比。若总体中具有某种属性的单位数为 N1,不具有某种属性的单位数为 N0,则将具有某种属性的单位数与全部单位数之比称为总体比例,即 ;不具有某种属性的单位数与全部单位数之比称为 。相应的样本比例为模块五抽样估计2对于一个样本比例,如果 np5 和 n(1-p)5,就可以认为样本容量足够大。这时,样本比例 p 的期望值、抽样方差和抽样标准差为:样本比例 p 的期望值:E(p)=样本比例的抽样方差
10、 p2:重复抽样条件下:不重复抽样条件下:模块五抽样估计2样本比例的抽样标准差 p2:重复抽样条件下:不重复抽样条件下:模块五抽样估计2任务实施任务实施第第 1 1 步步:对该大学经管学院 2 200 名学生进行编号,从 1 号编至 2 200 号。利用 Excel 抽样的步骤模块五抽样估计2 第第 2 2 步步:选择“抽样”工具:“工具”“数据分析”“抽样”“确定”,如图所示。Excel 中的“抽样”命令模块五抽样估计2 第第 3 3 步:步:设置“抽样”对话框并得到样本。“抽样”对话框中,在“输入区域”输入学生编号所在单元格区域“A1 A2200”;在“样本数”框中输入样本量“40”;在“
11、输出区域”输入单元格 C1,如图所示。设置“抽样”对话框模块五抽样估计2第第 4 4 步:步:单击“确定”按钮,得到随机抽取的 40 名学生的编号,排序后如图所示。随机抽出的 40 名学生的编号模块五抽样估计2知识目标知识目标掌握参数估计的方法掌握参数估计的方法掌握总体均值的区间估计掌握总体均值的区间估计能力目标能力目标能够熟练掌握区间估计的步骤能够熟练掌握区间估计的步骤能够使用能够使用 Excel Excel 函数进行区间估计函数进行区间估计模块五抽样估计2任务引入任务引入模块五任务 1 中,利用 Excel 的随机抽样程序从 2 200 名学生中随机抽取了 40 名学生构成样本,现将这 4
12、0 名学生按每月手机话费金额排序得到表。要求根据所抽取学生的手机话费估计该大学经管学院 2 200 名学生的人均月手机话费,分别用 40名学生和其中 20 名学生的平均手机话费去估计学院全部学生的手机话费。模块五抽样估计2 某大学经管学院 40 名学生每月手机话费金额 单位:元模块五抽样估计2任务分析任务分析 样本抽取出来之后,就需要计算样本统计量并用样本统计量去估计总体参数。常用的样本统计量有样本均值、样本比例和样本方差,需要估计的总体参数相应的有总体均值、总体比例和总体方差,本任务的目的是引导大家学习怎样用样本均值去估计总体均值,以及怎样用样本均值去构造总体均值的置信区间。模块五抽样估计2
13、相关知识相关知识一、参数估计的方法一、参数估计的方法 参数估计的方法模块五抽样估计2二、点估计二、点估计点估计是用某一个样本统计量的取值直接作为总体参数的估计值。点估计的优点是简单明了,缺点是无法判断点估计的可靠性。但对于由点估计值构造的总体参数的置信区间,则可以给出估计的可靠程度。模块五抽样估计2三、总体均值的区间估计三、总体均值的区间估计1.1.区间估计的基本原理区间估计的基本原理(1)区间估计区间估计是在给定置信水平(1-)的条件下,以点估计值为中心,构建总体参数的一个估计区间(或置信区间)。置信区间模块五抽样估计2(2)置信区间置信区间是指在一定置信水平下总体参数的估计区间,其中,区间
14、的最小值称为置信下限,最大值称为置信上限。置信区间可表示为:点估计值边际误差边际误差也称为抽样极限误差或允许误差,是指在抽样估计时,根据所研究对象的变异程度和分析任务的要求确定的可允许的误差范围,它等于样本统计量可允许变动的上限或下限与总体参数之差的绝对值。边际误差的大小由两个因素决定:模块五抽样估计2模块五抽样估计2总体均值的置信区间可表示为:即同理,总体比例的置信区间为:即模块五抽样估计2模块五抽样估计2式中,是抽样估计的允许误差,或称边际误差;为置信下限,为置信上限;z/2 是标准正态分布尾部单侧面积为 /2 时的 z 值。常用的置信水平及与之对应的 z/2 值见表。常用的置信水平及与之
15、对应的 z/2值模块五抽样估计2如果总体标准差 未知,也可用样本标准差 s 代替,公式为:若抽样方式为不重复抽样,则需要修正系数 对抽样标准差进行修正。在这种情况下,总体均值的置信区间为:模块五抽样估计2模块五抽样估计2综上所述,在建立均值的置信区间时,关键是确定样本的抽样分布及与之相对应的统计量。具体判断方法见表。不同情况下总体均值的置信区间模块五抽样估计2任务实施任务实施一、大样本总体均值的区间估计一、大样本总体均值的区间估计1.1.数据准备数据准备2.2.利用利用 Excel Excel 进行区间估计的操作步骤进行区间估计的操作步骤手机话费区间估计的步骤模块五抽样估计2第第 1 1 步:
16、步:计算点估计值,即 40 名学生的月平均手机话费选择“描述统计”工具计算样本均值和样本标准差:“工具”“数据分析”“描述统计”“确定”。设置“描述统计”对话框:在“输入区域”输入手机话费数据所在单元格“A2:A41”,在“输出区域”选定 B2,选中“汇总统计”,如图所示。单击“确定”按钮,得到描述统计结果,如图所示。模块五抽样估计2 设置“描述统计”对话框模块五抽样估计2 “描述统计”结果模块五抽样估计2第第 2 步步:计算允许误差或边际误差方法一方法一:使用“CONFIDENCE”函数计算边际误差。单击fX “统计”“CONFIDENCE”“确定”按钮,如图所示;在“CONFIDENCE”
17、对话框中,“Alpha”框中输入显著性水平 0.05(置信水平为 95%),在“Sdandard_dev”框中输入样本标准差 27.7,在“Size”框中输入样本容量 40,则对话框下侧显示边际误差 8.58,如图所示。模块五抽样估计2选择“CONFIDENCE”函数模块五抽样估计2设置“CONFIDENCE”对话框模块五抽样估计2模块五抽样估计2选择“NORMSINV”函数模块五抽样估计2设置“NORMSINV”函数对话框 第第 3 步:确定总体均值的置信区间步:确定总体均值的置信区间模块五抽样估计2二、小样本条件下总体均值的区间估计二、小样本条件下总体均值的区间估计1.1.数据准备数据准备
18、2.2.利用利用 Excel Excel 进行区间估计的操作步骤进行区间估计的操作步骤第第 1 1 步:计算点估计值,即步:计算点估计值,即 20 20 名学生的月平均短信话费名学生的月平均短信话费使用“描述统计”工具可得 20 名学生短信话费的平均数及其标准差,如图所示(步骤见上述手机话费计算过程)。模块五抽样估计2“描述统计”结果和区间估计结果模块五抽样估计2第第 2 步:计算允许误差或边际误差步:计算允许误差或边际误差样本均值的抽样标准差可直接从描述统计中引用标准误差1.33;若用公式计算,在 F4 单元格中输入公式“=F3/SQRT(20)”,可得 。使用“TINV”函数计算置信水平为
19、 95%时的 t/2(n-1)值,单击 fX “统计”“TINV”“确定”;在“TINV”对话框的“Probability”框中输入 0.05,在“Deg_freedom”框中输入自由度 19(20-1),单击“确定”按钮,t 值为 2.093 024 705,如图所示。边际误差:计算公式为:单击 F9,输入公式“=F4F8”,得边际误差为 2.78,如图上所示。模块五抽样估计2设置“TINV”函数对话框模块五抽样估计2 第第 3 步:确定总体均值的置信区间步:确定总体均值的置信区间单击 F10,输入公式“=F2+F9”,得估计区间上限 18.68。单击 F11,输入公式“=F2-F9”,得估
20、计区间下限 13.12,如上图所示。由上述计算得知:在 95%的置信水平下,该大学经管学院 2 200 名学生平均每月短信话费的置信区间为(13.12,18.68)元。模块五抽样估计2知识目标知识目标了解总体比例的区间估计了解总体比例的区间估计能力目标能力目标熟练掌握总体比例区间估计的步骤熟练掌握总体比例区间估计的步骤模块五抽样估计2任务引入任务引入模块五任务 1 中,利用 Excel 的抽样程序从 2 200 名学生中随机抽取了 40 名,得到了 40 名学生 iPad 的拥有情况。用这 40 名学生的 iPad 拥有率推算该大学经管学院 2 200名学生的 iPad 拥有率。40 名学生
21、iPad 拥有情况见表。模块五抽样估计2某大学经管学院 40 名学生 iPad 拥有情况模块五抽样估计2任务分析任务分析模块五任务 2 学习了总体均值的区间估计方法,均值的估计是实际中常见的估计。在实际中,有时需要用样本比例对总体比例进行估计。本任务将学习总体比例的区间估计方法。模块五抽样估计2相关知识相关知识一、样本比例的分布一、样本比例的分布满足正态分布的样本比例特征值是:样本比例 p 的均值等于总体比例,即E(p)=;样本比例的抽样方差 等于 1/n 倍的总体方差,即 。模块五抽样估计2二、总体比例的区间估计二、总体比例的区间估计总体比例 在置信水平为 1-时的置信区间为:若总体比例 未
22、知,可用样本比例 p 代替,公式为:若抽样方式为不重复抽样时,则需要用到修正系数 。在这种情况下,总体比例在 1-水平下的置信区间为:模块五抽样估计2任务实施任务实施一、总体比例的区间估计一、总体比例的区间估计二、数据准备二、数据准备三、利用三、利用 Excel Excel 进行区间估计的操作步骤进行区间估计的操作步骤总体比例区间估计的步骤模块五抽样估计2第第 1 步:计算样本比例步:计算样本比例使用 Excel 中的“COUNTIF”函数计算拥有 iPad 的人数,n1=24(人)。单击 fx “统计”“COUNTIF”函数“确定”;在“COUNTIF”对话框的“Rang”框中输入“B2:B
23、41”,在“Criteria”框中输入代表“有”iPad 的“1”,则对话框下方显示了计算结果,有 iPad 的人数为 24,如图所示。计算 40 人的 iPad 拥有率,在任一单元格中输入公式“=24/40”,得:模块五抽样估计2设置“COUNTIF”函数对话框模块五抽样估计2第第 2 步:计算比例的允许误差或边际误差步:计算比例的允许误差或边际误差方法一:使用“CONFIDENCE”函数计算边际误差 E。单击 fx “统计”“CONFIDENCE”“确定”按钮;在“CONFIDENCE”对话框中,“Alpha”框中输入显著性水平 0.05(置信水平为 95%),“Sdandard_dev”
24、框中输入样本比例的标准差 ,“Size”框中输入样本容量 40,则对话框下侧显示边际误差为 0.151 8,如图所示。模块五抽样估计2设置“CONFIDENCE”对话框模块五抽样估计2方法二:方法二:分步计算边际误差 E。样本比例的抽样标准差:因为 n p=40 0.6=24 5,n p(1-p)=40 0.4=16 5,所以抽取的样本属于大样本,可以认为样本服从正态分布。利用Excel 的 NORMSINV函数可求出置信水平为 95%时的正态分布的分位数值 z/2=1.96,操作步骤见总体均值的区间估计。边际误差:模块五抽样估计2 第第 3 步:确定总体比例的置信区间步:确定总体比例的置信区
25、间置信区间为:(0.448 2,0.751 8)。在单元格 E7 输入公式“=E3-E6”,得到置信下限为 0.448 2;在单元格 E8 输入公式“=E3+E6”,得到置信上限为 0.751 8,如图所示。由上述计算得知:在 95%的置信水平下,该大学经管学院 2 200 名学生 iPad 拥有率的置信区间为(0.45,0.75),即(45%,75%)。模块五抽样估计2总体比例置信区间的计算模块五抽样估计2知识目标知识目标掌握必要样本量的确定方法掌握必要样本量的确定方法能力目标能力目标能够根据已知条件计算必要样本量能够根据已知条件计算必要样本量模块五抽样估计2任务引入任务引入某高校对一年级
26、1 000 名新生英语及格率进行调查,已知上届学生英语成绩的及格率为96%,试确定在 95.45%的置信度下,允许误差不超过 2%时应该抽取多少名新生进行调查。模块五抽样估计2任务分析任务分析样本容量的确定是抽样估计之前的工作,在学习了区间估计之后再学习必要样本容量的计算,可以更容易地理解决定样本容量的因素。模块五抽样估计2相关知识相关知识一、影响必要样本容量的因素一、影响必要样本容量的因素样本容量的大小取决于以下四个因素:1.1.总体标准差总体标准差 。2.2.置信水平置信水平 1-。3.3.允许误差允许误差 (或边际误差或边际误差)E。4.4.抽样方法。抽样方法。模块五抽样估计2二、简单随
27、机抽样条件下样本容量的确定二、简单随机抽样条件下样本容量的确定1.1.均值估计时样本容量的计算均值估计时样本容量的计算重复抽样:不重复抽样:式中,E 为边际误差。在实际应用中,若总体标准方差 2 未知,可用样本方差 s2代替。模块五抽样估计22.2.比例估计时样本容量的计算比例估计时样本容量的计算计算公式为:重复抽样:不重复抽样:在实际应用中,若总体方差(1-)未知,可用样本方差 p(1-p)代替。模块五抽样估计2任务实施任务实施已知:N=1 000,=96%,1-=95.45%,则 z/2=2,E=2%。若重复抽样需抽取:若不重复抽样需抽取:模块五抽样估计2谢 谢Thanks模块五抽样估计2