《第四章分层抽样优秀课件.ppt》由会员分享,可在线阅读,更多相关《第四章分层抽样优秀课件.ppt(72页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第四章分层抽样第四章分层抽样第1页,本讲稿共72页本章教学目的与要求本章教学目的与要求正确理解层与分层抽样的含义、特点及作用;掌握分层抽样的估计量及其性质;掌握分层抽样样本量的确定方法;了解分层抽样的设计效果;了解分层抽样其他理论问题,包括层权偏差、最优分配偏差、事后分层等。第2页,本讲稿共72页第一节第一节 抽样方式抽样方式影响估计精度的因素样本量、总体大小、总体方差方差客观存在无法改变,先分类,子总体内单位之间比较相似,每一个子总体的方差变小。第3页,本讲稿共72页一、分层抽样与分层随机抽样一、分层抽样与分层随机抽样定义:抽样前先将总体N个单位划分为L个互不重复的子总体,每个子总体称为层。
2、每个层中分别独立地进行抽样,这种抽样就是分层抽样,所得到的样本称为分层样本。如果每层都是简单随机抽样,则称为分层随机抽样,所得到的样本称为分层随机样本。第4页,本讲稿共72页二、分层抽样的特点及作用二、分层抽样的特点及作用可以提高估计精度不仅能对总体进行估计,而且能对各层进行估计。便于依托行政管理机构进行组织和实施。第5页,本讲稿共72页三、层的划分原则三、层的划分原则层内单位具有相同性质,通常按调查对象的不同类型进行划分。尽可能使层内单位的标志值相近,层间单位的差异尽可能大,从而达到提高抽样估计精度的目的。既按类型又按层内单位标志值相近的原则进行多重分层,同时达到估计类值以及提高估计精度的目
3、的。为了方便,通常按行政管理机构设置进行分层。第6页,本讲稿共72页四、符号说明四、符号说明第7页,本讲稿共72页第二节第二节 简单估计量及其性质简单估计量及其性质一总体均值的估计(一)简单估计量的定义在分层抽样中,对总体均值 的估计是通过对各层的 的估计,按层权 加权平均得到的第8页,本讲稿共72页(二)估计量的性质(二)估计量的性质第9页,本讲稿共72页(二)估计量的性质(二)估计量的性质第10页,本讲稿共72页二、总体总值的估计二、总体总值的估计(一)简单估计量的定义总体总值Y的估计量为第11页,本讲稿共72页(二)估计量的性质(二)估计量的性质第12页,本讲稿共72页(二)估计量的性质
4、(二)估计量的性质第13页,本讲稿共72页例 为调查某地区住户的平均家庭成员数,将该地区分成城市和乡村2层,每层按简单随机抽样抽取10户,调查所得数据如表,估计该地区住户的平均家庭成员数及其95%的置信区间。第14页,本讲稿共72页家庭成员数调查数据家庭成员数调查数据层层居民户总居民户总数数/户户家庭成员数家庭成员数/人人1 2 3456789 10城市城市2503 2 34334523乡村乡村5003 4 55436244第15页,本讲稿共72页第16页,本讲稿共72页三、总体比例的估计三、总体比例的估计(一)简单估计量的含义第17页,本讲稿共72页(二)估计量的性质(二)估计量的性质第18
5、页,本讲稿共72页(二)估计量的性质(二)估计量的性质第19页,本讲稿共72页(二)估计量的性质(二)估计量的性质第20页,本讲稿共72页例 对某地区的居民拥有家庭电脑的情况进行调查,以居民为抽样单位,根据收入水平将居民户划分为4层,每层按简单随机抽样抽取10户,调查获得数据如表,估计该地区居民拥有家庭电脑的比例及抽样标准误。第21页,本讲稿共72页层层居民户居民户总数总数样本户拥有家庭电脑情况样本户拥有家庭电脑情况/台台12345678910120000010001002400010000001037501100001010415001000000000第22页,本讲稿共72页第23页,本讲
6、稿共72页第24页,本讲稿共72页第25页,本讲稿共72页第三节第三节 样本量的分配样本量的分配总样本量n一定时,各层应该分配多少样本量。估计量的方差与各层的方差有关,也与各层的样本量有关。可以按各层单位数占总体单位数的比例分配。也可以采用使估计量方差达到最小的方法。第26页,本讲稿共72页一、比例分配一、比例分配按各层单位数占总体单位数的比例,即按各层的层权进行分配。第27页,本讲稿共72页第28页,本讲稿共72页因为总体中的任一个单位,不管它在哪一层,都以同样的概率入样,因此按比例分配的分层随机样本,估计量的形式特别简单,这种样本称为自加权的样本。第29页,本讲稿共72页二、最优分配二、最
7、优分配在分层随机抽样中,如何将样本量分配到各层,使得在总费用给定的条件下,估计量的方差达到最小,或在给定估计量方差的条件下,使总费用最小,能满足这个条件的样本量分配就是最优分配。考虑简单线性费用函数,总费用第30页,本讲稿共72页二、最优分配二、最优分配第31页,本讲稿共72页二、最优分配二、最优分配由此得出下面的行为准则:如果某一层单位数较多,内部差异较大,费用比较省,则对这一层的样本量要多分配一些。这样得到的估计量方差称为最优方差。第32页,本讲稿共72页三、尼曼分配三、尼曼分配对于分配随机样本,做为特例,如果每层抽样的费用相同,即时,最优分配可简化为第33页,本讲稿共72页例对某地区的2
8、850户居民豆制品年消费支出进行调查,以居民户为抽样单位,根据收入水平将居民户划分为4层,每层按简单随机抽样抽取10户,调查获得一下数据,如表所示,样本量n=40,按比例分配和尼曼分配时,各层的样本量分别应为多少?第34页,本讲稿共72页层层居民户居民户总数总数/户户样本户豆制品消费支出样本户豆制品消费支出/元元12345678910120010404011015104080900240050 130 13080 10055160851601703750 180 260 2600 14060200180300220415005035150203025103025第35页,本讲稿共72页第36页
9、,本讲稿共72页各层样本均值及方差为第37页,本讲稿共72页第38页,本讲稿共72页第39页,本讲稿共72页四、某些层要求大于四、某些层要求大于100%抽样时的修正抽样时的修正按最优分配时,有时抽样比较大,某个层的Sh又比较大,则可能出现按最优分配计算的这个层的样本量nh超过Nh的情况。在实际工作中,如果第k层出现这种情况,最优分配是对这个层进行100%抽样,即取nk=Nk,然后,将剩下的样本量n-nk按最优分配各层。第40页,本讲稿共72页第四节第四节 样本量的确定样本量的确定一、一般公式第41页,本讲稿共72页一、一般公式一、一般公式第42页,本讲稿共72页上例中,如果要求在95%置信度下
10、,相对允许误差不超过10%,则按比例分配和尼曼分配时,总样本量分别为多少?第43页,本讲稿共72页二、最优分配需要考虑费用二、最优分配需要考虑费用时的样本量确定时的样本量确定考虑费用为简单线性函数第44页,本讲稿共72页第45页,本讲稿共72页三、估计总体三、估计总体P时的样本量确时的样本量确定定第46页,本讲稿共72页上例中如果要求在95%的置信度下,绝对误差不超过5%,则按比例分配和尼曼分配时,总样本量分别为多少?第47页,本讲稿共72页第五节第五节 分层抽样设计效果分分层抽样设计效果分析析一、分层随机抽样与简单随机抽样的比较第48页,本讲稿共72页第49页,本讲稿共72页二、分层随机抽样
11、各种样本二、分层随机抽样各种样本量分配方法之间的比较量分配方法之间的比较第50页,本讲稿共72页二、分层随机抽样各种样本二、分层随机抽样各种样本量分配方法之间的比较量分配方法之间的比较实际工作中,目标不只一个,针对某个变量的最优分配,对其他变量可能不合适,因此在调查多目标变量时,按比例分配的分层抽样也许更好。需要确定各层标准差,可以用调查指标的历史数据或通过辅助指标的信息推算,也可以用一些与各层标准差有联系的量,如层内极差。第51页,本讲稿共72页第六节第六节 进一步问题的讨论进一步问题的讨论一、层权偏差对估计的影响第52页,本讲稿共72页第53页,本讲稿共72页二、最优分配偏差对方差影响二、
12、最优分配偏差对方差影响第54页,本讲稿共72页第55页,本讲稿共72页三、层数的确定三、层数的确定以辅助指标的累积平方根法等分法以目标量本身均匀分层目标量未知的辅助指标分层。第56页,本讲稿共72页四、多目标分层的样本量确定四、多目标分层的样本量确定最优分配平均法查特吉法耶茨法第57页,本讲稿共72页五、事后分层五、事后分层离群值,不需要交叉分层等背景先抽取一个样本量为n的简单随机样本,然后将样本单位按某个特征进行分层,落到第h层的单位数为nh,第58页,本讲稿共72页五、事后分层五、事后分层第59页,本讲稿共72页某高校欲了解学生用于课外研修的开支,在全校8000名学生中抽取200人的简单随
13、机样本,据统计,本科生人数为全校人数70%,调查最近一个学期课外进修支出的结果如下表,试估计全校学生用于课外进修的平均开支。第60页,本讲稿共72页层层权样本量样本均值 样本标准差本0.7120253.4231研0.380329.4367合计1200276.2294.57第61页,本讲稿共72页思考与练习思考与练习1某高校为了解教职员工对某项津贴与职务职称挂钩的分配制度改革的态度,准备在全校教职工中进行抽样调查。为了提高抽样效率,准备进行分层抽样,请判断下面的几种分层方法是否合适?(1)按性别分层(2)按教师、行政管理人员、工勤人员分层(3)按职称(正高、副高、中级、初级、其他)分层;(4)按
14、部门(系、所、处)分层。第62页,本讲稿共72页思考与练习思考与练习2某学院4个专业的新生举行元旦晚会,组织者为了活跃气氛,欲在200名学生中抽出10名作为幸运星,为了以示公平,要求每位学生被抽中的概率相同,组织者知道利用简单随机抽样的方法可以满足要求,你能否帮助组织者再设计几种方案?第63页,本讲稿共72页3某居委会管辖三个居民新村,居委会欲对居民购买彩票的情况进行调查,调查者考虑以新村分层,在每个新村中随机抽取了10户并调查每户最近一个月购买彩票化肥的金额。(1)试估计该小区居民户购买彩票的平均支出,并给出估计的标准差(2)当置信度为95%,要求相对误差不超过10%时,按比例分配和尼曼分配
15、的样本量及各层的样本量为多少?第64页,本讲稿共72页新村居民户数/户居民户彩票消费/元123456789101256101020201001030202420203510500405010202031680200309050400300第65页,本讲稿共72页随着经济发展,某市居民正在悄悄改变过年的习惯,虽然仍有大多数居民在除夕夜在家吃年夜饭、看电视节目,但也有家庭到饭店吃年夜饭、或逛夜市,或利用过年的假期到外地旅游。为研究这种现象,某研究机构以市中心165万居民户作为研究对象,将居民户按6个行政区分层,在每个行政区随机抽出户进行了调查(各层抽样比可以忽略),每个行政区的情况以及在家吃年夜饭
16、、看电视节目的居民户比例如后表(1)试估计该市居民在家吃年夜饭的比例,并给出抽样标准误(2)当置信度为95%,要求绝对误差不超过1%时,按比例分配和尼曼分配的总样本量及各层的样本量为多少?第66页,本讲稿共72页行政区(h)居民户比例(Wh)在家居民户数(nh)户10.182720.212830.142740.092650.162860.2229第67页,本讲稿共72页5某开发区利用电话调查对区内居民消费冷冻食品情况进行调查,将电话号码(6位数字)的前2位作为一部分,后4位一个部分,前2位代表局号,局号及每个局号中拥有的电话数可以找到,按局号分层,按每个局号(去掉商户号)拥有的电话数比例分配样
17、本量(各层抽样比可以忽略)。调查后各层样本户购买冷冻食品支出的中间结果如后表所示。试估计该开发区居民购买冷冻食品的平均支出及估计的置信区间。第68页,本讲稿共72页序号层权%样本量样本平均/元样本标准差18.2168910526.5135674313.72710218645.6117697511.82497106611.6237989717348311289.820527398.8183644107145265第69页,本讲稿共72页6某单位欲估计职工的离职意愿,聘请了专业公司来进行调研,公司人员按高级职称、中级职称和初级职称分为三层,已知层权分别为0.2,0.3,0.5,预先猜测各层的总体比
18、例为0.1,0.2,0.4,如果采用按比例分配的分层抽样,要求估计的方差与样本量为100的简单随机样本相当,则样本量应为多少(不考虑有限总体校正系数)?第70页,本讲稿共72页7如果一个大的简单随机样本,按类别分为6组,然后按照层的实际大小重新进行加权,这一过程称为事后分层,采用这种方法是由于以下说法,请判断对错。(1)它能比简单随机抽样产生更精确的结果()它能比按比例分配产生更精确的结果(3)它能比最优分配产生更精确地结果(4)在抽样时不能得到分层变量(5)它的估计量的方差与真正按比例分层随机抽样的方差差不多。第71页,本讲稿共72页8某公司进行财务审计,需要对原始凭证进行审核,该公司先后有两名出纳,由出纳登记的原始凭证占70%,B出纳登记的原始凭证占30%,审计人员从原始凭证中随机抽出100份,结果发现,由AB出纳登记的原始凭证分别为43份和57份,差错分别为1份和2份(1)用简单随机抽样的公式估计登记原始凭证的差错率,并估计抽样标准误()用事后分层的公式估计登记原始凭证的差错率,并估计抽样标准误(有限总体校正系数 )第72页,本讲稿共72页