《统计学ppt第六章抽样与抽样分布.ppt》由会员分享,可在线阅读,更多相关《统计学ppt第六章抽样与抽样分布.ppt(22页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第六章第六章 抽样与抽样分布抽样与抽样分布重点:重点:样本指标的分布;抽样标准误差的理解样本指标的分布;抽样标准误差的理解与计算。与计算。内容:内容:6.1 6.1 抽样推断的基本概述。抽样推断的基本概述。6.2 6.2 样本指标分布。样本指标分布。6.3 6.3 抽样误差、抽样标准误差及其计算。抽样误差、抽样标准误差及其计算。思考题思考题在调查我校大学生消费情况的问卷中,了解到265名同学每月的生活支出如下生活支出(元)生活支出(元)生活支出(元)生活支出(元)学生数(人)学生数(人)学生数(人)学生数(人)300300以下以下以下以下3004003004004005004005005006
2、00500600600700600700700700以上以上以上以上4 441417474626233335151合计合计合计合计265265计算平均数和标准差!问全校同学的月平均生活支出是多少?有多大的把握保证这个结果的可靠性?如果要使得调查结果与总体真值之间的允许误差为10元,那么应该抽取多少个样本?抽样推断抽样推断:分析样本数据,获取关于总体的信息。:分析样本数据,获取关于总体的信息。抽样误差抽样误差:遵循随机抽样原则,样本统计量与总体参数:遵循随机抽样原则,样本统计量与总体参数之间的差异(不包括登记性误差)之间的差异(不包括登记性误差)。误差越大估计的。误差越大估计的精度越低!精度越低
3、!非抽样误差非抽样误差:抽样误差以外的其他统计误差。:抽样误差以外的其他统计误差。统计推断的工具统计推断的工具:有关概率的理论。:有关概率的理论。推断的结论从来不是完全肯定或完全否定的。推断的结论从来不是完全肯定或完全否定的。关键与核心关键与核心:抽样方法、样本的代表性和推断的方法。:抽样方法、样本的代表性和推断的方法。6.1 6.1 抽样推断的基本概述抽样推断的基本概述抽样估计的一般步骤设设计计抽抽样样方方案案抽抽取取样样本本单单位位收收集集样样本本数数据据计计算算样样本本统统计计量量推推断断总总体体参参数数样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本
4、统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量未知未知总总体参数体参数(常数)(常数)样本统计量样本统计量(随机变量(随机变量)主要样本主要样本统计量统计量平均数比率方差平均数比率方差主要总体主要总体参数参数 随机原则随机原则抽取样本单位时,应确保每个总体单位都有被抽抽取样本单位时,应确保每个总体单位都有被抽取的可能;在对样本单位的资料进行搜集和整理时,取的可能;在对样本单位的资料进行搜集和整理时,不能随意遗漏或更换样本单位不能随意遗漏或更换样本单位 抽样误差最小抽样误差最小在其他条件
5、相同的情况下,选抽样误差最小的方案在其他条件相同的情况下,选抽样误差最小的方案 费用最少费用最少在其他条件相同的情况下,选费用最少的方案在其他条件相同的情况下,选费用最少的方案设计抽样方案时,通常是设计抽样方案时,通常是在误差达到一定要求的条在误差达到一定要求的条件下,选择费用最少的方案件下,选择费用最少的方案抽样方案设计的原则和内容抽样方案设计的原则和内容(一)编制抽样框(二)确定抽样方法(三)确定抽样组织方式(四)确定样本容量抽样方案设计的主要内容抽样方案设计的主要内容抽样框抽样框指包括全部总体单位的名单框架,指包括全部总体单位的名单框架,仅对有限总体而言仅对有限总体而言主主要要形形式式名
6、单抽样框名单抽样框区域抽样框区域抽样框时间表抽样框时间表抽样框(一)编制抽样框不放回不放回放放 回回放回放回不放不放 回回独独立立性性当当n/N5%时,有限总时,有限总体不放回抽体不放回抽样等同于放样等同于放回抽样回抽样(二)确定抽样方法(简单随机抽样简单随机抽样)样本的可能数目样本的可能数目在考虑顺序的抽样条件下,从总体N中随机抽取n个样本单位共有多少种可能的抽选结果。重复抽样的可能样本数目:重复抽样的可能样本数目:不重复抽样的可能样本数目:不重复抽样的可能样本数目:共共n个个1 简单随机抽样(纯随机抽样)简单随机抽样(纯随机抽样)对总体单位逐一编号,然后按随机原则直接对总体单位逐一编号,然
7、后按随机原则直接对总体单位逐一编号,然后按随机原则直接对总体单位逐一编号,然后按随机原则直接从总体中抽出若干单位构成样本从总体中抽出若干单位构成样本从总体中抽出若干单位构成样本从总体中抽出若干单位构成样本应用应用仅适用于规模不大、内部各单位仅适用于规模不大、内部各单位标志值差异较小的总体标志值差异较小的总体是最简单、最基本、最符合随机原则,是最简单、最基本、最符合随机原则,但同时也是抽样误差最大的抽样组织形式但同时也是抽样误差最大的抽样组织形式(三)确定抽样组织方式2 类型抽样(分层抽样)类型抽样(分层抽样)将总体全部单位分类,形成若干个类型组,然将总体全部单位分类,形成若干个类型组,然将总体
8、全部单位分类,形成若干个类型组,然将总体全部单位分类,形成若干个类型组,然后从各类型中分别随机抽取样本单位组成样本。后从各类型中分别随机抽取样本单位组成样本。后从各类型中分别随机抽取样本单位组成样本。后从各类型中分别随机抽取样本单位组成样本。总体总体N样本样本n等额抽取等额抽取等比例抽取等比例抽取能使样本结构更接近于总体结构,提高样本的能使样本结构更接近于总体结构,提高样本的代表性;能同时推断总体指标和各子总体的指标代表性;能同时推断总体指标和各子总体的指标3 等距抽样(机械抽样或系统抽样)等距抽样(机械抽样或系统抽样)将总体单位按某一标志排序,而后按一定的间将总体单位按某一标志排序,而后按一
9、定的间将总体单位按某一标志排序,而后按一定的间将总体单位按某一标志排序,而后按一定的间隔抽取样本单位。隔抽取样本单位。隔抽取样本单位。隔抽取样本单位。随机起点随机起点随机起点随机起点半距起点半距起点半距起点半距起点对称起点对称起点对称起点对称起点(总体单位按某一标志排序)(总体单位按某一标志排序)4 整群抽样(集团抽样)整群抽样(集团抽样)将总体全部单位分为若干将总体全部单位分为若干将总体全部单位分为若干将总体全部单位分为若干“群群”,然后随机抽,然后随机抽,然后随机抽,然后随机抽取一部分取一部分取一部分取一部分“群群群群”,被抽中群体的所有单位构成样本,被抽中群体的所有单位构成样本,被抽中群
10、体的所有单位构成样本,被抽中群体的所有单位构成样本例:总体群数例:总体群数R=16 样本群数样本群数r=4ABCDEFGHIJKLMNOPLHPD样本容量样本容量简单、方便,能节省人力、物力、财简单、方便,能节省人力、物力、财力和时间,但其样本代表性可能较差力和时间,但其样本代表性可能较差5多阶段抽样多阶段抽样 指分两个或两个以上的阶段来完成抽取样本指分两个或两个以上的阶段来完成抽取样本指分两个或两个以上的阶段来完成抽取样本指分两个或两个以上的阶段来完成抽取样本单位的过程单位的过程单位的过程单位的过程例:在某省例:在某省100多万农户抽取多万农户抽取1000户调查户调查农户生产性投资情况。农户
11、生产性投资情况。第一阶段:从该省所有县中抽取第一阶段:从该省所有县中抽取第一阶段:从该省所有县中抽取第一阶段:从该省所有县中抽取5 5个县个县个县个县第二阶段:从被抽中的第二阶段:从被抽中的第二阶段:从被抽中的第二阶段:从被抽中的5 5个县中各抽个县中各抽个县中各抽个县中各抽4 4个乡个乡个乡个乡 第三阶段:从被抽中的第三阶段:从被抽中的第三阶段:从被抽中的第三阶段:从被抽中的2020个乡中各抽个乡中各抽个乡中各抽个乡中各抽5 5个村个村个村个村 第四阶段:从被抽中的第四阶段:从被抽中的第四阶段:从被抽中的第四阶段:从被抽中的100100个村中各抽个村中各抽个村中各抽个村中各抽1010户户户户
12、样本样本样本样本n=10010=1000(n=10010=1000(户户户户)n30n30,为大样本;,为大样本;n 30n 30,为小样本,为小样本确定适当样本容量的意义:确定适当样本容量的意义:确定适当样本容量的意义:确定适当样本容量的意义:q若若若若n n过大,调查工作量增大,体现不出抽样调查的过大,调查工作量增大,体现不出抽样调查的过大,调查工作量增大,体现不出抽样调查的过大,调查工作量增大,体现不出抽样调查的优越性;优越性;优越性;优越性;q若若若若n n 过小,抽样误差会增大,抽样推断就会失去价过小,抽样误差会增大,抽样推断就会失去价过小,抽样误差会增大,抽样推断就会失去价过小,抽
13、样误差会增大,抽样推断就会失去价值。值。值。值。可根据抽样允许最大误差(极限误差)抽样允许最大误差(极限误差)与抽样数目抽样数目的关系来确定抽样数抽样数(四)确定样本容量n常见的概率分布为正态分布。常见的概率分布为正态分布。正态分布是自然界最常见的一种分布。正态分布是自然界最常见的一种分布。随机变量随机变量X X服从正态分布,则记为:服从正态分布,则记为:抽样分布抽样分布样本统计量所有可能值的样本统计量所有可能值的概率分布概率分布许多其他分布可用正态分布来近似。(中间多,两边减少,近似对称。)6.2 6.2 样本指标分布样本指标分布正态分布的两个参数:正态分布的两个参数:标准正态分布,则记为:
14、标准正态分布,则记为:标准随机变量在区间标准随机变量在区间-Z-Za/2a/2,Z Za/2a/2 之间取值的概率是之间取值的概率是F(Z)=1-a,F(Z)=1-a,可通过查标准正态概率分布表知。可通过查标准正态概率分布表知。0 0 0z z /2/2/2/2 -z z /2/2/2/2 a a a a/2/2 a a a a a a/2/2/2 Z ZF(Z)=F(Z)=1-1-1-a a 概率,置信水平概率,置信水平概率,置信水平概率,置信水平概率,置信水平概率,置信水平重复抽样条件下,样本平均数的抽样分布重复抽样条件下,样本平均数的抽样分布重复抽样,样本比率(成数)的抽样分布重复抽样,样本比率(成数)的抽样分布不重复抽样条件下,样本平均数的抽样分布不重复抽样条件下,样本平均数的抽样分布不重复抽样,样本比率(成数)的抽样分布不重复抽样,样本比率(成数)的抽样分布