《抽样分布与抽样误差18249.pptx》由会员分享,可在线阅读,更多相关《抽样分布与抽样误差18249.pptx(51页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、STAT第五章 抽样推断第一节第一节 抽样及抽样分布抽样及抽样分布指指样样本本单单位的抽取不受主位的抽取不受主观观因素及其他系因素及其他系统统性因素性因素的影响,每个的影响,每个总总体体单单位都位都有均等的被抽中机会有均等的被抽中机会一、抽样推断的涵义及特点一、抽样推断的涵义及特点按照按照随机原则随机原则 从调查对象中抽取一部分从调查对象中抽取一部分单位进行调查,并根据样本推断总体数单位进行调查,并根据样本推断总体数量特征的一种统计方法量特征的一种统计方法1、抽样推断的涵义、抽样推断的涵义q按随机原则抽取样本单位按随机原则抽取样本单位q目的是推断总体的数量特征目的是推断总体的数量特征q抽样误差
2、可以事先计算并控制抽样误差可以事先计算并控制2、抽样推断的特点、抽样推断的特点设总体中设总体中 个总体单位某项标志的标志值分别个总体单位某项标志的标志值分别为为 ,其中具有某种属性的有,其中具有某种属性的有 个个单位,不具有某种属性的有单位,不具有某种属性的有 个单位,则个单位,则 总体平均数(又叫总体均值):总体平均数(又叫总体均值):指被估计的总体指标,又被称指被估计的总体指标,又被称为为全及指标全及指标二、总体参数二、总体参数 总体单位标志值的标准差:总体单位标志值的标准差:总体单位标志值的方差:总体单位标志值的方差:总体成数:总体成数:总体是非标志的标准差:总体是非标志的标准差:总体是
3、非标志的方差:总体是非标志的方差:设样本中设样本中 个样本单位某项标志的标志值个样本单位某项标志的标志值分别为分别为 ,其中具有和不具有某,其中具有和不具有某种属性的样本单位数目分别为种属性的样本单位数目分别为 和和 个,则个,则 样本平均数(又叫样本均值):样本平均数(又叫样本均值):指根据样本单位的标志值计算的用以指根据样本单位的标志值计算的用以估计和推断相应总体指标的综合指标,估计和推断相应总体指标的综合指标,又被称为又被称为估计量或统计量估计量或统计量三、样本指标三、样本指标 样本的标准差:样本的标准差:样本的方差:样本的方差:为自由度为自由度为 的无偏估计为 的无偏估计 样本成数:样
4、本成数:样本单位是非标志的标准差:样本单位是非标志的标准差:样本单位是非标志的方差:样本单位是非标志的方差:为 的无偏估计为 的无偏估计四、抽样方法四、抽样方法1、重复抽样、重复抽样又被称作重置抽样、有放回抽样又被称作重置抽样、有放回抽样2、不重复抽样、不重复抽样又被称作不重置抽样、不放又被称作不重置抽样、不放回抽样回抽样五、抽样组织方式五、抽样组织方式1 简单随机抽样(纯随机抽样)简单随机抽样(纯随机抽样)对总体单位逐一编号,然后按随机原对总体单位逐一编号,然后按随机原则直接从总体中抽出若干单位构成样本则直接从总体中抽出若干单位构成样本应用应用仅适用于规模不大、内部各单位仅适用于规模不大、内
5、部各单位标志值差异较小的总体标志值差异较小的总体是最简单、最基本、最符合随机原则,是最简单、最基本、最符合随机原则,但同时也是抽样误差最大的抽样组织形式但同时也是抽样误差最大的抽样组织形式2 类型抽样(分层抽样)类型抽样(分层抽样)将总体全部单位分类,形成若干个类型组,将总体全部单位分类,形成若干个类型组,然后从各类型中分别抽取样本单位组成样本。然后从各类型中分别抽取样本单位组成样本。总体总体N样本样本n等额抽取等额抽取等比例抽取等比例抽取最优抽取最优抽取能使样本结构更接近于总体结构,提高样本的能使样本结构更接近于总体结构,提高样本的代表性;能同时推断总体指标和各子总体的指标代表性;能同时推断
6、总体指标和各子总体的指标3 等距抽样(机械抽样或系统抽样)等距抽样(机械抽样或系统抽样)将总体单位按某一标志排序,而后按一将总体单位按某一标志排序,而后按一定的间隔抽取样本单位。定的间隔抽取样本单位。随机起点随机起点随机起点随机起点半距起点半距起点半距起点半距起点对称起点对称起点对称起点对称起点(总体单位按某一标志排序)(总体单位按某一标志排序)按无关标志排队,其抽样效果相当于按无关标志排队,其抽样效果相当于按无关标志排队,其抽样效果相当于按无关标志排队,其抽样效果相当于简单随机抽样简单随机抽样简单随机抽样简单随机抽样;按有关标志排队,其抽样效果相当于按有关标志排队,其抽样效果相当于按有关标志
7、排队,其抽样效果相当于按有关标志排队,其抽样效果相当于类型抽样类型抽样类型抽样类型抽样。4 整群抽样(集团抽样)整群抽样(集团抽样)将总体全部单位分为若干将总体全部单位分为若干“群群”,然后随,然后随机抽取一部分机抽取一部分“群群”,被抽中群体的所有单位,被抽中群体的所有单位构成样本构成样本例:总体群数例:总体群数R=16 样本群数样本群数r=4ABCDEFGHIJKLMNOPLHPD样本容量样本容量简单、方便,能节省人力、物力、财简单、方便,能节省人力、物力、财简单、方便,能节省人力、物力、财简单、方便,能节省人力、物力、财力和时间,但其样本代表性可能较差力和时间,但其样本代表性可能较差力和
8、时间,但其样本代表性可能较差力和时间,但其样本代表性可能较差5多阶段抽样多阶段抽样 指分两个或两个以上的阶段来完成抽指分两个或两个以上的阶段来完成抽取样本单位的过程取样本单位的过程例:在某省例:在某省100多万农户抽取多万农户抽取1000户调查户调查农户生产性投资情况。农户生产性投资情况。第一阶段:从该省所有县中抽取第一阶段:从该省所有县中抽取第一阶段:从该省所有县中抽取第一阶段:从该省所有县中抽取5 5个县个县个县个县第二阶段:从被抽中的第二阶段:从被抽中的第二阶段:从被抽中的第二阶段:从被抽中的5 5个县中各抽个县中各抽个县中各抽个县中各抽4 4个乡个乡个乡个乡 第三阶段:从被抽中的第三阶
9、段:从被抽中的第三阶段:从被抽中的第三阶段:从被抽中的2020个乡中各抽个乡中各抽个乡中各抽个乡中各抽5 5个村个村个村个村 第四阶段:从被抽中的第四阶段:从被抽中的第四阶段:从被抽中的第四阶段:从被抽中的100100个村中各抽个村中各抽个村中各抽个村中各抽1010户户户户样本样本样本样本n=10010=1000(n=10010=1000(户户户户)六、样本容量和样本个数六、样本容量和样本个数n30n30,为大样本;,为大样本;n 30n 30,为小样本,为小样本样本容量样本容量指样本中含有的总体单位的指样本中含有的总体单位的数目,数目,通常用通常用n 来表示。来表示。确定适当样本容量的意义:
10、确定适当样本容量的意义:q若若n过大,调查工作量增大,体现不出抽样过大,调查工作量增大,体现不出抽样调查的优越性;调查的优越性;q若若n 过小,抽样误差会增大,抽样推断就过小,抽样误差会增大,抽样推断就会失去价值。会失去价值。STAT1.在重复选取容量为在重复选取容量为n的样本时,由样本平的样本时,由样本平均数的所有可能取值形成的相对频数分布均数的所有可能取值形成的相对频数分布2.一种理论概率分布一种理论概率分布3.推断总体平均数的理论基础推断总体平均数的理论基础七、样本平均数(均值)的抽样分布七、样本平均数(均值)的抽样分布STAT样本平均数的抽样分布样本平均数的抽样分布(例题分析例题分析)
11、【例例例例】设设设设一一一一个个个个总总总总体体体体,含含含含有有有有4 4个个个个元元元元素素素素(个个个个体体体体),即即即即总总总总体体体体单单单单位位位位数数数数N N=4 4。4 4 个个个个个个个个体体体体分分分分别别别别为为为为x x1 1=1=1,x x2 2=2=2,x x3 3=3=3,x x4 4=4=4 。总总总总体的平均数、方差及分布如下体的平均数、方差及分布如下体的平均数、方差及分布如下体的平均数、方差及分布如下总体分布总体分布总体分布总体分布1 14 42 23 30 0.1.1.2.2.3.3平均数和方差平均数和方差平均数和方差平均数和方差STAT样本均值的抽样
12、分布样本均值的抽样分布(例题分析例题分析)现现现现从从从从总总总总体体体体中中中中抽抽抽抽取取取取n n2 2的的的的简简简简单单单单随随随随机机机机样样样样本本本本,在在在在重重重重复复复复抽抽抽抽样条件下,共有样条件下,共有样条件下,共有样条件下,共有4 42 2=16=16个样本。所有样本的结果为个样本。所有样本的结果为个样本。所有样本的结果为个样本。所有样本的结果为3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第二个观察值第一个第一个观察值观察值所有可能的所有可能的n=2 的样本(共的样本(共16个)个)ST
13、AT 计计算算出出各各样样本本的的均均值值,如如下下表表。并并给给出出样样本本均均值的抽样分布值的抽样分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第二个观察值第一个第一个观察值观察值16个样本的均值(个样本的均值(x)x x样本均值的抽样分布样本均值的抽样分布样本均值的抽样分布样本均值的抽样分布1.01.00 00.10.10.20.20.30.3P P (x x)1.51.53.03.04.04.03.53.52.02.02.52.5STAT=2.5 2=1.25总体分布总体分布总体分布总体分布1 14 42
14、 23 30 0.1.1.2.2.3.3抽样分布抽样分布抽样分布抽样分布P P(x x)1.01.00 0.1.1.2.2.3.31.51.53.03.04.04.03.53.52.02.02.52.5x xSTAT样本平均数的抽样分布样本平均数的抽样分布与中心极限定理与中心极限定理 =50=50=50 =10=10=10X X X总体分布总体分布总体分布总体分布总体分布总体分布n n=4=4抽样分布抽样分布抽样分布抽样分布抽样分布抽样分布xn n=16=16当当当当总总总总体体体体服服服服从从从从正正正正态态态态分分分分布布布布N N(,2 2)时时时时,来来来来自自自自该该该该总总总总体体
15、体体的的的的所所所所有有有有容容容容量量量量为为为为n n的的的的样样样样本本本本的的的的均均均均值值值值 x x也也也也服服服服从从从从正正正正态态态态分分分分布布布布,x x 的的的的数数数数学期望为学期望为学期望为学期望为,方差为,方差为,方差为,方差为 2 2/n n。即。即。即。即 x xN N(,2 2/n n)STAT样本比例的抽样分布样本比例的抽样分布STAT1.总体(或样本)中具有某种属性的单位与全部单位总数之比不同性别的人与全部人数之比合格品(或不合格品)与全部产品总数之比2.总体比例可表示为3.样本比例可表示为4.比例比例(proportion)STAT1.在重复选取容量
16、为n的样本时,由样本比例的所有可能取值形成的相对频数分布2.一种理论概率分布3.当样本容量很大时,样本比例的抽样分布可用正态分布近似 4.推断总体比例的理论基础样本比例的抽样分布样本比例的抽样分布STAT1.样本比例的数学期望2.样本比例的方差重复抽样不重复抽样样本比例的抽样分布样本比例的抽样分布(数学期望与方差数学期望与方差)STAT一、抽样误差的概念一、抽样误差的概念二、抽样平均误差二、抽样平均误差三、抽样极限误差三、抽样极限误差第二节第二节 抽样误差抽样误差STAT指样本估计量与总体参数之间数量指样本估计量与总体参数之间数量上的差异,仅指由于按照随机原则上的差异,仅指由于按照随机原则抽取
17、样本而产生的代表性误差,不抽取样本而产生的代表性误差,不包括登记性误差和系统偏差包括登记性误差和系统偏差抽样误差抽样误差STAT抽样平均误差的计算公式抽样平均误差的计算公式 样本平均数的抽样平均误差样本平均数的抽样平均误差重复抽样时:重复抽样时:不重复抽样时:不重复抽样时:STAT 样本成数的抽样平均误差样本成数的抽样平均误差重复抽样时:重复抽样时:不重复抽样时:不重复抽样时:抽样平均误差的计算公式抽样平均误差的计算公式STAT影响抽样误差的因素影响抽样误差的因素q总体各单位的差异程度(即标准差总体各单位的差异程度(即标准差的大小):的大小):越大,抽样误差越大;越大,抽样误差越大;q样本单位
18、数的多少:样本单位数的多少:越大,抽样误越大,抽样误差越小;差越小;q抽样方法:抽样方法:不重复抽样的抽样误差不重复抽样的抽样误差比重复抽样的抽样误差小;比重复抽样的抽样误差小;q抽样组织方式:抽样组织方式:简单随机抽样的误简单随机抽样的误差最大。差最大。STAT抽样极限抽样极限误差误差指在一定的概率保证程度下,指在一定的概率保证程度下,抽样误差不允许超过的某一给抽样误差不允许超过的某一给定范围,也称作定范围,也称作允许误差、误允许误差、误差范围、误差置信限差范围、误差置信限等等STAT抽样极限误差的计算公式抽样极限误差的计算公式(大样本条件下)(大样本条件下)样本平均数的样本平均数的极限误差
19、:极限误差:样本成数的极样本成数的极限误差:限误差:Z Z为概率度,是给定概率保证程度下样本均值为概率度,是给定概率保证程度下样本均值偏离总体均值的抽样平均误差的倍数。偏离总体均值的抽样平均误差的倍数。STATZ与相应的概率保证程度存在一一对应关系,与相应的概率保证程度存在一一对应关系,常用常用Z值及相应的概率保证程度为:值及相应的概率保证程度为:z值值 概率保证程度概率保证程度1.00 0.6827 1.65 0.9000 1.96 0.9500 2.00 0.9545 2.58 0.9900 3.00 0.9973抽样极限误差的计算公式抽样极限误差的计算公式(大样本条件下)(大样本条件下)
20、STATSTAT第三节第三节 参数估计参数估计一、点估计一、点估计二、区间估计二、区间估计三、样本容量的确定三、样本容量的确定STAT一、点估计一、点估计指直接以样本指标来估计总指直接以样本指标来估计总体指标,也叫体指标,也叫定值估计定值估计简单,具体明确简单,具体明确优点优点缺点缺点无法控制误差,仅适用于对推断的准无法控制误差,仅适用于对推断的准确程度与可靠程度要求不高的情况确程度与可靠程度要求不高的情况STAT评价估计量的标准评价估计量的标准STAT无偏性无偏性(unbiasedness)无偏性:无偏性:估计量抽样分布的数学期望等于被 估计的总体参数P P()B BA A无偏无偏无偏无偏无
21、偏无偏有偏有偏有偏有偏有偏有偏STAT有效性有效性(efficiency)有效性:有效性:对同一总体参数的两个无偏点估计 量,有更小标准差的估计量更有效 AB 的抽样分布的抽样分布的抽样分布的抽样分布 的抽样分布的抽样分布的抽样分布的抽样分布P P()STAT一致性一致性(consistency)一致性:一致性:随着样本容量的增大,估计量的 值越来越接近被估计的总体参数AB较小的样本容量较小的样本容量较小的样本容量较小的样本容量较大的样本容量较大的样本容量较大的样本容量较大的样本容量P P()STAT二、区间估计二、区间估计指根据样本指标和抽样极限误差以一指根据样本指标和抽样极限误差以一定的可
22、靠程度推断总体指标的可能范定的可靠程度推断总体指标的可能范围;其中,被推断的总体指标的下限围;其中,被推断的总体指标的下限与上限所包括的区间称为与上限所包括的区间称为置信区间置信区间,估计的可靠程度也称为估计的可靠程度也称为置信度。置信度。(这里只讨论常用的大样本的情况)(这里只讨论常用的大样本的情况)STAT总体平均数的区间估计总体平均数的区间估计表表达达式式其中,其中,为极限误差为极限误差STAT总体成数的区间估计总体成数的区间估计表表达达式式其中,其中,为极限误差为极限误差STAT三、样本容量的确定三、样本容量的确定STAT推断总体平均数所需的样本容量推断总体平均数所需的样本容量 重复抽
23、样条件下:重复抽样条件下:或或 S S通常未知。一般通常未知。一般按以下方法确定其估计按以下方法确定其估计值:值:过去的经验数据;过去的经验数据;试验调查样本的试验调查样本的S S。计算结果通常向上进位计算结果通常向上进位STAT 不重复抽样条件下:不重复抽样条件下:确确定定方方法法推断总体平均数所需的样本容量推断总体平均数所需的样本容量STAT确确定定方方法法推断总体成数所需的样本容量推断总体成数所需的样本容量 重复抽样条件下:重复抽样条件下:STAT 不重复抽样条件下:不重复抽样条件下:推断总体成数所需的样本容量推断总体成数所需的样本容量STAT谢谢观看/欢迎下载BY FAITH I MEAN A VISION OF GOOD ONE CHERISHES AND THE ENTHUSIASM THAT PUSHES ONE TO SEEK ITS FULFILLMENT REGARDLESS OF OBSTACLES.BY FAITH I BY FAITH