《抽样分布与参数估计.pptx》由会员分享,可在线阅读,更多相关《抽样分布与参数估计.pptx(120页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、统计学1. 掌握随机试验、事件和概率的概念及性质掌握随机试验、事件和概率的概念及性质2. 理解随机变量及其分布,计算各种分布的理解随机变量及其分布,计算各种分布的概率概率3. 理解抽样分布与总体分布的关系理解抽样分布与总体分布的关系4. 掌握总体均值、总体比例和总体方差的区掌握总体均值、总体比例和总体方差的区间估计间估计概率基础概率基础随机变量及其分布随机变量及其分布 1.随即试验: 在相同条件下,对事物或现象所进行的观察 2.事件: 随机试验的每一个可能结果(任何样本点集合)1. 基本事件一个不可能再分的随机事件例如:掷一枚骰子出现的点数2. 样本空间一个试验中所有基本事件的集合,用表示例如
2、:在掷枚骰子的试验中,1,2,3,4,5,6在投掷硬币的试验中,正面,反面1.事件的包含事件的包含2. 事件的并或和事件的并或和3. 事件的交或积事件的交或积4.互斥事件互斥事件5.事件的逆事件的逆6.事件的差事件的差 设A、B、C为三个事件,则有1. 交换律:AB=BA 2. AB=BA2. 结合律:A(BC)=(AB)C A(BC) =(AB) C3. 分配律:A(BC)=(AB)(AC) A(BC)=(AB)(AC)1. 事件A的概率是对事件A在试验中出现的可能性大小的一种度量2. 表示事件A出现可能性大小的数值3. 事件A的概率表示为P(A)4. 概率的定义有:古典定义、统计定义和主观
3、概率定义例如,投掷一枚硬币,出现正面和反面的频率,随着投掷次数 n 的增大,出现正面和反面的频率稳定在1/2左右 如果某一随机试验的结果有限,而且各个结果在每次试验中出现的可能性相同,则事件A发生的概率为该事件所包含的基本事件个数 m 与样本空间中所包含的基本事件个数 n 的比值,记为nmAAP事件个数样本空间所包含的基本所包含的基本事件个数事件)(【例例】某钢铁公司所属三个工厂的职工人数如下表。从 该公司中随机抽取1人,问: (1)该职工为男性的概率 (2)该职工为炼钢厂职工的概率某某钢铁公司所属企业职工人数钢铁公司所属企业职工人数工厂工厂男男职工职工女女职工职工合计合计炼钢厂炼钢厂炼铁厂炼
4、铁厂轧钢厂轧钢厂4000320090018001600600620048001500合计合计8500400012500 解:解:(1)用A 表示“抽中的职工为男性”这一事件;A为全公司男职工的集合;基本空间为全公司职工的集合。则68. 0125008500)(全公司职工总人数全公司男性职工人数AP384. 0125004800)(全公司职工总人数炼钢厂职工人数BP 在相同条件下进行n次随机试验,事件A出现 m 次,则比值 m/n 称为事件A发生的频率。随着n的增大,该频率围绕某一常数P上下摆动,且波动的幅度逐渐减小,取向于稳定,这个频率的稳定值即为事件A的概率,记为pnmAP)(【例例】:某工
5、厂为节约用电,规定每天的用电量指标为1000度。按照上个月的用电记录,30天中有12天的用电量超过规定指标,若第二个月仍没有具体的节电措施,试问该厂第一天用电量超过指标的概率。 解:解:上个月30天的记录可以看作是重复进行了30次试验,试验A表示用电超过指标出现了12次。根据概率的统计定义有4 . 03012)(试验的天数超过用电指标天数AP1.对一些无法重复的试验,确定其结果的概率只能根据以往的经验人为确定2.概率是一个决策者对某事件是否发生,根据个人掌握的信息对该事件发生可能性的判断3.例如,我认为2001年的中国股市是一个盘整年1.非负性对任意事件A,有 0 P 12.规范性必然事件的概
6、率为1;不可能事件的概率为0。即P ( ) = 1; P ( ) = 03.可加性若A与B互斥,则P ( AB ) = P ( A ) + P ( B )推广到多个两两互斥事件A1,A2,An,有 P ( A1A2 An) = P ( A1 ) + P (A2 ) + + P (An )一一. 随机变量的概念随机变量的概念二.二.离散型随机变量的概率分布离散型随机变量的概率分布三.三.连续型随机变量的概率分布连续型随机变量的概率分布1. 一次试验的结果的数值性描述2. 一般用 X、Y、Z 来表示3. 例如: 投掷两枚硬币出现正面的数量4. 根据取值情况的不同分为离散型随机变量和连续型随机变量1
7、.随机变量 X 取有限个值或所有取值都可以逐个列举出来 X1 , X2,2.以确定的概率取这些不同的值3.离散型随机变量的一些例子试验试验随机变量随机变量可能的取值可能的取值抽查抽查100个个产品产品一家餐馆营业一天一家餐馆营业一天电脑公司一个月的销售电脑公司一个月的销售销售一辆汽车销售一辆汽车取到次品的个数取到次品的个数顾客数顾客数销售量销售量顾客性别顾客性别0,1,2, ,1000,1,2, 0,1, 2,男性为男性为0,女性为女性为11.随机变量 X 取无限个值2.所有可能取值不可以逐个列举出来,而是取数轴上某一区间内的任意点3.连续型随机变量的一些例子试验试验随机变量随机变量可能的取值
8、可能的取值抽查一批电子元件抽查一批电子元件新建一座住宅楼新建一座住宅楼测量一个产品的测量一个产品的长度长度使用寿命使用寿命(小时小时)半年后工程完成的百分比半年后工程完成的百分比测量误差测量误差(cm)X 00 X 100X 01.列出离散型随机变量X的所有可能取值2.列出随机变量取这些值的概率3.通常用下面的表格来表示X = xix1 ,x2 , ,xnP(X =xi)=pip1 ,p2 , ,pn011niipX = xi0 1 2 3P(X=xi) pi0.05 0.10 0.55 0.301. 一个离散型随机变量X只取两个可能的值例如,男性用 1表示,女性用0表示;合格品用 1 表示,
9、不合格品用0表示2. 列出随机变量取这两个值的概率X = xi0 1P(X=xi)=pi0.05 0.951. 一个离散型随机变量取各个值的概率相同2. 列出随机变量取值及其取值的概率3. 例如,投掷一枚骰子,出现的点数及其出现各点的概率X = xi1 2 3 4 5 6P(X=xi)=pi1/6 1/6 1/6 1/6 1/6 1/61.在离散型随机变量X的一切可能取值的完备组中,各可能取值xi与其取相对应的概率pi乘积之和2.描述离散型随机变量取值的集中程度3.计算公式为取无穷个值)取有限个值)XpxXEXpxXEiiiniii()()(111.随机变量X的每一个取值与期望值的离差平方和的
10、数学期望,记为D(X)2.描述离散型随机变量取值的分散程度3.计算公式为122)()()()(iiipXExXDXXEXEXD是离散型随机变量,则若X = xi1 2 3 4 5 6P(X =xi)=pi1/6 1/6 1/6 1/6 1/6 1/65 . 3616611)(61iiipxXE9167. 261)5 . 36(61)5 . 31 ()()(22612iiipXExXD超几何分布超几何分布离散型随机变离散型随机变量的概率分布量的概率分布泊松分布泊松分布二项分布二项分布指数分布指数分布连续型随机变连续型随机变量的概率分布量的概率分布正态分布正态分布均匀分布均匀分布其他分布其他分布1
11、. 连续型随机变量可以取某一区间或整个实数轴上的任意一个值2. 它取任何一个特定的值的概率都等于03. 不能列出每一个值及其相应的概率4. 通常研究它取某一区间值的概率5. 用数学函数的形式和分布函数的形式来描述1. 设X为一连续型随机变量,x 为任意实数,X的概率密度函数记为f(x),它满足条件1d)()2(0)() 1 (xxfxf 密度函数 f(x)表示X 的所有取值 x 及其频数f(x) 在平面直角坐标系中画出f(x)的图形,则对于任何实数 x1 x2,P(x1 X x2)是该曲线下从x1 到 x2的面积baxxfbXaPd )()(xab1.连续型随机变量的概率也可以用分布函数F(x
12、)来表示2.分布函数定义为)(d)()()(xxttfxXPxF)()(d)()(aFbFxxfbXaPba1. 密度函数曲线下的面积等于12. 分布函数是曲线下小于 x0 的面积1. 连续型随机变量的数学期望为2. 方差为xxxfXEd)()(2d)()()(xxfXExXD 1. 描述连续型随机变量的最重要的分布 2. 可用于近似离散型随机变量的分布 例如: 二项分布 3. 经典统计推断的基础xxfx,e21)(2221f(x) = 随机变量 X 的频数 = 总体方差 =3.14159; e = 2.71828x = 随机变量的取值 (- x 02.正态曲线的最高点在均值,它也是分布的中位
13、数和众数3.正态分布是一个分布族,每一特定正态分布通过均值的标准差来区分。 决定曲线的高度,决定曲线的平缓程度,即宽度4.曲线f(x)相对于均值对称,尾端向两个方向无限延伸,且理论上永远不会与横轴相交5.正态曲线下的总面积等于16.随机变量的概率由曲线下的面积给出xCAB?d)()(baxxfbxaP1. 一般的正态分布取决于均值和标准差 2. 计算概率时 ,每一个正态分布都需要有自己的正态概率分布表,这种表格是无穷多的3. 若能将一般的正态分布转化为标准正态分布,计算概率时只需要查一张表xxx,e21)(221.任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布)1 ,0( NX
14、Zxtxttxxde21d)()(2-2XZ1.将一个一般的转换为标准正态分布2.计算概率时 ,查标准正态概率分布表3.对于负的 x ,可由 (-x) x得到4.对于标准正态分布,即XN(0,1),有P (a X b) b aP (|X| a) 2 a 15.对于一般正态分布,即XN( , ),有abbXaP)(12. 01052 . 6XZ5 = 102.97.1X21.1051 . 7 21.1059 . 2XZXZ0 = 1-.21Z.219525.0)67.1 (67.135351035)10(XPXPXP7938.0)1()67.1(67.1351351035352)102(XPXP
15、XP总体总体(Population):调查研究的事物或现象的全体个体个体(Item unit):组成总体的每个元素样本样本(Sample):从总体中所抽取的部分个体样本容量样本容量(Sample size):样本中所含个体的数量1.概率抽样:根据已知的概率选取样本 简单随机抽样:完全随机地抽选样本 分层抽样:总体分成不同的“层”,然后在每一层内进行抽样 整群抽样:将一组被调查者(群)作为一个抽样单位 等距抽样:在样本框中每隔一定距离抽选一个被调查者2.非概率抽样:不是完全按随机原则选取样本 非随机抽样:由调查人员自由选取被调查者 判断抽样:通过某些条件过滤来选择被调查者3.配额抽样:选择一群特
16、定数目、满足特定条件的被调查者1. 所有样本指标(如均值、比例、方差等)所形成的分布称为抽样分布2. 是一种理论概率分布3. 随机变量是 样本统计量样本统计量样本均值, 样本比例等4. 结果来自容量相同的所有可能样本5 . 21NXNii25. 1)(122NXNii3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第二个观察值第一个第一个观察值观察值所有可能的所有可能的n = 2 的样本(共的样本(共16个)个)3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.
17、01第二个观察值第二个观察值第一个第一个观察值观察值16个样本的均值(个样本的均值(x)nMxnixix222122625. 016)5 . 20 . 4()5 . 20 . 1 ()(5 . 2160 . 45 . 10 . 11Mxniix5 . 2x625. 02xX5x50 x5 . 2x xn x ) 1() 1(222nsn 选择容量为选择容量为n 的的简单随机样本简单随机样本计算样本方差计算样本方差S2计算卡方值计算卡方值 2 = (n-1)S2/2计算出所有的计算出所有的 2值值总体总体1. 所有可能的样本均值的标准差,测度所有样本均值的离散程度2. 小于总体标准差3. 计算公
18、式为nx第二节 参数估计基本方法一一. 点估计点估计二二. 点估计的优良性准则点估计的优良性准则三.三.区间估计区间估计估估 计计 方方 法法点点 估估 计计区间估计区间估计总体参数总体参数符号表示符号表示用于估计的用于估计的样本统计量样本统计量一个总体一个总体均值比例方差两个总体两个总体均值之差比例之差方差比22121PP 2221xp 2s21xx 21pp 2221ssP1. 从总体中抽取一个样本,根据该样本的统计量对总体的未知参数作出一个数值点的估计例如: 用样本均值作为总体未知均值的估计值就是一个点估计2.点估计没有给出估计值接近总体未知参数程度的信息3. 点估计的方法有矩估计法、顺
19、序统计量法、最大似然法、最小二乘法等1.用于估计总体某一参数的随机变量如样本均值,样本比例、样本中位数等例如: 样本均值就是总体均值的一个估计量如果样本均值 x = 3 ,则 3 就是 的估计值2. 理论基础是抽样分布 无偏性:无偏性:估计量的数学期望等于被估计的总体 参数 一致性:一致性:随着样本容量的增大,估计量越来越接 近被估计的总体参数1.根据一个样本的观察值给出总体参数的估计范围2.给出总体参数落在这一区间的概率3.例如: 总体均值落在5070之间,置信度为 95% 已知已知 未知未知 均均 值值方方 差差比比 例例置置 信信 区区 间间1. 总体未知参数落在区间内的概率2. 表示为
20、 (1 - 为显著性水平,是总体参数未在区间内的概率 3. 常用的显著性水平值有 99%, 95%, 90%相应的相应的 为0.0,0.05,0.0 xxX1.数据的离散程度,用 来测度2. 样本容量,3. 3.置信水平 (1 - ),影响 Z 的大小nx第三节 总体均值和总体比例 的区间估计一一. 总体均值的区间估计总体均值的区间估计二二. 总体比例的区间估计总体比例的区间估计三.三.样本容量的确定样本容量的确定1.假定条件总体服从正态分布,且总体方差()已知如果不是正态分布,可以由正态分布来近似 (n 30)2.使用正态分布统计量)1 ,0( NnxZnZxnZx22,498.21,302
21、.21915.096.14 .21,915.096.14 .21,22nZxnZx176.27,824.24100696. 126,100696. 126,22nZxnZx1.假定条件总体方差()未知总体必须服从正态分布正态分布2.使用 t 分布统计量) 1(1ntnsxtnnstxnstxnn1212,3 .53,69.462580639. 250,2580639. 250,1212nstxnstxnn1.假定条件两类结果总体服从二项分布可以由正态分布来近似2.使用正态分布统计量) 1 , 0()1 (NnppppZnppZp)1 (2 764.0 ,636.0200)7 .01 (7 .0
22、96.17 .0)1 (2nppZp1.根据均值区间估计公式可得样本容量n为2222Zn nZ22865.27500)1800000()96.1 (222222Zn1.根据比例区间估计公式可得样本容量n为 222)1 (ppZn)1 (2ppnZ【例例】一家市场调研公司想估计某地区有彩色电视机的家庭所占的比例。该公司希望对比例p的估计 误 差 不 超 过0.05,要求的可靠程度为95%,应抽多大容量的样本(没有可利用的p估计值)。385)5 .0()5 .01)(5 .0()96.1 ()1 (22222ppZn先对总体各单位按一定标志加以先对总体各单位按一定标志加以分类分类( (层层) ),
23、然后再从各类,然后再从各类( (层层) )中按随中按随机原则抽取样本,组成一个总的样本。机原则抽取样本,组成一个总的样本。 一一是必须有清楚的划类界限;是必须有清楚的划类界限;二二是必须知道各类中的单位数目和比例;是必须知道各类中的单位数目和比例;三三是分类型的数目不宜太多。是分类型的数目不宜太多。样样本代表性高、抽样误差小、抽样调查本代表性高、抽样误差小、抽样调查成本较低。如果抽样误差的要求相同的话则成本较低。如果抽样误差的要求相同的话则抽样数目可以减少。抽样数目可以减少。1.1.等等比例类型抽样比例类型抽样( (类型比例抽样类型比例抽样) );2.2.不不等比例类型抽样等比例类型抽样( (
24、类型适宜抽样类型适宜抽样) )。22 ; P(1-P)P(1-P) 重重复复抽抽样样:不重复抽样不重复抽样:22222 tNNtnx )()(pptNNpptnp 11222整群抽样即从全及总体中成群地抽取样本整群抽样即从全及总体中成群地抽取样本单位,对抽中的群内的所有单位都进行观察。单位,对抽中的群内的所有单位都进行观察。整群抽样的好处:组织工作比较简单方整群抽样的好处:组织工作比较简单方便,适用于一些特殊的研究对象。其不足之便,适用于一些特殊的研究对象。其不足之处是,一般比其它抽样方式的抽样误差大。处是,一般比其它抽样方式的抽样误差大。公式用以上纯随机抽样的公式,一般采用公式用以上纯随机抽
25、样的公式,一般采用不重复抽样公式:不重复抽样公式:xp2n (1)nNp(1p)n (1)nN 为为简简便便起起见见,也也可可采采用用重重复复抽抽样样公公式式。2xp np(1 p) n 公式用类型抽样的公式:公式用类型抽样的公式:整群抽样的抽样平均误差受三个因素影响:整群抽样的抽样平均误差受三个因素影响:(1)(1)抽抽出的群数出的群数(r)(r)多少多少 ( (反比关系反比关系) )(2)(2)群群间方差间方差( ) ( ) (正比关系正比关系) )2 为为全全及及总总体体各各群群的的平平均均数数为为全全及及平平均均数数或或: 为为抽抽样样各各群群的的平平均均数数为为抽抽样样各各群群的的总
26、总平平均均数数为为全全及及总总体体各各群群的的成成数数为为全全及及总总体体的的成成数数22x22x22p2priii 1riii 1riii 1(xx)x rx (xx) r x r x(pp)p rp 或或: 为为抽抽样样各各群群的的成成数数为为抽抽样样各各群群的的总总成成数数2riii 1(pp) rp r p 2x2pxpRrrR(1)R1Rr (1)rRr (1)rR 整整群群抽抽样样都都采采用用不不重重复复抽抽样样。所所以以在在计计算算抽抽样样误误差差时时要要使使用用修修正正系系数数,当当 的的数数目目较较大大时时,可可用用来来代代替替。整整群群抽抽样样的的抽抽样样平平均均误误差差计
27、计算算公公式式为为: 假如某一机器大量生产某一种零件,现每隔一小时抽取5分钟产品进行检验,用以检查产品的合格率,检查结果如下:ipp2i(pp ) r合格率群数rpipir80% 20.80 1.6-0.09960.0198485% 40.85 3.4-0.04960.0098490%120.90 10.8 0.0004 (太小不计)95% 30.95 2.85 0.05040.0076298% 30.98 2.94 0.08040.01939合计24- 21.59-0.0566922p2prii 1ppr21.590.8996r24(pp) r0.056690.002362r24r0.002
28、36224(1)(1)0.0095(0.95%)rR24288p 样本群平均合格率群间方差或例例即把抽样本单位的过程分为两个或几个阶段来进即把抽样本单位的过程分为两个或几个阶段来进行。行。(如果一次就直接抽选出具体样本单位,这叫单阶段(如果一次就直接抽选出具体样本单位,这叫单阶段抽样)具体讲:抽样)具体讲: 先抽大单位先抽大单位( (可以用类型抽样或机可以用类型抽样或机械抽样械抽样) ), 再在大单位中抽小单位再在大单位中抽小单位( (可用整群抽样可用整群抽样或简单随机抽或简单随机抽) ),小单位中再抽更小的单位;而不小单位中再抽更小的单位;而不是一次就直接抽取基层的调查单位。是一次就直接抽取
29、基层的调查单位。以两阶段抽样为例以两阶段抽样为例设总体分设总体分R R组,每组包含组,每组包含 个单位,若各组个单位,若各组 相等,则相等,则iMMRMN im在抽样第一阶段,从在抽样第一阶段,从R R组中抽出组中抽出r r组;组;在抽样第二阶段,在中选的在抽样第二阶段,在中选的r r组中随机抽选组中随机抽选 个个单位,若各组单位,若各组m m相等,则相等,则n=n=rmrm则则:在重复抽样下:在重复抽样下在不重复抽样下在不重复抽样下)()(1122 MmMrmRrRrx rmrx22 设某大学在学期初对学生进行体重抽样调查,先从全校80个班以不重复抽样方法随机抽取8个班,然后再从抽取的班中再
30、分别抽取10个人作为第二阶段抽样单位。计算所得的抽样平均体重为60.5千克,抽样各班内方差平均数 为50,各班之间体重方差 为22。 2 2x 假设全校各班均为40人。试以94.45%(t=2)的概率,推断该校学生平均体重的范围。例:例:已知已知:80 R8 r40 M10 m560. x502 222 x 2 t解解:)()(1122 MmMrmRrRrx 731140104010850180880822.)()( 4637312. xxt 463560463560. X千克千克96630457. X 2px2222x2p nn p 1-pn(1)1N(2)p 1-pp 1-p(3)p 1-p ,最最基基本本的的是是:若若为为:乘乘以以若若不不重重复复抽抽样样类类型型抽抽样样整整为为:若若为为群群抽抽样样: nNRr 结结 束束