统计学yu学习教程.pptx

上传人:莉*** 文档编号:74019562 上传时间:2023-02-24 格式:PPTX 页数:111 大小:1.88MB
返回 下载 相关 举报
统计学yu学习教程.pptx_第1页
第1页 / 共111页
统计学yu学习教程.pptx_第2页
第2页 / 共111页
点击查看更多>>
资源描述

《统计学yu学习教程.pptx》由会员分享,可在线阅读,更多相关《统计学yu学习教程.pptx(111页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、抽样推断概述抽样的组织形式参数估计抽样误差(抽样分布)内容提要假设检验第1页/共111页u理解抽样推断的概念及特点、抽样误差u掌握抽样组织的形式;u熟悉总体参数的点估计方法;u掌握总体均值的区间估计方法;u掌握总体比例的区间估计方法u掌握样本容量的确定方法u掌握假设检验的推断分析方法Learning objectionLearning objection第2页/共111页第3页/共111页第4页/共111页第5页/共111页第6页/共111页第7页/共111页第8页/共111页 一、抽样推断的概念统计抽样法是统计分析研究中的一种重要方法,包括抽样调查和抽样推断两部分。第一节 抽样推断概述第9页

2、/共111页第10页/共111页抽样推断的特点:抽取样本单位时,遵循随机原则;是由部分推断总体的一种研究方法,即以样本的数量特征去推断总体的数量特征;抽样推断产生抽样误差,但抽样误差可以事先计算与控制。第11页/共111页 二、有关抽样推断的几组概念(*(*回顾)第12页/共111页总体:又称母体、全及总体,指所需要研究对象的全体,由许多客观存在的具有某种共同性质的单位构成。总体单位数用N N表示;样本:又称子样,来自总体,是从总体中按随机原则抽选出来的部分,由抽选单位构成。样本单位数用n n表示;总体是唯一的、确定的,而样本是不确定的、可变的、随机的。(一)总体和样本第13页/共111页u总

3、体参数:反映总体数量特征的指标,数值是唯一确定的。u样本统计量:根据样本分布计算的指标,是随机变量。(二)总体指标和样本指标第14页/共111页 参数 统计量 平均数 标准差、方差 p p 成数(比例)p p总体样本第15页/共111页代表样本单位数量标志的一般水平;通常用 表示:样本平均数第16页/共111页在抽样总体中,一个现象有两种表现时,其中具有某一种表现的单位数占抽样总体单位数的比重叫做样本成数,用p表示。计算公式:式中,n代表样本总体单位数,n1表示具有某一种表现的单位数;n0代表不具有此种表现的单位数;p、q代表样本成数。样本成数第17页/共111页例如,从某灯泡厂生产的灯泡中,

4、抽样检查了100只灯泡,其中有3只不合格,则:样本灯泡不合格率样本灯泡合格率第18页/共111页重复抽样l例:从ABCDEABCDE五个字母中随机抽取两个作为样本,N=5N=5,n=2n=2u考虑顺序时:样本个数=5*5=25=5*5=25u不考虑顺序时:样本个数=15=15(三)抽样方式第19页/共111页不重复抽样l例如从ABCDEABCDE五个字母中随机抽取两个作为样本,N=5N=5,n=2n=2u考虑顺序时:样本个数=20=20u不考虑顺序时:样本个数=10=10第20页/共111页基本原则:保证实现抽样的随机性原则保证实现最大的抽样效果原则三、抽样设计第21页/共111页简单随机抽样

5、u在对总体未做任何处理的情况下,按随机原则直接从总体的N个单位中抽取n个单位作为样本,使每个总体单位都有同等机会被抽到。u具体方法:先对总体每个单位进行编号,然后采用抽签的方式或根据随机数表来抽取样本。常用的抽样组织形式第22页/共111页第23页/共111页第24页/共111页n特点:n直接从总体中抽取所需要调查的单位,无须经过分组、分类、排队或组群等处理;n必须事先对总体中所有单位进行编码或编号。当总体很大,编号工作很困难,或对连续生产的产品不可能编号时,就很难采用这种方法;n抽取样本时不借助有关标志的辅助信息;n当总体各单位标志值之间差异很大时,采用这种抽样方式不能保证样本的代表性;简单

6、随机抽样主要适用于单位数不多且内部差异不太大的总体的抽样。第25页/共111页类型抽样u又称为分层抽样或分类抽样,是先对总体各单位按照某一标志加以分类,再从各类中按随机原则抽取样本单位。u优点:u能提高样本的代表性;u能降低抽样平均误差的总方差;u便于组织工作;适用于对被调查标志的标志值在各单位间分布差异大的总体的抽样第26页/共111页第27页/共111页如何分组?原则:在定性分析的基础上尽量缩小组内各标志值之间的差异,增大组间各标志值之间的差异,从而降低抽样误差的总方差;方法:等比例分配法 即样本单位在各类之间的分配比例与总体单位在各类之间的分配比例是一致的第28页/共111页整群抽样将总

7、体划分为由总体单位所组成的若干群,然后以群作为抽样单位,从总体中抽取若干群作为样本,并对中选群内的所有单位进行全面调查的抽样方式。优点:无须编制总体单位名单,只需编制总体群名单;当总体缺乏包括全体单位的抽样框,无法进行抽选时,可以采用整群抽样;一般是不重复抽样;第29页/共111页第30页/共111页等距抽样u又称为机械抽样或系统抽样,先将总体各单位按某一标志排队,然后依固定顺序和间隔来抽取样本单位的一种抽样组织形式。u等距抽样是不重复抽样,等距抽样的随机性体现在抽取第一个样本单位,当第一个样本单位确定后,其余的各个单位也就确定。适用于对单位不多且能进行排序的总体抽样第31页/共111页第32

8、页/共111页多阶段抽样在总体容量很大或分布很广的情况下,很难通过一次抽样得到一个完整的样本,需要把整个抽样的程序分成若干个阶段,分阶段的进行抽样;在抽样中能把多种抽样方式结合起来使用,最大限度的保证样本的代表性。第33页/共111页类型抽样随机抽样第34页/共111页一、抽样误差的概念抽样误差是样本指标和总体指标之间的差数。误差种类:登记性误差随机性误差(抽样误差)第35页/共111页影响抽样误差大小的因素样本单位数的多少总体标志变异程度的大小抽样方法第36页/共111页二、抽样平均误差抽样平均误差是抽样误差的一般水平,为随机变量通常用抽样平均数的标准差或抽样成数的标准差来作为衡量误差的一般

9、水平的尺度第37页/共111页样本平均数的抽样平均误差-重复抽样例:某班组有5 5个工人的日工资为3434、3838、4242、4646、5050元。总体均值为 总体方差为现用重复抽样的方式从5 5个人中随机抽取2 2个构成样本,样本个数为5*5=255*5=25第38页/共111页第39页/共111页第40页/共111页验证了以下两个结论:即在重复抽样方式下:p样本平均数的期望值等于总体平均数p样本平均数的方差等于总体方差除以样本容量第41页/共111页抽样平均数的标准差反映所有的样本平均数与总体平均数的平均误差,称为抽样平均误差,用 表示:第42页/共111页 即对于不重复抽样而言:p样本

10、平均数的期望值等于总体平均数p样本平均数的方差等于总体方差与 的乘积样本平均数的抽样平均误差不重复抽样第43页/共111页总体成数p是具有某种特征的单位在总体中的比重。成数是一个特殊平均数。设总体单位总数目为N,具有该特征的单位数为 ,设X为0-1变量(总体单位具有该属性则X取1,否则取0)则有:样本成数的抽样平均误差-重复抽样第44页/共111页现从总体中抽取n个单位,如果其中具有相应特征的单位数为n1,则样本成数是:P是一个R.V.,利用样本平均数的抽样误差结论有:第45页/共111页样本成数的抽样平均误差不重复抽样第46页/共111页样本平均数样本平均数样本成数样本成数重复重复抽样抽样不

11、重复不重复抽样抽样抽样均值及误差总结第47页/共111页*抽样分布概念u由样本统计量的全部可能取值和与之相应的概率组成的分配数列。F重复抽样分布第48页/共111页定理1 1:前提条件:如果由n n个单位构成的随机样本来自于一个平均数为 ,方差为 的正态分布总体结论:则样本平均数 也服从正态分布,该分布的数学期望值为 ,方差为 即:服从标准正态分布。第49页/共111页例:某公司10001000名职工年终奖近似服从正态分布,人均为20002000元,标准差为500500元,随机抽取3636人作为样本进行调查,问样本的人均年终奖在1900-1900-22002200元之间的概率有多大?解:根据题

12、意知:第50页/共111页第51页/共111页练:一图书馆每天平均登记320320本书,假定标准差是7575本,考虑3030天为一个样本,问:样本均值在300300本道330330本之间的概率是多少?解:第52页/共111页2.中心极限定理当样本容量足够当样本容量足够大时大时(n n 30)30),样,样本均值的抽样分本均值的抽样分布逐渐趋于正态布逐渐趋于正态分布分布中心极限定理:设从均值为,方差为 2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布。X XX一个任意分布的总体第53页/共111页2010年抽样分布与总体分布的关系总体分

13、布总体分布正态分布非正态分布样本均值正态分布样本均值正态分布样本均值非正态分布大样本小样本第54页/共111页 1.假定四口之家旅行时日花销的总体均值为元,标准差为50元,现选择49个家庭组成一个简单随机样本。说明样本均值的抽样分布;这49个家庭组成的随机样本的样本均值在总体均值左右20元以内的概率是多少?这49个家庭组成的随机样本的样本均值在总体均值左右10元以内的概率是多少?第55页/共111页解:1.样本均值服从正态分布,即:2.第56页/共111页3.第57页/共111页2.某车间工人用车床生产一关键零件,每月产量的平均数为75件,标准差为6件。如果你是一名月产量超过80件的生产能手,

14、厂里打算从全车间随机抽取8名同事组成一个生产小组,任命你为组长。那这个小组平均每月每人产量超过80件的概率为多大?第58页/共111页解:第59页/共111页参数估计在统计方法中的地位参数估计假设检验统计方法描述统计推断统计第60页/共111页概念:也叫抽样估计(抽样推断),即根据样本提供的信息,对总体的某些特征作出估计或推断。特点:在逻辑上运用的是归纳推理而不是演绎推理;在方法上运用的是不确定的概率估计方法,而不是确定的数学分析方法;参数估计存在抽样误差第三节 参数估计第61页/共111页估计量与估计值(estimator&estimated value)估计量:用于估计总体参数的随机变量u

15、如样本均值,样本比例,样本方差等u例:样本均值就是总体均值 的一个估计量参数用 表示,估计量用 表示估计值:估计参数时计算出来的统计量的具体值u如果样本均值 x x =80=80,则8080就是 的估计值 第62页/共111页根据对被估值的要求不同,通常有两种方法:第63页/共111页点估计:也称定值估计,直接以一个样本估计量来估计总体参数,当已知一个样本的观察值时,可得到总体参数的一个估计值。一、点估计第64页/共111页例:对某厂生产的一批电子元件的使用寿命进行检测,先从中随机抽取500只进行调查,得知其样本平均寿命为1950小时,样本的合格率为95%。我们可以推断,总体的平均寿命为195

16、0小时,总体的合格率为95%。第65页/共111页点估计方法的优点是简便易行,原理直观,而主要缺点是没有解决参数估计的精确度和可靠性问题;一般只适用于对推断准确性程度和可靠性要求不高的情况。第66页/共111页无偏性有效性一致性评价估计量的标准第67页/共111页无偏性(unbiasedness)无 偏 性:估 计 量 抽 样 分 布 的 数 学 期 望 等 于 被 估计的总体参数P P()无偏无偏有偏有偏AB第68页/共111页有效性(efficiency)有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效 AB B 的抽样分布 的抽样分布P P()第69页/共111页一致

17、性(consistency)一致性:随着样本量的增大,估计量的值越来越接近被估计的总体参数A AB B较小的样本量较大的样本量P P()第70页/共111页例:设总体 ,为X的一个样本,则下面四个关于均值的无偏估计量中最有效的一个是()A.B.C.D.D第71页/共111页概念:即估计总体参数的区间范围,并给出区间估计成立的概率值。其中:1-(01)称为置信度;是区间估计的显著性水平,通常取为1%、5%和10%。二、区间估计第72页/共111页置信区间置信区间置信下限置信下限置信上限置信上限样本统计量样本统计量 (点估计点估计)第73页/共111页区间区间1 1区间区间2 2区间区间3 3区间

18、区间4 4第74页/共111页1.将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例,也称置信度 2.表示为 (1-(1-u 为是总体参数未在区间内的比例 3.常用的置信水平值有 99%,95%,90%u相应的 为,置信水平(confidence level)第75页/共111页置信区间表达了区间估计的精确度;置信概率表达了区间估计的可靠性,它是区间估计的可靠概率;显著性水平表达了区间估计的不可靠概率l例如或1%,表示总体指标在置信区间内,平均100次有1次会产生误差。第76页/共111页方差已知方差未知判断样本容量置信区间置信区间置信下限置信下限置信上限置信上限样本均值

19、样本均值如何构造区间?以样本均值为例,构造总体均值置信度为1-a的区间极限误差抽样平均误差抽样分布及置信度第77页/共111页第78页/共111页第79页/共111页第80页/共111页第81页/共111页x0.00 0.01 0.02 0.06 0.0 0.5000 0.5040 0.5080 0.5239 0.1 0.5398 0.5438 0.5478 0.56360.2 0.5793 0.5832 0.5871 0.6026 1.90.97130.97190.97260.9750 标准正态分布表的使用ZF(z)=1-a/2 开始查表:当时,z=?z-z第82页/共111页第83页/共1

20、11页2已知(总体方差)2未知均 值置 信 区 间区间估计计算步骤第84页/共111页总体均值的区间估计(正态总体、方差已知或非正态总体大样本)1.假定条件u总体服从正态分布,且方差()已知u如果不是正态分布,可由正态分布来近似(n 30)2.使用正态分布统计量z3.总体均值 在1-置信水平下的置信区间为:第85页/共111页例1:设某种油漆的9个样品,其干燥时间分别为(以小时计):6,7,5。已知干燥时间总体服从正态分布,且 小时,求 的置信度为95%的置信区间.解:根据题意可知:即总体均值的置信区间为:总体平均数的区间估计第86页/共111页已知某零件的直径服从正态分布,从这批产品中随机抽

21、取10件,测得平均直径为,已知总体标准差为,试建立该种零件平均直径的置信区间,给定置信度为0.95.解:则所求的置信区间为:练习1第87页/共111页例2.2.某大学从该校学生中随机抽取100100人,调查到他们平均每人每天完成作业时间为120120分钟,样本标准差为3030分钟,试以95%95%的置信水平估计该大学全校学生平均每天完成作业时间的置信区间.解:则所求的置信区间为:第88页/共111页在对一种新生产方式检验时,随机选取36个雇员让他们试用该种新方法。36名雇员生产率的样本均值为每小时80件,样本标准差为每小时15件,假定总体服从正态分布,求该种新方法生产率总体均值的90%的置信区

22、间。解:则所求的置信区间为:练习2第89页/共111页总体均值的区间估计(总体方差未知、小样本)1.假定条件u总体方差()未知且为小样本(n 30)2.使用 t 分布统计量3.总体均值 在1-置信水平下的置信区间为:第90页/共111页例3.从一批糖果中随机抽取16袋,称得重量(克)数据如下:平均重量为克,标准差为克,设袋装糖果的重量近似服从正态分布,试求总体均值置信度为的置信区间。解:则所求的置信区间为:第91页/共111页练习3设某种油漆的9个样品,其干燥时间分别为(小时):6,5.7,5.8,6.5,7,6.3,5.6,6.1,5,样本方差为0.33,求均值 的置信度为的置信区间。解:则

23、所求的置信区间为:第92页/共111页2010年总体均值的区间估计(小结)第93页/共111页2010年总体参数区间估计使用的分布(小结)第94页/共111页2010年总体参数的区间估计(小结)第95页/共111页需要解决的问题是:在实际调查中要求什么样的精度?即所希望的估计值与真值接近到什么程度?想构造多宽的区间?对于置信区间来说,想要多大的置信度?或者想要多大的可靠度?三、样本容量的确定第96页/共111页在总体均值的区间估计中,置信区间是由下式确定的:表示在一定的置信水平1-下,用样本均值估计总体均值时所允许的最大绝对误差,用 表示,称 为极限误差。即:第97页/共111页将上式整理得到

24、样本量公式:总体方差越大,样本容量n越大,成正比;样本容量n与允许极限误差成反比;样本容量n与可靠性系数成正比;如要求的可靠性越高,样本容量就应越大。第98页/共111页例4.4.某广告公司欲知某类商店去年所花平均广告费有多少,经验表明,总体方差为18000001800000,若置信度为95%95%,且使估计值处于总体均值附近500500元的范围内,问这家广告公司应取多大的样本?解:即这家广告公司应抽取2828个商店做样本。第99页/共111页练4 4:拥有工商管理学位的大学毕业生每年年薪的标准差为20002000元,假定希望估计年薪90%90%的置信区间,当误差为200200元时,样本容量应

25、该为多大?解:第100页/共111页在估计总体比率时,允许极限误差为:则样本容量公式为:第101页/共111页例5.5.一家市场调研公司想估计某地区有彩电的家庭所占的比例,100100户中有6060户拥有彩电,该公司希望对比率p p的估计误差不超过,要求的可靠程度为95%95%,应取多大容量的样本?解:第102页/共111页练5.2005年新浪网公布了18岁及以上年龄的人群中吸烟的人所占比率,假定要设计一项调查来搜集关于吸烟与非吸烟人群的数据信息,吸烟者占总体比率的最佳初始估计值为30%.当置信度为90%,允许误差为时,应抽取多大的样本容量?解:第103页/共111页当缺乏可靠的资料代替未知总

26、体比率p时,常取进行计算.此时样本容量计算公式变形为:第104页/共111页例6.6.一家市场调研公司想估计某地区有彩电的家庭所占的比例,该公司希望对比率p p的估计误差不超过,要求的可靠程度为95%95%,应取多大容量的样本?解:第105页/共111页在实际工作中,总体标准差是未知的,可采用以下三种方法替换总体标准差:u用过去总体标准差计算抽样标准误差;u在已知总体单位极端值的情况下,可根据总体全距推算标准差,全距约为标准差的六倍;u用样本标准差替代总体标准差;第106页/共111页-3-2-+2+368.26%95.44%99.74%第107页/共111页例7.对小麦平均产量进行抽样调查时

27、,要求置信度为95%,允许误差为15公斤.已知最高亩产为400公斤,最低亩产为100公斤,问样本容量为多大适宜?解:95%置信度值对应的标准正态变量 允许误差为15,全距为400-100=300 标准差估算为300/6=50 则样本容量为:第108页/共111页练:一个旅行社想通过随机抽样估计参加练:一个旅行社想通过随机抽样估计参加3 3日游日游的每位顾客平均的零星花费金额,希望上下误的每位顾客平均的零星花费金额,希望上下误差控制在差控制在5050元之内,且置信系数为元之内,且置信系数为95%95%。若旅行。若旅行社确信顾客平均花费在社确信顾客平均花费在30012003001200元之间,它应元之间,它应抽取多大容量的样本?抽取多大容量的样本?解:解:第109页/共111页统计推断的基本原理抽样及抽样分布的概念参数估计的方法样本容量的确定本章小结(1)第110页/共111页感谢您的观看!第111页/共111页

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > PPT文档

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁