《统计及统计案例.pptx》由会员分享,可在线阅读,更多相关《统计及统计案例.pptx(66页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、(2)系统抽样(也称为机械抽样):当总体的个数较多时,采用简单随机抽样较为费事。这时可将总体分成均衡的几个部分,然后按照预先定出的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样叫做系统抽样(也称为机械抽样)。第1页/共66页系统抽样的步骤:采用随机的方式将总体中的个体编号;整个的编号分段(即分成几个部分),要确定分段的间隔k。当N/n(N为总体中的个体的个数,n为样本容量)是整数时,k=N/n;当N/n不是整数时,通过从总体中剔除一些个体使剩下的总体中个体的个数N能被n整除,这时k=N/n;在第一段用简单随机抽样确定起始的个体编号1;按照事先确定的规则抽取样本(通常是将1加上间隔k得
2、到第2个编号1+k,第3个编号1+2k,这样继续下去,直到获取整个样本)。第2页/共66页(3)分层抽样:当已知总体由差异明显的几部分组成时,为了使样本更充分地反映总体的情况,常将总体分成几个部分,然后按照各部分所占的比例进行抽样,这种抽样叫做“分层抽样”,其中所分成的各部分叫做“层”。第3页/共66页各种抽样方法的联系与区别:类别类别共同点共同点各自特点各自特点相互联系相互联系适用范围适用范围简单随简单随机抽样机抽样抽样过程抽样过程中每个个中每个个体被抽取体被抽取的概率相的概率相等等从总体中逐从总体中逐个抽取个抽取总体中的总体中的个体数较个体数较少少系统抽系统抽样样将总体分成将总体分成几部分
3、按事几部分按事先确定的规先确定的规则在各部分则在各部分抽取抽取在起始部在起始部分抽样时分抽样时采用简单采用简单随机抽样随机抽样总体中的总体中的个体数较个体数较多多分层抽分层抽样样将总体分成将总体分成几层,分层几层,分层进行抽取进行抽取各层抽样各层抽样时采用简时采用简单随机抽单随机抽样或系统样或系统抽样抽样总体由差总体由差异明显的异明显的几部分组几部分组成成第4页/共66页方法:简单随机抽样,系统抽样,分层抽样都是不放回抽样用简单随机抽样从含有N个个体的总体中抽取一个容量为n的样本时,每次抽取时任一个体被抽到的概率为 在整个抽样过程中各个个体被抽到的概率为 ,简单随机抽样是一种等概率抽样.常用抽
4、签法和随机数表法实现简单随机抽样.系统抽样又称等距抽样,号码序列一确定,样本即确定了.分层抽样就是按比例抽样,也是等概率抽样.第5页/共66页例1.()一年级一年级 二年级二年级 三年级三年级女生女生373xy男生男生377370zA.24 B.18 C.16 D.12C解:依题意二年级的女生有380名,那么三年级学生的人数应该是2000-373-377-370-380=500,即在总体中各个年级的人数比例为332,故在分层抽样中应在三年级抽取的学生人数为64 =16.第6页/共66页名师1:第7页/共66页考点二、总体分布的估计:随着试验次数的不断增加,试验结果的频率值在相应的概率值附近摆动
5、.当试验次数无限增大时,频率值就变成相应的概率了.此时随着样本容量无限增大其频率分布也就会排除抽样误差,精确地反映总体取的概率分布规律,通常称为总体分布。第8页/共66页1、用样本的频率分布去估计总体分布:由于总体分布通常不易知道,我们往往用样本的频率分布去估计总体分布,一般地,样本容量越大,估计越精确.第9页/共66页总体分布的估计:(1)频率分布表;分组分组频数频数频率频率0,0.5)40.040.5,1)80.081,1.5)150.151.5,2)220.222,2.5)250.252.5,3)140.143,3.5)60.063.5,4)40.044,4.5)20.02合计合计100
6、1.00第10页/共66页(2)频率分布直方图;(1)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可以估计中位数的值;(2)平均数:平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和;(3)众数:在频率分布直方图中,众数是最高的矩形的中点的横坐标.第11页/共66页频率分布直方图;在频率分布直方图中(1)中位数:中位数左边和右边的直方图的面积应该相等.(2)平均数:每个小矩形的面积乘以小矩形底边中点的横坐标之和;(3)众数:众数是最高的矩形的中点的横坐标.第12页/共66页(3)频率分布折线图;频率分布折线图频率分布折线图的优点它反映了
7、数据的变化趋势.如果样本容量不断增大,分组的组距不断缩小,那么折线图就趋于总体分布的密度曲线第13页/共66页(4)总体密度曲线;总体密度曲线(5)茎叶图。总体密度曲线反映了总体在各个范围内取值的百分比,它能给我们提供更加精细的信息.例如图中阴影部分的面积,就是总体在区间(a,b)内取值得百分比第14页/共66页2、用样本的数字特征估计总体的数字特征:1).众数、中位数、平均数平均数:用一组数据的总和除以数据的个数所得的商;众 数:在一组数据中出现次数最多的数;(若有两个或两个以上的数字出现的次数一样多,则这些数字皆为该组数据的众数,若每个数据出现的次数都一样,则认为该组数据没有众数)中位数:
8、将一组数据按照大小顺序排列后,若数据个数是奇数,则最中间的数字为中位数;若数据个数是偶数,则最中间两个数字的平均数为中位数。第15页/共66页2).标准差、方差标准差:方 差:随机变量的方差和标准差都反映了随机变量取值偏离于均值的平均程度。方差或标准差越小,则随机变量偏离于均值的平均程度越小。第16页/共66页第17页/共66页1.右图是某运动员在一次篮球邀请赛中每场得分的茎叶统计图,则该运动员在此次邀请赛中得分的平均分和中位数分别是()A.15和15 B.16和17 C.17和15 D.18和17012375 5 71 10D练习:第18页/共66页例2 某工厂有工人1000名,其中250名
9、工人参加过短期培训(称为A类工人),另外750名工人参加过长期培训(称为B类工人),现用分层抽样方法(按A类、B类分二层)从该工厂的工人中共抽查100名工人,调查他们的生产能力(此处生产能力指一天加工的零件数).从A类工人中的抽查结果和从B类工人中的抽查结果分别如下表1和表2.生产能力生产能力分组分组100,110100,110)110,120110,120)120,130120,130)130,140130,140)140,150140,150)人数人数4 48 8x x5 53 3生产能力分组生产能力分组 110,120110,120)120,130120,130)130,140130,1
10、40)140,150140,150)人数人数6 6y y36361818第19页/共66页先确定x,y,再在答题纸上完成下列频率分布直方图.就生产能力而言,A类工人中个体间的差异程序与B类工人中个体间的差异程度哪个更小?(不用计算,可通过观察直方图直接回答结论)分别估计A类工人和B类工人生产能力的平均数,并估计该工厂工人的生产能力的平均数,同一组中的数据用该组区间的中点值作代表第20页/共66页生产能力生产能力分组分组100,110100,110)110,120110,120)120,130120,130)130,140130,140)140,150140,150)人数人数4 48 8x x5
11、 53 3生产能力分组生产能力分组 110,120110,120)120,130120,130)130,140130,140)140,150140,150)人数人数6 6y y36361818先确定x,y,再在答题纸上完成下列频率分布直方图.就生产能力而言,A类工人中个体间的差异程序与B类工人中个体间的差异程度哪个更小?(不用计算,可通过观察直方图直接回答结论)解:由题意知A类工人中应抽查25名,B类工人中应抽查75名.故4+8+x+5+3=25,得x=5,6+y+36+18=75,得y=15.频率分布直方图如下第21页/共66页从直方图可以判断:B类工人中个体间的差异程度更小.第22页/共6
12、6页分别估计A类工人和B类工人生产能力的平均数,并估计该工厂工人的生产能力的平均数,同一组中的数据用该组区间的中点值作代表A类工人生产能力的平均数,B类工人生产能力的平均数以及第23页/共66页第24页/共66页练习:从某小学随机抽取100名同学,将他们身高(单位:cm)数据绘制成频率分布直方图。由图中数据可知a=。若要从身高在120,130,130,140,140,150三组内的学生中,用分层抽样的方法选取18人参加一项活动,则从身高在140,150内的学生中选取的人数应为 。0.03,3第25页/共66页名师点题2第26页/共66页第27页/共66页第28页/共66页名师3:甲、乙、丙三名
13、射箭运动员在某次测试中各射箭20次,三人的测试成绩如下表甲的成绩甲的成绩环数环数78910频数频数5555乙的成绩乙的成绩环数环数78910频数频数6446丙的成绩丙的成绩环数环数78910频数频数4664s1,s2,s3分别表示甲、乙、丙三名运动员这次测试成绩的标准差,则有()A.s3s1s2 B.s2s1s3C.s1s2s3 D.s2s1s3第29页/共66页例4:某高校在2009年的自主招生考试成绩中随机抽取100名学生的笔试成绩,按成绩分为五组,得到的频率分布直方图如下图所示.(1)为了能选拔出最优秀的学生,高校决定在第3、4组中用分层抽样抽取5名学生进入第二轮面试,求第3、4组每组各
14、抽取多少名学生进入第二轮面试?(2)在(1)的前提下,学校决定在5名学生中随机抽取2名学生接受A考官进行面试,求第4组至少有一名学生被考官A面试的概率?第30页/共66页第31页/共66页(2)在(1)的前提下,学校决定在5名学生中随机抽取2名学生接受A考官进行面试,求第4组至少有一名学生被考官A面试的概率?第32页/共66页作业评讲:为了了解中华人民共和国道路交通安全法在学生中的普及情况,调查部门对某校6名学生进行问卷调查6人得分情况如下:5,6,7,8,9,10把这6名学生的得分看成一个总体()求该总体的平均数;()用简单随机抽样方法从这6名学生中抽取2名,他们的得分组成一个样本求该样本平
15、均数与总体平均数之差的绝对值不超过0.5的概率第33页/共66页作业评讲:为了了解中华人民共和国道路交通安全法在学生中的普及情况,调查部门对某校6名学生进行问卷调查6人得分情况如下:5,6,7,8,9,10把这6名学生的得分看成一个总体()用简单随机抽样方法从这6名学生中抽取2名,他们的得分组成一个样本求该样本平均数与总体平均数之差的绝对值不超过0.5的概率第34页/共66页作业:p189名师点题3第35页/共66页补充知识:第36页/共66页第一、计算原理1.分类加法计数原理:完成一件事有两类不同的方案,在第一类方案中有m种不同的方法,在第二类方案中有n种不同的方法。那么完成这件事共有N=m
16、+n种方法第37页/共66页2.分步乘法计数原理:完成一件事需要两个步骤,做第1步有m种不同的方法,做第二步有n种不同的方法,那么完成这件事共有N=mn种方法注意:用乘法原理时,和顺序有关。第38页/共66页第二、组合数计算公式:例如:从6名学生中抽取2名,一共有注意:用组合数公式时,和顺序没有关系。第39页/共66页E N D!第40页/共66页4、线性回归:(1)相关关系:自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系。注:与函数关系不同,相关关系是一种非确定性关系。(2)回归分析:对具有相关关系的两个变量进行统计分析的方法。(3)散点图:表示具有相关关系的两个变量的一组
17、数据的图形。第41页/共66页(4)回归直线方程:,其中 ,。相应的直线叫回归直线,对两个变量所进行的上述统计叫做回归分析。回归方程必须经过样本点的中心。第42页/共66页第43页/共66页(5)相关系数:相关系数的性质:(1)|r|1。(2)|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小第44页/共66页相关指数 R2:刻画回归的效果.在线性回归模型中,R2表示解释变量对预报变量变化的贡献率.R2越接近于1,表示回归的效果越好(因为R2越接近于1,表示解释变量和预报变量的线性相关性越强).且 (r 为相关系数)即相关指数是相关系数的平方.第45页/共66页数据点和它在回归直线
18、上相应位置的差异 是随机误差的效应,称 为残差.第46页/共66页 残差分析:是回归诊断的一种方法.通过残差来判断模型拟合的效果,判断原始数据中是否存在可疑数据,在方面的分析工作称为残差分析.利用残差图进行残差分析的具体步骤如下:(1)计算每组观测数据的残差 ,即残差等于观测值减预测值.当残差比较小时,说明回归模型拟合数据较好;如:编号编号1 12 23 34 45 56 67 78 8身高身高/165165165165157157170170175175165165155155170170体重体重/48485757505054546464616143435959残差残差-6-62.62.62
19、.42.4-5-51.11.16.66.6-3-30.40.4第47页/共66页(2)画残差图.残差图的纵坐标为残差,横坐标通常可以是观测样本的编号、自变量x或因变量的预测值等,残差图是一种散点图;如:第48页/共66页(3)分析残差图;若残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适.这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.(4)找异常值.根据计算的残差值和残差图,观察是否存在残差特别大的点,即远离横坐标的点.如果存在远离坐标轴的点,就要研究它出现的原因.第49页/共66页1.下列现象属于相关关系的是 ()A.家庭收入越多,消费也越多 B.圆的半
20、径越大,圆的面积越大 C.气体体积随温度升高而膨胀,随压力加大则减少 D.在价格不变的条件下,商品销售量越多销售额也越多2.设产品产量与产品单位成本之间的线性相关系数为-0.87,这说明二者之间存在着 ()A.高度相关 B.中度相关 C.弱度相关 D.极弱相关AA第50页/共66页 独立性检验:利用检验统计量K2来确定在多大程度可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.独立性检验:根据采集样本的数据,先利用三维柱形图和二维条形图粗略判断两个分类变量是否有关系,再利用公式计算 K2 的观测值 k,比较与临界值大小关系,来判定事件 x 与 y 是否无关的问题.第51页/共6
21、6页三维柱形图 二维条形图 等高条形图 第52页/共66页 一般地,假设有两个分类变量X和Y,它们的值域分别为 x1,x2 和 y1,y2,其样本频数列联表(称为22列联表)为:y1y2总计总计x1aba+bx2cdc+d总计总计a+cb+da+b+c+d22 列联表第53页/共66页 1.通过三维柱形图判断和二维条形图,可以粗略地判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度.若要推断的论述为 H1:“X 和 Y 有关系”,可按照如下步骤判断 H1 成立的可能性:(1)在三维柱形图中,主对角线上两个柱形高度的乘积 ad 和副对角线上两个柱形高度的乘积 bc 相差越大
22、,H1 成立的可能性就越大;(2)在二维条形图中,可以估计满足条件 X=x1 的个体中具有 Y=y1 的个体所占的 ,可以估计满足条件 X=x2 的个体中具有 Y=y2的个体所占的 两个比例的值相差越大,H1成立的可能性就越大.第54页/共66页2.利用独立性检验来考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度.具体做法是:(1)提出假设检验问题.(2)根据观测数据计算随机变量K2的观测值k,其值越大,说明“X与Y有关系”成立的可能性越大.(3)查表,给出推断结果极其解释.第55页/共66页P(K2k)0.500.400.250.150.100.050.0250.0100.0
23、050.001k0.4550.7081.3232.0722.7063.8415.0246.6357.87910.828两个特殊的临界值:(1)k=6.635;(2)k=2.706.(1)如果k 6.635,就有99%的把握认为“X与Y有关系”;(2)如果k2.706,就认为没有充分的证据显示“X与Y有 关系”.第56页/共66页1.三维柱形图中柱的高度表示的是 A.分类变量的百分比 B.分类变量的样本数 C.分类变量的具体值 D.各分类变量的频数2.下列关于对等高条形图说法正确的是 A.等高条形图表示高度相对的条形图 B.等高条形图表示的是分类变量的频数 C.等高条形图表示的是分类变量的百分比
24、 D.等高条形图表示的是分类变量的实际高度DC第57页/共66页2.用样本估计总体:频率分布直方图、总体密度曲线、茎叶图、众数、中位数、平均数、标准差、方差3.变量间的相关关系、线性回归4.统计案例 回归分析的基本思想,独立性检验的基本思想第58页/共66页例1:某初级中学有学生270人,其中一年级108人,二、三年级各81人,现要利用抽样方法抽取10人参加某项调查,考虑选用简单的随机抽样、分层抽样和系统抽样三种方案,使用简单随机抽样和分层抽样时,将学生按一、二、三年级依次统一编号为:1,2,270;使用系统抽样时,将学生统一随机编号1,2,270,并将整个编号依次分为10段如果抽得号码有下列
25、四种情况:7,34,61,88,115,142,169,196,223,250;5,9,100,107,111,121,180,195,200,265;11,38,65,92,119,146,172,200,227,254;30,57,84,111,138,165,192,219,246,270;关于上述样本的下列结论中,正确的是 A.、都不能为系统抽样 B.、都不能为分层抽样C.、都可能为系统抽样 D.、都可能为分层抽样D第59页/共66页1.某单位有500名职工,其中不到35岁的有125人,35岁49岁的有280人,50岁以上的有95人.为了了解该单位职工与身体状况有关的某项指标,要从中抽
26、取一个容量为100的样本,应该用_抽样法.分层2.某公司生产三种型号的轿车,产量分别为1200辆,6000辆和2000辆.为检验该公司的产品质量,现用分层抽样的方法抽取46辆舒畅行检验,这三种型号的轿车依次应抽取_辆.6、30 、10练习:第60页/共66页寿命(h)100200200300300400400500500600个数2030804030第61页/共66页寿命(h)频数频率100200200.10200300300.15300400800.40400500400.20500600300.15合计2001第62页/共66页第63页/共66页延伸拓展2 某公司在过去几年内使用某种型号的
27、灯管1000支,该公司对这些灯管的使用寿命(单位:小时)进行了统计,统计结果如下表所示:分组分组500,900)900,1100)1100,1300)1300,1500)1500,1700)1700,1900)1900,+)频数频数4812120822319316542频率频率(1)将各组的频率填入表中:(2)根据上述统计结果,计算灯管使用寿命不足1500小时的频率;(2)解:由(1)可得0.048+0.121+0.208+0.223=0.6,所以灯管使用寿命不足1500小时的频率为0.6.0.0480.1210.2080.2230.1930.1650.042第64页/共66页练习:P203 第10题第65页/共66页感谢您的观看!第66页/共66页