《《统计》知识点精华总结(8页).doc》由会员分享,可在线阅读,更多相关《《统计》知识点精华总结(8页).doc(8页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、-统计知识点精华总结1、简单随机抽样的含义 一般地,设一个总体含有N个个体, 从中逐个不放回地抽取n个个体作为样本(nN),如果每次抽取时总体内的各个个体被抽到的机会都相等, 就把这种抽样方法叫做简单随机抽样简单随机抽样要特点:总体的个体数有限;样本的抽取是逐个进行的,每次只抽取一个个体;抽取的样本不放回,样本中无重复个体;每个个体被抽到的机会都相等,抽样具有公平性.2最常用的简单随机抽样方法有两种:抽签法(抓阄法);随机数法; 抽签法的操作步骤: 第一步,将总体中的所有个体编号,并把号码写在形状、大小相同的号签上.第二步,将号签放在一个容器中,并搅拌均匀第三步,每次从中抽取一个号签,连续抽取
2、n次,就得到一个容量为n的样本.抽签法有哪些优点和缺点? 优点:简单易行,当总体个数不多的时候搅拌均匀很容易,个体有均等的机会被抽中,从而能保证样本的代表性. 缺点:当总体个数较多时很难搅拌均匀,产生的样本代表性差的可能性很大;误差相比其它抽样也比较大。 利用随机数表法从含有N个个体的总体中抽取一个容量为n的样本,其抽样步骤如下:第一步,将总体中的所有个体编号.第二步,在随机数表中任选一个数作为起始数.第三步,从选定的数开始依次向右(向左、向上、向下)读,将编号范围内的数取出,编号范围外的数去掉,直到取满n个号码为止,就得到一个容量为n的样本.系统抽样:3、系统抽样的含义一般地,要从容量为N的
3、总体中抽取容量为n的样本,可将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样的方法叫做系统抽样.系统抽样有以下特征:当总体容量N较大时,采用系统抽样。将总体分成均衡的若干部分指的是将总体分段,分段的间隔要求相等,因此,系统抽样又称等距抽样,间隔一般为 预先制定的规则指的是:在第1段内采用简单随机抽样确定一个起始编号,在此编号的基础上加上分段间隔的整倍数即为抽样编号系统抽样的一般步骤用系统抽样从总体中抽取样本时,首先要做的工作是将总体中的所有个体编号,如果用系统抽样从605件产品中抽取60件进行质量检查,由于605件产品不能均衡分成60部分,应
4、先从总体中随机剔除5个个体,再均衡分成60部分。一般地,用系统抽样从含有N个个体的总体中抽取一个容量为n的样本,其操作步骤如下:第一步,将总体的N个个体编号.第二步,确定分段间隔k,对编号进行分段.第三步,在第1段用简单随机抽样确定起始个体编号l.第四步,按照一定的规则抽取样本.4、分层抽样的定义: 若总体由差异明显的几部分组成,抽样时,先将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,再将各层取出的个体合在一起作为样本,这样的抽样叫做分层抽样. 所以分层抽样又称类型抽样应用分层抽样应遵循以下要求及具体步骤:分层:将相似的个体归入一类,即为一层,分层要求每层的各个个
5、体互不交叉,即遵循不重复、不遗漏的原则。分层抽样为保证每个个体等可能入样,需遵循在各层中进行简单随机抽样,每层样本数量与每层个体数量的比与这层个体数量与总体容量的比相等。 一般地,分层抽样的操作步骤如何?第一步,计算样本容量与总体的个体数之比.第二步,将总体分成互不交叉的层,按比例确定各层要抽取的个体数.第三步,用简单随机抽样或系统抽样在各层中抽取相应数量的个体.第四步,将各层抽取的个体合在一起,就得到所取样本5、用样本估计总体(1)频率分布表 【问题】 我国是世界上严重缺水的国家 之一,城市缺水问题较为突出,某市政 府为了节约生活用水,计划在本市试行 居民 生活用水定额管理,即确定一个居 民
6、月用水量标准a,用水量不超过a的部 分按平价收费,超出a的部分按议价收费. 通过抽样调查,获得100位居民2007年的 月均用水量如下表(单位:t):3.1 2.5 2.0 2.0 1.5 1.0 1.6 1.8 1.9 1.63.4 2.6 2.2 2.2 1.5 1.2 0.2 0.4 0.3 0.43.2 2.7 2.3 2.1 1.6 1.2 3.7 1.5 0.5 3.83.3 2.8 2.3 2.2 1.7 1.3 3.6 1.7 0.6 4.13.2 2.9 2.4 2.3 1.8 1.4 3.5 1.9 0.8 4.33.0 2.9 2.4 2.4 1.9 1.3 1.4 1.
7、8 0.7 2.02.5 2.8 2.3 2.3 1.8 1.3 1.3 1.6 0.9 2.32.6 2.7 2.4 2.1 1.7 1.4 1.2 1.5 0.5 2.42.5 2.6 2.3 2.1 1.6 1.0 1.0 1.7 0.8 2.42.8 2.5 2.2 2.0 1.5 1.0 1.2 1.8 0.6 2.2思考1:上述100个数据中的最大值和最小值分别是什么?由此说明样本数据的变化范围是什么? 思考2:样本数据中的最大值和最小值的差称为极差.如果将上述100个数据按组距为0.5进行分组,那么这些数据共分为多少组? (4.3-0.2)0.5=8.2思考3:以组距为0.5进行
8、分组,上述100个数据共分为9组,各组数据的取值范围可以如何设定?0,0.5),0.5,1),1,1.5),4,4.5.思考4:如何统计上述100个数据在各组中的频数?如何计算样本数据在各组中的频率?你能将这些数据用表格反映出来吗? 思考5:上表称为样本数据的频率分布表,由此可以推测该市全体居民月均用水量分布的大致情况,给市政府确定居民月用水量标准提供参考依据,这里体现了一种什么统计思想?用样本的频率分布估计总体分布.思考6:如果市政府希望85%左右的居民每月的用水量不超过标准,根据上述频率分布表,你对制定居民月用水量标准(即a的取值)有何建议?88%的居民月用水量在3t以下,可建议取a=3.
9、 思考7:在实际中,取a=3t一定能保证85%以上的居民用水不超标吗?哪些环节可能会导致结论出现偏差?分组时,组距的大小可能会导致结论出现偏差,实践中,对统计结论是需要进行评价的. 思考8:对样本数据进行分组,其组数是由哪些因素确定的?思考9:对样本数据进行分组,组距的确定没有固定的标准,组数太多或太少,都会影响我们了解数据的分布情况.数据分组的组数与样本容量有关,一般样本容量越大,所分组数越多. 思考10:一般地,列出一组样本数据的频率分布表可以分哪几个步骤进行?第一步,求极差.第二步,决定组距与组数.第三步,确定分点,将数据分组.第四步,列频率分布表.知识探究(二):频率分布直方图 思考1
10、:为了直观反映样本数据在各组中的分布情况,我们将上述频率分布表中的有关信息用下面的图形表示: 思考2:频率分布直方图中小长方形的面积表示什么?小长方形的面积表示该组的频率所有小长方形的面积和?所有小长方形的面积和1思考3:频率分布直方图非常直观地表明了样本数据的分布情况,使我们能够看到频率分布表中看不太清楚的数据模式,但原始数据不能在图中表示出来.你能根据上述频率分布直方图指出居民月均用水量的一些数据特点吗?(1)居民月均用水量的分布是“山峰”状的,而且是“单峰”的;(2)大部分居民的月均用水量集中在一个中间值附近,只有少数居民的月均用水量很多或很少;(3)居民月均用水量的分布有一定的对称性等
11、.思考4:样本数据的频率分布直方图是根据频率分布表画出来的,一般地,频率分布直方图的作图步骤如何?第一步,画平面直角坐标系. 第二步,在横轴上均匀标出各组分点,在纵轴上标出单位长度.第三步,以组距为宽,各组的频率与组距的商为高,分别画出各组对应的小长方形.(2)频率分布折线图和茎叶图探究1:频率分布折线图与总体密度曲线思考1:在城市居民月均用水量样本数据的频率分布直方图中,各组数据的平均值大致是哪些数?思考2:在频率分布直方图中,依次连接各小长方形上端的中点,就得到一条折线,这条折线称为频率分布折线图. 你认为频率分布折线图能大致反映样本数据的频率分布吗?思考3:当总体中的个体数很多时(如抽样
12、调查全国城市居民月均用水量),随着样本容量的增加,作图时所分的组数增多,组距减少,你能想象出相应的频率分布折线图会发生什么变化吗?思考4:在上述背景下,相应的频率分布折线图越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.那么图中阴影部分的面积有何实际意义?思考5:当总体中的个体数比较少或样本数据不密集时,是否存在总体密度曲线?为什么?不存在,因为组距不能任意缩小思考6:对于一个总体,能否通过样本数据准确地画出总体密度曲线?探究1:茎叶图频率分布表、频率分布直方图和折线图的主要作用是表示样本数据的分布情况,此外,我们还可以用茎叶图来表示样本数据的分布情况.【问题】 某赛季甲、乙两名
13、篮球运动员每场 比赛的得分情况如下: 甲运动员得分:13,51,23,8,26,38,16, 33,14,28,39; 乙运动员得分:49,24,12,31,50,31,44,36,15,37,25,36,39.思考1:你能理解这个图是如何记录这些数据的吗?你能通过该图说明哪个运动员的发挥更稳定吗?思考2:在统计中,上图叫做茎叶图,它也是表示样本数据分布情况的一种方法,其中“茎”指的是哪些数,“叶”指的是哪些数?思考3:对于样本数据:3.1,2.5,2.0,0.8,1.5,1.0,4.3,2.7,3.1,3.5,用茎叶图如何表示?思考4:一般地,画出一组样本数据的茎叶图的步骤如何?第一步,将每
14、个数据分为“茎”(高位)和“叶”(低位)两部分;第二步,将最小的茎和最大的茎之间的数按大小次序排成一列,写在左(右)侧;第三步,将各个数据的叶按大小次序写在茎右(左)侧.思考5:用茎叶图表示数据的分布情况是一种好方法,你认为茎叶图有哪些优点? (1)保留了原始数据,没有损失样本信息;(2)数据可以随时记录、添加或修改. 思考6:比较茎叶图和频率分布表,茎叶图中“茎”和“叶”的数目分别与频率分布表中哪些数目相当? 思考7:对任意一组样本数据,是否都适合用茎叶图表示?为什么? 不适合样本容量很大或茎、叶不分明的样本数据. 例. 甲、乙两人数学成绩的茎叶图如下.(1)求出这两名同学的数学成绩的平均数
15、、中位数;(2)比较两名同学的成绩,谈谈看法.(3)问题提出1. 对一个未知总体,我们常用样本的频率分布估计总体的分布,其中表示样本数据的频率分布的基本方法有哪些? 频率分布直方图、频率分布表、频率分布折线图、茎叶图2. 美国NBA在20062007年度赛季中,甲、乙两名篮球运动员在随机抽取的12场比赛中的得分情况如下:甲运动员得分:12,15,20,25,31,30, 36,36,37,39,44,49.乙运动员得分:8,13,14,16,23,26, 28,38,39,51,31,39.如果要求我们根据上面的数据,估计、比较甲,乙两名运动员哪一位发挥得比较稳定,就得有相应的数据作为比较依据
16、,即通过样本数据对总体的数字特征进行研究,用样本的数字特征估计总体的数字特征.知识探究(一):众数、中位数和平均数思考1:以上两组样本数据如何求它们的众数、中位数和平均数?思考2:在城市居民月均用水量样本数据的频率分布直方图中,你认为众数应在哪个小矩形内?由此估计总体的众数是什么?思考3:中位数左右两侧的直方图的面积应有什么关系?思考4:在城市居民月均用水量样本数据的频率分布直方图中,从左至右各个小矩形的面积分别是0.04,0.08,0.15,0.22,0.25,0.14,0.06,0.04,0.02.由此估计总体的中位数是什么?0.50.040.080.150.22=0.01,0.50.01
17、0.25=0.02,中位数是2.02.思考5:平均数是频率分布直方图的“重心”,从直方图估计总体在各组数据内的平均数分别为多少?0.25,0.75,1.25,1.75,2.25, 2.75,3.25,3.75,4.25.思考6:将频率分布直方图中每个小矩形的 面积与小矩形底边中点的横坐标之积相加, 就是样本数据的估值平均数. 由此估计总体的平均数是什么?0.250.04+0.750.08+1.250.15+1.750.22+2.250.25+2.750.14+3.2506+3.750.04+4.250.02=2.02(t). 平均数是2.02.思考7:从居民月均用水量样本数据可知,该样本的众数
18、是2.3,中位数是2.0,平均数是1.973,这与我们从样本频率分布直方图得出的结论有偏差,你能解释一下原因吗?频率分布直方图损失了一些样本数据,得到的是一个估计值,且所得估值与数据分组有关.注: 在只有样本频率分布直方图的情况下,我们可以按上述方法估计众数、中位数和平均数,并由此估计总体特征.思考8 (1)一组数据的中位数一般不受少数几个极端值的影响,这在某些情况下是一个优点,但它对极端值的不敏感有时也会成为缺点,你能举例说明吗?如:样本数据收集有个别差错不影响中位数;大学毕业生凭工资中位数找单位可能收入较低.(2)样本数据的平均数大于(或小于)中位数说明什么问题?平均数大于(或小于)中位数
19、,说明样本数据中存在许多较大(或较小)的极端值.(3)你怎样理解“我们单位的收入水平比别的单位高”这句话的含义?这句话具有模糊性甚至蒙骗性,其中收入水平是员工工资的某个中心点,它可以是众数、中位数或平均数.样本的众数、中位数和平均数常用来表示样本数据的“中心值”,其中众数和中位数容易计算,不受少数几个极端值的影响,但只能表达样本数据中的少量信息. 平均数代表了数据更多的信息,但受样本中每个数据的影响,越极端的数据对平均数的影响也越大.当样本数据质量比较差时,使用众数、中位数或平均数描述数据的中心位置,可能与实际情况产生较大的误差,难以反映样本数据的实际状况,因此,我们需要一个统计数字刻画样本数
20、据的离散程度.知识探究(二):标准差思考1:在一次射击选拔赛中,甲、乙两名运动员各射击10次,每次命中的环数如下:甲:7 8 7 9 5 4 9 10 7 4乙:9 5 7 8 7 6 8 6 7 7甲、乙两人本次射击的平均成绩分别为多少环?思考2:甲、乙两人射击的平均成绩相等,观察两人成绩的频率分布条形图,你能说明其水平差异在那里吗?甲的成绩比较分散,极差较大,乙的成绩相对集中,比较稳定.思考3:对于样本数据x1,x2,xn,设想通过各数据到其平均数的平均距离来反映样本数据的分散程度,那么这个平均距离如何计算?思考4:反映样本数据的分散程度的大小,最常用的统计量是标准差,一般用s表示.假设样
21、本数据x1,x2,xn的平均数为,则标准差的计算公式是:那么标准差的取值范围是什么?标准差为0的样本数据有何特点? s0,标准差为0的样本数据都相等. 思考5:对于一个容量为2的样本:,则,.在数轴上,这两个统计数据有什么几何意义?由此说明标准差的大小对数据的离散程度有何影响?标准差越大,数据的离散程度越大,数据较分散;标准差越小,数据的离散程度越小,数据较集中在平均数周围. 知识迁移计算甲、乙两名运动员的射击成绩的标准差,比较其射击水平的稳定性. 甲:7 8 7 9 5 4 9 10 7 4乙:9 5 7 8 7 6 8 6 7 7思考6:从数学的角度考虑,人们有时用标准差的平方方差来代替标准差,作为测量样本数据分散程度的工具:6、变量间的线性关系(1)两个变量间有函数关系时,数据点位于某曲线上.(2)两个变量间的关系是相关关系时,数据点位于某曲线附近.(3)两个变量间的关系为线性相关时,数据点位于某直线附近.该直线叫回归直线,对应的方程叫回归方程,该直线作为两个变量有线性相关关系的代表(4)求回归方程的一般步骤:第一步,计算平均数;第二步,求和,第三步,计算第四步,写出回归方程 -第 8 页-