《统计复习.学习.pptx》由会员分享,可在线阅读,更多相关《统计复习.学习.pptx(48页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第1页/共48页随机抽样 1.在抽取样本中,考虑的最主要的原则是什么?样本的代表性:每个个体有同样的机会被抽中第2页/共48页随机抽样 2.本章介绍的三种随机抽样方法,它们有什么联系与区别?它们各自的特点和适用范围是什么?第3页/共48页 探究?比较简单随机抽样、系统抽样、分比较简单随机抽样、系统抽样、分层抽样的优点、缺点及适用范围层抽样的优点、缺点及适用范围类 别 简 单随 机抽 样 系 统抽 样 分 层抽 样(1)抽样过程中每个个体被抽到的可能性相等(2)每次抽出个体后不再将它放回,即不放回抽样 共同点 各自特点 从总体中逐个抽取 将总体均分成几部分,按预先制定的规则在各部分抽取 将总体分
2、成几层,分层进行抽取 联 系 在起始部分样时采用简随机抽样 分层抽样时采用简单随机抽样或系统抽样 适 用范 围 总体个数较少 总体个数较多 总体由差异明显的几部分组成 第4页/共48页例例1 1 1.1.从从 N N 个编号中抽取个编号中抽取 n n 个号码入样,用系个号码入样,用系统抽样的方法抽样,则抽样的间隔为统抽样的方法抽样,则抽样的间隔为_,每个个体入样的可能性为,每个个体入样的可能性为_。2.2.一个公司共有一个公司共有N N名员工,下设一些部门,要名员工,下设一些部门,要采用等比例分层抽样的方法从全体员工中抽取样采用等比例分层抽样的方法从全体员工中抽取样本容量为本容量为n n的样本
3、,已知某部门有的样本,已知某部门有m m名员工,那么名员工,那么从该部门抽取的员工人数是从该部门抽取的员工人数是_。第5页/共48页用样本估计总体用样本估计总体(两种):一种是:用样本的频率分布估计总体的分布。另一种是:用样本的数字特征(平均数标准差等)估计总体的数字特征。第6页/共48页用样本的频率分布估计总体分布用样本的频率分布估计总体分布一一 频率分布表和频率分布直方图频率分布表和频率分布直方图二二频率分布折线图和总体密度曲线频率分布折线图和总体密度曲线三三 茎叶图(茎叶图(stem-and-leaf display)第7页/共48页用样本估计总体 1.作样本频率分布直方图的步骤:(1
4、1)求极差;)求极差;(2 2)决定组距与组数)决定组距与组数;(;(组数极差组数极差/组距组距)(3 3)将数据分组;)将数据分组;(4 4)列频率分布表(分组,频数,频率);)列频率分布表(分组,频数,频率);(5 5)画频率分布直方图。)画频率分布直方图。第8页/共48页表表21 100位居民的月均用水量位居民的月均用水量 (单位(单位:t )3.1 2.5 2.0 2.0 1.5 1.0 1.6 1.8 1.9 1.63.4 2.6 2.2 2.2 1.5 1.2 0.2 0.4 0.3 0.43.2 2.7 2.3 2.1 1.6 1.2 3.7 1.5 0.5 3.8 3.3 2.
5、8 2.3 2.2 1.7 1.3 3.6 1.7 0.6 4.13.2 2.9 2.4 2.3 1.8 1.4 3.5 1.9 0.8 4.3 3.0 2.9 2.4 2.4 1.9 1.3 1.4 1.8 0.7 2.0 2.5 2.8 2.3 2.3 1.8 1.3 1.3 1.6 0.9 2.32.6 2.7 2.4 2.1 1.7 1.4 1.2 1.5 0.5 2.42.5 2.6 2.3 2.1 1.6 1.0 1.0 1.7 0.8 2.42.8 2.5 2.2 2.0 1.5 1.0 1.2 1.8 0.6 2.2第9页/共48页步骤:1.求极差(一组数据中最大值与最小值的
6、差)。4.30.2=4.1(t)2.决定组距与组数(样本容量不超过100时,组数常分成512组)。3.将数据分组(9组)。0,0.5),0.5,1),4,4.5)4.列频率分布表。5.画频率分布直方图。第10页/共48页 表22 100位居民月均用水量的 频率分布表 分组 频数累计 频数 频率 0,0.5)4 0.04 0.5,1)8 0.08 1,1.5)15 0.15 1.5,2)22 0.22 2,2.5)25 0.25 2.5,3)14 0.14 3,3.5)6 0.06 3.5,4)4 0.04 4,4.5)2 0.02 合计 100 1.00第11页/共48页00.511.522.
7、53 3.5 4 4.50.500.400.300.200.10频率频率/组距组距月均用水量月均用水量/t注:小长方形的面积组距频率/组距频率 各长方形的面积总和等于1。第12页/共48页0.511.522.53 3.5 44.50.20频率频率/组距组距0月均用水量月均用水量/t0.500.400.300.10图图2.22 100位居民的月均用水量的频率分位居民的月均用水量的频率分布折线图布折线图第13页/共48页月均用水量月均用水量/t频率组距0ab总体密度曲线能够很好的反映总体在各个范围内的百分比,能构提供更准确的信息。尽管有些总体密度曲线是客观存在的,但是很难象函数图象那样准确的地画出
8、来。?思考一下图中阴影部分的面积表示什么?第14页/共48页 甲 乙 8 0 4 6 3 1 2 5 3 6 8 2 5 4 3 8 9 3 1 6 1 6 7 9 4 4 9 1 5 0 注:中间的数字表示得分的十位数字。旁边的数字分别表示两个人得分的个位数。第15页/共48页 小结 图形 优点 缺点频率分布 1)易表示大量数据 丢失一些直方图 2)直观地表明分布地 情况 信息 1)无信息损失 只能处理样本 茎页图 2)随时记录方便记录和表示 容量较小数据第16页/共48页 2.通过对全国所有高一年级学生的身高进行随机抽样,获得的样本频率分布与相应的总体分布有差别吗?样本频率分布总体分布当样
9、本容量增大当样本容量增大组距无限缩小组距无限缩小频率分布折线图总体密度曲线用样本估计总体第17页/共48页例例2 2 对于样本频率分布折线图与总体密度曲线对于样本频率分布折线图与总体密度曲线的关系,下列说法正确的是的关系,下列说法正确的是 ()A.A.频率分布折线图与总体密度曲线无关;频率分布折线图与总体密度曲线无关;B.B.频率分布折线图就是总体密度曲线;频率分布折线图就是总体密度曲线;C.C.样本容量很大的频率分布折线图就是总体密样本容量很大的频率分布折线图就是总体密度曲线;度曲线;D.D.如果样本容量无限增大,分组组距无限缩小,如果样本容量无限增大,分组组距无限缩小,那么频率分布折线图就
10、会无限接近于一条光滑那么频率分布折线图就会无限接近于一条光滑曲线曲线总体密度曲线。总体密度曲线。第18页/共48页3.平均数 设样本数据为x1,x2,x3,xn 那么样本平均数为X=(x1+x2+xn)/n 平均数描述了数据的平均水平,定量地反映了数据的集中趋势所处的水平第19页/共48页1.众数 在一组数据中,出现次数最多的数据叫做这一组数据的众数。在频率分布直方图中,就是最高矩形的中点所对应的数据。注注:若有几个两个或几个数据出现的最多,且出现的次数一样,这些数据都是这组数据的众数;若一组数据中,每个数据出现的次数一样多,则认为这组数据没有众数。样本数据不一定有众数,有众数则不一定只有一个
11、第20页/共48页从频率分布直方图中可以看出月均用水量的众数是2.25t(最高矩形的中点)第21页/共48页2、中位数 将一组数据按大小依次排列,把处在最中间位置的一个数据(或两个数据的平均数)叫做这组数据的中位数。而在频率分布直方图中的中位数左右两侧的直方图面积应该相等,因而可以确定估计其近似值。第22页/共48页二、思考:如何从频率分布直方图中估计中位数?第23页/共48页3.平均数 设样本数据为x1,x2,x3,xn 那么样本平均数为X=(x1+x2+xn)/n 平均数描述了数据的平均水平,定量地反映了数据的集中趋势所处的水平第24页/共48页二、用样本的标准差估计总体的标准差二、用样本
12、的标准差估计总体的标准差 数据的离散程度可以用数据的离散程度可以用极差、方差或极差、方差或标准差标准差来描述。来描述。为了表示样本数据的单位表示的波动为了表示样本数据的单位表示的波动幅度,通常要求出幅度,通常要求出样本方差样本方差或者它的或者它的算算术平方根术平方根.第25页/共48页(1)方差方差:设在一组数据,:设在一组数据,x1,x2,xn中,各数据与它们的平均数中,各数据与它们的平均数x的差的平的差的平方分别是方分别是 来衡量这组数据的波动大小,并把它来衡量这组数据的波动大小,并把它叫做这组数据的叫做这组数据的方差方差,一组数据方差越,一组数据方差越大,则这组数据波动越大。大,则这组数
13、据波动越大。那么我们用它们的平均数,即那么我们用它们的平均数,即第26页/共48页(2)标准差标准差:我们把数据的方差的算术:我们把数据的方差的算术平方根叫做这组数据的标准差,它也是一平方根叫做这组数据的标准差,它也是一个用来衡量一组数据的波动大小的重要的个用来衡量一组数据的波动大小的重要的量。量。计算标准差的算法:计算标准差的算法:第27页/共48页例例3.计算数据计算数据89,93,88,91,94,90,88,87的方差和标准差。(标准差结的方差和标准差。(标准差结果精确到果精确到0.1)解:解:.所以这组数据的方差为所以这组数据的方差为5.5,标准差为,标准差为2.3.第28页/共48
14、页例例4.从甲、乙两名学生中选拔一人乘积射从甲、乙两名学生中选拔一人乘积射击比赛,对他们的射击水平进行测试,两击比赛,对他们的射击水平进行测试,两人在相同的条件下各射击人在相同的条件下各射击10次,命中环数次,命中环数如下如下甲甲7,8,6,8,6,5,8,10,7,4;乙乙9,5,7,8,7,6,8,6,7,7.(1)计算甲、乙两人射击命中环数的平)计算甲、乙两人射击命中环数的平均数和标准差;均数和标准差;(2)比较两人的成绩,然后决定选择哪)比较两人的成绩,然后决定选择哪一人参赛一人参赛.第29页/共48页解解:(:(1)计算得)计算得x甲甲=7,x乙乙=7;s甲甲=1.73,s乙乙=1.
15、10.(2)由()由(1)知,甲、乙两人平均成绩相)知,甲、乙两人平均成绩相等,但等,但s乙乙s甲甲,这表明乙的成绩比甲的成,这表明乙的成绩比甲的成绩绩稳定稳定一些,从成绩的稳定性考虑,可以一些,从成绩的稳定性考虑,可以选乙参赛。选乙参赛。第30页/共48页的平均数为的平均数为 ,(2)新数据)新数据方差为方差为 ,方差仍为,方差仍为 (1)新数据)新数据的平均数为的平均数为,方差为,方差为 的平均数为的平均数为(3)新数据)新数据如果数据如果数据的平均数为的平均数为 ,方差为方差为,则,则(4)方差的运算性质:)方差的运算性质:第31页/共48页练习:练习:(3)若)若k1,k2,k8的方差
16、为的方差为3,则,则2(k13),2(k23),2(k83)的方差为的方差为_43212第32页/共48页AB第33页/共48页(7)在一次歌手大奖赛上,七位评委为歌手打)在一次歌手大奖赛上,七位评委为歌手打出的分数如下:出的分数如下:9.4,8.4,9.4,9.9,9.6,9.4,9.7,去掉一个最高分和一个最低分后,所剩数据,去掉一个最高分和一个最低分后,所剩数据的平均值和方差分别为的平均值和方差分别为_9.5,0.016五、回顾小结:五、回顾小结:1用样本的数字特征估计总体的数字特征分两类:用样本的数字特征估计总体的数字特征分两类:用样本平均数估计总体平均数。用样本平均数估计总体平均数。
17、用样本方差、标准差估计总体方差、标准差。样用样本方差、标准差估计总体方差、标准差。样本容量越大,估计就越精确。本容量越大,估计就越精确。2方差、标准差描述一组数据围绕平均数波动的大方差、标准差描述一组数据围绕平均数波动的大小,反映了一组数据变化的幅度小,反映了一组数据变化的幅度第34页/共48页例例3 3 已知有一样本已知有一样本x1,x2,x1,x2,xn,xn,其标准差其标准差S S8.58.5,另一样本,另一样本3x1+5,3x2+5,3x1+5,3x2+5,3xn+5,3xn+5的标准差的标准差S S_。例例4 4 16 16种食品所含的热量值如下:种食品所含的热量值如下:111111
18、 123 123 164 430 190 175 236123 123 164 430 190 175 236430430 320 250 280 160 150 210 123 320 250 280 160 150 210 123(1 1)求数据的中位数与平均数;)求数据的中位数与平均数;(2 2)用这两种数字特征中的哪一种来描述这个)用这两种数字特征中的哪一种来描述这个数据集更合适?数据集更合适?第35页/共48页变量的相关关系例例6 6 为了考察两个变量为了考察两个变量x x和和y y之间的线性相关性,之间的线性相关性,甲、乙两位同学各自独立作了甲、乙两位同学各自独立作了1010次和次
19、和1515次试验,次试验,并且利用线性回归方法,求得回归直线分别为并且利用线性回归方法,求得回归直线分别为l1l1、l2,l2,已知两人得的试验数据中,变量已知两人得的试验数据中,变量x x和和y y的数据的平均值都相等,且分别都是的数据的平均值都相等,且分别都是s s、t t,那,那么下列说法正确的是(么下列说法正确的是()A.A.两直线一定有公共点(两直线一定有公共点(s s,t t););B.B.两直线相交,但交点不一定是(两直线相交,但交点不一定是(s s,t t););C.C.必有两直线平行;必有两直线平行;D.D.两直线必定重合。两直线必定重合。第36页/共48页1、变量之间除了函
20、数关系外,还有相关关系。相同点:均是指两个变量的关系不同点:函数关系是一种确定的关系。而 相关关系是一种非确定关系.一、变量之间的相关关系相关关系和函数关系的区别第37页/共48页年龄 23273941454950脂肪 9.517.8 21.2 25.9 27.5 26.3 28.2年龄 53545657586061脂肪 29.630.2 31.4 30.8 33.5 35.2 34.6人体的脂肪百分比和年龄第38页/共48页第39页/共48页 1、散点图:将变量所对应的点描出来,这些点组成 了变量之间的图就叫“散点图”正相关:散布在从左下角到右上角的区域。负相关:散布在左上角到右下角的区域。
21、第40页/共48页 回归直线:观察散点图的特征,回归直线:观察散点图的特征,如果各点大致分布在一条直线的附如果各点大致分布在一条直线的附近,就称两个变量之间具有线性相近,就称两个变量之间具有线性相关的关系(即曲线拟合成直线),关的关系(即曲线拟合成直线),这条直线叫做回归直线。这条直线叫做回归直线。二回归直线方程二回归直线方程第41页/共48页一、相关关系的判断例1:5个学生的数学和物理成绩如下表:ABCDE数学8075706560物理7066686462画出散点图,并判断它们是否有相关关系。解:数学成绩由散点图可见,两者之间具有正相关关系。第42页/共48页二、求线性回归方程例2:观察两相关
22、变量得如下表:x-1-2-3-4-553421y-9-7-5-3-115379求两变量间的回归方程解1:列表:i12345678910-1-2-3-4-553421-9-7-5-3-1153799141512551512149计算得:第43页/共48页求线性回归直线方程的步骤:第一步:列表达式:第二步:计算 第三步:代入公式计算b,a的值;第四步:写出直线方程 y=bx+a 。第44页/共48页例:有一个同学家开了一个小卖部,他为了研究气温对热饮销售的影响,经过统计,得到一个卖出的热饮杯数与当天气温的对比表:摄氏温度 -5 0 4 7 12 15 19 23 27 31 36热饮杯数 156 150 132 128 130 116 104 89 93 76 54(1)画出散点图;(2)从散点图中发现气温与热饮销售杯数之间关系的一 般规律;(3)求回归方程;(4)如果某天的气温是 C,预测这天卖出的热饮杯数。利用线性回归方程对总体进行估计第45页/共48页解:(1)散点图(2)气温与热饮杯数成负相关,即气温越高,卖出去的热饮杯数越少。温度热饮杯数第46页/共48页(3)从散点图可以看出,这些点大致分布在一条直线附近。Y=-2.352x+147.767(4)当x=2时,y=143.063,因此,这天大约可以卖出143杯热饮。第47页/共48页感谢您的观看!第48页/共48页