《2019年高考数学一轮复习学案+训练+课件(北师大版文科): 第9章 算法初步、统计与统计案例 第4节 相关性、最小二乘估计与统计案例学案 文 北师大版.doc》由会员分享,可在线阅读,更多相关《2019年高考数学一轮复习学案+训练+课件(北师大版文科): 第9章 算法初步、统计与统计案例 第4节 相关性、最小二乘估计与统计案例学案 文 北师大版.doc(11页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第四节相关性、最小二乘估计与统计案例考纲传真1.会做两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归系数公式不要求记忆).3.了解回归分析的基本思想、方法及其简单应用.4.了解独立性检验(只要求22列联表)的思想、方法及其初步应用(对应学生用书第141页) 基础知识填充1相关性(1)通常将变量所对应的点描出来,这些点就组成了变量之间的一个图,通常称这种图为变量之间的散点图(2)从散点图上可以看出,如果变量之间存在着某种关系,这些点会有一个集中的大致趋势,这种趋势通常可以用一条光滑的曲线来近似,这
2、样近似的过程称为曲线拟合(3)若两个变量x和y的散点图中,所有点看上去都在一条直线附近波动,则称变量间是线性相关的,若所有点看上去都在某条曲线(不是一条直线)附近波动,则称此相关是非线性相关的如果所有的点在散点图中没有显示任何关系,则称变量间是不相关的2线性回归方程(1)最小二乘法 如果有n个点(x1,y1),(x2,y2),(xn,yn),可以用y1(abx1)2y2(abx2)2yn(abxn)2来刻画这些点与直线yabx的接近程度,使得上式达到最小值的直线yabx就是所要求的直线,这种方法称为最小二乘法(2)线性回归方程方程ybxa是两个具有线性相关关系的变量的一组数据(x1,y1),(
3、x2,y2),(xn,yn)的线性回归方程,其中a,b是待定参数3回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法(2)样本点的中心对于一组具有线性相关关系的数据(x1,y1),(x2,y2),(xn,yn)中,(,)称为样本点的中心(3)相关系数r当r0时,表明两个变量正相关;当r2.706时,有90%的把握判定变量A,B有关联;当23.841时,有95%的把握判定变量A,B有关联;当26.635时,有99%的把握判定变量A,B有关联基本能力自测1(思考辨析)判断下列结论的正误(正确的打“”,错误的打“”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关
4、关系()(2)某同学研究卖出的热饮杯数y与气温x()之间的关系,得回归方程2.352x147.767,则气温为2时,一定可卖出143杯热饮()(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验()(4)若事件X,Y关系越密切,则由观测数据计算得到的2的观测值越小()答案(1)(2)(3)(4)2(教材改编)已知变量x与y正相关,且由观测数据算得样本平均数3,3.5,则由该观测数据算得的线性回归方程可能是()A0.4x2.3B2x2.4C2x9.5D0.3x4.4A因为变量x和y正相关,排除选项C,D又样本中心(3,3.5)在回归直线上,排除B,选项A满足3(201
5、5全国卷)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是()图941A逐年比较,2008年减少二氧化硫排放量的效果最显著B2007年我国治理二氧化硫排放显现成效C2006年以来我国二氧化硫年排放量呈减少趋势D2006年以来我国二氧化硫年排放量与年份正相关D对于A选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A正确对于B选项,由图知,由2006年到2007年矩形高度明显下降,因此B正确对于C选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C正确由图知2006年以来我国二氧化硫年排放量与年份负相关
6、,故选D4为了评价某个电视栏目的改革效果,在改革前后分别从居民点抽取了100位居民进行调查,经过计算20.99,根据这一数据分析,下列说法正确的是 ()A有99%的人认为该电视栏目优秀B有99%的人认为该电视栏目是否优秀与改革有关系C有99%的把握认为该电视栏目是否优秀与改革有关系D没有理由认为该电视栏目是否优秀与改革有关系D只有26.635才能有99%的把握认为“该电视栏目是否优秀与改革有关系”,而即使26.635也只是对“该电视栏目是否优秀与改革有关系”这个论断成立的可能性大小的结论,与是否有99%的人等无关,故只有D正确5(2018西安模拟)某车间为了规定工时定额,需要确定加工零件所花费
7、的时间,为此进行了5次试验根据收集到的数据(如下表),由最小二乘法求得回归方程0.67x54.9.零件数x(个)1020304050加工时间y(min)62758189现发现表中有一个数据看不清,请你推断出该数据的值为_68由30,得0.673054.975.设表中的“模糊数字”为a,则62a758189755,a68.(对应学生用书第142页)相关关系的判断(1)(2015湖北高考)已知变量x和y满足关系y0.1x1,变量y与z正相关下列结论中正确的是() 【导学号:00090333】Ax与y正相关,x与z负相关Bx与y正相关,x与z正相关Cx与y负相关,x与z负相关Dx与y负相关,x与z正
8、相关(2)对四组数据进行统计,获得如图942所示的散点图,关于其相关系数的比较,正确的是()图942Ar2r40r3r1Br4r20r1r3Cr4r20r3r1Dr2r40r1r3(1)C(2)A(1)因为y0.1x1的斜率小于0,故x与y负相关因为y与z正相关,可设zy,0,则zy0.1x,故x与z负相关(2)由散点图知,图与图是正相关,故有r10,r30,图与图是负相关,则r20,r40,且图与图中的样本点集中在一条直线附近,因此有r2r40r3r1.规律方法1.利用散点图判断两个变量是否有相关关系是比较直观简便的方法如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系如果所有的
9、样本点都落在某一直线附近,变量之间就有线性相关关系若点散布在从左下角到右上角的区域,则正相关,若点散布在左上角到右下角的区域,则负相关2利用相关系数判定,当|r|越趋近于1,相关性越强当残差平方和越小,相关指数r2越大,相关性越强变式训练1(1)四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得线性回归方程,分别得到以下四个结论:y与x负相关且2.347x6.423;y与x负相关且3.476x5.648;y与x正相关且5.437x8.493;y与x正相关且4.326x4.578.其中一定不正确的结论的序号是() 【导学号:00090334】ABCD(2)变量X与Y相对应的一组数据为
10、(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1),r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则()Ar2r10B0r2r1Cr20r1Dr2r1(1)D(2)C(1)由线性回归方程x知当0时,y与x正相关,当0时,y与x负相关,一定错误(2)对于变量Y与X而言,Y随X的增大而增大,故Y与X正相关,即r10;对于变量V与U而言,V随U的增大而减小,故V与U负相关,即r20,故选C线性回归方程及应用(2016全国卷)如图94
11、3是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图图943注:年份代码17分别对应年份20082014.(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量参考数据:yi9.32,tiyi40.17,0.55,2.646.参考公式:相关系数r,回归方程ab中斜率和截距的最小二乘估计公式分别为,ab.解(1)由折线图中的数据和附注中的参考数据得4, (ti)228,0.55,2分 (ti)(yi)tiyiyi40.1749.322.89,所以r0.99.因为y与
12、t的相关系数近似为0.99,说明y与t的线性相关程度相当大,从而可以用线性回归模型拟合y与t的关系.5分(2)由1.331及(1)得b0.103.8分ab1.3310.10340.92.所以y关于t的回归方程为y0.920.10t.10分将2016年对应的t9代入回归方程得y0.920.1091.82. 所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨12分规律方法1.在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,也可计算相关系数r进行判断若具有线性相关关系,则可通过线性回归方程估计和预测变量的值2(1)正确运用计算b,a的公式和准确的
13、计算,是求线性回归方程的关键(2)回归直线bxa必过样本点的中心(,)变式训练2(2015全国卷)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响对近8年的年宣传费xi和年销售量yi(i1,2,8)数据作了初步处理,得到下面的散点图及一些统计量的值图944(xi)2 (wi)2 (xi)(yi) (wi)(yi)46.65636.8289.81.61 469108.8表中wi,wwi.(1)根据散点图判断,yabx与ycd哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(
14、1)的判断结果及表中数据,建立y关于x的回归方程;(3)已知这种产品的年利润z与x,y的关系为z0.2yx.根据(2)的结果回答下列问题:年宣传费x49时,年销售量及年利润的预报值是多少?年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),(un,vn),其回归直线vu的斜率和截距的最小二乘估计分别为, .解(1)由散点图可以判断,ycd适宜作为年销售量y关于年宣传费x的回归方程类型.2分(2)令w,先建立y关于w的线性回归方程由于d68,4分cd 563686.8100.6,5分所以y关于w的线性回归方程为y100.668w,6分因此y关于x的回归方程为y
15、100.668.7分(3)由(2)知,当x49时,年销售量y的预报值y100.668576.6,8分年利润z的预报值576.60.24966.32.9分根据(2)的结果知,年利润z的预报值z0.2(100.668)xx13.620.12.10分所以当6.8,即x46.24时,z取得最大值故年宣传费为46.24千元时,年利润的预报值最大.12分独立性检验(2017全国卷)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下: 图945(1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;(2)
16、填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;箱产量50 kg箱产量50 kg旧养殖法新养殖法(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较 附:2.解(1)旧养殖法的箱产量低于50 kg的频率为(0.0120.0140.0240.0340.040)50.62.2分因此,事件A的概率估计值为0.62.4分(2)根据箱产量的频率分布直方图得列联表箱产量50 kg箱产量50 kg旧养殖法6238新养殖法34665分2的观测值15.705.7分由于15.7056.635,故有99%的把握认为箱产量与养殖方法有关.8分(3)箱产量的频率分布直方图表明:新
17、养殖法的箱产量平均值(或中位数)在50 kg到55 kg之间,旧养殖法的箱产量平均值(或中位数)在45 kg到50 kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.12分规律方法1.在22列联表中,如果两个变量没有关系,则应满足adbc0.|adbc|越小,说明两个变量之间关系越弱;|adbc|越大,说明两个变量之间关系越强2解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论独立性检验的一般步骤:(1)根据样本数据制成22列联表;(2)根据公式2计算2的观测值k;(3)比较k与临界值的大小关
18、系,作统计推断变式训练3(2017济南联考)某市地铁即将于2017年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下; 【导学号:00090335】月收入(单位:百元)15,25)25,35)35,45)45,55)55,65)65,75赞成定价者人数123534认为价格偏高者人数4812521(1)若以区间的中点值为该区间内的人均月收入,求参与调查的人员中“赞成定价者”与“认为价格偏高者”的月平均收入的差距是多少(结果保留2位小数);(2)由以上统计数据填下面22列联表,分析是否有99%的把握认为“月收入以55百元为分界点对地铁定价的
19、态度有差异”月收入不低于55百元的人数月收入低于55百元的人数总计认为价格偏高者赞成定价者总计附:2.P(2k0)0.050.01k03.8416.635解(1)“赞成定价者”的月平均收入为x150.56.“认为价格偏高者”的月平均收入为x238.75,“赞成定价者”与“认为价格偏高者”的月平均收入的差距是x1x250.5638.7511.81(百元).5分(2)根据条件可得22列联表如下:月收入不低于55百元的人数月收入低于55百元的人数总计认为价格偏高者32932赞成定价者71118总计10405026.276.635,没有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.12分