《2020版《微点教程》高考人教A版文科数学一轮复习文档:第九章 第四节 变量间的相关关系、统计案例 .docx》由会员分享,可在线阅读,更多相关《2020版《微点教程》高考人教A版文科数学一轮复习文档:第九章 第四节 变量间的相关关系、统计案例 .docx(23页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第四节变量间的相关关系、统计案例2019考纲考题考情1两个变量的线性相关(1)正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关。(2)负相关在散点图中,点散布在从左上角到右下角的区域,对于两个变量的这种相关关系,我们将它称为负相关。(3)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫做回归直线。2回归方程(1)最小二乘法使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法。(2)回归方程方程x是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2)
2、,(xn,yn)的回归方程,其中 , 是待定参数。3回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法。(2)样本点的中心对于一组具有线性相关关系的数据(x1,y1),(x2,y2),(xn,yn)中(,)称为样本点的中心。(3)相关系数当r0时,表明两个变量正相关;当r3.841,这表明小概率事件发生。根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%。答案5%二、走近高考3(2017山东高考)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x
3、之间有线性相关关系,设其回归直线方程为x。已知i225,i1 600,4。该班某学生的脚长为24,据此估计其身高为()A160B163C166D170解析易知22.5,160。因为4,所以160422.5,解得70,所以回归直线方程为4x70,当x24时,9670166。故选C。答案C三、走出误区微提醒:混淆相关关系与函数关系;不知道回归直线必过样本点中心;对独立性检验K2值的意义不清楚。4两个变量的相关关系有正相关,负相关,不相关,则下列散点图从左到右分别反映的变量间的相关关系是()ABCD解析第一个散点图中,散点图中的点是从左下角区域分布到右上角区域,则是正相关;第三个散点图中,散点图中的
4、点是从左上角区域分布到右下角区域,则是负相关;第二个散点图中,散点图中的点的分布没有什么规律,则是不相关,所以应该是。答案D5某医疗机构通过抽样调查(样本容量n1 000),利用22列联表和K2统计量研究患肺病是否与吸烟有关。计算得K24.453,经查阅临界值表知P(K23.841)0.05,现给出四个结论,其中正确的是()A在100个吸烟的人中约有95个人患肺病B若某人吸烟,那么他有95%的可能性患肺病C有95%的把握认为“患肺病与吸烟有关”D只有5%的把握认为“患肺病与吸烟有关”解析由已知数据可得,有10.0595%的把握认为“患肺病与吸烟有关”。故选C。答案C6某车间为了规定工时定额,需
5、要确定加工零件所花费的时间,为此进行了5次试验。根据收集到的数据(如下表),由最小二乘法求得回归方程为0.67x54.9。零件数x/个1020304050加工时间y/min62758189现发现表中有一个数据模糊看不清,则该数据为_。解析设表中那个模糊看不清的数据为m。由表中数据得30,所以样本点的中心为,因为样本点的中心在回归直线上,所以0.673054.9,解得m68。答案68考点一 变量相关关系的判断【例1】(1)下列四个散点图中,变量x与y之间具有负的线性相关关系的是()(2)为研究语文成绩和英语成绩之间是否具有线性相关关系,统计某班学生的两科成绩得到如图所示的散点图(x轴、y轴的单位
6、长度相同),用回归直线方程x近似地刻画其相关关系,根据图形,以下结论最有可能成立的是()A线性相关关系较强,的值为1.25B线性相关关系较强,的值为0.83C线性相关关系较强,的值为0.87D线性相关关系较弱,无研究价值解析(1)观察散点图可知,只有D选项的散点图表示的是变量x与y之间具有负的线性相关关系。故选D。(2)由散点图可以看出两个变量所构成的点在一条直线附近,所以线性相关关系较强,且应为正相关,所以回归直线方程的斜率应为正数,且从散点图观察,回归直线方程的斜率应该比yx的斜率要小一些,综上可知应选B。答案(1)D(2)B相关关系的直观判断方法就是作出散点图,若散点图呈带状且区域较窄,
7、说明两个变量有一定的线性相关性,若呈曲线型也是有相关性,若呈图形区域且分布较乱则不具有相关性。 【变式训练】(1)在一组样本数据(x1,y1),(x2,y2),(xn,yn)(n2,x1,x2,xn不全相等)的散点图中,若所有样本点(xi,yi)(i1,2,n)都在直线yx1上,则这组样本数据的样本相关系数为()A1B0CD1(2)已知变量x和y满足关系y0.1x1,变量y与z正相关。下列结论中正确的是()Ax与y正相关,x与z负相关Bx与y正相关,x与z正相关Cx与y负相关,x与z负相关Dx与y负相关,x与z正相关解析(1)完全的线性关系,且为负相关,故其相关系数为1。故选A。(2)由y0.
8、1x1,知x与y负相关,即y随x的增大而减小,又y与z正相关,所以z随y的增大而增大,减小而减小,所以z随x的增大而减小,x与z负相关,故选C。答案(1)A(2)C考点二 线性回归分析【例2】改革开放40年来,全国居民人均可支配收入由171元增加到2.6万元,中等收入群体持续扩大。我国贫困人口累计减少7.4亿人,贫困发生率下降94.4个百分点,谱写了人类反贫困史上的辉煌篇章。某地级市共有200 000名中学生,其中有7%的学生在2017年享受了“国家精准扶贫”政策,在享受“国家精准扶贫”政策的学生中困难程度分为三个等次:一般困难、很困难、特别困难,且人数之比为532,为进一步帮助这些学生,当地
9、市政府设立“专项教育基金”,对这三个等次的困难学生每年每人分别补助1 000元、1 500元、2 000元。经济学家调查发现,当地人均可支配年收入较上一年每增加n%,一般困难的学生中有3n%会脱贫,脱贫后将不再享受“精准扶贫”政策,很困难的学生中有2n%转为一般困难学生,特别困难的学生中有n%转为很困难学生。现统计了该地级市2013年到2017年共5年的人均可支配年收入,对数据初步处理后得到了如图所示的散点图和表中统计量的值,其中年份x取13时代表2013年,x取14时代表2014年,依此类推,且x与y(单位:万元)近似满足关系式x,(2013年至2019年该市中学生人数大致保持不变)(yi)
10、2(xi)(yi)0.83.11(1)估计该市2018年人均可支配年收入为多少万元?(2)试问该市2018年的“专项教育基金”的财政预算大约为多少万元?附:对于一组具有线性相关关系的数据(u1,v1),(u2,v2),(un,vn),其回归直线方程u的斜率和截距的最小二乘估计分别为,。解(1)因为(1314151617)15,所以(xi)2(2)2(1)2122210,所以0.1,0.80.1150.7,所以0.1x0.7。当x18时,2018年人均可支配年收入y0.1180.71.1(万元)。(2)由题意知2017年时该市享受“国家精准扶贫”政策的学生共200 0007%14 000人。一般
11、困难、很困难、特别困难的中学生依次有7 000人、4 200人、2 800人,2018年人均可支配年收入比2017年增长0.110%。故2018年该市特别困难的中学生有2 800(110%)2 520人,很困难的学生有4 200(120%)2 80010%3 640人,一般困难的学生有7 000(130%)4 20020%5 740人。所以2018年的“专项教育基金”的财政预算大约为5 7400.13 6400.152 5200.21 624(万元)。1对变量值的预测主要是由给出的变量的值预测与其有相关关系的变量的值,一般方法是:若已知回归直线方程,则直接将数值代入求得预测值。2回归模型的拟合
12、效果主要有两种途径判断(1)利用数据的散点图,观察数据对应的点与回归直线的位置关系进行分析;(2)利用残差进行分析,最简单的作法是选择数据中的具有代表性的点进行预报,比较预报值与真实值的差距进行分析。 【变式训练】(2018全国卷)如图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图。为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型。根据2000年至2016年的数据(时间变量t的值依次为1,2,17)建立模型:30.413.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,7)建立模型:9917.5t。(1)分别利用
13、这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由。解(1)利用模型,该地区2018年的环境基础设施投资额的预测值为30.413.519226.1(亿元)。利用模型,该地区2018年的环境基础设施投资额的预测值为9917.59256.5(亿元)。(2)利用模型得到的预测值更可靠。理由如下:a从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线30.413.5t上下,这说明利用2000年至2016年的数据建立的线性模型不能很好地描述环境基础设施投资额的变化趋势。2010年相对2009年的环境基础设施投资额有明显增加
14、,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型9917.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型得到的预测值更可靠。b从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型得到的预测值226.1亿元的增幅明显偏低,而利用模型得到的预测值的增幅比较合理,说明利用模型得到的预测值更可靠。以上2种理由,答出其中一种或其他合理理由均可。考点三 独立性检验【例3】(2018全国卷)某工厂为提高生产效率,开展技术创新活动,提出了完成某
15、项生产任务的两种新的生产方式。为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人。第一组工人用第一种生产方式,第二组工人用第二种生产方式。根据工人完成生产任务的工作时间(单位:min)绘制了如图所示的茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:超过m不超过m第一种生产方式第二种生产方式(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:K2,P(K2k)0.0500.0100.001k3.8416.63510.
16、828解(1)第二种生产方式的效率更高。理由如下:由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟。因此第二种生产方式的效率更高。由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟。因此第二种生产方式的效率更高。由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高。由茎叶图可知:用第
17、一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布。又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高。以上4种理由,答出其中一种或其他合理理由均可。(2)由茎叶图知m80。列联表如下:超过m不超过m第一种生产方式155第二种生产方式515(3)由于K2106.635,所以有99%的把握认为两种生产方式的效率有差异。1在22列联表中,如果两个变量没有关
18、系,则应满足adbc0。|adbc|越小,说明两个变量之间关系越弱;|adbc|越大,说明两个变量之间关系越强。2解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论。独立性检验的一般步骤: (1)根据样本数据制成22列联表;(2)根据公式K2计算K2的观测值k;(3)比较观测值k与临界值的大小关系,作统计推断。 【变式训练】某省会城市地铁将于2019年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下:月收入(单位:百元)15,25)25,35)35,45)45,55)55,65)65,75赞成定价者人数123534认为价格偏高
19、者人数4812521(1)若以区间的中点值为该区间内的人均月收入,求参与调查的人员中“赞成定价者”与“认为价格偏高者”的月平均收入的差异是多少(结果保留2位小数);(2)由以上统计数据填下面22列联表,分析是否有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”。月收入不低于55百元的人数月收入低于55百元的人数总计认为价格偏高者赞成定价者总计附:K2。P(K2k0)0.050.01k03.8416.635解(1)“赞成定价者”的月平均收入为x150.56。“认为价格偏高者”的月平均收入为x238.75,所以“赞成定价者”与“认为价格偏高者”的月平均收入的差距是x1x250.5
20、638.7511.81(百元)。(2)根据条件可得22列联表如下:月收入不低于55百元的人数月收入低于55百元的人数总计认为价格偏高者32932赞成定价者71118总计104050K26.2726.635,所以没有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”。1(配合例2使用)如图是某企业2012年至2018年的污水净化量(单位:吨)的折线图。注:年份代码17分别对应年份20122018。(1)由折线图看出,可用线性回归模型拟合y和t的关系,请用相关系数加以说明;(2)建立y关于t的回归方程,预测2019年该企业的污水净化量;(3)请用数据说明回归方程预报的效果。参考数据
21、:54,(ti)(yi)21,3.74,(yii)2。参考公式:相关系数r,线性回归方程t,。反映回归效果的公式为:R21,其中R2越接近于1,表示回归的效果越好。解(1)由折线图中的数据得,4,(ti)228,(yi)218,所以r0.935。因为y与t的相关系数近似为0.935,说明y与t的线性相关程度相当大,所以可以用线性回归模型拟合y与t的关系。(2)因为54,所以54451,所以y关于t的线性回归方程为tt51。将2019年对应的t8代入得85157,所以预测2019年该企业污水净化量约为57吨。(3)因为R21110.875,所以“污水净化量的差异”有87.5%是由年份引起的,这说
22、明回归方程预报的效果是良好的。2(配合例3使用)近代统计学的发展起源于二十世纪初,它是在概率论的基础上发展起来的,统计性质的工作则可以追溯到远古的“结绳记事”和二十四史中大量的关于我国人口、钱粮、水文、天文、地震等资料的记录。近几年,雾霾来袭,对某市该年11月份的天气情况进行统计,结果如下表:表一日期123456789101112131415天气晴霾霾阴霾霾阴霾霾霾阴晴霾霾霾日期161718192021222324252627282930天气霾霾霾阴晴霾霾晴霾晴霾霾霾晴霾对于此种情况,该市政府为减少雾霾于次年采取了全年限行的政策。下表是一个调查机构对比以上两年11月份(该年不限行30天、次年限
23、行30天,共60天)的调查结果:表二不限行限行总计没有雾霾a有雾霾b总计303060(1)请由表一中数据求a,b的值,并估计在该年11月份任取一天是晴天的概率;(2)请用统计学原理计算,若没有90%的把握认为雾霾与限行有关系,则限行时有多少天没有雾霾?P(K2k0)0.1000.0500.0100.001k02.7063.8416.63510.828(表中数据使用时四舍五入取整数)思路点拨(1)统计没有雾霾的天数为10,有雾霾的天数为20,晴天天数为6,根据古典概型概率公式求概率;(2)设限行时有x天没有雾霾,代入公式求K2的观测值k,再由没有90%的把握可得k3,化简可得一元二次不等式21x2440x1 5000,解得5x16,xN*。解(1)a10,b20,所求概率P。(2)设限行时有x天没有雾霾,则有雾霾的天数为30x,由题意得K2的观测值k3,代入数据化简得21x2440x1 5000,x0,30,xN*,即(7x30)(3x50)0,解得x,所以5x16,且xN*,所以若没有90%的把握认为雾霾与限行有关系,则限行时有516天没有雾霾。总结反思独立性检验就是考察两个分类变量是否有关系,并能较为准确地给出这种判断的可信度,具体做法是根据公式K2计算随机变量K2的观测值k,k越大,说明“两个变量有关系”的可能性越大。