《2022届高三数学一轮复习(原卷版)11.3 变量间的相关关系与统计案例.doc》由会员分享,可在线阅读,更多相关《2022届高三数学一轮复习(原卷版)11.3 变量间的相关关系与统计案例.doc(16页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、113变量间的相关关系与统计案例161变量间的相关关系常见的两变量之间的关系有两类:一类是确定性的函数关系,另一类是_;与函数关系不同,相关关系是一种_关系,带有随机性2两个变量的线性相关(1)如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有_,这条直线叫_(2)从散点图上看,如果点分布在从左下角到右上角的区域内,那么两个变量的这种相关关系称为_;如果点分布在从左上角到右下角的区域内,那么两个变量的这种相关关系称为_(3)相关系数r当r0时,表示两个变量正相关;当r0时,表示两个变量负相关r的绝对值越接近_,表示两个变量的线性相关性越强;r的绝对值越接近_,表示两个
2、变量的线性相关性越弱通常当r的绝对值大于0.75时,认为两个变量具有很强的线性相关关系3回归直线方程(1)通过求Q(,)的最小值而得出回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小的方法叫做 该式取最小值时的,的值即分别为,(2)两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),(xn,yn),其回归方程为,则其中=,=,_称为样本点的中心.4回归分析(1)回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法(2)线性回归模型用ybxae表示,其中a和b为模型的未知参数,e称为_它的均值满足E(e)_,D(e)2,2越小,精度越_(3)残差:= 称为
3、相应于点(,)的残差,残差平方和为 .(4)相关指数R2= . R2越大,说明残差平方和 ,即模型的拟合效果 ;R2越小,残差平方和 ,即模型的拟合效果 .在线性回归模型中,R2表示解释变量对于预报变量变化的 ,R2越接近于1,表示回归的效果 .5. 独立性检验(1)变量的不同“值”表示个体所属的不同类别,像这样的变量称为_.(2)像下表所示列出两个分类变量的频数表,称为_.假设有两个分类变量X和Y,它们的可能取值分别为x1,x2和y1,y2 ,其样本频数列联表(称为2×2列联表)为y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d构造一个随机变量K2=_,其中n
4、=a+b+c+d为样本容量.如果K2的观测值kk0,就认为“两个分类变量之间有关系”;否则就认为“两个分类变量之间没有关系”.我们称这样的k0为一个判断规则的临界值.按照上述规则,把“两个分类变量之间没有关系”错误地判断为“两个分类变量之间有关系”的概率不超过P(K2k0).上面这种利用随机变量K2来判断“两个分类变量有关系”的方法称为_.自查自纠:1相关关系非确定性2(1)线性相关关系回归直线(2)正相关负相关(3)103(1)最小二乘法 (2)(,)4. (2) 随机误差0高(3)(4)1越小越好越大越差 贡献率越好5(1)分类变量(2)列联表独立性检验 ()在下列由x,y两个变量数据绘制
5、成的散点图中,相关关系最强的是()解:对于A,图中各点成带状分布,这组变量具有较强的线性相关关系对于B、C、D,散点图中样本点成片状分布,所以两个变量的线性相关关系相对较弱些故选A ()某校学生会为了调查学生对2018年俄罗斯世界杯的关注是否与性别有关,抽样调查了100人,得到如下数据不关注关注总计男生301545女生451055总计7525100根据表中数据,通过计算统计量K2,并参考以下临界数值:P(K2k0)01501000500250010k020722706384150246635若由此认为“学生对2018年俄罗斯世界杯的关注与性别有关”,则此结论出错的概率不超过 ()A010 B0
6、05 C0025 D001解:根据表中数据,计算统计量K23032706,参考临界数据知,认为“学生对2018年俄罗斯世界杯的关注与性别有关”,此结论出错的概率不超过010故选A ()已知四个命题:在回归分析中,R2可以用来刻画回归效果,R2的值越大,模型的拟合效果越好;在独立性检验中,随机变量K2的值越大,说明两个分类变量有关系的可能性越大;在回归方程02x12中,当解释变量x每增加1个单位时,预报变量y平均增加1个单位;两个随机变量相关性越弱,则相关系数的绝对值越接近于1其中真命题是 ()A B C D解:相关指数R2表示解释变量对预报变量的贡献率,R2的值越大,说明回归模型的拟合效果越好
7、,故正确由K2的计算公式可知,对分类变量X与Y的随机变量K2的观测值k来说,k越小,判断“X与Y有关系”的把握越小,随机变量K2的值越大,说明两个分类变量有关系的可能性越大,故正确在回归直线方程02x12中,当解释变量x每增加1个单位时,预报变量平均增加02个单位,故错误两个随机变量相关性越强,则相关系数的绝对值越接近于1;两个随机变量相关性越弱,则相关系数的绝对值越接近于0,故不正确故选C ()为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其回归直线方程为.已知=225,=1600,=4.
8、该班某学生的脚长为24,据此估计其身高为_厘米解:由已知得22.5,160,则 1604×22.570,当x24时,4×2470166,故填166. ()某工厂为研究某种产品产量x(吨)与所需某种原材料y(吨)的相关性,在生产过程中收集4组对应数据(x,y)如下表所示(残差真实值预测值)x3456y2.534m根据表中数据,得出y关于x的线性回归方程为:0.7xa.据此计算出在样本(4,3)处的残差为0.15,则表中m的值为_解:由题意可得3.15,则在(4,3)处3.150.7×4a,所以a0.35.产量x的平均值(3456)4.5,则0.7 0.35,即(9.
9、5m)0.7×4.50.35,解得m4.5.故填4.5.类型一相关关系的判断下列变量间的关系,是相关关系的为()正方体的体积与棱长之间的关系;一块农田的水稻产量与施肥量之间的关系;商品销售收入与其广告费支出之间的关系;人体内的脂肪含量与年龄之间的关系A B C D解:由正方体的棱长和体积的公式可知,正方体的体积等于棱长的立方,所以是确定的函数关系(此时可排除A、C、D,选B)易知中变量间的关系均为不确定的相关关系故选B点拨:要注意函数关系与相关关系的区别:函数关系是确定性关系,而相关关系是随机的、不确定的()儿子的身高和父亲的身高是 ()A确定性关系 B相关关系C函数关系 D无任何关
10、系解:由于儿子的身高和父亲的身高是不确定的关系,所以是相关关系故选B()下列说法中正确的是_(填序号)相关关系是一种确定性关系;变量间的线性相关系数r的取值范围为1,1;变量间的线性相关系数r的绝对值越近接0,则变量间的线性相关程度越低;相关系数r与回归系数始终同号解:根据题意,依次分析四个说法:对于,在回归分析中,变量间的相关关系非函数关系,是一种不确定的关系,错误;对于,相关系数r满足|r|1,正确;对于,根据相关系数的性质:|r|1,且|r|越接近1,相关程度越大;|r|越接近0,相关程度越小,正确;对于,由r与b的计算公式知相关系数r与回归系数始终同号,正确故填点拨:用相关系数r可以衡
11、量两个变量之间的相关关系的强弱,r的绝对值越接近于1,表示两个变量的线性相关性越强,且r的正负即表示两个变量相关性的正负相关系数的取值范围是1,1()下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图注:年份代码17分别对应年份20082014由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明附注:参考数据:=9.32,40.17,0.55,2.646.参考公式:相关系数r解:由折线图中数据和附注中参考数据得=4,=28,=0.55,=40.174×9.322.89,r0.99.因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当
12、高,从而可以用线性回归模型拟合y与t的关系类型二散点图()某中学的兴趣小组在某座山上测得海拔高度(km)、气压(kPa)和沸点()的六组数据绘制成的散点图如图所示,则下列说法错误的是 ()A沸点与海拔高度呈正相关B沸点与气压呈正相关C沸点与海拔高度呈负相关D沸点与海拔高度、沸点与气压的相关性都很强解:由图1知气压随海拔高度的增加而减小,由图2知沸点随气压的升高而升高,所以沸点与气压呈正相关,B正确;沸点与海拔高度呈负相关,C正确,A错误;由于两个散点图中的点都成线性分布,所以沸点与海拔高度、沸点与气压的相关性都很强,D正确故选A点拨:除了相关系数外,散点图也可以判断两个变量的相关关系点分布在从
13、左下角到右上角的区域时,两个变量呈现正相关;点分布在从左上角到右下角的区域时,两个变量呈负相关()某次考试,班主任从全班同学中随机抽取一个容量为8的样本,他们的数学、物理分数对应如下表学生编号12345678数学分数x6065707580859095物理分数y7277808488909395绘出散点图如下根据以上信息,判断下列结论:根据此散点图,可以判断数学成绩与物理成绩具有线性相关关系;根据此散点图,可以判断数学成绩与物理成绩具有一次函数关系;甲同学数学考了80分,那么,他的物理成绩一定比数学只考了60分的乙同学的物理成绩要高其中正确的个数为 ()A0 B1 C2 D3解:对于,根据此散点图
14、知,各点都分布在一条直线附近,可以判断数学成绩与物理成绩具有较强的线性相关关系,正确;对于,根据此散点图,可以判断数学成绩与物理成绩具有较强的线性相关关系,不是一次函数关系,错误;对于,甲同学数学考了80分,他的物理成绩可能比数学只考了60分的乙同学的物理成绩低,所以错误综上,正确的结论是,只有1个故选B类型三线性回归方程()已知变量x,y之间的线性回归方程为07x103,且变量x,y之间的一组相关数据如表所示,则下列说法错误的是 ()x681012y6m32A变量x,y之间呈现负相关关系B可以预测,当x20时,y37Cm4D由表格数据可知,该回归直线必过点(9,4)解:对于A:根据b的正负即
15、可判断正负相关关系,b070,负相关对于B,当x20时,代入可得y37对于C,根据表中数据:(681012)9,可得07×91034,即(6m32)4,解得m5对于D,线性回归方程一定过点(,),即(9,4)故选C点拨:回归方程一定通过样本点的中心(,);中心相同的样本点的回归方程不一定相同()如果在一次试验中,测得(x,y)的四组数值分别是A(1,3),B(2,38),C(3,52),D(4,6),则y与x之间的回归直线方程可能为 ()Ax7 B104x19C19x104 D105x09解:因为25,45,所以这组数据的样本中心点是(25,45),又x与y呈正相关,所以只有B符合故
16、选B()某商家欲将购进的一批成本价为4元/件的商品卖出,为了对这种产品制定合理售价,将该产品按事先拟定的价格进行试销,得到如下6组数据单价x/元8828486889销量y/件908483807568 (1)若90xy100,就说产品“定价合理”,现从这6组数据中任意抽取2组数据,求这2组数据均为“定价合理”的概率;(2)求出y关于x的线性回归方程x,预计在今后的销售中,销量与单价仍服从此关系,为了获得最大利润,该产品的销售单价应定为多少元?(利润销售收入成本,精确到01元)参考公式:=,=-解:(1)从这6组数据中任意抽取2组数据有15种情况,“定价合理”的有:89098,8284922,84
17、83914,从中任取2组有3种情况,则所求概率P(2)因为85,80,=0.7,=-14,则=20,=-250则y关于x的线性回归方程是y20x250,利润函数L(x)x(20x250)4(20x250)20x2330x1 000,当x825时,L(x)取得最大值36125,故当单价定为82元或83元时,可获得最大利润点拨:牢记求线性回归方程的步骤:第一步,列表;第二步,计算x,y,或,;第三步,代入公式求,再利用=-求;第四步,写出回归方程. (2017重庆高三学业质量调研)某科技兴趣小组对昼夜温差的大小与小麦新品种发芽多少之间的关系进行了研究,记录了2017年12月1日至12月5日五天的昼
18、夜温差与相应每天100颗种子的发芽数得到了如下数据:日期12月1日12月2日12月3日12月4日12月5日温差x()911101213发芽数y(颗)2134263640现从这5组数据中任选两组,用余下的三组数据求回归直线方程,再对被选取的两组数据进行检验(1)求选取的两组数据恰好是不相邻的两天的概率;(2)若选取的是12月1日和12月5日的两组数据,请根据余下的三组数据,求出y与x的回归直线方程x;(3)若由回归直线方程得到的估计值与所选出的两组实际数据的误差均不超过两颗,则认为得到的回归直线方程是可靠的,试判断(2)中得到的回归直线方程是否可靠附:在回归方程x中,.解:(1)设五组数据依次是
19、A1,A2,A3,A4,A5,则取出的两组数据构成:A1A2,A1A3,A1A4,A1A5,A2A3,A2A4,A2A5,A3A4,A3A5,A4A5,共有10个元素则选取的两组数据恰好不相邻这一事件为:AA1A3,A1A4,A1A5,A2A4,A2A5,A3A5,有6个元素所以所求概率P.(2)因为11,32,所以5,又因为xy,5×1132,即23,所以线性回归方程为5x23,(3)所以当x9时,5×92322,这与实际值y21比较,误差没有超过两颗,又当x13时,5×132342,而实际值y40,误差也没有超过两颗,所以(2)中得到的线性回归方程5x23是可
20、靠的类型四回归分析()某种农作物可以生长在滩涂和盐碱地,它的灌溉是将海水稀释后进行灌溉某实验基地为了研究海水浓度x(%)对亩产量y(吨)的影响,通过在试验田的种植实验,测得了该农作物的亩产量与海水浓度的数据如下表海水浓度x(%)34567亩产量y(吨)057053044036030残差ei001002mn0绘制散点图发现,可以用线性回归模型拟合亩产量y(吨)与海水浓度x(%)之间的相关关系,用最小二乘法计算得y与x之间的线性回归方程为 007x(1)求,m,n的值;(2)统计学中常用相关指数R2来刻画回归效果,R2越大,回归效果越好,如假设R2085,就说明预报变量y的差异有85%是解释变量x
21、引起的请计算相关指数R2(精确到001),并指出亩产量的变化多大程度上是由浇灌海水浓度引起的?附:残差yi,相关指数R21,其中0051解:(1)因为(34567)5(057053044036030)044所以044007×5,即079所以线性回归方程为y007x079,所以007×5079044,my30440440007×6079037,ny4036037001(2) (001)2002202 (001)2020000 6所以相关指数R21099故亩产量的变化有99%是由海水浓度引起的点拨:用相关指数R2来刻画回归效果,R2越大,说明模型拟合的效果越好另外,计
22、算也不能出错()下列关于回归分析的说法中错误的个数是 ()残差图中残差点所在的水平带状区域越宽,则回归方程的预报精确度越高;回归直线一定过样本中心(,);两个模型中残差平方和越小的模型拟合的效果越好;甲、乙两个模型的R2分别约为088和080,则模型乙的拟合效果更好A4 B3 C2 D1解:对于,残差图中残差点所在的水平带状区域越窄,则回归方程的预报精确度越高,所以错误;对于,回归直线一定过样本中心(,),正确;对于,两个模型中残差平方和越小的模型拟合的效果越好,正确;对于,R2越大,则模型的拟合效果越好,所以错误综上,错误的命题是、,共2个故选C类型五独立性检验下列说法中正确的是 ()独立性
23、检验的基本思想是带有概率性质的反证法;独立性检验就是选取一个假设H0条件下的小概率事件,若在一次试验中该事件发生了,这是与实际推断相抵触的“不合理”现象,则作出拒绝H0的推断;独立性检验一定能给出明确的结论A B C D解:假设检验的基本思想是:“在一次试验中,小概率事件不可能发生”,若小概率事件发生了,则有理由认为原假设不成立,故正确,当小概率事件没有发生,则不能拒绝原假设但也不能够肯定原假设,此时结论不明确,不正确故选A点拨:独立性检验得出的结果是带有概率性质的,只能说结论成立的概率有多大,而不能下确定性结论某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未
24、使用血清的人一年中的感冒记录作比较,提出假设H0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算的K23918,经查临界值表知P(K23841)005,则下列表述中正确的是()A有95%的把握认为“这种血清能起到预防感冒的作用”B若有人未使用该血清,那么他在一年中有95%的可能性得感冒C这种血清预防感冒的有效率为95%D这种血清预防感冒的有效率为5%解:由题意有39183841,这样得出有95%的把握认为“这种血清能起到预防感冒的作用”故选A()近年来我国电子商务行业迎来发展的新机遇,与此同时,相关管理部门推出了针对电商商品和服务的评价体系现从评价系统中选出200次成功的交
25、易,并对其评价进行统计,对商品好评率为,对服务好评率为,其中对商品和服务都做出好评的交易为80次(1)是否可以在犯错误概率不超过01%的前提下,认为商品好评与服务好评有关?(2)若针对商品的好评率,采用分层抽样的方式从这200次交易中取出5次交易,并从中选择2次交易进行客户回访,求只有1次好评的概率附:P(K2k0)0100050025001000050001k02706384150246635787910828参考公式:K2,nabcd解:(1)由题意可得关于商品评价和服务评价的2×2列联表:对服务好评对服务不满意合计对商品好评8040120对商品不满意701080合计150502
26、00所以K21111110828,所以可以在犯错误概率不超过01%的前提下,认为商品好评与服务好评有关(2)若针对商品的好评率,采用分层抽样的方式从这200次交易中取出5次交易,则好评的交易次数为3,不满意的次数为2因此,只有1次好评的概率为点拨:本题重点考查独立性检验、分层抽样及古典概型,这类题型在近年各地模拟题中出现频次较高()为了解学生的课外阅读时间情况,某学校随机抽取了50人进行统计分析,把这50人每天阅读的时间(单位:分钟)绘制成频数分布表,如下表所示阅读时间0,20)20,40)40,60)60,80)80,100)100,120人数810121172若把每天阅读时间在60分钟以上
27、(含60分钟)的同学称为“阅读达人”,根据统计结果中男女生阅读达人的数据,制作出如图所示的等高条形图(1)根据抽样结果估计该校学生的每天平均阅读时间(同一组数据用该区间的中点值作为代表);(2)根据已知条件完成下面的2×2列联表,并判断是否有99%的把握认为“阅读达人”跟性别有关?男生女生总计阅读达人非阅读达人总计附:参考公式K2,其中nabcd临界值表:P(K2k)0100005000100001k27063841663510828解:(1)该校学生的每天平均阅读时间为:10×30×50×70×90×110×52(分)(2
28、)由频数分布表得,“阅读达人”的人数是117220人,根据等高条形图作出2×2列联表如下:男生女生总计阅读达人61420非阅读达人181230总计242650计算K24327由43276635,故没有99%的把握认为“阅读达人”跟性别有关1用散点图判断相关关系(1)如果所有的样本点都落在某一函数曲线上,就用该函数来描述变量之间的关系,即变量之间具有函数关系(2)如果所有的样本点都落在某一函数曲线附近,变量之间就有相关关系(3)如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系2回归分析中应注意的问题(1)回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致
29、呈线性时,求出的回归直线方程才有实际意义,否则无意义(2)根据回归方程进行的估计仅是一个预测值,而不是真实发生的值(3)用最小二乘法求回归方程,关键在于正确求出系数,由于,的计算量较大,计算应仔细小心3线性回归分析的方法、步骤(1)画出两个变量的散点图;(2)求相关系数r,并确定两个变量的相关程度的高低;(3)用最小二乘法求回归直线方程x, (4)利用回归直线方程进行预报注:对于非线性(可线性化)的回归分析,一般是利用条件及我们熟识的函数模型,将题目中的非线性关系转化为线性关系进行分析,最后还原利用相关指数R21刻画回归效果时,R2越大,意味着残差平方和越小,模型的拟合效果越好4独立性检验的一
30、般步骤(1)假设两个分类变量x与y没有关系(2)计算出K2的观测值,其中K2(3)把K2的值与临界值比较,作出合理的判断5独立性检验的注意事项(1)在列联表中注意事件的对应及相关值的确定,不可混淆(2)在实际问题中,独立性检验的结论仅是一种数学关系表述,得到的结论有一定的概率出错(3)对判断结果进行描述时,注意对象的选取要准确无误1甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并由回归分析法分别求得相关指数R2与残差平方和m如下表甲乙丙丁R2085078069082m103106124115则哪位同学的试验结果体现A,B两变量更强的线性相关性 ()A甲 B乙 C丙 D丁解:因为相
31、关指数R2越大,残差平方和m越小,拟合效果越好故选A2()已知两个随机变量x,y之间的相关关系如表所示x42124y310512根据上述数据得到的回归方程为x,则大致可以判断 ()A0,0 B0,0C0,0 D0,0解:根据随机变量x,y在表格中的数据可以看出,y随x的增大而减小,因此0,由于02,01,01020故选A3()某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:吨)的影响,对近8年的年宣传费xi和年销售量yi(i1,2,8)数据作了初步处理,得到下面的散点图及一些统计量的值有下列5个曲线类型:ybxa;ycd;ypqlnx;yk1ek2x
32、;yc1x2c2,则较适宜作为年销售量y关于年宣传费x的回归方程的是 ()A B C D解:从散点图知,样本点分布在开口向右的抛物线(上支)附近或对数曲线(在x轴上方部分)的附近,所以ycd或ypqlnx较适宜故选B4()在两个分类变量的独立性检验过程中有如下表格P(K2k0)050040025015010005002500100005k0045507081323207227063841502466357879已知两个分类变量X和Y,如果在犯错误的概率不超过005的前提下认为X和Y有关系,则随机变量K2的观测值可以位于的区间是 ()A(005,010) B(0025,005)C(2706,38
33、41) D(3841,5024)解:根据题意,在犯错误的概率不超过005的前提下认为X和Y有关系,则随机变量K2的观测值k应满足:3841k5024,即(3841,5024)故选D5()已知一组数据(1,2),(3,5),(6,8),(x0,y0)的线性回归方程为x2,则x0y0的值为 ()A5 B3 C2 D1解:由题意知(10x0),(15y0),因为线性回归方程为x2,所以(15y0)(10x0)2,解得x0y03故选B6()某同学用收集到的6组数据对(xi,yi)(i1,2,3,4,5,6)制作成如图所示的散点图(点旁的数据为该点坐标),并由最小二乘法计算得到回归直线l1的方程:,相关
34、系数为r1,相关指数为R;经过残差分析确定点E为“离群点”(对应残差过大的点),把它去掉后,再用剩下的5组数据计算得到回归直线l2的方程:,相关系数为r2,相关指数为R则以下结论中,不正确的是()Ar10,r20 B0,0C DRR解:从散点图中可以看出,两个变量是正相关,所以选项A是正确的;从图中可以看出,回归直线的斜率是正数,所以选项B和C是正确的;R2值越大,说明残差的平方和越小,也就是说模型的拟合效果越好,所以选项D是错误的故选D7()博鳌亚洲论坛2018年年会于4月8日至11日在海南博鳌举行为了搞好对外宣传工作,设会务组选聘了50名记者担任对外翻译工作,则在下面“性别与会俄语”的2&
35、#215;2列联表中,abd_会俄语不会俄语总计男ab20女6d总计1850解:由2×2列联表得a618,所以a12,因为ab20,所以b8,因为6d30,所以d24,所以abd1282428故填288()已知一组数据确定的回归直线方程为15x1,且y4,发现两组数据(17,29),(23,51)误差较大,去掉这两组数据后,重新求得回归直线的斜率为1,则此时,当x3,_解:数据的样本中心点为(2,4),去掉(17,29),(23,51)后,样本中心不变,重新求得的回归直线的斜率为1,回归直线方程设为x,代入(2,4),求得2,所以回归直线的方程为x2,将x3代入回归直线方程求得5故填
36、59()下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型根据2000年至2016年的数据(时间变量t的值依次为1,2,17)建立模型:304135t;根据2010年至2016年的数据(时间变量t的值依次为1,2,7)建立模型:99175t(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由解:利用模型,该地区2018年的环境基础设施投资额的预测值为304135×192261(亿元)利用模型,该地区20
37、18年的环境基础设施投资额的预测值为99175×92565(亿元)(2)利用模型得到的预测值更可靠理由如下:()从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y304135t上下,这说明利用2000年至2016年的数据建立的线性模型不能很好地描述环境基础设施投资额的变化趋势2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型99175t可以较好地描述2010年以后的环境基础设施投资额的变化
38、趋势,因此利用模型得到的预测值更可靠()从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型得到的预测值2261亿元的增幅明显偏低,而利用模型得到的预测值的增幅比较合理,说明利用模型得到的预测值更可靠以上给出了两种理由,写出其中任意一种或其他合理理由均可10() PM25是指空气中直径小于或等于25微米的颗粒物(也称可入肺颗粒物)为了探究车流量与PM25的浓度是否相关,现采集到某城市周一至周五某一时间段车流量与PM25的数据如下表时间周一周二周三周四周五车流量x(万辆)5051545758PM25的浓度y(微克/立方米)6970747879(1)根据上表数据,请在所给的坐标系中
39、画出散点图;(2)根据上表数据,用最小二乘法求出y关于x的线性回归方程x;(3)若周六同一时间段的车流量是25万辆,试根据(2)求出的线性回归方程,预测此时PM25的浓度为多少?(保留整数)参考公式:由最小二乘法所得回归直线的方程是:x,其中,=-解:(1)散点图如下图所示(2)因为54,74,=4×5+3×4+3×4+4×5= 64,=(-4)2+(-3)2+33+44=50,=128,yx74128×54488,故y关于x的线性回归方程是:128x488(3)当x25时,y128×25488368837所以可以预测此时PM25的浓度约为37微克/立方米11()海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下(1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;箱产量<50 kg