《2022-2023年艺术生新高考数学讲义 第27讲 统计案例和回归方程.pdf》由会员分享,可在线阅读,更多相关《2022-2023年艺术生新高考数学讲义 第27讲 统计案例和回归方程.pdf(73页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第27讲统计案例和回归方程【知识点总结】一、线性回归线性回归是研究不具备确定的函数关系的两个变扯之间的关系(相关关系)的方法。对千一组具有线性相关关系的数据(x,y小(心,)2)I(X11,Y11),其回归方程y=bx+a的求法为2(x,玉)(y,IX;Y;-n:;y b=1=i=l II 汇(x,;)2i=1 2x,2-n;户2f=1 a=ybx 其中,x-y=-2y,,(x,y)称为样本点的中心。区x,n,=l n,=l 步骤:画散点图,如散点图中的点基本分布在一条直线附近,则这条直线叫这两个变址的回归直线,直线斜率kO,称两个变量正相关;k10.828,有99.9把握称“A取A1或A产对
2、“B取B1,B2“有关系;若10.828习令6.635,有99把握称“A取A1或A2对“B取B,B2“有关系;若6.635习杏3.841,有95把握称“A取A1或A2“对“B取Bl,B2“有关系;若K2:;3.84L没有把握称A与B相关。【典型例题】例l.(2022全国高三专题练习(文)在对两个变量X,y进行回归分析时有下列步骤:对所求出的回归方程作出解释;收集数据(xi,yi),i=1,2,.,n;求回归方程;根据所收栠的数据绘制散点图则下列操作顺序正确的是()A.0 B.冠)C.卿D.1(D 例2.(2022全国高三专题练习)对千数据组(x;,Y;)(i=1,2,3,.,n),如果由线性回
3、归方程得到的对应千自变批X,的估计值是y,,那么将Y;-y,称为相应于点(x11,Y,)的残差某工厂为研究某种产品产显X(吨)与所需某种原材料Y吨)的相关性,在生产过程中收集4组对应数据(x,y)如下表所示:x,.3-4 _ 5 _ 6 l-y,.I 25 3 l-4-m l l 根据表中数据,得出Y关千X的线性回归方程为y=0.7x+a,据此计算出样本点处的残差为0.15,则表中m的值为()A.3.3 B.4.5 C.5 D.5.5 例3.(2022全国高三专题练习)据贵州省气候中心报,2021年6月上旬,我省降水量在I5.2-l 70.3nm1之间,毕节市局地、遵义市北部、铜仁市局地和黔东
4、南州东南部不足50mm,其余均在501nmm以上,局地超过100mm若我省某地区2021年端午节前后3天,每一天下雨的概率均为50通l过模拟实验的方法来估计该地区这3天中恰好有2天下雨的概率,利用计算机或计算器可以产生0到9之间取整数值的随机数x(xeN,且Q:,;X:,;9)表示是否下雨:当xEO,k(kEZ)时表示该地区下雨,当xEk+l,9时,表示该地区不下雨因为是3天,所以每三个随机数作为一组,从随机数表中随机取得20组数如下332 714 740 945 593 468 491 272 073 445 992 772 951 431 169 332 435 027 898 719(1
5、)求出k的值,使得该地区每一天下雨的概率均为50%;并根据上述20组随机数估计该地区这3天中恰好有2天下雨的概率;(2)2016年到2020年该地区端午节当天降雨扯(单位:mm)如表:时间2016年2017年20)8年2019年2020年年份tl 2 3 4 5 降雨世Y28 27 25 23 22 经研究表明:从2016年到2020年,该地区端午节有降雨的年份的降雨谥Y与年份t具有线性相关关系,求回归直线方程y=bt+a并预测该地区2022年端午节有降雨的话,降雨朵约为多少?参考公式:归t)(y;习i忱n56=l=l=l=1,$=;1一粉凶i)22甘n?i=I i=I 例4.(2022全国高
6、三专题练习(理)某企业新研发了一种产品,产品的成本由原料成本及非原料成本组成每件产品的非原料成本Y(元)与生产该产品的数量X(千件)有关,经统计得到如下数据:X 1 2 3 4 5 6 7 8 y 112 61 44.5 35 30.5 28 25 24 根据以上数据,绘制了散点图观察散点图,两个变世不具有线性相关关系,现考虑用反比例函数模型b y=a+和指数函数模型y=ce小俨分别对两个变量的关系进行拟合已求得用指数函数模型拟合的 回归方程为S,=96.54e-02.,lny与X的相关系数lj=0.94)I I-r 9-8 7 6 5 4 一飞J2 2_,314,5_,.,7_s19IOO
7、09876654332 八”2I(l)用反比例函数模型求Y关千X的回归方程;(2)用相关系数判断上述两个模型哪一个拟合效果更好(精确到0.01),并用其估计产量为lO千件时每件产品的非原料成本参考数据:8 8 8 8 2儿)1u 一22 ll,2 区y,区y/2.J0.6lx6185.5 e 一2u=l i=1 i=1 i=l 183.4 0.34 0.115 1.53 360 22385.5 61.4 0.135 参考公式对于一组数据(ui,v1),(u2,v2),(u,-.,),其回归直线0=&加的斜率和截距的最小一乘估计分“2U,V,-nUV 别为:/3=l 江n矿i=1 X=V沙u,相
8、关系数r=2U,V,-n订Vi=1 I n I:u;-n矿i;I 江nv2i;I 例5.(2022全国高三专题练习)如图是某小区2020年1月至2021年1月当月在售二手房均价(单位:万元平方米)的散点图(图中月份代码113分别对应2020年1月2021年1月)根据散点图选择y=a+bx 和y=c+dlnx两个模型进行拟合,经过数据处理得到两个回归方程分别为y=0.9369+0.0285五:和y=0.9554+0.0306lnx,并得到以下一些统计械的值:距代份月13 12 u IO 9 8 7 们均房6手5二4售32 在月当l.L 妇应的邺94llIOOO .y=0.9369+0.0285五
9、y=0.9554+0.03()6Jn X 13 2 残差平方和L(Y;-Y;)0.000591 0.000164 i=I 13 2 总偏差平方和区(y1汀0.006050 i-1(1)请利用相关指数R2判断哪个模型的拟合效果更好;(2)估计该小区202年6月份的二手房均价(精确到0.001万元平方米)参考数据:ln2 0.69,ln 3 1.10,ln17 2.83,ln19 2.94,五寸41,石司73,17:,4.12,19:,4.36.2(y,-y,)2 参考公式:相关指数R2=1-.荨Y,今)2例6.(2022全国高三专题练习)近年来,明代著名医药学家李时珍故乡黄冈市朝春县大力发展大健
10、康产业,薪艾产业化种植已经成为该县脱贫攻坚的主要产业之一,已知勒艾的株高y(单位:cm)与一定范围内的温度x(单位:c)有关,现收集了薪艾的13组观测数据,得到如下的散点图:i 1 株高r(cm).鲁.112 111 ll0 109 108 l07 106 O 2 4 6 8 10 12 14 16 18 20 温度t(OC)现根据散点图利用y=a+bx或y=c+!_建立y关于x的回归方程,令s心三1 t=得到如下数据:X X 了了s t 10.15 109.94 3.04 0.16 区l3t,-Y;13了y区13s,213s2 区13 tf13尸区13yf13一y;汇s,y,l3了yi=1
11、i;I k I 1=1 j;I 13.94-2.1 I l.67 0.21 2.22 且(S;,y,)与(!;,Y;)(i=l,2,3,.,13)的相关系数分别为片,r2,且i=-0.9953.(l)用相关系数说明哪种模型建立y与x的回归方程更合适;(2)根据(I)的结果及表中数据,建立y关千x的回归方程;(3)已知薪艾的利润z与x、y的关系为z=20y-x,当x为何值时,z的预报值最大2 参考数据和公式:0.21x21.22=4.4562,l l.67x21.22=247.6374,247.6374=15.7365,对于一组数据(U;,V;)(i fu;v;-n言=1,2,3,.,n),其回
12、归直线方程v=a如的斜率和截距的最小二乘法估计分别为fJ=;.I 区叫n2=1 a=v-/Ju,相关系数r=I 区矿11;2 J江n,了扫1i I 2U,V,-n;i=1 例7.(2022河北张家口高三期末)已知某区A、B两所初级中学的初一年级在校学生人数之比为9:11,该区教育局为了解双减政策的落实悄况,用分层抽样的方法在A、B两校初一年级在校学生中共抽取了100名学生,调查了他们课下做作业的时间,并根据调查结果绘制了如下频率分布直方图:0.6皇-0.4,_ -0.3 I一一一一一一一一一0.1,_ _ 0.l 1.S 2 2.S 3 3.S 4 4.S 做作业时间小时(1)在抽取的100名
13、学生中,A、B两所学校各抽取的人数是多少?(2)该区教育局想了解学生做作业时间的平均时长(同一组中的数据用该组区间的中点值作代表)和做作业时长超过3小时的学生比例,请根据频率分布直方图,估计这两个数值;(3)另据调查,这100人中做作业时间超过3小时的人中的20人来自A中学,根据已知条件填写下面列联表,并根据列联表判断是否有99的把握认为“做作业时间超过3小时”与“学校”有关?做作业时间超过3小时做作业时间不超过3小时合计A校B校合计附表:p(K2 k)0.10 0.05 0.025 0.010 0.001 k 2.706 3.841 5.024 6.635 10.828 附:K2=n(ad-
14、bc-)2(a+b)(c+d)(a+c)(b+d)【技能提升训练】一、单选题1.(2022全国高三专题练习)某工厂的每月各项开支X与毛和1司 Y(单位:万元)之间有如下关系,Y与X的线性回归方程y=6.5x+a,则(I=()X 2 4 5 6 8 y 30 40 60 so 70 A.17.5 B.17 C.15 D.15.5 2.(2021重庆南开中学高三阶段练习)对两个变量y和x进行回归分析,得到一组样本数据:(xI,y1),(x2,Y2),.,(x,.,Y,),则下列说法中不正确的是()A.由样本数据得到的回归方程y=bx+a必过样本中心(x,y)B.残差平方和越小的模型,拟合的效果越好
15、C.用相关指数炉来刻画回归效果,炉越小,说明模型的拟合效果越好D.若变量y和x之间的相关系数为r=-0.9362,则变量y和x之间具有线性相关关系3.(2021黑龙江漠河市高级中学高三阶段练习(文)某单位为了了解办公楼用电量Y(度)与气温X(C)之间的关系,随机统计了四个工作炽与当天平均气温,并制作了对照表:气温(C)18 13 lO-1 用电堂(度)24 34 38 64 由表中数据得到线性回归方程y=-2x+a,当气温为-4C时,预测用电量均为A.68度B.52度C.12度4.(2022全国高三专题练习)关于线性回归的描述,有下列命题:O回归直线一定经过样本中心点;相关系数r的绝对值越大,
16、拟合效果越好;相关指数R2越接近1拟合效果越好:残差平方和越小,拟合效果越好其中正确的命题个数为()A.1 B.2 c.3 5.(2022全国高三专题练习)下列表述中,正确的个数是()O将一组数据中的每一个数据都加上同一个常数后,方差不变;D.28度D.4 设有一个回归方程y=3-Sx,变倡X增加1个单位时,Y平均增加5个单位;设具有相关关系的两个变扯x,y的相关系数为r那么H越接近千0,X,Y之间的线性相关程度越高;在一个2x 2列联表中,根据表中数据计算得到矿的观侧值k,若k的值越大,则认为两个变星间有关的把握就越大A.0 B.1 C.2 D.3 6.(2022全国高三专题练习(文)对两个
17、变扯y与x进行回归分析,分别选择不同的模型,它们的相关系数r如下,其中拟合效果最好的模型是()A.0.2 B.0.8 C.-0.98 D.-0.7 7.(2022全国高三专题练习)对四组数据进行统计,获得以下散点图,关千其相关系数的比较,正确的是()商三;:035X忒.二3035Xy y li.-.。5 10 15 20 25 30 35 X。5 10 15 20 25 30 35 X 相关系数为r3相关系数为r4A.片片 Otj斤B.r4r20片几C.几片0r3 i D.片 几 0片 乃8.(2022全国高三专题练习(理)如果发现散点图中所有的样本点都落在一条斜率为非0实数的直线上,则下列说
18、法错误的是()A.解释变量和预报变星是一次函数关系B.相关系数r=lC.相关指数R2=1 D.残差平方和为09.(2022全国高三专题练习(理)对匹组数据进行统计,获得如图所示的散点图,关千其相关系数的比较,正确的是()20r-r-i-1 厂厂相关系数为i。厂相关系数为片厂已相关系数为lj勹飞-令;二i,3 6 9 相关系数为I。A.C.lj 140131 2 14r20r3fj B.D.141j 01jr2 片r 40tj r2,则说明变隘X,y之间的线性相关性比变晕m,n之间的线性相关性强C.若0il,则说明变岱X,y之间的相关性为正相关D.若i=0,则说明变量X,y之间线性不相关11.(
19、2022全国高三专题练习(文)已知相关变量X和Y的散点图如图所示,若用y=b1 ln(k1x)与y虹2+b2 拟合时的相关系数分别为1i,r2则比较1jr2的大小结果为(、丿y 7654321.。234S678 A.片f.2 B.x i=r2 c.lj r2 D不确定12.(2022全国高三专题练习(文)在一组样本数据(x1,y心(X2,y2),.,(Xn,Yn)(吃2,X1,X2,.,Xn 不全相等)的散点图中,若所有样本点(x;,y;)(i=l,2,.,n)都在直线y=-I 2 x+I上,则这组样本数据的样本相关系数为()A.l B.0 C.I-2 D.l 13.(2022全国高三专题练习
20、)如图,5个(x,y)数据,去掉D(3,10)后,下列说法错误的是()y E(l0,12).D(3,10)C(4,5)B(2,4)A(l,3)。A.相关系数r变大C.R2变大X B.残差平方和变大D.解释变矗x与预报变伦y的相关性变强14.(2022全国高三专题练习)某公交公司推出扫码支付乘车优惠活动,活动为期两周,活动的前五天数据如下表:第X天l 2 3 4 5 使用人数(Y)15 173 457 842 1333 由表中数据可得y关于x的回归方程为5,=55x2+m,则据此回归模型相应千点(2,173)的残差为()A.-5 B.-6 C.3 D.2 15.(2022全国高三专题练习)随蓿国
21、家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表非一线一线总计愿生45 20 65 不愿生13 22 35 总计58 42 100 计算得,K29.616.参照下表,P(K2k0)0.050 0.010 0.001 k。3.841 6.635 10.828 下列结论正确的是()A.在犯错误的概率不超过0.1的前提下,认为“生育意愿与城市级别有关”B.在犯错误的概率不超过5的前提下,认为“生育意愿与城市级别无关”C.有99以上的把握认为“生育意愿与城市级别有关”D.有99以上的把握认为“生育意愿与城市级别无关”
22、16.(2022全国高三专题练习)2018世界特色魅力城市200强新鲜出炉,包括黄山市在内的28个中国城市入选,美丽的黄山风景和人文景观迎来众多宾客现在很多人喜欢“自助游”,某调查机构为了了解“自助游”是否与性别有关,在黄山旅游节期间,随机抽取了100人,得如下所示的列联表:赞成“自助游”不赞成“自助游”合计男性30 15 45 女性45 10 55 合计75 25 100,参考公式:K-=n(ad-bc)2,其中n=a+b+c+d.(a+b)(c+d)(a+c)(b+d)P(K2江)0.15 0.10 0.05 0.025 0.010 XO 2.072 2.706 3.841 5.024 6
23、.635 参照公式,得到的正确结论是()A.有99.5以上的把握认为“赞成自助游与性别无关”B.有99.5以上的把握认为赞成自助游与性别有关”0.005 7.879 0.001 10.828 C.在犯错误的概率不超过0.1的前提下,认为赞成自助游与性别无关”D.在犯错误的概率不超过0.1的前提下,认为赞成自助游与性别有关”17.(2022全国高三专题练习(文)为了了解某高中生对电视台某节目的态度,在某中学随机调查了110名同学,得到如下列联表:男女总计喜欢40 20 60 不喜欢20 30 50 三1102 由K2=n(ad-bc)2 ll0(40 x3O-20 x20)(a+b)(c+d)(
24、a+c)(b+d)算得 矿7.8 60 x50 x60 x50 P(K2 k)0.05 0.01 0.001 k 3.841 6.635 10.828 参照附表,得到的正确结论是()A.在犯错误的概率不超过0.1的前提下,认为喜欢该节目与性别有关”B在犯错误的概率不超过0.1的前提下,认为“喜欢该节目与性别无关”C.有99的把握认为“喜欢该节目与性别有关”D有99的把握认为“喜欢该节目与性别无关”18.(2022全国高三专题练习(文)为了解某高校学生使用手机支付和现金支付的情况,抽取了部分学生作为样本,统计其喜欢的支付方式,并制作出如等高条形图:1987654321 000000000 198
25、7654321 ooooooooo 男生女生亡二现金支付一手机支付根据图中的信息,下列结论中不正确的是()A.样本中多数男生喜欢手机支付B.样本中的女生数量少千男生数量C.样本中多数女生喜欢现金支付D.样本中喜欢现金支付的数儒少千喜欢手机支付的数矗19.(2021全国高三专题练习(文)现行普通高中学生在高一时面临眷选科的问题,学校抽取了部分男、女学生意愿的一份样本,制作出如下两个等高堆积条形图:等高堆积条形图1等高堆积条形图21 09 0.8 0.7 0.6 05 0.4 03 02 0.1。两文一理两理一文口男口女l9876543210 000000000 男女口两文一理口两理一文根据这两幅
26、图中的信息,下列哪个统计结论是不正确的()A.样本中的女生数量多千男生数量B.样本中有两理一文意愿的学生数最多于有两文一理意愿的学生数量C.样本中的男生偏爱两理一文D.样本中的女生偏爱两文一理二、多选题20.(2021山东聊城三模)对具有相关关系的两个变蜇x和y进行回归分析时,经过随机抽样获得成对的样本点数据(Xi,y,)(i=l,2,.,n),则下列结论正确的是()A.若两变量X,y具有线性相关关系,则回归直线至少经过一个样本点B.若两变量X,y具有线性相关关系,则回归直线一定经过样本点中心(:5)C.若以模型y=产拟合该组数据,为了求出回归方程,设z=lny,将其变换后得到线性方程z=6x
27、+lI访,则a,b的估计值分别是3和6.江j了)2D用R2=I-:来刻画回归模型的拟合效果时,若所有样本点都落在一条斜率为非零实数的直线笃汀上,则R2的值为121.(2021辽宁朝阳一模)关千变械X、Y的n个样本点(xl,y小(马,动、.、(x,y,)及其线性回归方程 趴心,下列说法正确的有()A.若相关系数r越小,则表示X、.y的线性相关程度越弱B.若线性回归方程中的伈0则表示变显X、Y正相关C.若残差平方和越大,则表示线性回归方程拟合效果越好-1”-l”一一D 若x=2人;,y区y,,则点(x,y)一定在回归直线忧心上n,=l n,=1 22.(2022-江苏高三专题练习)则下列说法正确的
28、是()A.在回归分析中,残差的平方和越小,模型的拟合效果越好;B.在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适;c.若数据X1,X2,.,X,,的平均数为1则2x1,2x2,.2x,,的平均数为2;D对分类变虽X与Y的随机变量K2的观铡值k来说,k越小,判断“X与Y有关系”的把握越大23.(2022全国高三专题练习)针对时下的抖音热,某校团委对“学生性别和喜欢抖音是否有关”作了一次4 调查,其中被调查的男女生人数相同,男生喜欢抖音的人数占男生人数的,女生喜欢抖音的人数占女生5 3 人数,若有95的把握认为是否喜欢抖音和性别有关则调查人数中男生可能有()人5 附表:P
29、(K2 k0)0.050 0.010 k 3.841 6.635 附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)A.25 B.45 c.60 D.75 三、填空题24.(2022全国高三专题练习)有人发现,多看手机容易使人近视,下表是调查机构对此现象的调查数据:近视不近视总计少看手机15 45 60 多看手机15 5 20 总计30 50 80 则在犯错误的概率不超过的前提下认为近视与多看手机有关系附表:平ek)I 0.15 I 0.10 I 0.05 I 0.010 B 0.005 I 0.001 k l 2.072 三5.024三7.879I 10.828 参考公式:
30、K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.四、解答题25.(2022全国高三专题练习(文)近年来,新能源产业蓬勃发展,我市一家新能源企业近5个月的产值如下表:已成为我市的一大支柱产业据统计,月份5月6月7月8月9月月份代码X1 2 3 4 5 产值Y亿元16 20 27 30 37(1)根据上表数据,计笃Y与X的线性相关系数r,并说明Y与X的线性相关性强弱;(0.75廿11则认为Y与X线性相关性很强;1叶0.75,则认为Y与X线性相关性不强)(2)求出Y关千X的线性回归方程,并预测10月该企业的产值参考公式:r=2X,y,-n5 i=I I,2矿
31、nx一2i=l II-LX;Y;-1函一,b=i=1 n,a=y-bx,归1矿区xf-n;2 1=l i;I 参考数据:2斗Y;=442乏闪55,Il=3654,五五妇52.3i=I i=I i=I 26.(2021江西模拟预测(文)某科技公司研发了一项新产品A,经过市场调研,对公司l月份至6月份销售址及销售单价进行统计,销售单价X(千元)和销售址Y(千件)之间的一组数据如下表所示:月份i1 2 3 4 5 6 销售单价9 9.5 10 10.5 11 8 汃量售销,I llI lOI 8 1 6(1)试根据1至5月份的数据,建立Y关千X的回归直线方程;5-5.-(2)若由回归直线方程得到的估
32、计数据与剩下的检验数据的误差不超过0.65于元,则认为所得到的回归直线方程是理想的,试间(l)中所得到的回归直线方程是否理想?2XY,-n 又 y参考公式:回归直线方程s,=Ex+a,其中b=1=1 n 区x12矿i=1 江502.5i=I 5 参考数据:2井Y;=392 i叫27.(2022河南温县第一高级中学高三阶段练习(理)身高体重指数(BM!)的大小直接关系到人的健康状况,某高中高三(l)班班主任为了解该班学生的身体健康状况,从该班学生中随机选取5名学生,测量其身高、体重(数据如下表)并进行线性回归分析,得到线性回归方程为y=0.9x-90,因为某些原因,3号学生的体重数据丢失学生编号
33、I 2 3 4 5 身高x/cml65 170 175 170 170 体重ylkg58 62 z 65 63(l)求表格中的Z值;江,y,)2(2)已知公式R三r=l 可以用来刻画回归的效果,请间学生的体重差异约有百分之多少是由身笘(y,了)2高引起的(注:结果四舍五入取整数)28.(2022全国高三专题练习)2021年6月17日9时22分,我国酒泉卫星发射中心用长征2F遥十二运载火箭,成功将神舟十二号载人飞船送入预定轨道,顺利将聂海胜、刘伯明、汤洪波3名航天员送入太空,发射取得圆满成功,这标志着中国人首次进入自己的空间站某公司负贵生产的A型材料是神舟十二号的重要零件,该材料应用前景十分广泛
34、该公司为了将A型材料更好地投入商用,拟对A型材料进行应用改造、根据市场调研与模拟,得到应用改造投入x(亿元)与产品的直接收益y(亿元)的数据统计如下:序号I 2 3 4 5 6 7 8 9 10 11 12 X 2 3 4 6 8 10 13 21 22 23 24 25 y 15 22 27 40 48 54 60 68.5 68 67.5 66 65 当O17时,确定y与x满足的线性回归方程为y=-0.7x+a(1)根据下列表格中的数据,比较当O k)l 0.050 I 0.010 合计l 0001 k,.l 384l 6.635 l 10.828 35.(2022全国高三专题练习)某中学
35、随机抽查了50名同学的每天课外阅读时间,得到如下统计表:时长(分)(0,10(10,20(20,30(30,40(40,50 人数4 10 14 18 4(1)求这50名同学的平均阅读时长(用区间中点值代表每个人的阅读时长);(2)在阅读时长位于(40,50的4人中任选2人,求甲同学被选中的概率;(3)进一步调查发现,语文成绩和每天的课外阅读时间有很大关系,每天的课外阅读时间多于半小时称为“阅读迷,语文成绩达到120分视为优秀,根据每天的课外阅读时间和语文成绩是否优秀,制成一个2x2列联表:阅读迷非阅读迷合计语文成绩优秀20 3 23 语文成绩不优秀2 25 27 合计22 28 50 根据表
36、中数据,判断是否有99的把握认为语文成绩是否优秀与课外阅读时间有关参考公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.参考数据:P(K2江)0.40 0.25 0.10 0.010 k。0.708 1.323 2.706 6.635 36.(2022全国高三专题练习)为了比较注射A,B两种药物后产生的皮肤痀疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B下表l和表2分别是注射药物A和药物B后的试验结果(抱疹面积单位:血沪)表1:注射药物A后皮肤痀疹面积的频数分布表痀疹面积60,65
37、)65,70)70,75)75,80)频数30 40 20 IO 表2:注射药物B后皮肤瘛疹面积的频数分布表痀疹面积60,65)65,70)70,75)75,80)频数10 25 20 30(1)完成下面2x2列联表;疤疹面积小于701nm2疤疹面积不小于70mm2总计注射药物A(=b=注射药物Bc=d=总计n=80,85)15(2)能否在犯错误概率不超过0.01的前提下,认为注射药物A后的疤疹面积与注射药物B后的庖疹面积有差异”?37.(2022全国高三专题练习)某淘宝店经过对春节七天假期的消费者进行统计,发现在金额不超过1000元的消费者中男女比例为l:4,该店按此比例抽取了100名消费者
38、进行进一步分析,得到下表女性消费情况:消费金额(元)(0,200)200,400)400,600)600,800)(800,1000 人数5 10 15 47 3 男性消费情况:消费金额(元)(0,200)200,400)400,600)600,800)800,1000 人数2 3 10 3 2 若消费金额不低千600元的网购者为“网购达人,低千600元的网购者为“非网购达人”(l)分别计算女性和男性消费的平均数,并判断平均消费水平高的一方“网购达人“出手是否更阔绰?(2)根据以上统计数据填写如下2 x 2列联表,并回答能否在犯错误的概率不超过0.005的前提下认为“是否为网购达人与性别有关”
39、女性男性合计“网购达人”“非网购达人”合计附:炉n(ad-bc)2,其中n=a+b+c+d(a+b)(c+d)(a+c)(b+d)P(K2k)0.10 0.05 0.025 0.010 0.005 k 2.706 3.841 5.024 6.635 7.879 第27讲统计案例和回归方程【知识点总结】一、线性回归线性回归是研究不具备确定的函数关系的两个变扯之间的关系(相关关系)的方法。对千一组具有线性相关关系的数据(x,y小(心,)2)I(X11,Y11),其回归方程y=bx+a的求法为II n 凶X;-x)(Y;-y)L X;Y;-nxy b=i=l=l=J 汇(x,玉)2i=1 立2_n了
40、i=l a=ybx 其中,正fx;y=这y丿,()称为样本点的中心。n i=l n,=1 步骤:画散点图,如散点图中的点基本分布在一条直线附近,则这条直线叫这两个变谥的回归直线,直线斜率kO,称两个变量正相关;k10.828,有99.9把握称“A取A1或A2对“B取B1,B2“有关系;若10.828习杏6.635,有99把握称“A取A1或A2对“B取B1,B2“有关系;若6.635习炉3.841,有95把握称“A取A1或A产对“B取B1,B产有关系;若K迳3.841,没有把握称A与B相关。【典型例题】例l.(2022全国高三专题练习(文)在对两个变量X,y进行回归分析时有下列步骤:对所求出的回
41、归方程作出解释;收集数据(xi,yi),i=l,2,.,n;求回归方程;根据所收集的数据绘制散点图则下列操作顺序正确的是()A.怠)【答案】DB.C.卿D.【详解】根据回归分析的思想,可知对两个变篮X,y进行回归分析则,应先收栠数据(I),然后绘制散点图,冉求回归方程,蚊后对所求的回归方程作出解释故选:D 例2.(2022全国高三专题练习)对千数据组(X;,Y;)(i=1,2,3,n),如果由线性回归方程得到的对应于自变扯x,的估计值是y,,那么将y,y,称为相应千点(x,y,)的残差某工厂为研究某种产品产械X(吨)与所需某种原材料Y吨)的相关性,在生产过程中收集4组对应数据(x,y)如下表所
42、示:X 3 4 5 6 y 2.5 3 4 m 根据表中数据,得出Y关千X的线性回归方程为y=0.7x+a,据此计算出样本点处的残差为0.15,则表中m的值为()A.3.3【答案】B【详解】B.4.5 C.5 D.5.5 由题总可知,在样本(4,3)处的残差0.15,则y=3.15,即3.15=0.?x+a,解得a=0.35,即y=O.?x+0.35,-3+4+5+6 又x=4.5(了,一)4,且线性方程过样本中心点2.5+3+4+,n 则y=0.7x4.5+0.35=3.5,则y=3.5,解得m=4.5.故答案为:B【点睛】理解残差的定义,实际仙减去估计仙;线性方程过样本中心(无,y);要求
43、对基本知识点比较熟练,计算才准确,例3.(2022全国高三专题练习)据贵州省气候中心报,2021年6月上旬,我省降水植在I5.2-l 70.3mm之间,毕节市局地、遵义市北部、铜仁市局地和黔东南州东南部不足50mm,其余均在50mmm以上,局地超过100mm若我省某地区2021年端午节前后3天,每一天下雨的概率均为50%通过模拟实验的方法来估计该地区这3天中恰好有2天下雨的概率,利用计算机或计算器可以产生0到9之间取整数值的随机数X(xEN,且o,s;x,;9)表示是否下雨:当xE 0,k(k E Z)时表示该地区下雨,当xEk+l,9时,表示该地区不下雨因为是3天,所以每三个随机数作为一组,
44、从随机数表中随机取得20组数如下332 714 740 945 593 468 491 272 073 445 992 772 951 431 169 332 435 027 898 719(1)求出k的值,使得该地区每一天下雨的概率均为50%;并根据上述20组随机数估计该地区这3天中恰好有2天下雨的概率;(2)2016年到2020年该地区端午节当天降雨量(单位:mm)如表:时间2016年2017年2018年2019年2020年年份tl 2 3 4 5 降雨址Y28 27 25 23 22 经研究表明:从2Ol6年到2020年,该地区端午节有降雨的年份的降雨址Y与年份I具有线性相关关系,求回归
45、直线方程y=lx+a并预测该地区2022年端午节有降雨的话,降雨量约为多少?黜r)(Y;汀2t,y,-n 5 参考公式:b=l 凶;2I,2-n五和【详解】k+I(I)由题总可知,=50%,解得k=4,即04表示下雨,59表示不下雨l0 所给的20组数据中714,740,491,272,073,445,435,027,共8组表示3天中恰好有2天下雨,故所求的概率为-一8 2 20 5(2)由题中所给的数据可得t=3,y=25,2(t,l)(y,分)所以b=l立l)2号勹,a五bt=25门)x3=,J=1 所以回归方程为8 149,当t=7时,y=8 _ 149 93 y=-t+-x7+=5 5
46、 5 5.93 所以该地区2022年端午节有降雨的话,降雨垃约为mm.例4.(2022全国高三专题练习(理)某企业新研发了一种产品,产品的成本由原料成本及非原料成本组成每件产品的非原料成本Y(元)与生产该产品的数量X(千件)有关,经统计得到如下数据:I X I L I 2 1 3 1 4 1 5|6 1 718 1 I y I ll2 1 611445|351 305|281 25|241 根据以上数据,绘制了散点图观察散点图,两个变朵不具有线性相关关系,现考虑用反比例函数模型b y=a+和指数函数模型y=ce五分别对两个变虽的关系进行拟合已求得用指数函数模型拟合的回归方程为沪96.54e-o
47、.2x,In y与X的相关系数i=-0.94 I 120 II 102,I 93 84 75 66 57 48 39 30 2 y,Dl23456789i(1)用反比例函数模型求Y关千X的回归方程;(2)用相关系数判断上述两个模型哪一个拟合效果更好(精确到0.01),并用其估计产量为10于件时每件产品的非原料成本参考数据:8 8 8 8 区化)Iu 2 u 2 U,2 2.y/2 Y,2 0.61x6185.5 e 一2i=I i=1 i=I i=I 183.4 0.34 0.115 1.53 360 22385.5 61.4 0.135 参考公式:对千一组数据(u!,对,(u2,v2),(u
48、,v,),其回归直线沪6加的斜率和截距的最小一乘估计分别为:fu;V;n五vB=1=1 II 江nii2i=I【解析】芷v加,相关系数r=l b(1)令u=,则y=a+可转化为)1=a+buX X 8 因为Y;360 y=i=1=45 8 8 江V;-n五VI=l II式nii2i=I 8 2从Y;-8订歹所以b=J:=J 工矿8u2i=I 183.4-8x0.34x45 61=-:-=-:-:-=100,l.53-8x0.l 15 0.61 a=y-b五45-lOOx0.34=11,得_y=l l+lOOu,即Y关千X的回归方程为_y=ll+100 X I(2)由定义知Y与的相关系数为:X
49、8 2从);-8uyr=1=1 2 哥8y261 61=-o.99 61.4 则1,十书I,所以用反比例函数模刚拟合效果更好lOO 当x=lO时,沪ll+-=2l(元),10 则当产址为10于件时,每件产品的非原料成本为21元例5.(2022全国高三专题练习)如图是某小区2020年l月至2021年l月当月在售二手房均价(单位:万元平方米)的散点图(图中月份代码113分别对应2020年1月2021年1月)根据散点图选择y=a+b五:和y=c+dlnx两个模型进行拟合,经过数据处理得到两个回归方程分别为y=0.9369+0.0285x.fD y=0.9554+0.03061nx,并得到以下一些统计
50、量的值:距代份月3 l 12 l I 10 9 8 7 伤均房6手5二4售32 在月当1.L 040200989694 lllOOO .y=0.9369+0.0285五y=0.9554+0.0306lnx 13 2 残差平方和L(Y,Y;)0.000591 0.000164 i=I 13 2 总偏差平方和L(Y,五)0.006050 i=1 Cl)请利用相关指数R2判断哪个模型的拟合效果更好;(2)估计该小区2021年6月份的二手房均价(精确到0.001万元平方米)参考数据:ln2:0.69,ln3寸10,In门:2.83,ln19:2.94,-,长口L石:1.73,17:4.12,19:4.