《2024版高考数学一轮总复习第9章统计与统计案例第3节成对数据的统计分析.docx》由会员分享,可在线阅读,更多相关《2024版高考数学一轮总复习第9章统计与统计案例第3节成对数据的统计分析.docx(22页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第三节成对数据的统计分析考试要求:掌握散点图、最小二乘法思想、回归分析以及独立性检验一、教材概念结论性质重现1相关关系两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系2散点图将各数据在平面直角坐标系中的对应点画出来,得到表示两个变量的一组数据的图形,这样的统计图叫做散点图利用散点图,可以判断两个变量是否相关,相关时是正相关还是负相关3正相关和负相关(1)正相关:如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关. (2)负相关:如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相
2、关相关关系与函数关系的区别与联系(1)相同点:两者均是指两个变量的关系(2)不同点:函数关系是一种确定的关系,相关关系是一种非确定的关系函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系4线性相关和非线性相关(1)一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关(2)一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关5样本相关系数r变量x和变量y的样本相关系数r的计算公式如下:r(1)当r0时,称成对样本数据正相关;当r0时,称成对样本数据负相关;当r0时,称成对样本数据间没有线性相关关
3、系(2)样本相关系数r的取值范围为1,1;当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱.6一元线性回归模型我们称Y=bx+a+e, Ee=0,De=2为Y关于x的一元线性回归模型,其中Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是 Y与bxa之间的随机误差7线性回归方程与最小二乘法回归直线方程过样本点的中心(x,y),是回归直线方程最常用的一个特征我们将ybxa称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线这种求经验回归方程的方法叫做最小二
4、乘法,求得的b,a叫做b,a的最小二乘估计,8刻画回归效果的方式(1)残差图法:作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图若残差点比较均匀地落在水平的带状区域内,带状区域越窄,则说明拟合效果越好(2)残差平方和法:残差平方和k=122(yi-yi)2,残差平方和越小,模型拟合效果越好,残差平方和越大,模型拟合效果越差9独立性检验(1)临界值2统计量也可以用来作相关性的度量,2越小说明变量之间越独立,2越大说明变量之间越相关,2nadbc2a+bc+da+cb+d.忽略2的实际分布与该近似分布的误差后,对于任何小概率值,可以找到相应的正实数x
5、,使得P(2x)成立,我们称x为的临界值,这个临界值就可作为判断2大小的标准(2)基于概率值的检验规则:当2x时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过;当2x时,我们没有充分证据推断H0不成立,可以认为X和Y独立这种利用2的取值推断分类变量X和Y是否独立的方法称为2独立性检验,读作“卡方独立性检验”,简称独立性检验二、基本技能思想活动经验1判断下列说法的正误,对的画“”,错的画“”(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系()(2)通过经验回归方程ybxa可以估计预报变量的取值和变化趋势()(3)经验回归方程ybxa中,若a3.841x0
6、.05,根据小概率值0.05的独立性检验,我们推断H0不成立,即认为对该综艺节目是否满意与性别有关,此推断犯错误的概率不大于0.05.课时质量评价(五十五)A组全考点巩固练1(多选题)在下列各图中,两个变量具有线性相关关系的图是()A BC DBC解析:A中各点都在一条直线上,所以这两个变量之间是函数关系,不是相关关系;B,C所示的散点图中,样本点成带状分布,这两组变量具有线性相关关系;D所示的散点图中,样本点成团状分别,不是带状分布,所以这两个变量不具线性相关关系综上,具有线性相关关系的是B和C2色差和色度是衡量毛绒玩具质量优劣的重要指标,现抽检一批产品测得如下数据:色差x212325272
7、931色度y151617212223已知该产品的色差和色度之间满足线性相关关系,且y0.25xb,现有一对测量数据为(32,21.25),则该组数据的残差(测量值与预测值的差)为()A0.65B0.75 C0.75D0.95B解析:样本中心点坐标为(26,19),代入经验回归方程得b12.5.所以y0.25x12.5,将x32代入,求解得到对应的预估值为20.5,因而其残差为21.2520.50.75.故选B3对两个变量x,y进行线性相关检验,得线性相关系数r10.785 9,对两个变量u,v进行线性相关检验,得线性相关系数r20.956 8,则下列判断正确的是()A变量x与y正相关,变量u与
8、v负相关,变量x与y的线性相关性较强B变量x与y负相关,变量u与v正相关,变量x与y的线性相关性较强C变量x与y正相关,变量u与v负相关,变量u与v的线性相关性较强D变量x与y负相关,变量u与v正相关,变量u与v的线性相关性较强C解析:由线性相关系数r10.785 90知x与y正相关;由线性相关系数r20.956 80知u,v负相关又|r1|r2|,所以变量u与v的线性相关性比x与y的线性相关性强4为了检测某种新药的效果,现随机抽取100只小白鼠进行试验,得到如下22列联表:未治愈治愈合计服用药物104050未服用药物203050合计3070100则下列说法一定正确的是()附:2nadbc2a
9、+bc+da+cb+d(其中nabcd)临界值表:0.150.100.050.0250.0100.0050.001x2.0722.7063.8415.0246.6357.87910.828A在犯错误的概率不超过0.05的前提下,认为“小白鼠是否被治愈与是否服用新药有关”B在犯错误的概率不超过0.05的前提下,认为“小白鼠是否被治愈与是否服用新药无关”C在犯错误的概率不超过0.005的前提下,认为“小白鼠是否被治愈与是否服用新药有关”D在犯错误的概率不超过0.005的前提下,认为“小白鼠是否被治愈与是否服用新药无关”A解析:由列联表中数据,计算2100300800230705050100214.
10、762,且3.8414.7625.024,所以有95%的把握认为“小白鼠有无被感染与是否注射疫苗有关”5设两个相关变量x和y分别满足xii,yi2i-1,i1,2,6.若相关变量x和y可拟合为非线性经验回归方程y2bxa,则当x7时,y的估计值为()A32B63 C64D128C解析:令zilog2yii1,则zbxa,x16(123456)3.5,z16(012345)2.5,azbx2.513.51,所以zx1,即y2x-1,所以当x7时, y27-164.6在研究某高中高三年级学生的性别与是否喜欢某学科的关系时,总共调查了N个学生(N100m,mN*),其中男女学生各半,男生中60%表示
11、喜欢该学科,其余表示不喜欢;女生中40%表示喜欢该学科,其余表示不喜欢若在犯错误的概率不超过0.001的前提下,认为性别与是否喜欢该学科有关,则可以推测N的最小值为()附:2nadbc2a+bc+da+cb+d.0.0500.0100.001x3.8416.63510.828A400B300 C200D100B解析:设男、女学生的人数分别为50m,50m,建立22列联表如下:喜欢课程不喜欢课程合计男生 30m20m50m女生 20m30m50m合计 50m50m100m由表中的数据,2100m30m30m20m20m250m50m50m50m4m,由题意可得,4m10.828,解得m2.707
12、,又mN*,所以m3,N300.故选B7下列说法:分类变量A与B的随机变量2越大,说明“A与B有关系”的可信度越大;以模型ycekx去拟合一组数据时,为了求出经验回归方程,设zln y,将其变换后得到线性方程z0.3x4,则c,k的值分别是e4和0.3;在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高;若变量x和y满足关系y0.1x1,且变量y与z正相关,则x与z也正相关,正确的个数是_3解析:对于,根据独立性原理知,分类变量A与B的随机变量2越大,说明“A与B有关系”的可信度越大,所以正确;对于,根据线性回归模型和对数的运算性质知,以模型ycekx去拟合一组数据时,为了求出
13、经验回归方程,设zln y,将其变换后得到经验回归方程z0.3x4,则c,k的值分别是e4和0.3,所以正确;对于,利用残差分析模型拟合效果时,在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高,所以正确;对于,若变量x和y满足关系y0.1x1,且变量y与z正相关,则x与z是负相关,所以错误综上,正确命题的序号是,共3个8某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未用血清的人一年中的感冒记录作比较,提出零假设H0:“这种血清不能起到预防感冒的作用”,利用22列联表计算得23.918,经查对临界值表知P(23.841)0.05.则下列结论中,
14、正确结论的序号是_在犯错误的概率不超过0.05的前提下认为“这种血清能起到预防感冒的作用”;若某人未使用该血清,则他在一年中有95%的可能性得感冒;这种血清预防感冒的有效率为95%;有95%的把握认为这种血清不能起到预防感冒的作用解析:因为23.9183.841,所以对于,在犯错误的概率不超过5%的前提下认为“这种血清能起到预防感冒的作用”,故正确;对于,若某人未使用该血清,不能说“他在一年中有95%的可能性得感冒”,故错误;对于,这种血清有95%的可能性预防感冒,不是有效率为95%,故错误;对于,有95%的把握认为这种血清能起到预防感冒的作用,故错误9为了调查某地区中学生是否喜欢踢足球,用简
15、单随机抽样的方法从该地区调查了500名学生,调查结果如下:项目男女合计喜欢踢足球40y70不喜欢踢足球x270z合计500 (1)求x,y,z的值;(2)依据小概率值0.01的独立性检验,能否认为该地区的中学生是否喜欢踢足球与性别有关?解:(1)由列联表可得,y704030,z50070430,所以x430270160.(2)零假设为H0:该地区的中学生是否喜欢踢足球与性别无关由列联表中的数据可得,250040270160302704302003009.966 86.635x0.01,根据小概率值0.01的独立性检验,我们推断H0不成立,即认为该地区的中学生是否喜欢踢足球与性别有关,此推断犯错
16、误的概率不大于0.01.10(2022中卫一模)医学中判断男生的体重是否超标有一种简易方法,就是用一个人身高的厘米数减去105所得差值即为该人的标准体重比如身高175 cm的人,其标准体重为17510570 kg,一个人实际体重超过了标准体重,我们就说该人体重超标了已知某班共有30名男生,从这30名男生中随机选取6名,其身高和体重的数据如表所示:编号123456身高x(cm)165171160173178167体重y(kg)606362707158(1)从这6人中任选2人,求恰有1人体重超标的概率;(2)依据上述表格信息,用最小二乘法求出了体重y对身高x的经验回归方程:y0.65xa,但在用经
17、验回归方程预报其他同学的体重时,预报值与实际值吻合不好,需要对上述数据进行残差分析,按经验,对残差在区间3.5,3.5之外的同学要重新采集数据上述随机抽取的编号为3,4,5,6的四人中,有哪几位同学要重新采集数据?参考公式:残差eiyibxia解:(1)由图表可知,编号1的标准体重为16510560;编号2的标准体重为17110566;编号3的标准体重为16010555;编号4的标准体重为17310568;编号5的标准体重为17810573;编号6的标准体重为16710562.故编号3,4两人体重超标,故从6人中任取两人有C6215种取法,恰有一人体重超标共有C21C418种情况,故p815.
18、(2)x16(165171160173178167)169,y16(606362707158)64,因为经验回归直线必过样本中心(169,64),所以640.65169a,解得a45.85,则y0.65x45.85.残差分析:e3620.6516045.853.85;e4700.6517345.853.4;e5710.6517845.851.15;e6580.6516745.854.7.故3号、6号需要重新采集数据B组新高考培优练11针对当下的“读书热”,某大学对“学生性别和喜欢读书是否有关”做了一次调查,随机调查了40名男生和50名女生,经统计得到如下的22列联表:喜欢不喜欢合计男a19女3
19、8b合计则ab()A9B10 C11D12A解析:a401921,b503812,所以ab9.故选A12为了研究某校男生的脚长x(单位:cm)和身高y(单位:cm)的关系,从该校随机抽取20名男生,根据测量数据的散点图可以看出y与x之间有线性相关关系设y关于x的经验回归方程为ybxa已知i=120xi460,i=120yi3 240,b4,该校某男生的脚长为25.5 cm,据此估计其身高为()A164 cmB168 cmC172 cmD176 cmC解析:x4602023,y3 24020162,所以162423a,解得a70.所以经验回归方程为y4x70,当x25.5时,y172.故选C13
20、福建省采用“312”新高考模式,其中“3”为全国统考科目语文、数学和外语;“1”为考生在物理和历史中选择一门;“2”为考生在思想政治、地理、化学和生物四门中再选择两门某中学调查了高一年级学生的选科倾向,随机抽取200人,其中选考物理的120人,选考历史的80人,统计各选科人数如表:选择科目选考类别思想政治地理化学生物物理类35509065历史类50453035则下列说法正确的是()附:2nadbc2a+ba+cb+dc+d.0.100.050.0250.0100.0050.001x2.7063.8415.0246.6357.87910.828A物理类的学生中选择地理的比例比历史类的学生中选择地
21、理的比例高B物理类的学生中选择生物的比例比历史类的学的中选择生物的比例低C在犯错误的概率不超过0.1的前提下认为选择生物与选考类别有关D在犯错误的概率不超过0.05的前提下不能认为选择生物与选考类别有关D解析:由表中的数据可得,物理类中选择地理的比例为501205122048,历史类中选择地理的比例为45809162748.因为20482148,所以物理类的学生中选择生物的比例比历史类的学生中选择生物的比例高,故选项B错误由表中的数据可知,物理类中选生物和不选生物的人数分别是65,55,合计120人,历史类中选生物和不选生物的人数分别是35,45,合计80人,200人中选生物和不选生物的人数均
22、是100,故2a+b+c+dadbc2a+ba+cb+dc+d200654535552100100120802.083.因为2.0832.706,故没有90%以上的把握认为选择生物与选考类别有关,故选项C错误因为2.0833.841,故没有95%以上的把握认为选择生物与选考类别有关,故选项D正确故选D14某驾驶员培训学校为对比了解“科目二”的培训过程采用大密度集中培训与周末分散培训两种方式的效果,调查了105名学员,统计结果为:接受大密度集中培训的55个学员中有45名学员一次考试通过,接受周末分散培训的学员一次考试通过的有30个根据统计结果,认为“能否一次考试通过与是否集中培训有关”犯错误的概率不超过_附:2nadbc2a+bc+da+cb+d.0.050.0250.010