《期末模块复习---成对数据的统计分析典例剖析(原卷版).docx》由会员分享,可在线阅读,更多相关《期末模块复习---成对数据的统计分析典例剖析(原卷版).docx(11页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、期末模块复习-成对数据的统计分析典例剖析一、知识清单(-)成对数据的统计相关性.变量的相关关系(1)函数关系函数关系是一种确定性关系,常用解析式来表示.(2)相关关系两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称 为相关关系.与函数关系不同,相关关系是一种非确定性关系.1 .散点图散点图成对样本数据都可用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图.正相关和负相关如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相 关;如果当一个变量的值增加时; 另一个变量的相应值呈现减少的趋势,那么称这两个变量负相关.
2、正相关正相关负相关.线性相关一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,那么称这两 个变量线性相关.2 .样本相关系数对于变量X和变量y,设经过随机抽样获得的成对样本数据为(X2J2),(X, %),利用相关系数一来衡量两个变量之间线性关系的强弱,相关系数一的计算公式:(其中汨,(其中汨,小,、和叼,n,%的均值分别为x和歹).当/0时,称成对样本数据正相关这时,当其中一个数据的值变小时,另一个数据的值 通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大.当r1为总计再aba + bX2Cdc + d总计a + cb + da+b+c+d1 .独立性检验
3、2利用随机变量K (也可表示为Z2) = 了 31 2 (其中 = a + Z? + c + d(4 + b)(c + d)(a + c)(b + d)为样本容量)来判断“两个变量有关系,的方法称为独立性检验.2 .独立性检验的一般步骤根据样本数据歹U出2 x 2列联表;计算随机变量K2的观测值k,查下表确定临界值依:P(K2 k)0.500.400.250.150.1000.0500.0250.0100.0050.001k。0.4550.7081.3232.0722.7063.8415.0246.6357.87910.828如果女勺,就推断“X与y有关系。这种推断犯错误的概率不超过P(K2
4、勺);否那么, 就认为在犯错误的概率不超过尸(K2 2%)的前提下不能推断“X与y有关系”.二、类型应用 类型一:变量的相关关系的判断例1: (1)从统计学的角度看,以下关于变量间的关系说法正确的选项是()A.人体的脂肪含量与年龄之间没有相关关系B.汽车的重量和汽车每消耗1 L汽油所行驶的平均路程之间有相关关系C.吸烟量与健康水平之间没有相关关系D.气温与热饮销售好不好之间没有相关关系(2) (2021春通州区期末)在以下各图中的两个变量具有线性相关关系的图是() 4. 4.B.c. D.变式训练1: (2020春海东市期末)以下说法正确的选项是(A.圆的面积与半径之间的关系是相关关系B.粮食
5、产量与施肥量之间的关系是函数关系C. 一定范围内,学生的成绩与学习时间成正相关关系D.人的体重与视力成负相关关系变式训练2: (2021春天津期末)对变量x, y由观测数据得散点图1:对变量小u由观测数据得散点图2 ,由这两个散点图可以推断()303060-50-40-30-20- 10- 25-20- 15一10-5-iiiiii,12 3 4 5 6 7u图1图2A. x与y正相关,4与u正相关B. x与y正相关,与u负相关C. x与y负相关,与u负相关D. x与y负相关,h与u正相关变式训练3: (2021春湛江期末)对于相关系数一以下描述正确的选项是()A.r0说明两个变量线性相关性很
6、强B.V0说明两个变量无关C. M越接近1,说明两个变量线性相关性越强D. 越小,说明两个变量线性相关性越弱变式训练4:如图是某地区2001年至2021年环境保护建设投资额(单位:万元)的折线图.根据该折线图判断,以下结论正确的选项是()A.为预测该地2022年的环境保护建设投资额,应用2001年至2021年的数据建立回归 模型更可靠B.为预测该地2022年的环境保护建设投资额,应用2010年至2021年的数据建立回归 模型更可靠C.投资额与年份负相关D.投资额与年份的相关系数k0)0.050.0250.0100.0050.001k。3.8415.0246.6357.87910.828A.独立
7、性检验是对两个变量是否具有线性相关关系的一种检验B.独立性检验可以100%确定两个变量之间是否具有某种关系C.利用/独立性检验推断吸烟与患肺病的关联中,假设有99%的把握认为吸烟与患肺病有 关系时,我们那么可以说在100个吸烟的人中,有99人患肺病D.对于独立性检验,随机变量/的观测值上值越小,判定两变量有关系犯错误的概率 越大变式训练2:利用独立性检验的方法调查高中性别与爱好某项运动是否有关,通过随机调 查200名高中生是否爱好某项运动,利用2x2列联表,由计算可得片。7.245,得到的正确 结论是()A.有99%以上的把握认为爱好该项运动与性别无关Pg.%)0.010.050.0250.0
8、100.0050.001“02.7063.8415.0246.6357.87910.828B.有99%以上的把握认为爱好该项运动与性别有关、C.在犯错误的概率不超过0.5%的前提下,认为“爱好该项运动与性别有关D.在犯错误的概率不超过0.5%的前提下,认为爱好该项运动与性别无关变式训练3: (2022.四川.成都外国语学校高二期中(文)为推动实施健康中国战略,手机 APP推出了多款健康运动软件,如“微信运动”,某运动品牌公司140名员工均参与了“微信 运动”,且公司每月进行一次评比,对该月内每日运动都到达10000步及以上的员工授予该 月“运动达人”称号,其余员工均称为“参与者”,下表是该运动
9、品牌公司140名员工2021年 1月5日获得“运动达人”称号的统计数据:月份x12345“运动达人”员工数y1201051009580求y关于的线性回归方程与=队+机为了进一步了解员工们的运动情况,选取了员工们在3月份的运动数据进行分析,统计 结果如下:运动达人参与者合计男员工602080女员工402060请根据上标判断是否有95%的把握认为获得“运动达人”称号与性别有关?合计10040140人对七一x)(y - y)储y参考公式:b =-二 9二一,诲=丁一瓦;方伍x)Yxi-nxi-/=1nad-bc(a + b)(c + d)(Q + c)(b + d)p-k。)0.100.050.02
10、50.001k。2.7063.8415.0246.635类型四:知识融合应用L (2022.河南,郑州市第二高级中学高二期中(文)以下有关线性回归分析的六个命题: 在回归直线方程9 = 2-0.5x中,当解释变量x增加1个单位时,预报变量夕平均减少。.5 个单位回归直线就是散点图中经过样本数据点最多的那条直线当相关性系数厂0时,两个变量正相关如果两个变量的相关性越强,那么相关性系数就越接近于1残差图中残差点所在的水平带状区域越宽,那么回归方程的预报精确度越高甲、乙两个模型的相关指数R2分别约为0.88和0.80,那么模型乙的拟合效果更好其中真命题的个数为()A1个B. 2个C. 3个D. 4个
11、(2022广西模拟)近期新冠病毒奥密克戎毒株全球蔓延,传染性更强、潜伏期更短、防控 难度更大.为落实动态清零政策下的常态化防疫,某高中学校开展了每周的核酸抽检工 作:周一至周五,每天中午13: 00开始,当天安排450位师生核酸检测,五天时间全员 覆盖.(1)该校教职工有410人,高二学生有620人,高三学生有610人,用分层抽样的方法,求高一学生每天抽检人数;高一年级共15个班,该年级每天抽检的学生有两种安排方案,方案一:集中来自局部 班级;方案二:分散来自所有班级,你认为哪种方案更合理,并给出理由.(2)学校开展核酸抽检的第一周,周一至周五核酸抽检用时记录如下:第天12345用时y (小
12、时)1.21.21.11.01.0计算变量x和y的相关系数(精确到0.01),并说明两变量线性相关的强弱.根据中的计算结果,判定变量x和y是正相关,还是负相关,并给出可能的原因.参考数据和公式:V103J6,相关系数r= 2匕值与)(以一歹).(xi-x)2zC=i (yt-y)2(2022山东烟台高二期中)某大学滑冰协会为了解本校学生对滑冰运动是否有兴趣,从 本校学生中随机抽取了 300人进行调查,经统计,被抽取的学生中,男生与女生的人数之 比是2:1,对滑冰运动有兴趣的人数占总数的彳,女生中有55人对滑冰运动有兴趣.完成2x2列联表,根据小概率值。= 0.01的独立性检验,能否认为对滑冰运
13、动有无兴趣 与性别有关联?有兴 趣没有兴 趣合计女55合计300该协会滑冰工程有3名男教练和2名女教练,为了推广滑冰运动,该协会计划筹备5天 的宣传活动,假设每天从这5名教练中随机选出2人作为滑冰运动的宣传员,求这5天中恰 有2天选出的2人是女教练的概率.(n = a-b + c+d ),xo.oi = 6.635.附:八_e + /?)(c + d)e + c)0 + d)2. (2022河南夏邑第一高级中学高二期中(理)某学校高二年级有女生1800人,男生 1200人,为了解学生上学期课外阅读时间,采用分层抽样的方法,从中抽取了 100名学 生,先统计了他们课外阅读时间,然后按“女生”和男
14、生”分为两组,再将每组学生的阅读时间(单位:小时)分为0,10), 10,20), 20,30), 30,40), 40,50共 5 组,并分别加 以统计,得到如下图的频率分布直方图.求直方图中的值,并求出这100名学生中,阅读时间不小于30小时的男、女生的人 数;(2)完成2x2列联表,并判断是否有90%的把握认为阅读时间是否小于30小时与学生的性 别有关?男女合计阅读时间不小于30小时阅读时间小于30小时合计100nad-bcy(Q + b)(c + d)(Q + c)(b + d)尸(片2月)0.150.100.050.0250.0102.0722.7063.8415.0246.6355
15、. (202。全国卷HI)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到 某公园锻炼的人次,整理数据得到下表(单位:天):f一_人次空气质量等级一_0,200(200,400(400,600i(优)216252(良)510123(轻度污染)6784(中度污染)720分别估计该市一天的空气质量等级为123,4的概率;(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代 表);假设某天的空气质量等级为1或2,那么称这天“空气质量好”;假设某天的空气质量等级为3 或4,那么称这天“空气质量不好”.根据所给数据,完成下面的2X2列联表,并根据列联表, 判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?人次W400人次400空气质量好空气质量不好9n(ad be?X (+b)(c-d)(a+c)(Z?+d)a0.0500.0100.001Xa3.8416.63510.828