《2022年数学:第一章《统计案例》教案 2.pdf》由会员分享,可在线阅读,更多相关《2022年数学:第一章《统计案例》教案 2.pdf(7页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、- 1 - 第一章统计案例复习教案一、本章知识脉络:二、本章要点追踪:1.样本点的中心(x, y)其中 x1nni 1xi, yni1yi. 2.线性回归模型的完美表达式ybxae E(e) 0,D(e)23.类比样本方差估计总体方差的思想,可以用21n2ni 1e2i1n 2Q(a,b)( n2)作为2的估计量其中a ybxbni1(xi x)( yi y)ni1( xi x)24.我们可以用相关指数R2来刻画回归的效果,其计算公式是:R21ni1(yiyi)2ni 1( yiyi)2R2取值越大,意味着残差平方和越小,也就是说模型的拟合效果越好. 5.建立回归模型的基本步骤:统计案例回归分
2、析样本点的中心随机误差残差分析建立回归模型的基本步骤回归分析列联表K2n(adbc)2(ab)( cd)( ac)( bd)判断结论成立可能性的步骤精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 1 页,共 7 页- 2 - (1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等);(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程 ybxx);(4)按一定规则估计回归方程中的参数(如最小二乘法);(5)得出结果后分析残差图是
3、否有异常(个别数据对应残差过大,或残差呈现不随机的规律性等等),若存在异常,则检查数据是否有误,或模型是否合适等。6.作 K2来确定结论“ X与 Y有关系”的可信程度. 三、几个典型例题:例 1某地区 10 名健康儿童头发和全血中的硒含量(1000ppm)如下,血硒74 66 88 69 91 73 66 96 58 73 发硒13 10 13 11 16 9 7 14 5 10 (1)画出散点图;(2)求回归方程;(3)如果某名健康儿童的血硒含量为94(1000ppm)预测他的发硒含量. 解( 1)散点图如下图所示:(2)利用计算器或计算机,求得回归方程:y0.2358x 6.9803 (3
4、)当 x94 时, y15.2 因 此 , 当 儿 童 的 血 硒 含 量 为94 ( 1000ppm ) 时 , 该 儿 童 的 发 硒 含 量 约 为15.2(1000ppm). 例2某地大气中氰化物测定结果如下:污染源距离50 100 150 200 250 300 400 500 氰化物浓度0.687 0.398 0.200 0.121 0.09 0.05 0.02 0.01 (1)试建立氰化物浓度与距离之间的回归方程. (2)求相关指数. (3)作出残差图,并求残差平方和解析( 1)选取污染源距离为变量x,氰化物浓度为自因变量y 作散点图 . 精选学习资料 - - - - - - -
5、 - - 名师归纳总结 - - - - - - -第 2 页,共 7 页- 3 - 从表中所给的数据可以看出,氰化物浓度与距离有负的相关关系,用非线性回归方程来拟合,建立y 关于 x 的指数回归方程. y0.9293e0.0094x(2)相关指数K21ni 1(yiyi)2ni 1(yi y)20.9915 (3)编号1 2 3 4 5 6 7 8 污染源距离50 100 150 200 250 300 400 500 氰化物浓度0.687 0.398 0.2 0.1 21 0.09 0.05 0.02 0.01 残差0.1061857 0.035 0.027 0.021 0.0014 0.0
6、05 0.002 0.0015 残差平方和ni 1(yiyi)20.0118 例 3某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革态度的关系,随机制取了189 名员工进行调查,所得数据如下表所示:积极支持企业改革不太造成企业改革合计工作积极54 40 94 工作一般32 63 95 合计86 103 189 对于人力资源部的研究项目,根据上述数据能得出什么结论?解:根据列联表中的数据,得到K2189( 54634032)29495 86103 10.76. 因为10.766.635,所以有99%的把握说:员工“工作积极”与“积极支持企业改革”是有关的,可以认为企业的全体员工对待企
7、业改革的态度与其工作积极性是有关的. 例 4有人统计了同一个省的6 个城市某一年的人均国内生产总值(即人均GDP)和这一年各城市患白血病的儿童数量,如下表:人 均GDPx( 万元)10 8 6 4 3 1 患白血病的儿童数y351 312 207 175 132 180 (1)画出散点图;(2)求y对x的回归直线方程;(3)如果这个省的某一城市同时期年人均GDP 为 12 万元,估计这个城市一年患白血病的儿童数目;精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 3 页,共 7 页- 4 - 分析: 利用公式分别求出ab,的值,即可确定回归直线方程,
8、然后再进行预测. 解: (1)作x与y对应的散点图,如右图所示;(2)计算得67.1286)( )(,17.226,33.561yyxxyxiii33.55)(612iixx,25.2333.5567.1286b,25.10233.525.2317.226a,y对x的回归直线方程是25.10225.23xy;( 3)将12x代入25.10225.23xy得38125.1021225.23y,估计这个城市一年患白血病的儿童数目约为381. 评注: 本题涉及的是一个和我们生活息息相关,也是一个愈来愈严峻的问题环保问题.本题告诉了我们一个沉痛的事实:现如今,一个城市愈发达,这个城市患白血病的儿童愈多
9、 .原因在于,城市的经济发展大都以牺牲环境为代价的,经济发展造成了大面积的环境污染,空气、水源中含有的大量的有害物质是导致白血病患者增多的罪魁祸首,所以,我们一定要增强自我保护意识和环境保护意识. 例 5寒假中,某同学为组织一次爱心捐款,于2008 年 2 月 1 日在网上给网友发了张帖子,并号召网友转发,下表是发帖后一段时间的收到帖子的人数统计:天数x1 2 3 4 5 6 7 人数y7 11 21 24 66 115 325 (1)作出散点图,并猜测x与y之间的关系;(2)建立x与y的关系,预报回归模型并计算残差;(3)如果此人打算在2008 年 2 月 12 日(即帖子传播时间共10 天
10、)进行募捐活动,根据上述回归模型,估计可去多少人. 分析: 先通过散点图,看二者是否具有线性相关关系,若不具有,可通过相关函数变换,转化为线性相关关系. 解: (1)散点图略 . 从散点图可以看出x与y不具有线性相关关系,同时可发现样本点分布在某一个指数函数曲线mxkey的周围,其中mk、是参数;万元人均/GDP1108643100200300人数?16 题图精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 4 页,共 7 页- 5 - (2)对mxkey两边取对数,把指数关系变成线性关系. 令yzln,则变换后的样本点分布在直线),ln(mbkaa
11、bxz的周围,这样就可以利用线性回归模型来建立x与y之间的非线性回归方程了,数据可以转化为:天数x1 2 3 4 5 6 7 人数y1.946 2.398 3.045 3.178 4.190 4.745 5.784 求得回归直线方程为133.1620.0 xz,133.1620. 0 xey. (3)截止到2008 年 2 月 12 日,10 x,此时1530133.110620.0ey(人) . 估计可去1530 人. 评注: 现如今是网络时代,很多同学都会通过互联网发帖子,所以此类问题为同学们司空见惯 .但如何预测发帖后的效果,这却是个新课题,通过本题你是否已明确. 例 6 有人发现了一个
12、有趣的现象,中国人的邮箱名称里含有数字的比较多,而外国人邮箱名称里含有数字的比较少. 为了研究国籍和邮箱名称里是否含有数字的关系,他收集了124个邮箱名称,其中中国人的70 个,外国人的54 个,中国人的邮箱中有43 个含数字,外国人的邮箱中有27 个含数字 .(1)根据以上数据建立一个22 的 列联表;(2)他发现在这组数据中,外国人邮箱名称里含数字的也不少,他不能断定国籍和邮箱名称里含有数字是否有关,你能帮他判断一下吗?分析: 按题中数据建列联表,然后根据列联表数据求出k值,即可判定 . 解: (1)22 的列联表中国人外国人总计有数字43 27 70 无数字21 33 54 总计64 6
13、0 124 (2)假设“国籍和邮箱名称里是否含有数字无关”. 由表中数据得201.660645470)21273343(1242k,因为024.5k,所以有理由认为假设“国籍和邮箱名称里是否含有数字无关”是不合理的,即有005.97的把握认为“国籍和邮箱名称里是否含有数字有关”. 精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 5 页,共 7 页- 6 - 评注: 独立性检验类似于反证法,其一般步骤为:第一步:首先假设两个分类变量几乎没有关系(几乎独立);第二步:求随机变量k的值;第三步.判断两个分类变量有关的把握(即概率)有多大. 例 7针对时下
14、的“韩剧热”,某校团委对“学生性别和是否喜欢韩剧是否有关”作了一次调查,其中女生人数是男生人数的21,男生喜欢韩剧的人数占男生人数的61,女生喜欢韩剧人数占女生人数的32.(1)若有0095的把握认为是否喜欢韩剧和性别有关,则男生至少有多少人;(2)若没有充分的证据显示是否喜欢韩剧和性别有关,则男生至多有多少人. 分析: 有0095的把握认为回答结果对错和性别有关,说明841.3k,没有充分的证据显示回答结果对错和性别有关,说明706.2k.设出男生人数,并用它分别表示各类别人数,代入2K的计算公式,建立不等式求解即可. 解: 设男生人数为x,依题意可得列联表如下:喜欢韩剧不喜欢韩剧总计男生6
15、x65xx女生3x6x2x总计2xxx23(1)若有0095的把握认为回答结果的对错和性别有关,则841. 3k,由841.38322)66365(2322xxxxxxxxxxK,解得24.10 x,6,2xx为整数,若有0095的把握认为回答结果的对错和性别有关,则男生至少有12人;(2)没有充分的证据显示回答结果的对错和性别有关,则706.2k,由706.28322)66365(2322xxxxxxxxxxK,解得216.7x,6,2xx为整数,若没有充分的证据显示回答结果的对错和性别有关,则男生至多有6人. 精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 6 页,共 7 页- 7 - 评注: 这是一个独立性检验的创新问题,解答时要注意理解“至少”、“至多”的含义. 通过上面几例,大家是否已体会到了回归分析和独立性检验思想方法的应用的广泛性和重要性.其实,这两种思想方法并不神秘,你身边有很多问题可信手拈来,用它们处理,这一点还请同学们多思考、勤尝试. 精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 7 页,共 7 页