《数学:1.1《回归分析的基本思想及其初步应用》教案(新人教A版选修1-2)高二.doc》由会员分享,可在线阅读,更多相关《数学:1.1《回归分析的基本思想及其初步应用》教案(新人教A版选修1-2)高二.doc(5页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、1.1回归分析的基本思想及其初步应用(一)教学要求:通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用。教学重点:了解线性回归模型及函数模型的差异,了解判断刻画模型拟合效果的方法相关指数和残差分析。教学难点:解释残差变量的含义,了解偏差平方和分解的思想。教学过程:一、复习准备:1.提问:“名师出高徒”这句彦语的意思是什么?有名气的老师就一定能教出厉害的学生吗?这两者之间是否有关?2.复习:函数关系是一种确定性关系,而相关关系是一种非确定性关系。回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,其步骤:收集数据作散点图求回归直线方程利用方程进行预报。二、讲授新课:1.
2、教学例题: 例1 从某大学中随机选取8名女大学生,其身高和体重数据如下表所示:编号12345678身高/cm165165157170175165155170体重/kg4857505464614359求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm的女大学生的体重。(分析思路教师演示学生整理)第一步:作散点图 第二步:求回归方程第三步:代值计算提问:身高为172cm的女大学生的体重一定是60.316kg吗?不一定,但一般可以认为她的体重在60.316kg左右。解释线性回归模型及一次函数的不同事实上,观察上述散点图,我们可以发现女大学生的体重和身高之间的关系并不能用一次函
3、数来严格刻画(因为所有的样本点不共线,所以线性模型只能近似地刻画身高和体重的关系)。在数据表中身高为165cm的3名女大学生的体重分别为48kg、57kg和61kg,如果能用一次函数来描述体重及身高的关系,那么身高为165cm的3名女在学生的体重应相同。这就说明体重不仅受身高的影响还受其他因素的影响,把这种影响的结果(即残差变量或随机变量)引入到线性函数模型中,得到线性回归模型,其中残差变量中包含体重不能由身高的线性函数解释的所有部分。当残差变量恒等于0时,线性回归模型就变成一次函数模型。因此,一次函数模型是线性回归模型的特殊形式,线性回归模型是一次函数模型的一般形式。2.相关系数:相关系数的
4、绝对值越接近于1,两个变量的线性相关关系越强,它们的散点图越接近一条直线,这时用线性回归模型拟合这组数据就越好,此时建立的线性回归模型是有意义。巩固练习1在两个变量y及x的回归模型中,分别选择了4个不同的模型,它们的相关指数R2如下,其中拟合效果最好的模型是( )(A)模型1的相关指数R2为0.98 (B) 模型2的相关指数R2为0.80(C)模型3的相关指数R2为0.50 (D) 模型4的相关指数R2为0.252.设有一个回归方程为y=2-2.5x,则变量x增加一个单位时( )(A)y平均增加2.5个单位 (B) y平均增加2个单位(C) y平均减少2.5个单位 (D) y平均减少2个单位3
5、.已知x及y之间的一组数据:x0123y1357则y及x的线性回归方程为y=bx+a必过( )(A) (2,2)点 (B)(1.5,0)点 (C)(1,2)点 (D)(1.5,4)点4.在三维柱形图中,主对角线上两个柱形高度的乘积及副对角线上的两个柱形的高度的乘积相差越大两个变量有关系的可能性就( )(A)越大 (B)越小 (C)无法判断 (D)以上都不对5在吸烟及患肺病这两个分类变量的计算中,下列说法正确的是( )(A) 若K2的观测值为k=6.635,我们有99%的把握认为吸烟及患肺病有关系,那么在100个吸烟的人中必有99人患有肺病(B) 从独立性检验可知有99%的把握认为吸烟及患肺病有
6、关系时,我们说某人吸烟,那么他有99%的可能患有肺病3. 小结:求线性回归方程的步骤、线性回归模型及一次函数的不同。1.1回归分析的基本思想及其初步应用(二)教学要求:通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用。教学重点:了解评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和。教学难点:了解评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和。教学过程:一、复习准备:1由例1知,预报变量(体重)的值受解释变量(身高)或随机误差的影响。2为了刻画预报变量(体重)的变化在多大程度上及解释变量(身高)有关?在多大程度上及随机误差有关?我们引入了评价回归效果
7、的三个统计量:总偏差平方和、残差平方和、回归平方和。二、讲授新课:1.教学总偏差平方和、残差平方和、回归平方和:(1)总偏差平方和:所有单个样本值及样本均值差的平方和,即。残差平方和:回归值及样本值差的平方和,即。回归平方和:相应回归值及样本均值差的平方和,即。(2)学习要领:注意、的区别;预报变量的变化程度可以分解为由解释变量引起的变化程度及残差变量的变化程度之和,即;当总偏差平方和相对固定时,残差平方和越小,则回归平方和越大,此时模型的拟合效果越好;对于多个不同的模型,我们还可以引入相关指数来刻画回归的效果,它表示解释变量对预报变量变化的贡献率. 的值越大,说明残差平方和越小,也就是说模型
8、拟合的效果越好。2.教学例题:例2 关于及有如下数据:245683040605070为了对、两个变量进行统计分析,现有以下两种线性模型:,试比较哪一个模型拟合的效果更好。分析:既可分别求出两种模型下的总偏差平方和、残差平方和、回归平方和,也可分别求出两种模型下的相关指数,然后再进行比较,从而得出结论。(答案:,84.5%82%,所以甲选用的模型拟合效果较好。)巩固练习1一台机器使用的时间较长,但还可以使用,它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点零件的多少,随机器的运转的速度而变化,下表为抽样试验的结果:转速x(转/秒)1614128每小时生产有缺点的零件数y(件)1
9、1985(1)变量y对x进行相关性检验; (2)如果y对x有线性相关关系,求回归直线方程; (3)若实际生产中,允许每小时的产品中有缺点的零件最多为10个,那么机器的运转速度应控制在什么范围内?解(1)r=0.995,所以y及x有线性性相关关系 (3)x小于等于14.90132在对人们休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人,女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动,男性中有21人主要的休闲方式是看电视,另外33人的主要休闲方式是运动,(1)根据以上数据建立一个2*2的列联表,(2)判断性别及休闲是否有关系。解k=6.201,即有97.5%
10、的把握认为“休闲方式及性别有关3.小结:分清总偏平方和、残差平方和、回归平方和,初步了解如何评价两个不同模型拟合效果的好坏。1.1回归分析的基本思想及其初步应用(三)教学要求:通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用。教学重点:通过探究使学生体会有些非线性模型通过变换可以转化为线性回归模型,了解在解决实际问题的过程中寻找更好的模型的方法。教学难点:了解常用函数的图象特点,选择不同的模型建模,并通过比较相关指数对不同的模型进行比较。教学过程:一、复习准备:1. 给出例3:一只红铃虫的产卵数和温度有关,现收集了7组观测数据列于下表中,试建立及之间的回归方程。温度212325
11、27293235产卵数个711212466115325(学生描述步骤,教师演示)2. 讨论:观察右图中的散点图,发现样本点并没有分布在某个带状区域内,即两个变量不呈线性相关关系,所以不能直接用线性回归方程来建立两个变量之间的关系。二、讲授新课:1. 探究非线性回归方程的确定: 如果散点图中的点分布在一个直线状带形区域,可以选线性回归模型来建模;如果散点图中的点分布在一个曲线状带形区域,就需选择非线性回归模型来建模。 根据已有的函数知识,可以发现样本点分布在某一条指数函数曲线y=的周围(其中是待定的参数),故可用指数函数模型来拟合这两个变量。 在上式两边取对数,得,再令,则,而及间的关系如下:X
12、21232527293235z1.9462.3983.0453.1784.1904.7455.784观察及的散点图,可以发现变换后样本点分布在一条直线的附近,因此可以用线性回归方程来拟合。 利用计算器算得,及间的线性回归方程为,因此红铃虫的产卵数对温度的非线性回归方程为。 利用回归方程探究非线性回归问题,可按“作散点图建模确定方程”这三个步骤进行。其关键在于如何通过适当的变换,将非线性回归问题转化成线性回归问题。2. 小结:用回归方程探究非线性回归问题的方法、步骤.三、巩固练习:1为了研究某种细菌随时间x变化,繁殖的个数,收集数据如下:天数x/天 1 2 34 56繁殖个数y/个 6 12 2
13、5 49 95190(1)用天数作解释变量,繁殖个数作预报变量,作出这些数据的散点图;(2)试求出预报变量对解释变量的回归方程。(答案:所求非线性回归方程为。)2有下列关系:(1)人的年龄及他(她)拥有的财富之间的关系;(2)曲线上的点及该点的坐标之间的关系;(3)苹果的产量及气候之间的关系;(4)森林中的同一种树木,其断面直径及高度之间的关系;(5)学生及他(她)的学号之间的关系,其中有相关关系的是 (1)(3)(4) 3 归直线方程为y=0.5x-0.81,则x=25时,y的估计值为 答案11.694若一组观测值(x1,y1)(x2,y2)(xn,yn)之间满足yi=bxi+a+ei (i
14、=1、2. n)若ei恒为0,则R2为 答案1 5若由一个2*2列联表中的数据计算得k2=4.013,那么有 把握认为两个变量有关系。答案95%1.1回归分析的基本思想及其初步应用(四)教学要求:通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用。教学重点:通过探究使学生体会有些非线性模型通过变换可以转化为线性回归模型,了解在解决实际问题的过程中寻找更好的模型的方法,了解可用残差分析的方法,比较两种模型的拟合效果。教学难点:了解常用函数的图象特点,选择不同的模型建模,并通过比较相关指数对不同的模型进行比较。教学过程:一、复习准备:1. 提问:在例3中,观察散点图,我们选择用指数函
15、数模型来拟合红铃虫的产卵数和温度间的关系,还可用其它函数模型来拟合吗?441529625729841102412257112124661153252. 讨论:能用二次函数模型来拟合上述两个变量间的关系吗?(令,则,此时及间的关系如下:观察及的散点图,可以发现样本点并不分布在一条直线的周围,因此不宜用线性回归方程来拟合它,即不宜用二次曲线来拟合及之间的关系。)小结:也就是说,我们可以通过观察变换后的散点图来判断能否用此种模型来拟合. 事实上,除了观察散点图以外,我们也可先求出函数模型,然后利用残差分析的方法来比较模型的好坏。二、讲授新课:1. 教学残差分析: 残差:样本值及回归值的差叫残差,即.
16、 残差分析:通过残差来判断模型拟合的效果,判断原始数据中是否存在可疑数据,这方面的分析工作称为残差分析。 残差图:以残差为横坐标,以样本编号,或身高数据,或体重估计值等为横坐标,作出的图形称为残差图. 观察残差图,如果残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,模型拟合精度越高,回归方程的预报精度越高。2. 例3中的残差分析:计算两种模型下的残差一般情况下,比较两个模型的残差比较困难(某些样本点上一个模型的残差的绝对值比另一个模型的小,而另一些样本点的情况则相反),故通过比较两个模型的残差的平方和的大小来判断模型的拟合效果。残差平方和越小的模型,拟合
17、的效果越好。由于两种模型下的残差平方和分别为1450.673和15448.432,故选用指数函数模型的拟合效果远远优于选用二次函数模型。(当然,还可用相关指数刻画回归效果)3.小结:残差分析的步骤、作用三、巩固练习:练习:教材P131补充研究某新药的疗效,给50个患者服用此药,跟踪调查后得如右表的数据。设:服用此药的效果及患者的性别无关.则 ,从而得出结论 2在性别及吃零食这两个分类变量的计算中,下列说法正确的是 若的观测值为k=6.635,我们有99的把握认为吃零食及性别有关系,那么在100个吃零食的人中必有99人是女性;从独立性检验可知有99的把握认为吃零食及性别有关系时,我们说某人吃零食,那么此人是女性的可能性为99;若从统计量中求出有99的把握认为吃零食及性别有关系,是指有1的可能性使得出的判断出现错误14、某种书每册的成本费y(元)及印刷册数x(千册)有关,经统计得到数据如下:x123510203050100200y10.155.524.082.852.111.621.411.301.211.15检验每册书的成本费y及印刷册数的倒数之间是否具有线性相关关系,如有,求出y对x的回归方程。第 5 页