《对回归分析的认识、体会和思考(8页).doc》由会员分享,可在线阅读,更多相关《对回归分析的认识、体会和思考(8页).doc(8页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、-对回归分析的认识、体会和思考-第 8 页对回归分析的认识、体会和思考海口市第一中学 潘峰一、教材分析1内容编排 散点图、最小二乘估计的基本思想、最小二乘估计的计算公式、建立回归方程并进行预报等回归分析的部分内容在数学3(必修)中已经出现过。在此基础上,本章通过现实生活中遇到的问题“女大学生身高和体重的关系”进一步讨论一元线性回归模型,分析产生模型中随机误差项的原因,并从相关系数的角度研究了两个变量间线性相关关系的强弱,从而让学生了解在什么情况下可以考虑使用线性回归模型。教材介绍了一元线性回归模型的残差平方和分解的思想,从而给出相关指数的含义,即相关指数越大,模型拟合的效果越好。从残差分析的角
2、度研究所选用的回归模型是否合适,引导学生初步体会检验模型的思想。为提高学生解决应用问题的能力,教材还强调了用解释变量(自变量)估计预报变量(因变量)时需要注意的问题(这点总结得非常的好,帮助学生思考),总结建立回归模型的基本步骤。作为线性回归模型的一个应用,教材还给出了一个处理非线性相关关系的例子,并通过相关指数比较不同模型对同一样本数据集的拟合效果。这里所涉及的非线性相关关系可以通过变换转化成线性相关关系,从而可以用线性回归模型进行研究。这个例子没有增加难度,但能开阔学生的思路,使学生了解虽然任何数据对都可以用线性回归模型来拟合,但其拟合的效果并不一定最好,可以探讨用其他形式的回归模型来拟合
3、观测数据。2学习价值: 数理统计已成为人们的常识,它几乎渗透到每一学科中,哪里有试验,哪里有数据,哪里就少不了数理统计,不懂数理统计,就无法应付大量信息; 现代社会是信息社会,学会搜集、测量、评价信息做出决策是一个人成功必备的素质。3教材处理的优点:总以一些生动活泼的、丰富的实际情境引入,激发学生的兴趣和学习激情;以恰时恰点的问题引导学生思考,培养问题意识,孕育创新精神;(这点对我们教师的思考也是一种帮助)螺旋上升地安排核心概念和数学思想,加强数学思想方法的渗透与概括;对高等知识点到即止,强调类比、推广、特殊化、化归等思想方法的运用,开阔视野,提高数学思维能力,培育理性精神。4重点和难点 重点
4、:了解线性回归模型与函数模型的差异;了解判断刻画模型拟合效果的方法相关指数和残差分析。 难点:解释残差变量的含义;了解偏差平方和分解的思想。5目标定位:了解随机误差、残差、残差分析等概念;明确掌握相关关系,回归方程,散点图等定义;了解回归分析的基本思想,会求回归直线方程,并会用回归直线方程进行预报; 掌握建立回归模型的一般步骤; 会用残差分析、判断线性回归模型的拟合效果; 了解相关系数、会用相关系数判断相关关系的强弱; 5方法指引: 对于回归分析只通过案例了解方法即可,不论是线性回归方程或者非线性回归方程,都只是模拟而已,是不确定中的确定性; 了解最小乘法的思想方法,理解回归方程与一般函数的差
5、别与联系; 会用书中介绍的方法搜集资料、分析资料,感兴趣的同学可从互联网上查询相关资料。二、教材中的要点精析:1相关关系:自然界中,大量存在着一些变量,它们之间相互联系、相互依存,关系密切。大致分为两类:一类是函数关系,又叫确定性关系;一类是相关关系,又叫不确定性关系、统计相关关系。 2回归分析:是对具有相关关系的两变量进行统计分析的一种常用方法。通俗地讲,回归分析就是寻找相关关系中非确定性关系的某种确定性。其步骤为画散点图,求回归直线方程,并用回归直线方程进行预报。 3回归函数,也叫回归方程。形如的散点图的各个点大致分布在一条直线附近,这种分析就叫线性回归分析,直线方程叫做回归直线方程。不是
6、形如的回归方程,我们称之为非线性回归方程,具体选择何种类型,由经验判断,再分析残差是否异常,确定选择的好与坏。 回归直线:对于一组线性相关关系的数据 ,其回归直线方程的斜率和截距的最小乘法估计公式分别为: (1) (2)其中 称为样本点的中心,回归直线过样本点的中心。线性回归模型:与函数关系不同,在回归模型中的的值是由和随机因素共同确定的,即只能解释部分的变化,因此把称为解释变量,把称为预报变量,其中为模型的未知参数,是与之间的误差。通常为随机变量,称为随机误差,它的均值。线性回归模型的完整表达式为: ,其中随机误差的方差 越小,通过回归直线预报真实值的精确度越高。随机误差是引起预报值与真实值
7、之间误差的原因之一,其大小取决于随机误差的方差。再者由于公式(1)、(2)中的分别为截距和斜率的估计值,与真实值之间也有误差,这也是引起预报值与真实值之间误差的另一个原因。 4残差分析 因为随机误差是随机变量,因此可以通过这个变量的数字特征来刻画它的一些总体特征。均值是反映随机变量取值平均水平的数字特征,方差反映随机变量集中于均值程度的数字特征,而随机误差的均值0,因此可以用方差来衡量随机误差的大小。为了衡量预报的精度,需要估计的值,通过样本方差来估计总体方差。解决问题的途径是通过样本的估计值来估计的值。 根据截距和斜率的估计公式(1)、(2),可以建立回归方程,其中是的估计量,是的估计量。对
8、于样本点而言,相应于它们的随机误差为 ,其估计值为, 称为相应于数据点的残差。类比样本方差估计总体方差的思想,可用作为的估计量,其中是由公式(1)、(2)给出的,成为残差平方和。可以用残差平方和衡量回归方程的预报精度。通常残差平方和越小,预报精度越高。 在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据。然后,可以通过残差来判断模型拟合的效果,判断原始数据中是否存在可疑数据,这方面的分析工作称为残差分析。 利用图形来分析残差特性,作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计等,这样作出的图形称为残差图。 5散点图 表示相
9、关关系的两个变量的一组数据,作为点的坐标,在直角坐标系中描出来得到的图形叫散点图。散点图使相关关系具有直观性。 6回归分析的解题规律: a)在解具体问题过程中,通常是先进行相关检验,通过检验确认两个变量具有线性相关关系时,再求其线性回归方程; b)相关性检验有几种方法,教材用的是相关系数和相关指数,两者在教材中具有平方关系(在只有一个解释变量的线性模型中恰好等于相关系数的平方)。当时,表明两个变量正相关;当时,表明两个变量负相关。当越接近于1,表示相关程度越好,表明两个变量的线性相关性越强,越接近于0,表示相关程度越差,表明两个变量之间几乎不存在线性相关关系;同样 取值越大,意味着残差平方和越
10、小,模型的拟和效果越好,回归方程的预报精度越高。在线性回归模型中,表示解释变量对于预报变量变化的贡献率,越接近1,表示回归的效果越好。 c)相关程度的强弱,除相关系数的大小之外,与选取的数据个数多少有关,还有一个问题是显著性临界值的选取,教材中点到即止,没有往下交待; d)回归分析计算量大,现在一般用计算机解决,学习中只要求明白原理即可; e)教材中直接选取对数变换是选取比较简单的函数演示而已,还可以做其他函数模拟; f)回归分析中,通常先观察散点图,若分布在一条直线附近,经验证线性相关,则选一次函数,否则选取其他函数模拟; g)判断两个变量的相关程度通常有:其一相关系数 ,相关系数的绝对值越
11、接近于1,相关程度越高;相关指数,与类似,的值越大残差平方和越小,拟合越精确。 h)判断模拟精确的尺度为:(或残差平方和)的大小。 7建立回归模型的一般的基本步骤: 确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量; 画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等); 由经验确定回归方程的类型(如观察到的数据呈现性关系,则选用线性回归方程); 按一定规则估计回归方程中的参数(如最小二乘法); 得出的结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性等等),若存在异常,则检查数据是否有误,或模型是否合适等。 典型例题 例1已知10
12、只狗的血球体积及红血球的测量值如下 45 42 46 48 42 35 58 40 39 50 6.53 6.30 9.25 7.50 6.99 5.90 9.49 6.20 6.55 7.72 (血球体积,),(红血球数,百万) (1) 画出上表的散点图;(2)求出回归直线并且画出图形 (3)若血球体积为49,预测红血球数大约是多少?解:()见下图(要学会运用计算机技术辅助我们数学学习,加强直观上的效果,这里要求学生会运用简单的excel作出散点图,并直接通过计算机拟合出回归直线,具体步骤见本文最后的附录)。设回归直线为, 利用公式(1)、(2)计算得所以所求回归直线的方程为 ,图形如下:
13、(3)由(2)中求出的回归直线方程,把代入,得(百万),计算结果表明,当血球体积为49mm时,红血球数大约为7.9617百万。实战演练1.某种产品表面进行腐蚀性试验,得到腐蚀深度与腐蚀时间之间对应的一组数据: 时间 5 10 15 20 30 40 50 60 70 90 120 深度 6 10 10 13 16 17 19 23 25 29 46 (1)试求腐蚀深度对时间的回归直线方程;(2)预测腐蚀时间为80 s时产品腐蚀的深度大约是多少? 解:(1)经计算可得 故所求的回归直线方程为 (2)由(1)求出的回归直线方程,把代入,易得,计算结果表明,当腐蚀80 s时产品腐蚀深度大约为8非线性
14、回归: 在散点图中样本点并没有分布在某个带壮区域内,因此两个变量不呈线性相关关系,不能直接用线性回归方程来建立两个变量之间的关系。当回归方程不是形如时,称之为非线性回归方程。 在一般情况下,比较两个模型的残差比较困难,原因是在某些样本点上一个模型的残差的绝对值比另一个模型的小,而另一些样本点的情况则相反。这是可以通过比较两个模型的残差平方和的大小来判断模型的拟合效果。残差平方和越小的模型,拟合的效果越好。 两个模型拟合效果的比较步骤: 对于给定的样本点 ,两个含有未知参数的模型 和其中是未知参数。 可按如下步骤来比较它们的拟合效果:分别建立对应与两个模型的回归方程与,其中这里的为已知的;可以分
15、别计算两个回归方程的残差与,比较两个模型的残差的绝对值,绝对值小的拟合的效果好;也可以分别计算两个回归方程的残差平方和 和,残差平方和小的模型拟合的效果好;三、结束语在统计中,回归分析是应用很广的。在中学,要讨论回归方程的求法,这部分内容属于统计中对回归系数的估计;另一部分是,判断回归方程是否有意义,这属于假设检验。在中学的教学中,首先要让学生理解这里讨论的相关关系和过去学的函数关系的区别,这很重要。在估计问题中,应要求学生自己探索回归直线的求法(事实上,通过老师启发学生可以给出许多方法)。在统计中,重要的是寻找好的方法,而不是套用公式计算。从历史上看,拉普拉斯、欧拉等许多大数学家都曾为寻找这
16、一直线而努力,他们的做法并不成功。后来,由勒让德、高斯提出了最小二乘法。套用公式计算回归系数,对学生来说并不困难。但这里应该让学生体会到,数学中介绍的方法是前人经过长期探索才得到的。体会在统计中寻找方法的重要。作为老师应该清楚,之所以用最小二乘法,是因为这样得到的估计量,在许多标准下是好的。而这些标准我们在中学无法讲授。另外,根据实际问题的需要,完全可以用别的方法,例如,把误差的平方改为误差的绝对值,或把误差改为求点到直线的距离等等。人们现在正是这样做的。不应该让学生错误地以为最小二乘法是绝对的、永远是最优的。应该让学生关注方程的意义和合理性。可以通过例子,提示回归系数计算的不合理性:比如,如
17、果在圆上取一组点,仍可套用公式,用这组点的坐标得到一个回归直线方程,这样的直线显然是没意义的。以上就是我个人对人教A版教材选修1-2中的回归分析内容的一些认识、体会和一些小小思考,不足之处希望各位老师指出。事实上新教材还有许多处理方法均起到优化课堂教学模式、提高课堂教学效益、减轻学生课业负担的作用, 达到“少课时、轻负担、高质量”的目的, 希望能和广大一线教师一起在这方面作进一步的探讨。附录:excel作散点图步骤:1 先将收集的数据以列的形式输入excel中,然后选中这两列数据点击插入中的图表进入后选择散点图即可,其他的选项视自身情况而定;2 作出散点图后,可以选中图中的散点,点击右键选择添加趋势线,在类型中选择线性,然后在选项中选择显示公式,点击完成即可看到拟合的直线和回归直线的方程,还可以在上一步的选项中追加选择显示R平方值,以观察拟合的程度。