《数学回归分析的基本思想及其初步应用人教A选修PPT学习教案.pptx》由会员分享,可在线阅读,更多相关《数学回归分析的基本思想及其初步应用人教A选修PPT学习教案.pptx(20页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、数学回归分析的基本思想数学回归分析的基本思想(sxing)及其初及其初步应用人教步应用人教A选修选修第一页,共20页。比数学3中“回归(hugu)”增加的内容数学数学数学数学统计统计统计统计(tngj)(tngj)(tngj)(tngj)画散点图画散点图画散点图画散点图了解最小二乘法的思想了解最小二乘法的思想了解最小二乘法的思想了解最小二乘法的思想求回归直线方程求回归直线方程求回归直线方程求回归直线方程y y y ybxbxbxbxa a a a用回归直线方程解决应用回归直线方程解决应用回归直线方程解决应用回归直线方程解决应用问题用问题用问题用问题选修选修2-32-3统计案例统计案例引入线性回
2、归模型引入线性回归模型y ybxbxa ae e了解模型中随机误差项了解模型中随机误差项e e产生产生(chnshng)(chnshng)的原因的原因了解残差图的作用了解残差图的作用了解相关指数了解相关指数 R2 R2 和模型拟合的和模型拟合的效果之间的关系效果之间的关系利用线性回归模型解决一类非线利用线性回归模型解决一类非线性回归问题性回归问题正确理解分析方法与结果正确理解分析方法与结果第1页/共20页第二页,共20页。最小二乘法最小二乘法(chngf):称为样本称为样本(yngbn)点的中心。回归点的中心。回归直线过样本直线过样本(yngbn)点中心点中心第2页/共20页第三页,共20页。
3、例例1 从某大学中随机选取从某大学中随机选取8名女大学生,其身高名女大学生,其身高(shn o)和体重数据如表和体重数据如表1-1所示。所示。编号12345678身高/cm165 165 157 170 175 165 155 170体重/kg4857505464614359求根据一名女大学生的身高预报求根据一名女大学生的身高预报(ybo)她的体重的回归方程,并预报她的体重的回归方程,并预报(ybo)一名身高为一名身高为172cm的女大学生的体重。的女大学生的体重。案例案例(n l)1:女大学生的身高:女大学生的身高与体重与体重解:解:1、选取身高为自变量、选取身高为自变量x,体重为,体重为因
4、变量因变量y,作散点图:,作散点图:2、由散点图知道身高和体重有比较好、由散点图知道身高和体重有比较好的线性相关关系,因此可以用线性回的线性相关关系,因此可以用线性回归方程刻画它们之间的关系。归方程刻画它们之间的关系。分析:由于问题中要求根据身高预报体重,因此选分析:由于问题中要求根据身高预报体重,因此选取身高为自变量,体重为因变量取身高为自变量,体重为因变量第3页/共20页第四页,共20页。2.2.回归方程:回归方程:1.散点图;散点图;第4页/共20页第五页,共20页。探究:探究:身高为身高为172cm的女大学生的体重一定是的女大学生的体重一定是60.316kg吗吗?如果?如果(rgu)不
5、是,你能解析一下原因吗?不是,你能解析一下原因吗?答:身高答:身高(shn o)为为172cm的女大学生的体重的女大学生的体重不一定是不一定是60.316kg,但一般可以认为她的体重接,但一般可以认为她的体重接近于近于60.316kg。即,用这个回归方程不能给出每个身高为即,用这个回归方程不能给出每个身高为172cm的女的女大学生的体重大学生的体重(tzhng)的预测值,只能给出她们平的预测值,只能给出她们平均体重均体重(tzhng)的值。的值。第5页/共20页第六页,共20页。我们可以用下面的线性回归模型来表示:我们可以用下面的线性回归模型来表示:y=bx+a+e,(3)其中其中a和和b为模
6、型的未知参数为模型的未知参数(cnsh),e称为随机误称为随机误差。差。y=bx+a+e,E(e)=0,D(e)=(4)在线性回归模型在线性回归模型(4)中,随机误差中,随机误差e的方差的方差 越小,通过越小,通过回归直线回归直线 (5)预报真实值预报真实值y的精度越高。随机误差是引起预报值的精度越高。随机误差是引起预报值 与真实值与真实值y之间的误差的原因之一,其大小取决于随机误差的方差。之间的误差的原因之一,其大小取决于随机误差的方差。另一方面,由于公式另一方面,由于公式(1)和和(2)中中 和和 为截距和斜率的估计值,为截距和斜率的估计值,它们与真实值它们与真实值a和和b之间也存在误差,
7、这种误差是引起预报值之间也存在误差,这种误差是引起预报值与真实值与真实值y之间误差的另一个原因。之间误差的另一个原因。第6页/共20页第七页,共20页。思考思考(sko):产生随机误差项产生随机误差项e的原因是什么?的原因是什么?随机误差随机误差e e的来源的来源(可以推广可以推广(tugung)(tugung)到一般):到一般):1 1、用线性回归模型近似真实模型所引起的误差;、用线性回归模型近似真实模型所引起的误差;2 2、忽略了其它因素的影响:影响身高、忽略了其它因素的影响:影响身高 y y 的因素的因素不只是体重不只是体重 x x,可能还包括遗传基因、饮食习,可能还包括遗传基因、饮食习
8、惯、生长环境等因素;惯、生长环境等因素;3 3、身高、身高 y y 的观测误差。的观测误差。以上三项误差越小,说明我们的回归模型的以上三项误差越小,说明我们的回归模型的拟合效果越好。拟合效果越好。第7页/共20页第八页,共20页。探究探究:e 是是 用预报真实值用预报真实值Y的随机误差,它是一个不可观测的量,的随机误差,它是一个不可观测的量,那么怎样研究随机误差呢那么怎样研究随机误差呢?回归模型:其估计值为其估计值为而言,它们的随机误差而言,它们的随机误差对于样本点对于样本点第8页/共20页第九页,共20页。显然,显然,R2的值越大,说明残差平方和越小,也就是说模型拟合的值越大,说明残差平方和
9、越小,也就是说模型拟合(n h)效果越好。效果越好。在线性回归在线性回归(hugu)模型中,模型中,R2表示解析变量对预报变量变化的贡献率。表示解析变量对预报变量变化的贡献率。R2越接近1,表示回归的效果(xiogu)越好(因为R2越接近1,表示解析变量和预报变量的线性相关性越强)。如果某组数据可能采取几种不同回归方程进行回归分析,则可以通过比较如果某组数据可能采取几种不同回归方程进行回归分析,则可以通过比较R2的值的值来做出选择,即选取来做出选择,即选取R2较大的模型作为这组数据的模型。较大的模型作为这组数据的模型。总的来说:总的来说:相关指数相关指数R2是度量模型拟合效果的一种指标。是度量
10、模型拟合效果的一种指标。在线性模型中,它在线性模型中,它代表自变量刻画预报变量的能力代表自变量刻画预报变量的能力。我们可以用我们可以用 相关指数相关指数 R2来刻画回归的效果,其计算公式是来刻画回归的效果,其计算公式是第9页/共20页第十页,共20页。1354总计0.36128.361残差变量0.64225.639随机误差比例平方和来源表表1-3 从表从表3-1中可以看出,解析变量对总效应约贡献了中可以看出,解析变量对总效应约贡献了64%,即,即R2 0.64,可以叙述为,可以叙述为“身高解析了身高解析了 64%的体重变化的体重变化”,而随机误差贡献了剩余的,而随机误差贡献了剩余的 36%。所
11、以,身高对体重的效应比随机误差的效应大得多。所以,身高对体重的效应比随机误差的效应大得多。我们可以用我们可以用 相关指数相关指数 R2来刻画回归的效果,其计算公式是来刻画回归的效果,其计算公式是第10页/共20页第十一页,共20页。一般地,建立一般地,建立(jinl)回归模型的基本步骤为:回归模型的基本步骤为:(1)确定研究对象)确定研究对象(duxing),明确哪个变量是解析变量,哪个变量是预报变量。,明确哪个变量是解析变量,哪个变量是预报变量。(2)画出确定好的解析变量)画出确定好的解析变量(binling)和预报变量和预报变量(binling)的散点图,观察它们之间的关系的散点图,观察它
12、们之间的关系 (如是否存在线性关系等)。(如是否存在线性关系等)。(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程选用线性回归方程y=bx+a).(4)按一定规则估计回归方程中的参数(如最小二乘法)。)按一定规则估计回归方程中的参数(如最小二乘法)。(5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性,等等),过存在异常,则检查数据是否有误,或差呈现不随机的规律性,等等),过存在异常,则检查数据是否有误,或模型是否合
13、适等。模型是否合适等。第11页/共20页第十二页,共20页。相关系数相关系数 1.1.计算公式计算公式2 2相关系数的性质相关系数的性质(1)|r|1(1)|r|1(2)|r|(2)|r|越接近于越接近于1 1,相关程度越,相关程度越大;大;|r|r|越接近于越接近于0 0,相关程度越,相关程度越小小问题:达到问题:达到(d do)(d do)怎样程度,怎样程度,x x、y y线性相关呢?它们的相关程线性相关呢?它们的相关程度怎样呢?度怎样呢?第12页/共20页第十三页,共20页。相关系数相关系数正相关正相关(xinggun)(xinggun);负相关;负相关(xinggun)(xinggun
14、)通常,通常,r-1,-0.75-r-1,-0.75-负相关负相关(xinggun)(xinggun)很强很强;r0.75,1;r0.75,1正正相关相关(xinggun)(xinggun)很强很强;r-;r-0.75,-0.3-0.75,-0.3-负相关负相关(xinggun)(xinggun)一般一般;r0.3,0.75r0.3,0.75正相关正相关(xinggun)(xinggun)一般一般;r;r-0.25,0.25-0.25,0.25-相关相关(xinggun)(xinggun)性较弱性较弱;第13页/共20页第十四页,共20页。例例2:一只红铃虫的产卵数一只红铃虫的产卵数y与温度与
15、温度x有关有关,现收集现收集了了7组观测数据组观测数据,试建立试建立y与与x之间的回归方程之间的回归方程 解解:1):1)作散点图作散点图;从从散散点点图图中中可可以以看看出出产产卵卵数数和和温温度度之之间间的的关关系系并并不不能能用用线线性性回回归归(hugu)(hugu)模模型型来来很很好好地地近近似似。这这些些散散点点更更像是集中在一条指数曲线或二次曲线的附近。像是集中在一条指数曲线或二次曲线的附近。第14页/共20页第十五页,共20页。解解:令令 则则z=bx+a,(a=lnc1,b=c2),z=bx+a,(a=lnc1,b=c2),列出变换列出变换(binhun)(binhun)后数
16、据表并画后数据表并画 出出x x与与z z 的散点图的散点图 x和z之间的关系可以用线性回归模型(mxng)来拟合x x2121232325252727292932323535z z1.9461.9462.3982.3983.0453.0453.1783.1784.194.194.7454.7455.7845.784第15页/共20页第十六页,共20页。2)2)用用 y=cy=c3 3x x2 2+c+c4 4 模型模型,令令 ,则则y=cy=c3 3t+ct+c4 4,列出变列出变换后数据表并画出换后数据表并画出t t与与y y 的散点图的散点图 散点并不集中在一条直线的附近,因此用线性回散
17、点并不集中在一条直线的附近,因此用线性回归模型拟合他们的效果不是归模型拟合他们的效果不是(b shi)最好的。最好的。t t44144152952962562572972984184110241024 12251225y y7 71111212124246666115115325325第16页/共20页第十七页,共20页。残残差差表表编编号号1 12 23 34 45 56 67 7x x2121232325252727292932323535y y7 71111212124246666115115325325e(1e(1)0.50.52 2-0.1670.1671.761.76-9.149-
18、9.1498.8898.889-14.153-14.15332.92832.928e(2e(2)47.47.7 719.3919.397 7-5.835-5.835-41.003-41.003-40.107-40.107-58.268-58.26877.96577.965非线性回归方程非线性回归方程二次回归方程二次回归方程残差公式残差公式(gngsh)(gngsh)第17页/共20页第十八页,共20页。在此处可以引导在此处可以引导(yndo)(yndo)学生体会应用统计方法解决实际问题学生体会应用统计方法解决实际问题需要注意的问题:对于同样的数据,有不同的统计方法需要注意的问题:对于同样的数据,有不同的统计方法进行分析,我们要用最有效的方法分析数据。进行分析,我们要用最有效的方法分析数据。现在有三个不同的回归(hugu)模型可供选择来拟合红铃虫的产卵数与温度数据,他们分别是:可以利用直观(散点图和残差图)、相关(xinggun)指数来确定哪一个模型的拟合效果更好。第18页/共20页第十九页,共20页。对于给定的样本点对于给定的样本点,含有两个未知参数含有两个未知参数(cnsh)模型模型()()第19页/共20页第二十页,共20页。