《教育专题:回归分析的基本思想与初步应用.ppt》由会员分享,可在线阅读,更多相关《教育专题:回归分析的基本思想与初步应用.ppt(29页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、复习回顾复习回顾 相关关系相关关系是一种是一种 不确定不确定关系关系 函数关系函数关系是一种是一种确定确定关系关系 1.两变量间的关系:两变量间的关系:3.回归分析定义:回归分析定义:对具有相关关系的两个变量进对具有相关关系的两个变量进行统计分析的方法叫行统计分析的方法叫回归分析回归分析。2.相关关系定义:相关关系定义:自变量取值一定时,因变量的自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做取值带有一定随机性的两个变量之间的关系叫做相关关系相关关系。正相关正相关负相关负相关对于一组具有线性相关关系的数据对于一组具有线性相关关系的数据我们知道其回归方程的截距和斜率的最小二乘
2、估计公式分别为:我们知道其回归方程的截距和斜率的最小二乘估计公式分别为:4、回归直线方程:、回归直线方程:y=bx+a 称为样本点的中心称为样本点的中心。5、求回归直线方程的步骤:、求回归直线方程的步骤:(3)代入公式)代入公式(4)写出直线方程为)写出直线方程为y=bx+a,即为所求的回归直线方程。即为所求的回归直线方程。例例1 1、观察两相关量得如下数据、观察两相关量得如下数据:x-1-2-3-4-553421y-9-7-5-3-115379求两变量间的回归方程求两变量间的回归方程.解:列表:解:列表:i12345678910 xi-1-2-3-4-553421yi-9-7-5-3-115
3、379xiyi9141512551512149所求回归直线方程为所求回归直线方程为 y=x例例2 2 从某大学中随机选出从某大学中随机选出8 8名女大学生,其身高名女大学生,其身高和体重数据如下表:和体重数据如下表:编号12345678身高165165157170175165155170体重4857505464614359求根据一名女大学生的身高预报她的体重的求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为回归方程,并预报一名身高为172172的女大的女大学生的体重。学生的体重。分析:由于问题中分析:由于问题中要求根据身高预报要求根据身高预报体重,因此选取体重,因此选取身身高高
4、为为自变量自变量体重体重为为因变量因变量 思考:思考:身高身高172cm的女大学生的体重一定是的女大学生的体重一定是60.316kg吗?吗?如果不是,其原因是什么如果不是,其原因是什么?求回归方程求回归方程解解:画出散点图:画出散点图 采用采用回归回归直线直线方程方程统统计分析两变量之间的计分析两变量之间的关系关系答:身高为答:身高为172cm的女大学生的体重不一定是的女大学生的体重不一定是60.316kg,但一般可但一般可以认为她的体重接近于以认为她的体重接近于60.316kg。从散点图还可以看到,样本点散布在某一条直线的附近,从散点图还可以看到,样本点散布在某一条直线的附近,而不是一条直线
5、上,所以不能用一次函数来而不是一条直线上,所以不能用一次函数来描述它们之间的关系。这时我们用下面的描述它们之间的关系。这时我们用下面的线性回归模型线性回归模型来来描述身高和体重的关系:描述身高和体重的关系:+,其中和,其中和为模型的为模型的未知参数未知参数,e e是是y y与与之差之差,通通常常称为称为随机误差随机误差。线性回归模型:线性回归模型:体会体会函数模型函数模型和和回归模型回归模型的的区别区别 随机误差的均值E(e)=0,方差D(e)=20线性回归模型线性回归模型:其中其中a和和b为模型的未知参数,为模型的未知参数,e称为随机误差称为随机误差。y=bx+a+e,E(e)=0,D(e)
6、=随机误差e的估计量样本点:相应的随机误差为:相应的随机误差估计值为:称为相应于点 的残差残差女大学生的身高和体重原始数据及体重的残差数据女大学生的身高和体重原始数据及体重的残差数据编号编号12345678身高身高165165157170175165155170体重体重4857505464614359残差残差-6.292.71 2.50-4.531.226.71-2.810.47由图可知,第1个样本点和第6个样本点的残差比较大,需要确认在采集这两个样本点的过程中是否有人为的错误.如果数据采集有错误,就予以纠正,然后重新利用线性回归模型拟合数据;如果数据采集没有错误,则需要寻找其他原因.另外,残
7、差图中的残差点比较均匀地落在水平的带状区域,另外,残差图中的残差点比较均匀地落在水平的带状区域,说明选用的说明选用的回归模型回归模型比较比较合适合适。区域的宽度越。区域的宽度越窄窄,说明回归,说明回归模型模型拟合精度越高拟合精度越高,回归方程的,回归方程的预报精度预报精度越越高高。如何描述两个变量之间线性相关关系的强弱?如何描述两个变量之间线性相关关系的强弱?在在数学数学3中,我们学习了用相关系数中,我们学习了用相关系数r来衡量两个变量来衡量两个变量之间线性相关关系的方法。之间线性相关关系的方法。相关系数相关系数r R R2 2 1 1,说明回归模型说明回归模型说明回归模型说明回归模型的的的的
8、拟合越好;即预报精度越高拟合越好;即预报精度越高拟合越好;即预报精度越高拟合越好;即预报精度越高用相关指数用相关指数R2刻画模型的拟合效果刻画模型的拟合效果总偏差平方和(定值)总偏差平方和(定值)残差的平方和残差的平方和残差点所在区域的宽度越窄,说残差点所在区域的宽度越窄,说明模型拟合精度越高,回归方程明模型拟合精度越高,回归方程的预报精度越高。的预报精度越高。表示表示“女大学生的身高解释了女大学生的身高解释了64%的体重变化的体重变化”,或者,或者“女大学生的体重差异有女大学生的体重差异有64%是由身引起的是由身引起的”R R2 2 0 0,说明回归模型的拟合越差;预报精度低。说明回归模型的
9、拟合越差;预报精度低。说明回归模型的拟合越差;预报精度低。说明回归模型的拟合越差;预报精度低。练一练:练一练:已知两个变量已知两个变量x和和y之间有线性相关性,次实验之间有线性相关性,次实验得到样本如下:得到样本如下:6.13.920y3210 x()则()则y对对x的线性回归方程是的线性回归方程是()相应于各样本点的残差()相应于各样本点的残差(i=1,2,3,4)分别是,分别是,残差平方和是残差平方和是建立回归模型的基本步骤:(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(是否存在线性关系);(3)由经验确定
10、回归方程的类型(如观察到数据呈线性关系,则选用线性回归方程y=bx+a);(4)按一定规则估计回归方程中的参数(如最小二乘法);(5)得出结果后分析残差图是否异常(个别数据对应残差过大,或残差呈现不随机的规律性等),若存在异常,则检查数据是否有误,或模型是否合适等.案例案例 一只红铃虫的产卵数一只红铃虫的产卵数y和温度和温度x有关。现收有关。现收集了集了7组观测数据列于表中:组观测数据列于表中:(1 1)试试建建立立产产卵卵数数y y与与温温度度x x之之间间的的回回归归方方程程;并并预测温度为预测温度为2828o oC C时产卵数目。时产卵数目。(2 2)你所建立的模型中温度在多大程度上解释
11、了)你所建立的模型中温度在多大程度上解释了产卵数的变化?产卵数的变化?温度温度xoC21232527293235产卵数产卵数y/个个711212466115325非线性回归问题非线性回归问题假设线性回归方程为假设线性回归方程为:=bx+a选选 模模 型型由计算器得:线性回归方程为由计算器得:线性回归方程为y=y=19.8719.87x x-463.73-463.73 相关指数相关指数R R2 2=r r2 20.8640.8642 2=0.7464=0.7464估计参数估计参数 解:选取气温为解释变量解:选取气温为解释变量x x,产卵数产卵数 为预报变量为预报变量y y。选变量选变量所以,二次
12、函数模型中温度解释了所以,二次函数模型中温度解释了74.64%的产卵数变化。的产卵数变化。探索新知探索新知画散点图画散点图050100150200250300350036912151821242730333639方案1分析和预测分析和预测当当x=28时,时,y=19.8728-463.73 93一元线性模型一元线性模型 y=bx2+a 变换变换 y=bt+a非线性关系非线性关系 线性关系线性关系方案2问题问题选用选用y=bx2+a,还是还是y=bx2+cx+a?问题问题3 产卵数产卵数气气温温问题问题2如何求如何求a、b?合作探究合作探究 t=x2二二次函数模型次函数模型方案2解答平方变换平方
13、变换:令令t=xt=x2 2,产卵数产卵数y y和温度和温度x x之间二次函数模型之间二次函数模型y=bxy=bx2 2+a+a就转化为产卵数就转化为产卵数y y和温度的平方和温度的平方t t之间线性回归模型之间线性回归模型y=y=bt+abt+a温度温度21232527293235温度的平方温度的平方t44152962572984110241225产卵数产卵数y/个个711212466115325作作散散点点图图,并并由由计计算算器器得得:y y和和t t之之间间的的线线性性回回归归方方程程为为y=y=0.3670.367t t-202.543-202.543,相关指数相关指数R R2 2=
14、0.802=0.802将将t=xt=x2 2代入线性回归方程得:代入线性回归方程得:y=y=0.3670.367x x2 2-202.543-202.543当当x x=28=28时时,y y=0.367=0.36728282 2-202.5485202.5485,且,且R R2 2=0.802=0.802,所以,二次函数模型中温度解所以,二次函数模型中温度解释了释了80.2%80.2%的产卵数变化。的产卵数变化。t问题问题 变换变换 y=bx+a非线性关系非线性关系 线性关系线性关系问题问题如何选取指数函数的底如何选取指数函数的底?产卵数产卵数气气温温指数函数模型指数函数模型方案3合作探究合作
15、探究对数对数方案3解答温度温度xoC21232527293235z=lny1.9462.3983.0453.1784.1904.7455.784产卵数产卵数y/个个711212466115325xz当当x=28x=28o oC C 时,时,y 44 y 44,指数回归指数回归模型中温度解释了模型中温度解释了98.5%98.5%的产卵数的的产卵数的变化变化由计算器得:由计算器得:z z关于关于x x的线性回归方程的线性回归方程为为 对数变换:在对数变换:在 中两边取常用对数得中两边取常用对数得令令 ,则,则 就转换为就转换为z=z=bx+abx+a.相关指数相关指数R R2 2=0.98=0.9
16、8最好的模型是哪个最好的模型是哪个?产卵数产卵数气气温温产卵数产卵数气气温温线性模型线性模型二次函数模型二次函数模型指数函数模型指数函数模型比比一一比比函数模型函数模型相关指数相关指数R2线性回归模型线性回归模型0.7464二次函数模型二次函数模型0.80指数函数模型指数函数模型0.98最好的模型是哪个最好的模型是哪个?回归分析(二)回归分析(二)则回归方程的残差计算公式分别为:则回归方程的残差计算公式分别为:由计算可得:由计算可得:x21232527293235y7112124661153250.557-0.1011.875-8.9509.230-13.38134.67547.69619.4
17、00-5.832-41.000-40.104-58.26577.968因此模型(因此模型(1)的拟合效果远远优于模型()的拟合效果远远优于模型(2)。)。总总 结结 对于给定的样本点对于给定的样本点两个含有未知参数的模型:两个含有未知参数的模型:其中其中a和和b都是未知参数。拟合效果比较的步骤为:都是未知参数。拟合效果比较的步骤为:(1)分别建立对应于两个模型的回归方程)分别建立对应于两个模型的回归方程与与 其中其中 和和 分别是参数分别是参数a和和b的估计值;的估计值;(2)分别计算两个回归方程的残差平方和)分别计算两个回归方程的残差平方和与与(3)若)若 则则 的效果比的效果比 的好;反之
18、,的好;反之,的效果的效果不如不如 的好。的好。练习练习 假设关于某设备的使用年限假设关于某设备的使用年限x和所支出的维修费用和所支出的维修费用 y(万万元),有如下的统计资料。元),有如下的统计资料。使用年限使用年限x 23456维修费用维修费用y 2.23.85.56.57.0若由资料知若由资料知,y对对x呈线性相关关系。试求:呈线性相关关系。试求:(1)线性回归方程)线性回归方程 的回归系数的回归系数 ;(2)求残差平方和;)求残差平方和;(3)求相关系数)求相关系数 ;(4)估计使用年限为)估计使用年限为10年时,维修费用是多少?年时,维修费用是多少?解:解:(1)由已知数据制成表格。)由已知数据制成表格。12345合计合计23456202.23.85.56.57.0254.411.422.032.542.0112.34916253690所以有所以有开开心心面面对对每每一一天天!轻轻松松学学习习!快快乐乐成成长长!