《11回归分析的基本思想及其初步应用(2).ppt》由会员分享,可在线阅读,更多相关《11回归分析的基本思想及其初步应用(2).ppt(26页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、例例1 从某大学中随机选取从某大学中随机选取8名女大学生,其身高和体重数据如表名女大学生,其身高和体重数据如表1-1所示。所示。编号12345678身高cm 165 165 157 170 175 165 155 170体重kg4857505464614359求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm的女大学生的体重。的女大学生的体重。案例案例1:女大学生的身高与体重:女大学生的身高与体重172.85849. 0 xy学学身身高高172cm女172cm女大大生生体体重重y = 0.849y = 0.
2、849172-85.712 = 60.316(kg)172-85.712 = 60.316(kg)探究探究:身高为身高为172cm的女大学生的体的女大学生的体重一定是重一定是60.316kg吗?原因?吗?原因?由于所有的样本点不共线,而只是散布在某一直由于所有的样本点不共线,而只是散布在某一直线的附近,所以身高和体重的关系可以用线的附近,所以身高和体重的关系可以用线性回归模型线性回归模型来表示:来表示:其中其中a和和b为模型的未知参数,为模型的未知参数,e称为随机误差称为随机误差.eabxy函数模型与回归模型之间的差别函数模型与回归模型之间的差别一次函数模型: y=bx+a 线性回归模型线性回
3、归模型y=bx+a+e增加了增加了随机误差随机误差e,因变,因变量量y 的值由自变量的值由自变量x和随机误差和随机误差e 共同确定,即自变共同确定,即自变量量x 只能只能解析部分解析部分y 的变化的变化. 在统计中,我们也把自变量在统计中,我们也把自变量x称为称为解释变量解释变量, 因变量因变量y称为称为预报变量预报变量.线性回归模型: y=bx+a+e函数模型与函数模型与“回归模型回归模型”的关系的关系函数模型:因变量函数模型:因变量y完全由自变量完全由自变量x确定确定回归模型:回归模型: 预报变量预报变量y完全由解释变量完全由解释变量x和随机误差和随机误差e确定确定注:注:e 产生的主要原
4、因:产生的主要原因: (1)所用确定性函数不恰当;所用确定性函数不恰当; (2)忽略了某些因素的影响;忽略了某些因素的影响; (3)观测误差。观测误差。思考思考:产生随机误差项产生随机误差项e的原因是什么?的原因是什么?以上三项误差越小,说明我们的回归模型的拟合效果越好。以上三项误差越小,说明我们的回归模型的拟合效果越好。残差分析残差分析在研究两个变量间的时,首先要根据散点图来粗略判在研究两个变量间的时,首先要根据散点图来粗略判断它们是否是线性相关,是否可以用线性回归模型来断它们是否是线性相关,是否可以用线性回归模型来拟合数据拟合数据.然然后,可以通过残差后,可以通过残差 来判断模型拟合的来判
5、断模型拟合的效果,判断原始数据中是否存在可疑数据效果,判断原始数据中是否存在可疑数据.这方面的分这方面的分析工作称为残差分析析工作称为残差分析.12,ne ee0.3820.382-2.883-2.8836.6276.6271.1371.137-4.618-4.6182.4192.4192.6272.627-6.373-6.373残差残差59594343616164645454505057574848体重体重/kg/kg170170155155165165175175170170157157165165165165身高身高/cm/cm8 87 76 65 54 43 32 21 1编号编号下表
6、为女大学生身高和体重的原始数据以及相应的下表为女大学生身高和体重的原始数据以及相应的残差数据:残差数据: e以纵坐标为残差,横坐标为编号,作出图形(以纵坐标为残差,横坐标为编号,作出图形(残差图残差图)来分析残差特性来分析残差特性.残差图的定义:残差图的定义:残差图的制作和作用:残差图的制作和作用:制作:坐标纵轴为残差变量,横轴可以有不同的选择制作:坐标纵轴为残差变量,横轴可以有不同的选择. . 横轴为编号:可以考察残差与编号次序之间的关系,横轴为编号:可以考察残差与编号次序之间的关系, 常用于调查数据错误常用于调查数据错误. . 横轴为解释变量:可以考察残差与解释变量的关系,横轴为解释变量:
7、可以考察残差与解释变量的关系,常用于研究模型是否有改进的余地常用于研究模型是否有改进的余地. .作用:判断模型的适用性若模型选择的正确,残差图中的作用:判断模型的适用性若模型选择的正确,残差图中的点应该分布在以横轴为中心的带形区域点应该分布在以横轴为中心的带形区域. .异常点 若模型选择的正确,若模型选择的正确,残差图中的点应该分布在以残差图中的点应该分布在以横轴为心的带形区域;横轴为心的带形区域;对于远离横轴的点,要特别注意对于远离横轴的点,要特别注意。iiiey bx a ( 1) 计 算( i=1,2,.n)残 差 分 析( 2) 画 残 差 图( 1) 查 找 异 常 样 本 数 据(
8、 3) 分 析 残 差 图 ( 2) 残 差 点 分 布 在 以 O为 中 心 的 水 平 带 状 区 域 , 并 沿水 平 方 向 散 点 的 分 布 规 律 相 同 。如何刻画模型拟合的精度?如何刻画模型拟合的精度?相关指数:相关指数:22121()1()niiiniiyyRyy R2取值越大,则残差平方和越小,即模型的拟合效果取值越大,则残差平方和越小,即模型的拟合效果越好越好. R2越接近越接近1,表示回归的效果越好(因为,表示回归的效果越好(因为R2越接近越接近1,表示解析变量和预报变量的线性相关性越强)表示解析变量和预报变量的线性相关性越强)。总的来说:总的来说:相关指数相关指数R
9、2是度量模型拟合效果的一种指标。是度量模型拟合效果的一种指标。在线性模型中,它在线性模型中,它代表自变量刻画预报变量的能力代表自变量刻画预报变量的能力。解释解释预报预报R2=0.64,表明:,表明:“女大学生的身高解释了女大学生的身高解释了64的体的体重变化重变化”,或者说,或者说“女大学生的体重差异有女大学生的体重差异有64是是由身高引起的由身高引起的”.建立回归模型的基本步骤:建立回归模型的基本步骤:(1)确定研究对象,明确哪个变量是解释变量,哪)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量个变量是预报变量;(2)画出确定好的解释变量和预报变量的散点图,)画出确定好的解释变量和
10、预报变量的散点图,观察它们之间的关系(是否存在线性关系);观察它们之间的关系(是否存在线性关系);(3)由经验确定回归方程的类型(如观察到数据呈线)由经验确定回归方程的类型(如观察到数据呈线性关系,则选用线性回归方程性关系,则选用线性回归方程y=bx+a););(4)按一定规则估计回归方程中的参数(如最小二)按一定规则估计回归方程中的参数(如最小二乘法);乘法);(5)得出结果后分析残差图是否异常(个别数据对)得出结果后分析残差图是否异常(个别数据对应残差过大,或残差呈现不随机的规律性等),若存应残差过大,或残差呈现不随机的规律性等),若存在异常,则检查数据是否有误,或模型是否合适等在异常,则
11、检查数据是否有误,或模型是否合适等.1)1)确定解释变量和预报变量确定解释变量和预报变量; ; 2)2)画出散点图画出散点图; ; 3)3)确定回归方程类型确定回归方程类型; ; 4)4)求出回归方程求出回归方程; ; 5)5)利用相关指数或残差进行分析利用相关指数或残差进行分析. .建立回归模型的基本步骤建立回归模型的基本步骤例例1、在一段时间内,某中商品的价格、在一段时间内,某中商品的价格x元和需求量元和需求量Y件之间件之间的一组数据为:的一组数据为:求出求出Y对的回归直线方程,并说明拟合效果的好坏。对的回归直线方程,并说明拟合效果的好坏。价格价格x1416182022需求量需求量Y121
12、0753解:解:18,7.4,xy555221111660,327,620,iiiiiiixyx y7.4 1.15 1828.1.a1.1528.1.yx 回归直线方程为:51522155iiiiix yxybxx26205 18 7.41.15.16605 18 例例1、在一段时间内,某中商品的价格、在一段时间内,某中商品的价格x元和需求量元和需求量Y件之间件之间的一组数据为:的一组数据为:求出求出Y对的回归直线方程,并说明拟合效果的好坏。对的回归直线方程,并说明拟合效果的好坏。价格价格x1416182022需求量需求量Y1210753列出残差表为列出残差表为521()iiiyy0.3,5
13、21()iiyy53.2,5221521()1()iiiiiyyRyy 0.994因而,拟合效果较好。因而,拟合效果较好。iiyyiyy00.3-0.4-0.10.24.62.6-0.4-2.4-4.4次数次数(x) 3033353739444650成绩成绩(y) 3034373942464851某运动员训练次数与运动成绩之间的数据关系如某运动员训练次数与运动成绩之间的数据关系如下下:(1)作出散点图;)作出散点图;(2)求出线性回归方程)求出线性回归方程,预测该运动员训练预测该运动员训练47次及次及55次的成绩;次的成绩;(3)进行残差分析;)进行残差分析;(4)计算)计算R2,并作出解释。
14、,并作出解释。预报精度预报精度1.相关指数相关指数R22.残差残差ennnn2222iiiii i2 2i=1i=1i=1i=1nnnn2222iiiii=1i=1i=1i=1(y -y )(y -y)(y -y )(y -y)R =1-=R =1-=(y -y)(y -y)(y -y)(y -y)在含有一个解释在含有一个解释变量的线性变量的线性 模型模型中中R2=r2(相关关系相关关系)判断判断x xi i确定差异确定差异百分数百分数随机误差随机误差 , ,它的估计值为它的估计值为 . .e = y-ye = y-ye = y-ye = y-y 对于样本点对于样本点 它们随机误它们随机误差的
15、估计值差的估计值 称相应残差称相应残差.1122nn1122nn(x ,y ), (x ,y ), (x ,y )(x ,y ), (x ,y ), (x ,y )i ii iiiiiiie = y -y = y -bx -ae = y -y = y -bx -a n n2 22 2iiiii=1i=11111 =(y -bx -a) =Q(a,b)(n 2)=(y -bx -a) =Q(a,b)(n 2)n-2n-2n-2n-2方差方差1)1)衡量预报精度衡量预报精度2)2)确定样本的异常点确定样本的异常点. .小小 结结 实际问题实际问题y = f(x)y = f(x) 样本分析样本分析y
16、 = f(x)y = f(x) 回归模型回归模型y = f(x)y = f(x)抽样抽样回归分析回归分析预报精度预报精度预报预报相关系数相关系数相关系数的性质相关系数的性质(1)|r|1(1)|r|1(2)|r|(2)|r|越接近于越接近于1 1,相关程度越强;,相关程度越强;|r|r|越接近越接近于于0 0,相关程度越弱,相关程度越弱n ni ii ii i= =1 1n nn n2 22 2i ii ii i= =1 1i i= =1 1( (x x - - x x) )( (y y - - y y) )r r = =( (x x - - x x) )( (y y - - y y) )2
17、2_ _n n1 1i i2 2i i2 2_ _n n1 1i i2 2i in n1 1i i_ _ _i ii iy yn ny yx xn nx xy yx xn ny yx xn niiiii=1i=1nnnn2222iiiii=1i=1i=1i=1(x -x)(y -y)(x -x)(y -y)(x -x) (x -x) (y -y)(y -y)r 相关系数相关系数正相关;负相关正相关;负相关通常:通常:r r-1,-1,-0.75-0.75-负相关很强负相关很强; ; r r0.75,10.75,1正相关很强正相关很强; ; r r-0.75,-0.3-0.75,-0.3-负相关
18、一般负相关一般; ; r r0.3, 0.750.3, 0.75正相关一般正相关一般; ; r r-0.25, -0.25, 0.25-0.25-相关性较弱相关性较弱; ; 对对r r进行显进行显著性检验著性检验 如何描述两个变量之间线性相关关系的强弱?如何描述两个变量之间线性相关关系的强弱? 在在数学数学3中,我们学习了用相关系数中,我们学习了用相关系数r来衡量两个变量来衡量两个变量之间线性相关关系的方法。之间线性相关关系的方法。相关系数相关系数r12211()().()()niiinniiiixxyyxxyy0.751, 1, 0.75, 0 25,0.25,rrr 当, 表明两个变量正相
19、关很强;当表明两个变量负相关很强;当.表明两个变量相关性较弱。相关系数相关系数 1.1.计算公式计算公式 2 2相关系数的性质相关系数的性质 (1)|r|1(1)|r|1 (2)|r|(2)|r|越接近于越接近于1 1,相关程度越大;,相关程度越大;|r|r|越接越接近于近于0 0,相关程度越小,相关程度越小n ni ii ii i= =1 1n nn n2 22 2i ii ii i= =1 1i i= =1 1( (x x - - x x) )( (y y - - y y) )r r = =( (x x - - x x) )( (y y - - y y) )(3 3)正相关;负相关)正相关;负相关负相关负相关正相关正相关相关关系的测度相关关系的测度(相关系数取值及其意义)