《回归分析的基本思想及其初步应用(1).ppt》由会员分享,可在线阅读,更多相关《回归分析的基本思想及其初步应用(1).ppt(34页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、2022-6-13郑平正 制作3.1回归分析的基回归分析的基本思想及其初步本思想及其初步应用(一)应用(一)必修必修3(3(第二章第二章 统计统计) )知识结构知识结构 收集数据收集数据 ( (随机抽样随机抽样) )整理、分析数据整理、分析数据估计、推断估计、推断简单随机抽简单随机抽样样分层抽样分层抽样系统抽样系统抽样用样本估计总体用样本估计总体变量间的相关关系变量间的相关关系 用样本用样本的频率的频率分布估分布估计总体计总体分布分布 用样本用样本数字特数字特征估计征估计总体数总体数字特征字特征线性回归分析线性回归分析 比数学3中“回归”增加的内容数学数学统计统计1. 画散点图画散点图2. 了
2、解最小二乘法了解最小二乘法的思想的思想3. 求回归直线方程求回归直线方程ybxa4. 用回归直线方程用回归直线方程解决应用问题解决应用问题选修2-3统计案例5. 引入线性回归模型引入线性回归模型ybxae6. 了解模型中随机误差项了解模型中随机误差项e产产生的原因生的原因7. 了解相关指数了解相关指数 R2 和模型拟和模型拟合的效果之间的关系合的效果之间的关系8. 了解残差图的作用了解残差图的作用9. 利用线性回归模型解决一类利用线性回归模型解决一类非线性回归问题非线性回归问题10.正确理解分析方法与结果正确理解分析方法与结果回归分析的基本思想及其初步应用回归分析的基本思想及其初步应用知识回顾
3、:知识回顾:对具有线性相关关系的两个变量进行回归对具有线性相关关系的两个变量进行回归分析的步骤是什么?分析的步骤是什么?(1)(1)画出两个变量的散点图(画出两个变量的散点图(相关关系相关关系)(2)(2)求回归直线方程(公式法、)求回归直线方程(公式法、)(3)(3)利用回归直线方程进行预报利用回归直线方程进行预报x xb by ya ab ba ax xb by yn n1 1i i2 22 2i in n1 1i ii ii in n1 1i i2 2i in n1 1i ii ii ix xn nx xy yx xn ny yx x) )x x(x(x) )y y)(y)(yx x(x
4、(x回归直回归直线过样线过样本点的本点的中心中心n n1 1i i2 2i in n1 1i i2 2i in n1 1i ii ii i) )y y(y(y) )x x(x(x) )y y)(y)(yx x(x(xr r相关系数的计算公式:相关系数的计算公式:相关系数相关系数r r的的作用:作用:1 1、判断正、负相关、判断正、负相关当当r0r0时,两个变量时,两个变量正相关正相关当当r0r0时,两个变量时,两个变量负相关负相关2 2、判断线性相关的强弱、判断线性相关的强弱当当0.75|r|10.75|r|1时,两个变量相关性时,两个变量相关性很强很强当当0.3|r|0.750.3|r|0.
5、75时,两个变量相关性时,两个变量相关性一般一般当当0|r|0.250|r|0.25时,两个变量相关性时,两个变量相关性较弱较弱正相关正相关负相关负相关例例1 从某大学中随机选取从某大学中随机选取8名女大学生,其身高和体重名女大学生,其身高和体重数据如表数据如表1-1所示。所示。编号12345678身高/cm165165 157 170 175 165 155 170体重/kg4857505464614359求根据一名女大学生的身高预报她的体重的回归方程,求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为并预报一名身高为172cm的女大学生的体重。的女大学生的体重。案例案例1:女
6、大学生的身高与体重:女大学生的身高与体重(1)画散点图)画散点图例例1 从某大学中随机选取从某大学中随机选取8名女大学生,其身高和体重名女大学生,其身高和体重数据如表数据如表1-1所示。所示。编号12345678身高/cm165165 157 170 175 165 155 170体重/kg4857505464614359求根据一名女大学生的身高预报她的体重的回归方程,求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为并预报一名身高为172cm的女大学生的体重。的女大学生的体重。案例案例1:女大学生的身高与体重:女大学生的身高与体重(2)建立回归方程)建立回归方程172.8584
7、9. 0 xy例例1 从某大学中随机选取从某大学中随机选取8名女大学生,其身高和体重名女大学生,其身高和体重数据如表数据如表1-1所示。所示。编号12345678身高/cm165165 157 170 175 165 155 170体重/kg4857505464614359求根据一名女大学生的身高预报她的体重的回归方程,求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为并预报一名身高为172cm的女大学生的体重。的女大学生的体重。案例案例1:女大学生的身高与体重:女大学生的身高与体重(3)相关系数的计算与解释)相关系数的计算与解释798. 0n n1 1i i2 2i in n1
8、 1i i2 2i in n1 1i ii ii i) )y y(y(y) )x x(x(x) )y y)(y)(yx x(x(xr r探究:探究:身高为身高为172cm的女大学生的体重一定是的女大学生的体重一定是60.316kg吗?如果不是,你能解析一下原因吗?吗?如果不是,你能解析一下原因吗?我们可以用下面的我们可以用下面的线性回归模型线性回归模型来表示:来表示:y=bx+a+e, (3)其中其中a和和b为模型的未知参数,为模型的未知参数,e称为随机误差称为随机误差。y=bx+a+e,E(e)=0,D(e)= (4) 2.在线性回归模型在线性回归模型(4)中,随机误差中,随机误差e的方差的
9、方差 越小,通过越小,通过回归直线回归直线 (5)2ybxa预报真实值预报真实值y的精度越高。随机误差是引起预报值的精度越高。随机误差是引起预报值 与真实值与真实值y之间的误差的原因之一,其大小取决于随机误差的方差。之间的误差的原因之一,其大小取决于随机误差的方差。y 另一方面,由于公式另一方面,由于公式(1)和和(2)中中 和和 为截距和斜率的估计值,为截距和斜率的估计值,它们与真实值它们与真实值a和和b之间也存在误差,这种误差是引起预报值之间也存在误差,这种误差是引起预报值与真实值与真实值y之间误差的另一个原因。之间误差的另一个原因。 y ab思考思考:产生随机误差项产生随机误差项e的原因
10、是什么?的原因是什么?随机误差随机误差e e的来源的来源( (可以推广到一般):可以推广到一般):1、忽略了其它因素的影响:影响身高、忽略了其它因素的影响:影响身高 y 的因素不只的因素不只是体重是体重 x,可能还包括遗传基因、饮食习惯、生,可能还包括遗传基因、饮食习惯、生长环境等因素;长环境等因素;2、用线性回归模型近似真实模型所引起的误差;、用线性回归模型近似真实模型所引起的误差;3、身高、身高 y 的观测误差。的观测误差。 以上三项误差越小,说明我们的回归模型的拟合以上三项误差越小,说明我们的回归模型的拟合效果越好。效果越好。函数模型与回归模型之间的差别函数模型与回归模型之间的差别函数模
11、型:abxy回归模型:eabxy可以提供选择模型的准则函数模型与回归模型之间的差别函数模型与回归模型之间的差别函数模型:abxy回归模型:eabxy 线性回归模型线性回归模型y=bx+a+e增加了随机误差项增加了随机误差项e,因变量,因变量y的值由自变量的值由自变量x和和随机误差项随机误差项e共同确定,即共同确定,即自变量自变量x只能解析部分只能解析部分y的变化的变化。 在统计中,我们也把自变量在统计中,我们也把自变量x称为解析变量称为解析变量,因变量,因变量y称为称为预报变量。预报变量。所以,对于身高为所以,对于身高为172cm的女大学生,由回归方程可以预报其体重为的女大学生,由回归方程可以
12、预报其体重为 0.849 7285.71260.316()ykg思考:思考:如何刻画预报变量(体重)的变化?这个变化在多大程度上如何刻画预报变量(体重)的变化?这个变化在多大程度上与解析变量(身高)有关?在多大程度上与随机误差有关?与解析变量(身高)有关?在多大程度上与随机误差有关? 假设身高和随机误差的不同不会对体重产生任何影响,那么所有人的体重将相假设身高和随机误差的不同不会对体重产生任何影响,那么所有人的体重将相同。同。在体重不受任何变量影响的假设下,设在体重不受任何变量影响的假设下,设8名女大学生的体重都是她们的平均值,名女大学生的体重都是她们的平均值,即即8个人的体重都为个人的体重都
13、为54.5kg。54.554.554.554.554.554.554.554.5体重/kg170155165175170157165165身高/cm87654321编号54.5kg在散点图中,所有的点应该落在同一条在散点图中,所有的点应该落在同一条水平直线上,但是观测到的数据并非如水平直线上,但是观测到的数据并非如此。此。这就意味着这就意味着预报变量(体重)的值预报变量(体重)的值受解析变量(身高)或随机误差的影响受解析变量(身高)或随机误差的影响。怎样研究随机误差怎样研究随机误差5943616454505748体重/kg170155165175170157165165身高/cm8765432
14、1编号 例如,编号为例如,编号为6的女大学生的体重并没有落在水平直线上,她的体重为的女大学生的体重并没有落在水平直线上,她的体重为61kg。解析。解析变量(身高)和随机误差共同把这名学生的体重从变量(身高)和随机误差共同把这名学生的体重从54.5kg“推推”到了到了61kg,相差,相差6.5kg,所以所以6.5kg是解析变量和随机误差的是解析变量和随机误差的组合效应组合效应。 编号为编号为3的女大学生的体重并也没有落在水平直线上,她的体重为的女大学生的体重并也没有落在水平直线上,她的体重为50kg。解析。解析变量(身高)和随机误差共同把这名学生的体重从变量(身高)和随机误差共同把这名学生的体重
15、从50kg“推推”到了到了54.5kg,相差,相差-4.5kg,这时解析变量和随机误差的组合效应为这时解析变量和随机误差的组合效应为-4.5kg。用这种方法可以对所有预报变量计算组合效应。用这种方法可以对所有预报变量计算组合效应。数学上,把每个效应(观测值减去总的平均值)的平方加起来,即用数学上,把每个效应(观测值减去总的平均值)的平方加起来,即用21()niiyy表示总的效应,称为表示总的效应,称为总偏差平方和总偏差平方和。在例在例1中,总偏差平方和为中,总偏差平方和为354。5943616454505748体重/kg170155165175170157165165身高/cm87654321
16、编号 那么,在这个总的效应(总偏差平方和)中,有多少来自于解析变量(身高)?那么,在这个总的效应(总偏差平方和)中,有多少来自于解析变量(身高)?有多少来自于随机误差?有多少来自于随机误差? 假设随机误差对体重没有影响,也就是说,体重仅受身高的影响,那么散点图假设随机误差对体重没有影响,也就是说,体重仅受身高的影响,那么散点图中所有的点将完全落在回归直线上。但是,在图中,数据点并没有完全落在回归中所有的点将完全落在回归直线上。但是,在图中,数据点并没有完全落在回归直线上。直线上。这些点散布在回归直线附近,所以一定是随机误差把这些点从回归直线上这些点散布在回归直线附近,所以一定是随机误差把这些点
17、从回归直线上“推推”开了开了。在例在例1中,残差平方和约为中,残差平方和约为128.361。 因此,数据点和它在回归直线上相应位置的差异因此,数据点和它在回归直线上相应位置的差异 是随机误差的效应,是随机误差的效应,称称 为为残差残差。)iiyy(iiieyy=例如,编号为例如,编号为6的女大学生,计算随机误差的效应(残差)为:的女大学生,计算随机误差的效应(残差)为:61 (0.849 16585.712)6.627对每名女大学生计算这个差异,然后分别将所得的值平方后加起来,用数学符号对每名女大学生计算这个差异,然后分别将所得的值平方后加起来,用数学符号21()niiiyy称为称为残差平方和
18、残差平方和,它代表了随机误差的效应。它代表了随机误差的效应。表示为:表示为:即,即,( , )Q a b类比样本方差估计总体方差的思想,可以用类比样本方差估计总体方差的思想,可以用作为作为 的估计量,的估计量, 越小,预报精度越高。越小,预报精度越高。22111( , )(2)22nieQ a b nnn22离差平方和的分解离差平方和的分解 (三个平方和的意义)1.1.总偏差平方和总偏差平方和( (SSTSST) )2.2.残差平方和残差平方和( (SSESSE) )3.3.回归平方和回归平方和( (SSRSSR) ) 2n1iiy-y 2n1iiy -y 2n1iiy-y 2n1iiy -y
19、- 解析变量和随机误差的总效应(解析变量和随机误差的总效应(总偏差平方和总偏差平方和)=解析变量的效应(解析变量的效应(回归平方和回归平方和)+随机误差的效应(随机误差的效应(残差平方和残差平方和)我们可以用我们可以用相关指数相关指数R2来刻画回归的效果,其计算公式是来刻画回归的效果,其计算公式是22121()11()niiiniiyyRyy 残差平方和。总偏差平方和 总偏差平方和总偏差平方和回归平方和回归平方和 2n1ii2n1ii2n1iiy-yy -y-y-y样本决定系数样本决定系数 (相关指数 )1.回归平方和回归平方和占占总偏差平方和总偏差平方和的比例的比例22121()11()ni
20、iiniiyyRyy残 差 平 方 和。总 偏 差 平 方 和显然,显然,R2的值越大,说明残差平方和越小,也就是说模型拟合效果越好。的值越大,说明残差平方和越小,也就是说模型拟合效果越好。在线性回归模型中,在线性回归模型中,R2表示表示解析变量解析变量对对预报变量预报变量变化的贡献率。变化的贡献率。 R2越接近越接近1,表示回归的效果越好(因为,表示回归的效果越好(因为R2越接近越接近1,表示解析变量和预报变量的线性相关性越强)表示解析变量和预报变量的线性相关性越强)。 如果某组数据可能采取几种不同回归方程进行回归分析,如果某组数据可能采取几种不同回归方程进行回归分析,则可以通过比较则可以通
21、过比较R2的值来做出选择,即选取的值来做出选择,即选取R2较大的模型较大的模型作为这组数据的模型。作为这组数据的模型。总的来说:总的来说:相关指数相关指数R2是度量模型拟合效果的一种指标。是度量模型拟合效果的一种指标。在线性模型中,它在线性模型中,它代表自变量刻画预报变量的能力。代表自变量刻画预报变量的能力。我们可以用我们可以用相关指数相关指数R2来刻画回归的效果,其计算公式是来刻画回归的效果,其计算公式是22121()11()niiiniiyyRyy残差平方和。总偏差平方和1354总偏差平方和总偏差平方和0.36128.361残差变量残差变量0.64225.639解释变量解释变量比例比例平方
22、和平方和来源来源表表1-3 从表从表3-1中可以看出,中可以看出,解析变量解析变量对对总效应总效应约约贡献了贡献了64%,即即R2=0.64,可以叙述为,可以叙述为“身高解析了身高解析了64%的体重变化的体重变化”,而随机误差贡献了剩余的而随机误差贡献了剩余的36%。 所以,身高对体重的效应比随机误差的效应大得多。所以,身高对体重的效应比随机误差的效应大得多。我们可以用我们可以用相关指数相关指数R2来刻画回归的效果,其计算公式是来刻画回归的效果,其计算公式是22121()11()niiiniiyyRyy残差平方和。总偏差平方和表表3-2列出了女大学生身高和体重的原始数据以及相应的残差数据。列出
23、了女大学生身高和体重的原始数据以及相应的残差数据。 在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用回归模型来拟合数据。是否可以用回归模型来拟合数据。残差分析与残差图的定义:残差分析与残差图的定义: 然后,我们可以通过残差然后,我们可以通过残差 来判断模型拟合的效果,判断原始来判断模型拟合的效果,判断原始数据中是否存在可疑数据,数据中是否存在可疑数据,这方面的分析工作称为残差分析这方面的分析工作称为残差分析。12,ne ee 编号编号12345678身高身高/cm165165157170175
24、165155170体重体重/kg4857505464614359残差残差-6.3732.6272.419-4.6181.1376.627-2.8830.382 我们可以利用图形来分析残差特性,作图时纵坐标为残差,横坐标可以选为样本我们可以利用图形来分析残差特性,作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为编号,或身高数据,或体重估计值等,这样作出的图形称为残差图残差图。2022-6-13郑平正 制作残差图的制作及作用。残差图的制作及作用。坐标纵轴为残差变量,横轴可以有不同的选择;坐标纵轴为残差变量,横轴可以有不同的选择;若模型选择的正确,残差图中的
25、点应该分布在以若模型选择的正确,残差图中的点应该分布在以横轴为心的带形区域横轴为心的带形区域;对于远离横轴的点,要特别注意对于远离横轴的点,要特别注意。身高与体重残差图异常点 错误数据 模型问题 几点说明:几点说明: 第一个样本点和第第一个样本点和第6个样本点的残差比较大,需要确认在采集过程中是否有人为个样本点的残差比较大,需要确认在采集过程中是否有人为的错误。如果数据采集有错误,就予以纠正,然后再重新利用线性回归模型拟合数的错误。如果数据采集有错误,就予以纠正,然后再重新利用线性回归模型拟合数据;如果数据采集没有错误,则需要寻找其他的原因。据;如果数据采集没有错误,则需要寻找其他的原因。 另
26、外,残差点比较均匀地落在水平的带状区域中,说明选用的模型计较合适,这另外,残差点比较均匀地落在水平的带状区域中,说明选用的模型计较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高。样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高。学以致用:学以致用:1、在对两个变量,进行线性回归分析时有、在对两个变量,进行线性回归分析时有下列步骤:下列步骤:对所求出的回归方程作出解释,收集数据(,)对所求出的回归方程作出解释,收集数据(,)求线性回归方程,求相关系数,根据所搜集的数据绘求线性回归方程,求相关系数,根据所搜集的数据绘制散点图如果根据可靠性要求能够作
27、出变量,具有线制散点图如果根据可靠性要求能够作出变量,具有线性相关结论,则在下列操作顺序中正确的是()性相关结论,则在下列操作顺序中正确的是()ixiyD学以致用:学以致用:2、对于相关指数,下列说法正确的是(、对于相关指数,下列说法正确的是()2R2R2R、的取植越小,模型拟合效果越好、的取植越小,模型拟合效果越好、的取值可以是任意大,且取值越大拟合效果越好、的取值可以是任意大,且取值越大拟合效果越好、的取值越接近,模型拟合效果越好、的取值越接近,模型拟合效果越好、以上答案都不对、以上答案都不对2R2R2RC学以致用:学以致用:3、甲、乙、丙,丁四位同学各自对,两变量、甲、乙、丙,丁四位同学
28、各自对,两变量的线性相关性做实验,并用回归分析方法分别求得的线性相关性做实验,并用回归分析方法分别求得相关系数相关系数r与残差平方和与残差平方和m如下表:如下表:甲甲乙丙丁r0.820.780.690.85m106115124103则哪位同学的实验结果体现,两变量有更则哪位同学的实验结果体现,两变量有更强的线性相关性强的线性相关性甲乙丙丁甲乙丙丁D学以致用:学以致用:4、 已知两个变量已知两个变量x和和y之间有线性相关性,次实之间有线性相关性,次实验得到样本如下:验得到样本如下:6.13.920y3210 x()则()则y对对x的线性回归方程是的线性回归方程是()相应于各样本点的残差()相应于
29、各样本点的残差(i=1,2,3,4)分别是,分别是,残差平方和是残差平方和是ie0.1-2.05xy 0.10.05-0.10.050.025例例2、在一段时间内,某中商品的价格、在一段时间内,某中商品的价格x元和需求量元和需求量Y件之间件之间的一组数据为:的一组数据为:求出求出Y对的回归直线方程,并说明拟合效果的好坏。对的回归直线方程,并说明拟合效果的好坏。价格价格x1416182022需求量需求量Y1210753解:解:18,7.4,xy555221111660,327,620,iiiiiiixyx y7.4 1.15 1828.1.a1.1528.1.yx 回归直线方程为:5152215
30、5iiiiix yxybxx26205 18 7.41.15.16605 18 例例2、在一段时间内,某中商品的价格、在一段时间内,某中商品的价格x元和需求量元和需求量Y件之间件之间的一组数据为:的一组数据为:求出求出Y对的回归直线方程,并说明拟合效果的好坏。对的回归直线方程,并说明拟合效果的好坏。价格价格x1416182022需求量需求量Y1210753列出残差表为列出残差表为521()iiiyy0.3,521()iiyy53.2,5221521()1()iiiiiyyRyy 0.994因而,拟合效果较好。因而,拟合效果较好。iiyyiyy00.3-0.4-0.10.24.62.6-0.4-
31、2.4-4.4用身高预报体重时,需要注意下列问题:用身高预报体重时,需要注意下列问题:1、回归方程只适用于我们所研究的样本的总体;、回归方程只适用于我们所研究的样本的总体;2、我们所建立的回归方程一般都有时间性;、我们所建立的回归方程一般都有时间性;3、样本采集的范围会影响回归方程的适用范围;、样本采集的范围会影响回归方程的适用范围;4、不能期望回归方程得到的预报值就是预报变量的精、不能期望回归方程得到的预报值就是预报变量的精 确值。事实上,它是预报变量的可能取值的平均值。确值。事实上,它是预报变量的可能取值的平均值。这些问题也适用于其他问题。这些问题也适用于其他问题。涉及到统计的一些思想:涉
32、及到统计的一些思想:模型适用的总体;模型的时间性;模型适用的总体;模型的时间性;样本的取值范围对模型的影响;样本的取值范围对模型的影响;模型预报结果的正确理解。模型预报结果的正确理解。小结小结一般地,建立回归模型的基本步骤为:一般地,建立回归模型的基本步骤为:(1)确定研究对象,明确哪个变量是解析变量,)确定研究对象,明确哪个变量是解析变量,哪个变量是预报变量。哪个变量是预报变量。(2)画出确定好的解析变量和预报变量的散点图,)画出确定好的解析变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等)。观察它们之间的关系(如是否存在线性关系等)。(3)由经验确定回归方程的类型(如我们观察到)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程数据呈线性关系,则选用线性回归方程y=bx+a).(4)按一定规则估计回归方程中的参数(如最小二乘法)。)按一定规则估计回归方程中的参数(如最小二乘法)。(5)得出结果后分析残差图是否有异常(个别数据)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性,等对应残差过大,或残差呈现不随机的规律性,等等),过存在异常,则检查数据是否有误,或模型等),过存在异常,则检查数据是否有误,或模型是否合适等。是否合适等。