《(精品word)高中数学回归分析的基本思想及其初步应用知识梳理教案新人教A版选修2-3.pdf》由会员分享,可在线阅读,更多相关《(精品word)高中数学回归分析的基本思想及其初步应用知识梳理教案新人教A版选修2-3.pdf(4页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、(精品 word)高中数学回归分析的基本思想及其初步应用知识梳理教案新人教A 版选修 2-3回归分析的基本思想及其初步应用知识梳理回归分析的基本思想及其初步应用知识梳理一线性回归方程的确定一线性回归方程的确定如果一组具有相关关系的数据(x1,y1),(x2,y2),(xn,yn),作出散点图大致分布在一条直线附近,那么我 bx a们称这样的变量之间的关系为线性相关关系(也称一元线性相关),这条直线就是回归直线,记为y那么如何求得参数a和b使得各点与此直线的距离的平方和为最小,即如何求得线性回归方程呢?bx a中,当x取xi时,yibxia与实际收集到的数据yi之间的偏差为在所求回归直线方程yy
2、i yi yi(bxia),偏差的平方为(yi yi)2yi(bxia)2(如图 1).即Q(yibxia)2来刻画出n个点与回归直线在整体上的偏差的平方和,显然 Q 取最小值时的i1na,b的值就是我们所求的:b(x x)(y y)x y nx yiiiii1nn(x x)ii1n2i1nxi12inx2a ybx1n1n其中(xi,yi)为样本数据,x xi,y yi为样本平均数,(x,y)称为样本点中心,且所求线性回归nini直线经过样本点中心(如图 2 所示)当回归直线斜率b 0时,为线性正相关,b 0时为线性负相关.应注意,这个最小距离不是通常所指的各数据的点(xi,yi)到直线的距
3、离,而是各数据点(xi,yi)沿平行 y 轴方向到直线的距离(如图 1 所示)yy(yi yi)2yiy bxay bxayyixxo图 2noxix对于上面参数a和b的求法原理及方法是简单的,但是运算量较大,需要将Q(yibxia)2展开,再合并,图 1i1然后配方整理,从而求得a,b.例如,当a,b,m,n取怎样实数时,(an)2(bm)2k的值为最小,显然当a m,b n时最小值为k,bx a中的参数b,a就是这样求出的。像这样配方求最值的方法是经常用到的,线性回归方程y(精品 word)高中数学回归分析的基本思想及其初步应用知识梳理教案新人教A 版选修 2-3教材中用了添项法较为简捷的
4、求出了截距a和斜率b分别是使Q(,)(yixi)2取最小值时i1n,的值求得(x x)(y y)iii1n(x x)ii1n,y x的值,请同学们体会其解法2线性回归方程的确定是进行回归分析的基础二回归分析:是对具有相关关系的两个变量进行统计分析的一种常用方法线性相关关系的强弱两个变量之间线性相关关系的样本相关系数r(x x)(y y)iii1n(x x)(y y)2iii1i1nn衡量线性相性关系的强弱,由于2分子与斜率b的分子一样,因此,当r 0时,两个变量正相关;当r 0时两个变量负相关当r的绝对值接近,表明两个变量的线性相关性很强;当r的绝对值接近,表明两个变量之间几乎不存在线性相关关
5、系 规定当r 0.75时,我们认为两个变量有很强的线性相关关系解释变量与随机误差对预报精度的影响以及残差分析(1)有关概念y bxae线性回归模型2E(e)0,D(e)其中a和b为模型的未知参数;yei yi yiyiy bxax称为解释变量,y称为预报变量;yi bx a之间的误差,e是y与ye叫随机误差.随机误差的估计值为oxi图 3xei yi yi yibxiaei称为相应于样本点(xi,yi)的残差(如图)(2)随机误差的方差估计值衡量回归方程的预报精度21n由于随机误差的均值E(e)ei0,ni11n21e因此,可以用随机误差的方差估计值Q(a,b)(其中n 2,残差平方和为in2
6、i1n22Q(a,b)(yi yi))衡量回归方程的预报精度,显然越小,预报精度越高。2i1n2(精品 word)高中数学回归分析的基本思想及其初步应用知识梳理教案新人教A 版选修 2-3(3)通过残差分析判断模型拟合效果由ei yi yi yibxia计算出残差e1,e2,,en,然后选取横坐标为编号、或解释变量或预报变量,纵坐标为残差作出残差图通过图形分析,如果样本点的残差较大,就要分析样本数据的采集是否有错误;另一方面,可以通过残差点分布的水平带状区域的宽窄,说明模型拟合效果,反映回归方程的预报精度3相关指数R2反应模型的拟合效果R 12(yi yi)(yi yi)2i1i1nn2(y
7、y)(y y)2iiiii1i1nn2(y y)iii1n2(1)变量理解:(yi yi)2为总偏差平方和,表示解释变量和随机误差产生的总的效应;i1n(y y)iii1niin2为残差平方和,表示了随机误差效应;n(y y)(y y)2iii1i12,表示了解释变量效应()模型拟合效果(y y)iin2(y y)iii1i1n,反映了随机误差对预报变量(总效应)的贡献率;2R 12(y y)iin2(y y)iii1i1n反映了解释变量对预报变量(总效应)的贡献率;因此,R2越接近2(即(y y)iin2(y y)iii1i1n越接近 0),表示回归的效果越好,2即解释变量和预报变量的线性相
8、关性越强三非线性回归的问题转化为线性回归问题(1)作散点图确定曲线模型根据收集的数据作散点图(如图),可见两个变量不呈线性相关关系而是分布在某一条指数函数曲线y c1ec2x的周围,也可以认为样本点集中在某二次o(精品 word)高中数学回归分析的基本思想及其初步应用知识梳理教案新人教A 版选修 2-3曲线y c3x2c4的附近(2)非线性转化为线性这时通过对数变换把指数关系y c1ec2x变为线性关系z c2xlnc1;通过换元把二次函数y c3x2c4关系变换为线性关系y c3t c4在这两种情况下就可以利用线性回归模型,建立y和x之间的非线性回归方程了(3)比较两种模型的拟合效果对于给定的样本点(x1,y1),(x2,y2),(xn,yn),可以通过转换后的对应数表作散点图来确定线性回归的拟合情况,判断选用哪一种曲线模型较为合适;可以通过原始数据及y和x之间的非线性回归方程列出残差对比分析表,一般通过残差平方和比较两种模型的拟合效果,显然残差平方和较小的拟合效果较好;还可以用R2来比较两个模型的拟合效果,R2越大(越接近),拟合效果越好。