《回归分析方法讲义(数模基地)ppt课件.ppt》由会员分享,可在线阅读,更多相关《回归分析方法讲义(数模基地)ppt课件.ppt(62页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、回归分析方法 讲义主要内容 回归分析方法概述 一元线性回归分析 多元线性回归分析 一元非线性回归分析 多重线性回归 回归分析方法回归分析方法 一种建立统计观测值之间的数学一种建立统计观测值之间的数学关系的方法关系的方法通过自变量的变化来解释因变量的变化,从而由自变量的取值预测因变量的可能值第一节第一节 回归分析方法概述回归分析方法概述 自变量与因变量的相关关系自变量与因变量的相关关系 a. Y与Xk正线性相关b. Y与Xk负线性相关c. Y与Xk不相关XkYYYXkXk 一元线性回归的拟合线方程一元线性回归的拟合线方程bXaYXY 确定拟合方程系数值的最小二乘法确定拟合方程系数值的最小二乘法
2、原理:因变量估计值与观测值之间均方误差极小niiiniiiYbXanYYnMSE1212)(1)(1yxbMManiyiniyixiMYMYMXb121)()(极小 回归模型的检验回归模型的检验判定系数判定系数 R R2 2 用来判断回归方程的拟合优度。 通常可以认为当R2大于0.9时,所得到的回归直线拟合得较好,而当R2小于0.5时,所得到的回归直线很难说明变量之间的依赖关系。 t t 统计量统计量 如果对于某个自变量,其t统计量的P值小于显著水平(或称置信度、置信水平),则可认为该自变量与因变量是相关的。 F F 统计统计 如果F统计量的P值小于显著水平(或称置信度、置信水平),则可认为方
3、程的回归效果显著。 回归预测的步骤回归预测的步骤第一步,获取自变量和因变量的观测值。第二步,绘制XY散点图。 第三步,写出带未知参数的回归方程。 第四步,确定回归方程中参数值第五步,判断回归方程的拟合优度。第六步,进行预测 第二节第二节 一元线性回归分析一元线性回归分析店铺编号区内大学生数季度销售额(万人)(万元)10.25.820.610.530.88.840.811.851.211.761.613.77215.78216.992.214.9102.620.2 XY散点图匹萨店季度销售额与学生人数关系图051015202500.511.522.53学生数(万人)销售额(万元) 求回归系数求回
4、归系数a a和和b b的方法的方法规划求解INTERCEPT()和SLOPE()函数LINEST()函数回归分析报告散点图添加趋势线 求判定系数求判定系数R R2 2的方法的方法RSQ()函数回归分析报告趋势线练习题:练习题:试根据罗斯文公司在1996年7月4日至1998年5月8日期间各种商品的销售额数据建立线性回归模型,然后再进一步根据回归方程预测该公司1998年5月和6月的月销售额。Northwind Trader 月销售额变化趋势y = 3456.9x + 16951R2 = 0.69910200004000060000800001000001200001400000510152025月
5、序号销售额第三节第三节 多元线性回归分析多元线性回归分析 多元线性回归模型的一般形式多元线性回归模型的一般形式 多元线性回归预测步骤多元线性回归预测步骤第一步,获得候选自变量和因变量的观测值。第二步,从候选自变量中选择合适的自变量。有几种常用的方法:最优子集法向前增选法等第三步,确定回归系数,判断回归方程的拟合优度。第四步,根据回归方程进行预测。 kkXbXbXbaY.2211【例【例5-25-2】一家皮鞋零售店将其连续18个月的库存占用资金情况、广告投入的费用、员工薪酬以及销售额等方面的数据作了一个汇总,这些数据显示在工作表单元格A1:E20(图5-17)。 该皮鞋店的管理人员试图根据这些数
6、据找到销售额与其它三个变量之间的关系,以便进行销售额预测并为未来的预算工作提供参考。试根据这些数据建立回归模型。如果未来某月库存资金额为150万元,广告投入预算为45万元,员工薪酬总额为27万元,试根据建立的回归模型预测该月的销售额。 月份库存资金额X1广告投入X2员工薪酬总额X3销售额Y(万元)(万元)(万元)(万元)175.230.621.11090.4277.631.321.41133380.733.922.91242.147629.621.41003.2579.532.521.51283.2681.827.921.71012.2798.324.821.51098.8867.723.62
7、1826.397433.922.41003.31015127.724.71554.61190.845.523.2119912102.342.624.31483.113115.64023.11407.11412545.829.11551.315137.851.724.61601.216175.667.227.52311.717155.26526.52126.718174.365.426.82256.5 销售额与库存资金的关系y = 11.398x + 171.62R2 = 0.89060500100015002000250050100150200库存资金额(万元)销售额(万元)u利用多元回归模型
8、和excel分析工具可得解决方案: 销 售 额 与 广 告 投 入 的 关 系y = 28.513x + 260.17R2 = 0.83740500100015002000250020304050607080广 告 投 入 ( 万 元 )销售额(万元)销售额与员工薪酬的关系y = 150.28x - 2146.6R2 = 0.709605001000150020002500202224262830员工薪酬总额(万元)销售额(万元)u用最优子集法作自变量筛选比较结果表明,以库存资金和广告费用为自变量效果最好。2 3 4 5 6 7 8 9 G H I J R平方调整后R平方库存资金X10.891
9、0.884广告X20.8370.827薪酬X30.7100.691库存资金、广告X1、X20.9570.952广告、薪酬X2、X30.8700.852库存资金、薪酬X1、X30.8980.885库存资金、广告、薪酬 X1、X2、X30.9570.948自变量集u以库存资金和广告为自变量的回归分析报告1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 A B C D E F G H I J SUMMARY OUTPUT回归统计Multiple R0.97843234R Square0.95732984Adjusted R Square0.9516
10、4049标准误差97.1567227观测值18方差分析dfSSMSFSignificance F回归分析231766861588343 168.2669 5.3202E-11残差15 141591.4 9439.429总计173318277Coefficients 标准误差t StatP-valueLower 95% Upper 95% 下限 95.0% 上限 95.0%Intercept86.9531904 75.11706 1.157569 0.265141 -73.155131 247.061512 -73.155131 247.061512库存资金7.10892474 1.094992
11、 6.492219 1.02E-05 4.77500415 9.44284533 4.77500415 9.44284533广告13.6837314 2.824695 4.844321 0.000214 7.66303231 19.7044305 7.66303231 19.7044305 第四节第四节 一元非线性回归分析一元非线性回归分析 用一条曲线来拟合因变量对于自变量的依赖关系用一条曲线来拟合因变量对于自变量的依赖关系 通过变量替换把问题转化为一元或多元线性回归问通过变量替换把问题转化为一元或多元线性回归问题后,用线性回归分析的方法建立回归模型,并进题后,用线性回归分析的方法建立回归模型
12、,并进行预测行预测( (即化非线性回归为线性回归即化非线性回归为线性回归) )1. 用幂函数曲线拟合用幂函数曲线拟合 设则baXY XUlnYVlnbUaV lnXYa1b-1b-1(b1b 0)OO及化非线性回归为线性回归化非线性回归为线性回归的常用方法的常用方法2. .指数函数曲线拟合指数函数曲线拟合设则bXaeY YVlnXebaV)ln(lnXYa(b 0)OO3.3.对数函数曲线拟合对数函数曲线拟合 设则XbaYlnXUlnbUaYXY(b 0)OO4.4.双曲线函数拟合双曲线函数拟合 设 则XbaY1XU1bUaYXY(b 0)OOaa5.5.二次多项式及三次多项式二次多项式及三次
13、多项式 2cXbXaY32dXcXbXaYXY(c 0)OOXYO6 6、S S型(型(LogisticLogistic)曲线拟合)曲线拟合 1xKyAe变形(1)xxyAeKyAyeKlnlnxKyKyAeAxyy设【例【例5-35-3】某企业想了解公司某种产品的产量与收益之间有何关系,为此收集整理了历年的产量收益数据资料。试根据这些资料建立适当模型说明产量与收益之间的关系。 收益与产量线性拟合结果y = 0.0196x - 2.0861R2 = 0.84820510152025303540455005001000150020002500产量(X)收益(Y)收益(Y)收益估计值 作线性回归拟
14、合作线性回归拟合 直线拟合残差图直线拟合残差图产量X Residual Plot-10-5051005001000150020002500产量X残差 回归分析步骤回归分析步骤观察XY散点图,确定拟合曲线类型(对数曲线),写出带未知参数的回归方程确定参数值,方法有:规划求解变量替换添加趋势线用回归方程进行预测(注:在拟合曲线类型不能确定时,可选不同类型进行尝试,比较结果)(注:在拟合曲线类型不能确定时,可选不同类型进行尝试,比较结果)XbaYln 对数回归拟合结果对数回归拟合结果收益与产量对数拟合结果-505101520253035404505001000150020002500产量(X)收益(
15、Y)收益(Y)收益估计值 对数拟合残差图对数拟合残差图U=LN(X) Residual Plot-10-5051066.577.58U=LN(X)残差【例【例5-45-4】 就例5-2罗斯文公司的销售额数据,进行非线性回归分析,并预测98年5月和6月的销售额。 月销售额变化及线性回归结果y = 3456.9x + 16951R2 = 0.69910200004000060000800001000001200001400000510152025月序号月销售额月销售额变化及三次多项式拟合曲线y = 40.367x3 - 1147.7x2 + 10921x + 11636R2 = 0.9046020
16、0004000060000800001000001200001400000510152025月序号月销售额【例【例5-45-4】测定某肉鸡的生长过程,每两周记录一次鸡的重量,测定某肉鸡的生长过程,每两周记录一次鸡的重量,数据如下表数据如下表x/周2468101214y/kg0.30.861.732.22.472.672.8由经验知鸡的生长曲线为由经验知鸡的生长曲线为LogisticLogistic曲线,且极限生长量为曲线,且极限生长量为k=2.827k=2.827,试求试求y y对对x x的回归曲线方程。的回归曲线方程。解解 : :由题设可建立鸡重由题设可建立鸡重y y与时间与时间x x的相关
17、关系为的相关关系为 2.8271xyAe2.827ln,lnyyaAyyax令令则有则有列表计算列表计算序号序号xyyX2y2xy120.32.13144.5414.262240.860.827160.6843.309361.73-0.456360.208-2.733482.2-1.255641.576-10.0425102.47-1.9341003.741-19.3426122.67-2.8341448.029-34.0037142.8-4.64219621.544-64.982 5613.03-8.16256040.323-123.531所以所以 8.00 x 1.166y 112xxL3
18、0.807y yL 58.236xyL 0.519967xyxxLL 2.993762ayx19.96063aAe所以所求曲线方程为所以所求曲线方程为0.519972.8271 19.9606xye上机操作上机操作输入原始数据输入原始数据上机操作上机操作计算计算2.827*lnyyy上机操作上机操作上机操作上机操作上机操作上机操作是是y*,而不是,而不是y自变量自变量上机操作上机操作回归方程,还要回代系数回归方程,还要回代系数第五节第五节 多重回归分析多重回归分析 在实际问题中,自变量的个数可能多于一在实际问题中,自变量的个数可能多于一个,随机变量个,随机变量 y y与多个可控变量与多个可控变
19、量x x1 1,x,x2 2,x,x3 3,x,xk k之间是否存在相关关系,则属于多重(元)回之间是否存在相关关系,则属于多重(元)回归问题。归问题。 本节讨论多重线性回归。本节讨论多重线性回归。多重线性回归模型多重线性回归模型随机变量随机变量与与之间的线性关系之间的线性关系y12,kx xx01 122kkyxxx(1)其中其中20,N012,k , ,未知未知则(则(1)式称为多重线性回归模型。)式称为多重线性回归模型。多重线性回归模型多重线性回归模型若对变量若对变量与与分别作分别作n次观测,则可得次观测,则可得一个容量为一个容量为n的子样的子样y12,kx xx01122iiikiki
20、yxxx(2)其中其中20, (1,2, )iNin012k , ,为待定参数,称为回归系数。为待定参数,称为回归系数。(2)式含有)式含有k+1个参数,故观测次数应满足个参数,故观测次数应满足nk+1。12,1,2,iiikixxxyin则有则有多重线性回归模型的矩阵形式多重线性回归模型的矩阵形式记记12nyyYy111212122212111kknnnkxxxxxxXxxx01k12ne则(则(2)有矩阵形式)有矩阵形式YXe20,eNE其中其中其中其中确定确定的最小二乘法的最小二乘法考虑多元函数考虑多元函数 20111niikikiQyxx目标:确定目标:确定使使最小最小01,k Q方法
21、:方法:0, 1,2,iQik解得解得01 122kkyxxx多重线性回归方程多重线性回归方程线性回归方程的有效性检验线性回归方程的有效性检验方差分析法方差分析法012:0kH线性回归方程线性回归方程是否有统计意义,可检验假设是否有统计意义,可检验假设01 122kkyxxx是否成立是否成立方法:方差分析法,将总离差平方和分解方法:方差分析法,将总离差平方和分解222111nnnTiiiiiiiSSyyyyyyRESSSS线性回归方程的有效性检验线性回归方程的有效性检验方差分析法方差分析法21nRiiSSyy21nEiiiSSyy回归平方和,反映线性关系对观测结果产生的数回归平方和,反映线性关
22、系对观测结果产生的数据波动,据波动,SSR越大,线性相关关系越强。越大,线性相关关系越强。剩余平方和(或残差平方和),反映除线性因素之剩余平方和(或残差平方和),反映除线性因素之外的其它因素对观测结果产生的数据波动,外的其它因素对观测结果产生的数据波动,SSE越大,越大,则其它因素对则其它因素对Y的影响越大。的影响越大。线性回归方程的有效性检验线性回归方程的有效性检验方差分析法方差分析法221TSSn在在H0成立的条件下,可以证明:成立的条件下,可以证明: 22RSSk221ESSnk(n为观测次数,为观测次数,k为自变量个数)为自变量个数)构造构造F统计量统计量,11RESSkFF k nk
23、SSnk当当时,拒绝时,拒绝H0。,1FFk nk当当时,拒绝时,拒绝H0。,1FFk nk221TSSn回归系数的统计检验回归系数的统计检验回归方程的有效性检验,只是解决了回归方程的有效性检验,只是解决了与与之间是否有线性相关关系,至于变量之间是否有线性相关关系,至于变量对对的影响是否的影响是否有统计意义,无从看出,因此,还需对回归系数有统计意义,无从看出,因此,还需对回归系数是否是否为为0作统计检验。作统计检验。y12,kx xxixyi提出假设提出假设01:0; :0iiHH如果如果H0成立,可以证明统计量成立,可以证明统计量1(1)iiiETt nkC SSnk当当时,拒绝时,拒绝H0
24、。21Ttnk2(1)1niik ikCx利用回归方程作预测及控制利用回归方程作预测及控制对于给定的对于给定的12,kx xx001 122kkyxxx点估计值点估计值置信水平为置信水平为的预测区间为的预测区间为1102000011TTESSytXX XXnk【例【例5-55-5】某种水泥在凝固时放出的热量某种水泥在凝固时放出的热量Y(cal/g)与水泥)与水泥中下列中下列4种化学成分有关:种化学成分有关:123:3axc o Al o的成分(的成分(%)22:3axc o Sio的成分(的成分(%)32323:4axc o Al oFe o的成分(的成分(%)42:2axc o Sio的成分
25、(的成分(%)现记录了现记录了13组观测数据,列在下表中,试求组观测数据,列在下表中,试求对对的线性回归方程。的线性回归方程。y12,x x34,x x1 1223344yab xb xb xb x编号X1(%)X2(%)X3(%)X4(%)Y(cal/g)172666078.52129155274.331156820104.34113184787.6575263395.961155922109.27371176102.78131224472.59254182293.1102147426115.911140233483.8121166912113.3131068812109.4上机操作上机操作因变量因变量自变量自变量线性方程是有效的线性方程是有效的线性回归方程线性回归方程小结小结 求回归系数、判定系数求回归系数、判定系数规划求解内建函数回归分析报告添加趋势线 ExcelExcel内建函数内建函数INTERCEPT(),SLOPE()LINEST()RSQ()SUMXMY2()