《统计回归模型 (2)精品文稿.ppt》由会员分享,可在线阅读,更多相关《统计回归模型 (2)精品文稿.ppt(28页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、统计回归模型第1页,本讲稿共28页回归模型是用统计分析方法建立的最常用的一类模型回归模型是用统计分析方法建立的最常用的一类模型 数学建模的基本方法数学建模的基本方法机理分析机理分析测试分析测试分析通过对数据的统计分析,找出与数据拟合最好的模型通过对数据的统计分析,找出与数据拟合最好的模型 不涉及回归分析的数学原理和方法不涉及回归分析的数学原理和方法 通过实例讨论如何选择不同类型的模型通过实例讨论如何选择不同类型的模型 对软件得到的结果进行分析,对模型进行改进对软件得到的结果进行分析,对模型进行改进 由于客观事物内部规律的复杂及人们认识程度的限制由于客观事物内部规律的复杂及人们认识程度的限制,无
2、法无法分析实际对象内在的因果关系,建立合乎机理规律的数学模型。分析实际对象内在的因果关系,建立合乎机理规律的数学模型。第2页,本讲稿共28页8.1 牙膏的销售量牙膏的销售量 问问题题建立牙膏销售量与价格、广告投入之间的模型建立牙膏销售量与价格、广告投入之间的模型 预测在不同价格和广告费用下的牙膏销售量预测在不同价格和广告费用下的牙膏销售量 收集了收集了30个销售周期本公司牙膏销售量、价格、广告费个销售周期本公司牙膏销售量、价格、广告费用,及同期其它厂家同类牙膏的平均售价用,及同期其它厂家同类牙膏的平均售价 9.260.556.804.253.70307.930.055.803.853.8029
3、8.510.256.754.003.7527.38-0.055.503.803.851销售量销售量(百万支百万支)价格差价格差(元)(元)广告费用广告费用(百万元百万元)其它厂家其它厂家价格价格(元元)本公司价本公司价格格(元元)销售销售周期周期第3页,本讲稿共28页基本模型基本模型y 公司牙膏销售量公司牙膏销售量x1其它厂家与本公司其它厂家与本公司价格差价格差x2公司广告费用公司广告费用x2yx1yx1,x2解释变量解释变量(回归变量回归变量,自变量自变量)y被解释变量(因变量)被解释变量(因变量)0,1,2,3 回归系数回归系数 随机随机误差(误差(均值为零的正均值为零的正态分布随机变量)
4、态分布随机变量)第4页,本讲稿共28页MATLAB 统计工具箱统计工具箱 模型求解模型求解b,bint,r,rint,stats=regress(y,x,alpha)输入输入 x=n 4数据矩阵数据矩阵,第第1列为全列为全1向向量量alpha(置信置信水平水平,0.05)b 的的估计值估计值 bintb的置信区间的置信区间 r 残差向量残差向量y-xb rintr的置信区间的置信区间 Stats检验统计量检验统计量 R2,F,p yn维数据向量维数据向量输出输出 由数据由数据 y,x1,x2估计估计 参数参数参数估计值参数估计值置信区间置信区间17.32445.7282 28.92061.30
5、700.6829 1.9311-3.6956-7.4989 0.1077 0.34860.0379 0.6594 R2=0.9054 F=82.9409 p=0.0000 0 1 2 3第5页,本讲稿共28页结果分析结果分析y的的90.54%可由模型确定可由模型确定 参数参数参数估计值参数估计值置信区间置信区间17.32445.7282 28.92061.30700.6829 1.9311-3.6956-7.4989 0.1077 0.34860.0379 0.6594 R2=0.9054 F=82.9409 p=0.0000 0 1 2 3F远超过远超过F检验的临界值检验的临界值 p远小于远
6、小于=0.05 2的置信区间包含零点的置信区间包含零点(右端点距零点很近右端点距零点很近)x2对因变量对因变量y 的影的影响不太显著响不太显著x22项显著项显著 可将可将x2保留在模型中保留在模型中 模型从整体上看成立模型从整体上看成立第6页,本讲稿共28页销售量预测销售量预测 价格差价格差x1=其它厂家其它厂家价格价格x3-本公司本公司价格价格x4估计估计x3调整调整x4控制价格差控制价格差x1=0.2元,投入广告费元,投入广告费x2=650万元万元销售量预测区间为销售量预测区间为 7.8230,8.7636(置信度(置信度95%)上限用作库存管理的目标值上限用作库存管理的目标值 下限用来把
7、握公司的现金流下限用来把握公司的现金流 若估计若估计x3=3.9,设定,设定x4=3.7,则可以,则可以95%的把握知道销的把握知道销售额在售额在 7.8320 3.7 29(百万元)以上(百万元)以上控制控制x1通过通过x1,x2预测预测y(百万支百万支)第7页,本讲稿共28页模型改进模型改进x1和和x2对对y的的影响独立影响独立 参数参数参数估计值参数估计值置信区间置信区间17.32445.7282 28.92061.30700.6829 1.9311-3.6956-7.4989 0.1077 0.34860.0379 0.6594 R2=0.9054 F=82.9409 p=0.0000
8、 0 1 2 3参数参数参数估计值参数估计值置信区间置信区间29.113313.7013 44.525211.13421.9778 20.2906-7.6080-12.6932 -2.5228 0.67120.2538 1.0887-1.4777-2.8518 -0.1037 R2=0.9209 F=72.7771 p=0.0000 3 0 1 2 4x1和和x2对对y的影响有的影响有交互作用交互作用第8页,本讲稿共28页两模型销售量预测两模型销售量预测比较比较(百万支百万支)区间区间 7.8230,8.7636区间区间 7.8953,8.7592(百万支百万支)控制价格差控制价格差x1=0.
9、2元,投入广告费元,投入广告费x2=6.5百万元百万元预测区间长度更短预测区间长度更短 略有增加略有增加 第9页,本讲稿共28页x2=6.5x1=0.2 x1x1x2x2两模型两模型 与与x1,x2关系的关系的比较比较第10页,本讲稿共28页交互作用影响的讨论交互作用影响的讨论价格差价格差 x1=0.1 价格差价格差 x1=0.3加大广告投入使销售量增加加大广告投入使销售量增加(x2大于大于6百万元)百万元)价格差较小时增加的价格差较小时增加的速率更大速率更大 x2价格优势会使销售量增加价格优势会使销售量增加 价格差较小时更需要靠广告价格差较小时更需要靠广告来吸引顾客的眼球来吸引顾客的眼球 第
10、11页,本讲稿共28页完全二次多项式模型完全二次多项式模型 MATLAB中有命令中有命令rstool直接求解直接求解x1x2从输出从输出 Export 可得可得第12页,本讲稿共28页8.2 软件开发人员的薪金软件开发人员的薪金资历资历 从事专业工作的年数;管理从事专业工作的年数;管理 1=管理人员,管理人员,0=非管理人员;非管理人员;教育教育 1=中学,中学,2=大学,大学,3=更高程度更高程度建立模型研究薪金与资历、管理责任、教育程度的关系建立模型研究薪金与资历、管理责任、教育程度的关系分析人事策略的合理性,作为新聘用人员薪金的参考分析人事策略的合理性,作为新聘用人员薪金的参考 编编号号
11、薪金薪金资资历历管管理理教教育育0113876111021160810303187011130411283102编编号号薪金薪金资资历历管管理理教教育育422783716124318838160244174831601451920717024619346200146名软件开发人员的档案资料名软件开发人员的档案资料 第13页,本讲稿共28页分析与假设分析与假设 y 薪金,薪金,x1 资历(年)资历(年)x2=1 管理人员,管理人员,x2=0 非管理人员非管理人员1=中学中学2=大学大学3=更高更高资历每加一年薪金的增长是常数;资历每加一年薪金的增长是常数;管理、教育、资历之间无交互作用管理、教育
12、、资历之间无交互作用 教教育育线性回归模型线性回归模型 a0,a1,a4是待估计的回归系数,是待估计的回归系数,是随机误差是随机误差 中学:中学:x3=1,x4=0;大学:大学:x3=0,x4=1;更高:更高:x3=0,x4=0 第14页,本讲稿共28页模型求解模型求解参数参数参数估计值参数估计值置信区间置信区间a011032 10258 11807 a1546 484 608 a26883 6248 7517 a3-2994-3826 -2162 a4148-636 931 R2=0.957 F=226 p=0.000R2,F,p 模型整体上可用模型整体上可用资历增加资历增加1年薪金年薪金增
13、长增长546 管理人员薪金多管理人员薪金多6883 中学程度薪金比更高的中学程度薪金比更高的少少2994 大学程度薪金比更高大学程度薪金比更高的多的多148 a4置信区间包含零点,解置信区间包含零点,解释不可靠释不可靠!中学:中学:x3=1,x4=0;大大学:学:x3=0,x4=1;更高:更高:x3=0,x4=0.x2=1 管理,管理,x2=0 非管理非管理x1资历资历(年年)第15页,本讲稿共28页残差分析方法残差分析方法 结果分析结果分析残差残差e 与资历与资历x1的关系的关系 e与管理与管理教育组合的关系教育组合的关系 残差全为正,或全为负,管理残差全为正,或全为负,管理教教育组合处理不
14、当育组合处理不当 残差大概分成残差大概分成3个水平,个水平,6种管理种管理教育组合混在一教育组合混在一起,未正确反映起,未正确反映。应在模型中增加管理应在模型中增加管理x2与教育与教育x3,x4的交互项的交互项 组合组合123456管理管理010101教育教育112233管理与教育的组合管理与教育的组合第16页,本讲稿共28页进一步的模型进一步的模型增加管理增加管理x2与教育与教育x3,x4的交互项的交互项参数参数参数估计值参数估计值置信区间置信区间a01120411044 11363a1497486 508a270486841 7255a3-1727-1939 -1514a4-348-545
15、 152a5-3071-3372-2769a618361571 2101R2=0.999 F=554 p=0.000R2,F有改进,所有回归系数置信区间有改进,所有回归系数置信区间都不含零点,模型完全可用都不含零点,模型完全可用 消除了不正常现象消除了不正常现象 异常数据异常数据(33号号)应去掉应去掉 e x1 e 组合组合第17页,本讲稿共28页去掉异常数据后去掉异常数据后的结果的结果参数参数参数估计值参数估计值置信区间置信区间a01120011139 11261a1498494 503a270416962 7120a3-1737-1818 -1656a4-356-431 281a5-30
16、56-3171 2942a619971894 2100R2=0.9998 F=36701 p=0.0000e x1 e 组合组合R2:0.957 0.999 0.9998F:226 554 36701 置信区间长度更短置信区间长度更短残差残差图十分正常图十分正常最终模型的结果可以应用最终模型的结果可以应用第18页,本讲稿共28页模型应用模型应用 制订制订6种管理种管理教育组合人员的教育组合人员的“基础基础”薪金薪金(资历为资历为0)组合组合管理管理教育教育系数系数“基础基础”薪金薪金101a0+a39463211a0+a2+a3+a513448302a0+a410844412a0+a2+a4+
17、a619882503a011200613a0+a218241中学:中学:x3=1,x4=0;大学:;大学:x3=0,x4=1;更高:更高:x3=0,x4=0 x1=0;x2=1 管理,管理,x2=0 非管理非管理大学程度管理人员比更高程度管理人员的薪金高大学程度管理人员比更高程度管理人员的薪金高 大学程度非管理人员比更高程度非管理人员的薪金略低大学程度非管理人员比更高程度非管理人员的薪金略低 第19页,本讲稿共28页对定性因素对定性因素(如管理、教育如管理、教育),可以,可以引入引入0-1变量变量处理,处理,0-1变变量的个数应比定性因素的水平少量的个数应比定性因素的水平少1 软件开发人员的薪
18、金软件开发人员的薪金残差分析方法残差分析方法可以发现模型的缺陷,可以发现模型的缺陷,引入交互作用项引入交互作用项常常常常能够改善模型能够改善模型 剔除异常数据剔除异常数据,有助于得到更好的结果,有助于得到更好的结果注:可以直接对注:可以直接对6种管理种管理教育组合引入教育组合引入5个个0-1变量变量 第20页,本讲稿共28页8.3 酶促反应酶促反应 问问题题研究酶促反应(研究酶促反应(酶催化反应)酶催化反应)中嘌呤霉素对反应速中嘌呤霉素对反应速度与底物度与底物(反应物)(反应物)浓度之间关系的影响浓度之间关系的影响 建立数学模型,反映该酶促反应的速度与底物浓建立数学模型,反映该酶促反应的速度与
19、底物浓度以及经嘌呤霉素处理与否之间的关系度以及经嘌呤霉素处理与否之间的关系 设计了两个实验设计了两个实验:酶经过嘌呤霉素处理;酶未经嘌呤:酶经过嘌呤霉素处理;酶未经嘌呤霉素处理。实验数据见下表霉素处理。实验数据见下表:方方案案底物浓度底物浓度(ppm)0.020.060.110.220.561.10反反应应速度速度处处理理764797107123139159152191201207200未未处处理理6751848698115131124144158160/第21页,本讲稿共28页线性化模型线性化模型 经嘌呤霉素处理后实验数据的估计结果经嘌呤霉素处理后实验数据的估计结果 参数参数参数估参数估计值
20、计值(10-3)置信区置信区间间(10-3)15.1073.539 6.676 20.2470.176 0.319R2=0.8557 F=59.2975 p=0.0000对对 1,2非线性非线性 对对 1,2线性线性 第22页,本讲稿共28页线性化模型结果分析线性化模型结果分析 x较大时,较大时,y有较大偏差有较大偏差 1/x较小时有很好的线性较小时有很好的线性趋势,趋势,1/x较大时出现很较大时出现很大的起落大的起落 参数估计时,参数估计时,x较小较小(1/x很大)的数据控制很大)的数据控制了回归参数的确定了回归参数的确定 1/y1/xxy第23页,本讲稿共28页beta,R,J=nlinf
21、it(x,y,model,beta0)beta的置信区间的置信区间MATLAB 统计工具箱统计工具箱 输入输入 x自自变变量量数据矩阵数据矩阵y 因变量数据向量因变量数据向量beta 参数的估计值参数的估计值R 残差,残差,J 估计预测误差估计预测误差的的Jacobi矩阵矩阵 model 模型的函数模型的函数M文件名文件名beta0 给定的参数初值给定的参数初值 输出输出 betaci=nlparci(beta,R,J)非线性模型参数估计非线性模型参数估计function y=f1(beta,x)y=beta(1)*x./(beta(2)+x);x=;y=;beta0=195.8027 0.0
22、4841;beta,R,J=nlinfit(x,y,f1,beta0);betaci=nlparci(beta,R,J);beta,betaci beta0线性化模线性化模型估计结果型估计结果 第24页,本讲稿共28页非线性模型结果分析非线性模型结果分析参数参数参数估参数估计值计值置信区置信区间间 1212.6819197.2029 228.1609 20.06410.0457 0.0826 画面左下方的画面左下方的Export 输输出其它统计结果。出其它统计结果。拖动画面的十字线,得拖动画面的十字线,得y的预测值和预测区间的预测值和预测区间剩余标准差剩余标准差s=10.9337最终反应速度为
23、最终反应速度为半速度点半速度点(达到最终速度一半达到最终速度一半时的时的x值值)为为其它输出其它输出命令命令nlintool 给出交互画面给出交互画面o 原始数据原始数据+拟合结果拟合结果 第25页,本讲稿共28页混合反应模型混合反应模型 x1为底物浓度,为底物浓度,x2为一示性变量为一示性变量 x2=1表示经过处理,表示经过处理,x2=0表示未经处理表示未经处理 1是未经处理的最终反应速度是未经处理的最终反应速度 1是经处理后最终反应速度的增长值是经处理后最终反应速度的增长值 2是未经处理的反应的半速度点是未经处理的反应的半速度点 2是经处理后反应的半速度点的增长值是经处理后反应的半速度点的
24、增长值 在同一模型中考虑嘌呤霉素处理的影响在同一模型中考虑嘌呤霉素处理的影响第26页,本讲稿共28页o 原始数据原始数据+拟合结果拟合结果 混合模型求解混合模型求解用用nlinfit 和和 nlintool命令命令估计结果和预测估计结果和预测剩余标准差剩余标准差s=10.4000 参数参数参数估参数估计值计值置信区置信区间间 1160.2802145.8466 174.7137 20.04770.0304 0.0650 152.403532.4130 72.3941 20.0164-0.0075 0.0403 2置信区间包含零点,置信区间包含零点,表明表明 2对因变量对因变量y的影响不显著的影
25、响不显著参数初值参数初值(基于对数据的分析基于对数据的分析)经嘌呤霉素处理的作用不影响半速度点参数经嘌呤霉素处理的作用不影响半速度点参数未经未经处理处理经处理经处理第27页,本讲稿共28页注:非线性模型拟合程度的评价无法直接利用线性注:非线性模型拟合程度的评价无法直接利用线性模型的方法,但模型的方法,但R2 与与s仍然有效。仍然有效。酶促反应酶促反应 反应速度与底物浓度的关系反应速度与底物浓度的关系非线性非线性关系关系求解求解线性模型线性模型 求解非线性模型求解非线性模型机理分析机理分析嘌呤霉素处理对反应速度与底物浓度关系的影响嘌呤霉素处理对反应速度与底物浓度关系的影响混合模型混合模型 发现问题,发现问题,得参数初值得参数初值引入引入0-1变量变量简化模型简化模型 检查检查参数置信区参数置信区间间是否包含零点是否包含零点第28页,本讲稿共28页