《数学模型课件.pptx》由会员分享,可在线阅读,更多相关《数学模型课件.pptx(119页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、回归模型回归模型是用是用统计方法统计方法建立的最常用的一类模型建立的最常用的一类模型.机理分析和机理分析和统计分析统计分析是数学建模的两种基本方法是数学建模的两种基本方法通过对数据的通过对数据的统计分析找出统计分析找出与数据拟合最好与数据拟合最好的模型的模型.不涉及回归分析的数学原理和方法不涉及回归分析的数学原理和方法.通过通过实例实例讨论如何讨论如何选择选择不同类型不同类型的的回归回归模型模型.对软件得到的结果进行对软件得到的结果进行分析分析,对模型进行,对模型进行改进改进.第九章 统计模型通过实例介绍通过实例介绍判别分析、主成分分析判别分析、主成分分析等模型等模型.第九章 统计模型9.1孕
2、妇孕妇吸烟与胎儿吸烟与胎儿健康健康9.2软件开发人员的薪金软件开发人员的薪金9.3酶促反应酶促反应9.4投资额投资额与生产总值和与生产总值和物价指数物价指数9.5冠心病冠心病与年龄与年龄9.6蠓虫蠓虫分类分类判别判别9.7学生学生考试成绩综合评价考试成绩综合评价9.8艾滋病艾滋病疗法的评价和疗效的疗法的评价和疗效的预测预测9.1孕妇吸烟与胎儿健康孕妇吸烟与胎儿健康吸烟有害健康!孕妇吸烟是否会伤害到腹中的胎儿吸烟有害健康!孕妇吸烟是否会伤害到腹中的胎儿?对于对于新生儿新生儿体重,体重,吸烟吸烟比妇女怀孕前身高、体重、受孕历比妇女怀孕前身高、体重、受孕历史等因素的影响更为史等因素的影响更为显著显著
3、美国公共卫生总署美国公共卫生总署警告警告1.新生儿体重新生儿体重(oz)1201131281231082.孕妇怀孕期(天)孕妇怀孕期(天)2842822799992823.新生儿胎新生儿胎次次(1第第1胎胎,0非第非第1胎胎)101014.孕妇怀孕时年龄孕妇怀孕时年龄27332836235.孕妇怀孕前身孕妇怀孕前身高高(in)62646469676.孕妇怀孕前孕妇怀孕前体重体重(lb)1001351151901257.孕妇吸烟孕妇吸烟状况状况(1吸烟吸烟,0不不吸烟吸烟)00111美国儿童保健和发展美国儿童保健和发展项目项目(CHDS)提供的数据提供的数据(1236个出生个出生后至少存活后至少
4、存活28天男性天男性单胞胎单胞胎新生儿体重新生儿体重及其母亲及其母亲的资料的资料)data0901.m研究目的研究目的利用利用CHDS的数据建立新生儿体重与孕妇怀孕期、的数据建立新生儿体重与孕妇怀孕期、吸烟状况等因素的数学模型,定量地讨论:吸烟状况等因素的数学模型,定量地讨论:孕妇吸烟是否会使孕妇吸烟是否会使早产率增加早产率增加,怀孕期长短对,怀孕期长短对新生儿体重有影响吗;新生儿体重有影响吗;对于新生儿体重来说,对于新生儿体重来说,孕妇吸烟孕妇吸烟是否是比孕妇年是否是比孕妇年龄、身高、体重等龄、身高、体重等更为显著的决定因素更为显著的决定因素;对对每个年龄段每个年龄段来说,孕妇吸烟对新生儿体
5、重和来说,孕妇吸烟对新生儿体重和早产率的影响是怎样的。早产率的影响是怎样的。问题背景及分析问题背景及分析美国公共卫生总署的美国公共卫生总署的警告警告容易容易受到受到人们的人们的质疑质疑:按照按照是否吸烟划分人群所做是否吸烟划分人群所做的研究,只能的研究,只能依赖于依赖于观测数据,观测数据,而而无法无法做人为的实验做人为的实验,很难,很难确定新生确定新生儿体重的差别儿体重的差别是是因为因为吸烟,还是其它因素吸烟,还是其它因素(如如怀孕怀孕期期长短长短、吸烟孕妇吸烟孕妇多是多是体重体重较较轻轻的的年青年青人等人等).“孕妇吸烟可能导致胎儿受损、早产及新生儿低体孕妇吸烟可能导致胎儿受损、早产及新生儿
6、低体重重”的的警告不如警告不如“吸烟导致肺癌吸烟导致肺癌”来得强来得强,是,是由于由于对孕妇吸烟与胎儿对孕妇吸烟与胎儿健康间的生理学关系健康间的生理学关系研究得研究得不够不够.参数估计参数估计吸烟比不吸烟孕妇新生儿吸烟比不吸烟孕妇新生儿体重体重平均低平均低9oz(250g),新生儿新生儿体重低的体重低的比例明显高比例明显高.吸烟比不吸烟孕妇怀孕期吸烟比不吸烟孕妇怀孕期平均短平均短2天天,早产率差不多早产率差不多.参数估计参数估计不吸烟孕妇(不吸烟孕妇(n=742)吸烟孕妇(吸烟孕妇(n=484)新生儿新生儿体重均值体重均值的点估计的点估计 y0=123.0472 y1=114.1095新生儿体
7、重均值的区间估计新生儿体重均值的区间估计 121.7932124.3011112.4930115.7260新生儿体重低比例的点估计新生儿体重低比例的点估计 r0=0.0310r1=0.0826怀孕期均值怀孕期均值的点估计的点估计 x0=280.1869(n=733)x1=277.9792怀孕期均值的区间估计怀孕期均值的区间估计278.9812281.3926276.6273279.3311早产率的点估计早产率的点估计q0=0.0764q1=0.0854新生儿体重和怀孕期的差别在统计学上是否显著?新生儿体重和怀孕期的差别在统计学上是否显著?prog0901a.m假设检验假设检验吸烟吸烟孕妇的新生
8、儿体重比不吸烟孕妇的低、孕妇的新生儿体重比不吸烟孕妇的低、且且新生儿新生儿体重低的比例高体重低的比例高,在,在统计学统计学上有上有显著显著意义意义.假设检验假设检验假设假设检验结果检验结果(=0.05)新生儿体重新生儿体重均值均值H0:y0 y1,H1:y0 y1拒绝拒绝H0,接受接受H1新生儿体重低新生儿体重低比例比例 H0:r0r1,H1:r0 x1拒绝拒绝H0,接受接受H1早早产率产率H0:q0=q1,H1:q0q1接受接受H0,拒绝拒绝H1(t=0.5663)吸烟与不吸烟吸烟与不吸烟孕妇孕期孕妇孕期和早产率的和早产率的差别差别难以难以肯定肯定是显著是显著的的(若若=0.01将接受将接受
9、怀孕期均值怀孕期均值相等的假设相等的假设)prog0901a.m一元线性回归分析一元线性回归分析假设检验假设检验结果:结果:孕妇孕妇吸烟状况对吸烟状况对新生儿体重大小有新生儿体重大小有显著影响显著影响,但是对怀孕期长短的影响难以确定,但是对怀孕期长短的影响难以确定。新生儿新生儿体重与体重与怀孕期怀孕期的的关系关系如何?如何?直直线线y=b0+b1x描描述述了了数数据据的的变化趋势,但是变化趋势,但是拟合拟合得不好得不好.怎样怎样衡量由拟合得到的衡量由拟合得到的模型的模型的有效性有效性?模型模型系数精确度系数精确度和模型和模型预测的数值预测的数值范围多范围多大?大?480位位吸吸烟烟孕孕妇妇的的
10、怀怀孕孕期期x和和新生儿体重新生儿体重yxy拟合直线拟合直线 y=b0+b1x一元线性一元线性回归回归模型模型y=b0+b1x+随机随机变量变量 除除x外外,影响影响y的随机因素的的随机因素的总和总和,对于不同的对于不同的x,相互独立相互独立且且服从服从N(0,2)分布分布.系数系数 系数估计值系数估计值系数置信区间系数置信区间b0-51.2983-77.5110-25.0856b10.59490.50080.6891R2=0.2438,F=154,pF(1,n-2)=3.8610(=0.05),应,应拒绝拒绝H0:b1=0的假设,模型有效的假设,模型有效。b1置信区间置信区间较长,决定系数较
11、长,决定系数R2较小较小(y的的24.38%由由x决定决定),剩余方差剩余方差s2较大较大,模型模型的精度不的精度不高高.480位位 吸吸烟烟孕孕妇妇数数据据x,y模型模型求解求解怀孕期怀孕期x,新生儿新生儿体重体重y模模型型检检验验prog0901b.m 吸烟孕妇怀孕期增加吸烟孕妇怀孕期增加一天,一天,新生儿体重平均增加约新生儿体重平均增加约0.6oz.不不是是x=0时时y的的估计估计,只能只能在数在数据据范围范围内内(x=220340天天)估计估计.一元线性一元线性回归回归模型模型y=b0+b1x+怀孕期怀孕期x,新生儿新生儿体重体重y模模型型解解释释模模型型预预测测模型精度不模型精度不高
12、导致预测区间高导致预测区间如此之如此之大!大!一元线性一元线性回归回归模型模型y=b0+b1x+怀孕期怀孕期x,新生儿新生儿体重体重y误差误差的的估计值估计值(均值均值为为0的的正态分布正态分布)若若数据残差数据残差的置信区间不含的置信区间不含零点零点,称为称为异常异常点点(偏离偏离整体整体数据的变化数据的变化趋势趋势),应剔除应剔除。系数系数 系数估计值系数估计值系数置信区间系数置信区间b0-53.6126-77.0606-30.1645b10.60070.51640.6850R2=0.3040F=196p0.0001s2=182虽然虽然b0和和b1的估计值变化不大,但置信区间变短,的估计值
13、变化不大,但置信区间变短,且且R2 和和F变大,变大,s2减小,说明减小,说明模型精度得到模型精度得到提高提高.prog0901b.m一元线性一元线性回归回归模型模型y=b0+b1x+怀孕期怀孕期x,新生儿新生儿体重体重y系数系数 系数估计值系数估计值系数置信区间系数置信区间b033.533014.998952.0671b10.32010.25410.3860R2=0.1165F=90p0.0001s2=181690位位不不吸吸烟烟孕孕妇妇数数据据x,y(剔剔除除异常点异常点后后)不不吸烟孕妇怀孕期增加吸烟孕妇怀孕期增加一天,一天,新生儿体重新生儿体重平均平均只只增加增加0.32oz.对对吸烟
14、孕妇吸烟孕妇是是增加增加约约0.6oz,二者相差很大!二者相差很大!将将吸烟吸烟状况作为状况作为另另一自变量一自变量,建立新生儿体重建立新生儿体重与与2个自变量的回归模型个自变量的回归模型,利用,利用全体全体孕妇数据进行孕妇数据进行分析分析.prog0901c.m多多元元线性回归分析线性回归分析y新生儿体重新生儿体重,x1孕妇怀孕期孕妇怀孕期,x2=0,1 不吸烟不吸烟,吸烟吸烟.模型模型y=b0+b1x1+b2x2+x1相同相同时时,吸烟比不吸烟比不吸烟吸烟孕妇孕妇的的新生儿体重平均约低新生儿体重平均约低8.8oz.对于吸烟状况对于吸烟状况x2相同的孕妇相同的孕妇,x1增加一天增加一天y平均
15、增加平均增加0.44oz.在在吸烟孕妇吸烟孕妇的的0.6与不与不吸烟孕妇吸烟孕妇的的0.32oz之间之间.与参数估计与参数估计的的数值数值相同相同,但增加但增加了了x1相同相同的的条件条件.1145位位全全部部孕孕妇妇数数据据(剔除异常点剔除异常点后后)多多元元线性回归分析线性回归分析系数系数 系数估计值系数估计值系数置信区间系数置信区间b034.092515.460552.7244b10.31810.25170.3844b2-87.0738-116.9656-57.1820b30.28040.17340.3875R2=0.2766F=145p0.0001s2=183模型模型y=b0+b1x1
16、+b2x2+模型有效模型有效,但是但是R2较小较小,s2较大较大,仍仍有有改进改进余地余地.增加乘积项增加乘积项x1x2x1和和x2对对y的的综合综合影响影响y=b0+b1x1+b2x2+b3x1x2+x2=0 x2=1不吸烟孕妇吸烟孕妇的一元模型的一元模型吸烟吸烟孕妇孕妇的一元模型的一元模型prog0901d.m变量选择与逐步回归变量选择与逐步回归CHDS提供的数据中提供的数据中除孕妇除孕妇怀孕期和吸烟状况怀孕期和吸烟状况外外,还有还有孕妇孕妇怀孕怀孕时的年龄、体重、身高和胎次时的年龄、体重、身高和胎次状况状况.变量变量选择选择从从应用的应用的角度希望角度希望将将所有影响所有影响显著的自显著
17、的自变量都变量都纳入模型纳入模型,又希望最终的模型尽量,又希望最终的模型尽量简单简单.逐步回归逐步回归迭代迭代式的变量选择式的变量选择方法方法.新生儿体重模型新生儿体重模型中中是否应该加入是否应该加入其他的其他的自变量自变量?利用利用CHDS数据提供的全部数据提供的全部信息信息,通过逐步回归通过逐步回归方法方法选择变量选择变量,建立建立新生儿体重新生儿体重的线性回归模型的线性回归模型.x1(孕妇怀孕期孕妇怀孕期),x2(胎胎次次状况状况),x3(年龄年龄),x4(身高身高),x5(体重体重),x6(吸烟状况吸烟状况)组成组成候选变量候选变量集合集合S.选取选取x1,x6为初始为初始子集子集S0
18、用逐步回归用逐步回归方法方法建立建立新生儿新生儿体重体重y的线性回归模型的线性回归模型继续继续进行,直到不能引入和移出为止进行,直到不能引入和移出为止.从从S0外外的的S中中引入引入一个一个对对y影响影响最大最大的的x,S0S1.对对S1中中的的x进行进行检验,检验,移出移出一个一个影响最小影响最小的的,S1S2.引入引入和移出都以给定的和移出都以给定的显著性水平显著性水平为标准为标准.显著性水平取显著性水平取缺省值缺省值(引入引入=0.05,移出移出=0.10)MATLAB统计工具箱中的逐步回归统计工具箱中的逐步回归逐步回归命令逐步回归命令stepwise第第1个输出个输出图形图形按照提示按
19、照提示点击,引入点击,引入x4x1,x6在模型中,给出在模型中,给出系系数估计值和置信区间数估计值和置信区间prog0901e.mMATLAB统计工具箱中的逐步回归统计工具箱中的逐步回归按照提示按照提示点击,依次引入点击,依次引入x4,x2,x5最终模型最终模型包含包含除除x3外的所有自变量外的所有自变量用逐步回归用逐步回归方法方法建立建立新生儿新生儿体重体重y的线性回归模型的线性回归模型x1(怀孕期怀孕期),x2(胎次胎次状况状况),x4(身高身高),x5(体重体重),x6(吸烟吸烟状况状况).x1,x2,x4,x5相同相同时时,吸烟吸烟比不比不吸烟吸烟孕妇孕妇的的新生儿体重新生儿体重平均低
20、平均低8.4oz.孕妇孕妇的怀孕期、身高、体重对的怀孕期、身高、体重对新生儿体重的新生儿体重的影响是正面影响是正面的的.第第1胎新生儿体重比非第胎新生儿体重比非第1胎胎平均平均约约低低3.3oz(第第1胎胎x2=1).yx1x2x3x4x5x6y1.00000.4075-0.04390.02700.20370.1559-0.2468x11.00000.0809-0.05340.07050.0237-0.0603x21.0000-0.35100.0435-0.0964-0.0096x31.0000-0.00650.1473-0.0678x41.00000.43530.0175x51.0000-0
21、.0603x61.0000y和各自变量和各自变量的的相关系数矩阵相关系数矩阵与与y相关性相关性较强的是怀孕期较强的是怀孕期x1,吸烟吸烟状况状况x6,身高身高x4.自变量间自变量间相关性较强的有:孕妇体重相关性较强的有:孕妇体重x5与身高与身高x4的的正相关正相关;年龄年龄x3与胎次状况与胎次状况x2的的负相关负相关(年龄年龄越大第越大第1胎胎x2=1越少越少).相关分析相关分析当当几几个个自变量间自变量间有有较强相关性较强相关性时时,删除删除多余的只多余的只保留一保留一个个不会不会对对模型有效性模型有效性和精确度有多大和精确度有多大影响影响.不同年龄段孕妇吸烟对新生儿体重的影响不同年龄段孕妇
22、吸烟对新生儿体重的影响小于小于25岁岁2530岁岁3035岁岁大于大于35岁岁b0-66.3893-39.1296-157.1307-130.1740b1(怀孕期怀孕期)0.39720.35210.59510.6728b2-0.9978-7.4124-0.0932-4.1835b41.21440.84091.68280.8747b5-0.00210.09590.05570.0732b6(吸烟状况吸烟状况)-8.4119-8.2656-10.5411-6.4008R20.25490.23300.33940.3136s2211.6359239.7201272.6021304.7208n444362
23、211157孕妇孕妇按年龄分组按年龄分组建立建立y与与x1,x2,x4,x5,x6的回归模型的回归模型对于对于x1和和x6两两个个影响影响y的的主要主要因素因素,30岁岁以下两以下两组组结果差别结果差别不大不大,而而与与30岁岁以上两以上两组则有组则有一定差异一定差异.建立模型研究薪金与资历、管理责任、教育程度的关系建立模型研究薪金与资历、管理责任、教育程度的关系.分析人事策略的合理性,作为新聘用人员薪金的参考分析人事策略的合理性,作为新聘用人员薪金的参考.9.2软件开发人员的薪金软件开发人员的薪金编号编号薪金薪金资历资历(从事从事专业工作专业工作年数年数)管理管理(1-管理管理人员人员,0-
24、非管理非管理人员)人员)教育教育(1-中学,中学,2-大学,大学,3-更高更高程度程度)0113876111021160810303187011134619346200146名软件开发人员的档案资料名软件开发人员的档案资料data0902.m分析与假设分析与假设 y 薪金,薪金,x1资历(年)资历(年)x2=1 管理人员,管理人员,x2=0 非管理人员非管理人员1=中学中学2=大学大学3=更高更高 资历每加一年资历每加一年,薪金的增长是常数;薪金的增长是常数;管理、教育、资历之间无交互作用管理、教育、资历之间无交互作用.教教育育线性回归模型线性回归模型 a0,a1,a4是待估计的回归系数,是待
25、估计的回归系数,是随机误差是随机误差中学:中学:x3=1,x4=0;大学:大学:x3=0,x4=1;更高:更高:x3=0,x4=0假设假设模型求解模型求解R2,F,p模型整体上可用模型整体上可用资历增加资历增加1年年薪金增长薪金增长546管理人员薪金管理人员薪金多多6883中学程度薪金比中学程度薪金比更高的少更高的少2994大学程度薪金比大学程度薪金比更高的多更高的多148a4置信区间包含零置信区间包含零点,解释不可靠点,解释不可靠!中学:中学:x3=1,x4=0;大学:大学:x3=0,x4=1;更高:更高:x3=0,x4=0.x2=1 管理,管理,x2=0 非管理非管理x1资历资历(年年)系
26、数系数 系数估计值系数估计值系数置信区间系数置信区间a0110321025811807a1546484608a2688362487517a3-2994-3826-2162a4148-636931R2=0.957F=226 p0.0001s2=106prog0902a.m残差分析方法残差分析方法结果分析结果分析残差残差e 与资历与资历x1的关系的关系 e与管理与管理教育组合的关系教育组合的关系残差全为正残差全为正,或全为负或全为负,管管理理教育组合处理不当教育组合处理不当.残差大概分成残差大概分成3个水平个水平,6种管理种管理教育组合混在教育组合混在一起,未正确反映一起,未正确反映.应在模型中增
27、加管理应在模型中增加管理x2与与教育教育x3,x4的交互项的交互项.组合组合 123456管理管理 010101教育教育 112233管理与教育的组合管理与教育的组合进一步的模型进一步的模型增加管理增加管理x2与教育与教育x3,x4的交互项的交互项R2,F有改进有改进,所有系数所有系数置信置信区间不含零点区间不含零点,模型可用模型可用.消除了不正常现象消除了不正常现象异常数据异常数据(33号号)应去掉应去掉!e x1e 组合组合系数系数 系数估计值系数估计值系数置信区间系数置信区间a0112041104411363a1497486508a2704868417255a3-1727-1939-15
28、14a4-348-545152a5-3071-3372-2769a6183615712101R2=0.9988F=5545p0.0001s2=3 104prog0902b.m去掉异常去掉异常数据数据e x1e 组合组合R2:0.95670.99880.9998F:226 554536701s2:1043 1044 103置信区间置信区间长度更短长度更短残差残差图十分正常图十分正常最终最终模型完全可用!模型完全可用!系数系数 系数估计值系数估计值系数置信区间系数置信区间a0112001113911261a1498494503a2704169627120a3-1737-1818-1656a4-35
29、6-431281a5-3056-31712942a6199718942100R2=0.9998F=36701p0.0001s2=4 103prog0902c.m模型应用模型应用 制订制订6种管理种管理教育组合人员的教育组合人员的“基础基础”薪金薪金(资历为资历为0)组合组合管理管理教育教育系数系数“基础基础”薪金薪金101a0+a39463211a0+a2+a3+a513448302a0+a410844412a0+a2+a4+a619882503a011200613a0+a218241中学:中学:x3=1,x4=0;大学:;大学:x3=0,x4=1;更高:更高:x3=0,x4=0 x1=0;x
30、2=1 管理,管理,x2=0 非管理非管理大学程度管理人员比更高程度管理人员的薪金高大学程度管理人员比更高程度管理人员的薪金高.大学程度非管理人员比更高程度非管理人员的薪金略低大学程度非管理人员比更高程度非管理人员的薪金略低.对定性因素对定性因素(如管理、教育如管理、教育)可以可以引入引入0-1变量变量处理,处理,0-1变量的个数可比定性因素的水平少变量的个数可比定性因素的水平少1.软件开发人员的薪金软件开发人员的薪金残差分析方法残差分析方法可以发现模型的缺陷,可以发现模型的缺陷,引入交互作用项引入交互作用项常常能够改善模型常常能够改善模型.剔除异常数据剔除异常数据,有助于得到更好的结果,有助
31、于得到更好的结果.注:可以直接对注:可以直接对6种管理种管理教育组合引入教育组合引入5个个0-1变量变量.问问题题研究酶促反应(研究酶促反应(酶催化反应)酶催化反应)中嘌呤霉素对反中嘌呤霉素对反应速度与底物应速度与底物(反应物)(反应物)浓度之间关系的影响浓度之间关系的影响.建立数学模型,反映该酶促反应的速度与底建立数学模型,反映该酶促反应的速度与底物浓度以及经嘌呤霉素处理与否之间的关系物浓度以及经嘌呤霉素处理与否之间的关系.设计了两个实验设计了两个实验:酶经过嘌呤霉素处理;:酶经过嘌呤霉素处理;酶未经嘌呤霉素处理酶未经嘌呤霉素处理.实验数据见下表实验数据见下表.方方案案底物浓度底物浓度(pp
32、m)0.020.060.110.220.561.10反应反应速度速度处理处理764797107123 139 159 152 191 201 207 200未处理未处理6751848698115 131 124 144 158 160/9.3酶促反应酶促反应基本模型基本模型 Michaelis-Menten模型模型y 酶促反应的速度酶促反应的速度,x 底物浓度底物浓度 1,2 待定待定系数系数底物浓度较小时,反应速度大致与浓度成正比;底物浓度较小时,反应速度大致与浓度成正比;底物浓度很大、渐进饱和时,反应速度趋于固定值底物浓度很大、渐进饱和时,反应速度趋于固定值.酶促反应的基本性质酶促反应的基
33、本性质 xyO 1实验实验数据数据经嘌呤霉经嘌呤霉素处理素处理xy未经嘌呤未经嘌呤霉素处理霉素处理xy线性化模型线性化模型 嘌呤霉素嘌呤霉素处理后实验数据的估计结果处理后实验数据的估计结果 对对 1,2非线性非线性 对对 1,2线性线性 系数系数系数估计值系数估计值系数置信区间系数置信区间 15.10723.53866.6758 20.24720.17570.3188R2=0.8557F=59.2975p0.0001s2=3.580610-6prog0903a.m线性化模型结果分析线性化模型结果分析 x较大时,较大时,y有较大偏差有较大偏差1/x较小时有很好的较小时有很好的线性趋势,线性趋势,
34、1/x较大较大时出现很大的起落时出现很大的起落.参数估计时,参数估计时,x较小较小(1/x很大很大)的数据控的数据控 制了回归参数的确定制了回归参数的确定.1/y1/xxyMATLAB命令命令beta,R,J=nlinfit(x,y,model,beta0)MATLAB命令命令betaci=nlparci(beta,R,J)非线性模型参数估计非线性模型参数估计系数系数系数估计值系数估计值系数置信区间系数置信区间 1212.6837197.2045228.1629 20.06410.04570.0826 1,2估计值估计值函数函数M文件文件数据数据残差残差 1,2初值初值(取取线性化线性化结果结
35、果)1,2置信区间置信区间prog0903a.m prog0903a1.m非线性模型结果分析非线性模型结果分析画面左下方的画面左下方的Export 输出其他统计结果输出其他统计结果.拖动画面的十字线,得拖动画面的十字线,得y的预测值和预测区间的预测值和预测区间剩余标准差剩余标准差s=10.9337最终反应速度为最终反应速度为MATLAB命令命令 nlintool 给出给出交互画面交互画面o 原始数据原始数据+拟合结果拟合结果 半速度点半速度点(达到最终速度达到最终速度一半时的一半时的x值值)为为混合反应模型混合反应模型 x1为底物浓度,为底物浓度,x2为一示性变量为一示性变量x2=1表示经过处
36、理,表示经过处理,x2=0表示未经处理表示未经处理1是未经处理的最终反应速度是未经处理的最终反应速度 1是经处理后最终反应速度的增长值是经处理后最终反应速度的增长值 2是未经处理的反应的半速度点是未经处理的反应的半速度点2是经处理后反应的半速度点的增长值是经处理后反应的半速度点的增长值 在同一模型中考虑嘌呤霉素处理的影响在同一模型中考虑嘌呤霉素处理的影响混合模型求解混合模型求解 2置信区间包含零点,置信区间包含零点,表明表明 2对因变量对因变量y的影响不的影响不显著显著.o 原始数据原始数据+拟合结果拟合结果 未经未经处理处理经处理经处理系数系数 系数估计值系数估计值系数置信区间系数置信区间
37、1160.2802145.8466174.7137 20.04770.03040.0650 152.403532.413072.3941 20.0164-0.00750.0403初值初值经嘌呤霉素处理的作用不影响半速度点经嘌呤霉素处理的作用不影响半速度点参数参数.可忽略可忽略 2,将模型简化,将模型简化.剩余标准差剩余标准差s=10.4000prog0903b.mprog0903b1.mo 原始数据原始数据+拟合结果拟合结果 未经未经处理处理经处理经处理简化的混合模型简化的混合模型 简化的混合模型简化的混合模型形式简单,形式简单,参数置信区间参数置信区间不含零点不含零点.系数系数 系数估计值系
38、数估计值系数置信区间系数置信区间 1166.6025154.4886178.7164 20.05800.04560.0703 142.025228.941955.1085剩余标准差剩余标准差s=10.5851(比比一般一般混合模型略混合模型略大大).prog0903b.mprog0903b2.m一般混合模型与简化混合模型预测比较一般混合模型与简化混合模型预测比较实际值实际值一般模型预测值一般模型预测值(一般一般模型模型)简化模型预测值简化模型预测值(简化简化模型模型)6747.34439.207842.73585.44465147.34439.207842.73585.44468489.285
39、69.571084.73567.0478207200.968811.0447198.183710.1812200200.968811.0447198.183710.1812简化混合模型的预测区间较短,更为实用、有效简化混合模型的预测区间较短,更为实用、有效.预测区间为预测区间为预测值预测值 注:非线性模型拟合程度的评价无法直接利用注:非线性模型拟合程度的评价无法直接利用线性模型的方法,但线性模型的方法,但R2 与与s仍然有效仍然有效.酶促反应酶促反应 反应速度与底物浓度的关系反应速度与底物浓度的关系非线性非线性关系关系求解求解线性模型线性模型 求解非线性模型求解非线性模型机理分析机理分析嘌呤霉
40、素处理对反应速度与底物浓度关系的影响嘌呤霉素处理对反应速度与底物浓度关系的影响混合模型混合模型 发现问题,发现问题,得参数初值得参数初值引入引入0-1变量变量简化模型简化模型 检查检查参数置信区间参数置信区间是否包含零点是否包含零点问问题题建立投资额模型,研究建立投资额模型,研究某地区某地区实际投资额与国实际投资额与国民生产总值民生产总值(GNP)及物价指数及物价指数(PI)的关系的关系.根据对未来根据对未来GNP及及PI的估计,预测未来投资额的估计,预测未来投资额.该地区该地区连续连续20年年的统计数据的统计数据 年份年份序号序号投资额投资额(亿元)(亿元)GNP(亿元)(亿元)PI年份年份
41、序号序号投资额投资额(亿元)(亿元)GNP(亿元)(亿元)PI190.9596.70.716711229.81326.41.0575297.4637.70.727712228.71434.21.15083113.5691.10.743613206.11549.21.257910195.01185.91.000020424.53073.02.06889.4投资额与生产总值和物价指数投资额与生产总值和物价指数时间序列时间序列中变量中变量的顺序观测值之间存在的顺序观测值之间存在自相关自相关.以时间为序的以时间为序的数据数据(如如投资额投资额)称为称为时间序列时间序列.分分析析许多经济数据在时间上有一
42、定的许多经济数据在时间上有一定的滞后滞后性性.需要诊断需要诊断并并消除自消除自相关性,建立新的模型相关性,建立新的模型.采用采用普通回归模型直接处理普通回归模型直接处理,会,会出现不良后果出现不良后果.投资额与国民生产总值和物价指数投资额与国民生产总值和物价指数年份年份序号序号投资额投资额(亿元)(亿元)GNP(亿元)(亿元)PI年份年份序号序号投资额投资额(亿元)(亿元)GNP(亿元)(亿元)PI190.9596.70.716711229.81326.41.0575297.4637.70.727712228.71434.21.15083113.5691.10.743613206.11549.
43、21.257910195.01185.91.000020424.53073.02.0688基本(普通的)回归基本(普通的)回归模型模型投资额与投资额与 GNP,PI之间之间均均有很强的有很强的线性关系线性关系.t 年份,年份,yt 投资额,投资额,x1t GNP,x2t PI 0,1,2 回归系数回归系数x1tytx2tyt t 对对t相互相互独立的独立的零均值正态随机变量零均值正态随机变量基本回归模型的结果与分析基本回归模型的结果与分析 t存在存在自自相关相关,违背,违背 t对对t相互相互独立独立的要求的要求.系数系数系数估计值系数估计值系数置信区间系数置信区间 0322.7250224.3
44、386421.1114 10.61850.47730.7596 2-859.4790-1121.4757-597.4823 R2=0.9908F=919.8529p 0 0如何估计如何估计 如何消除自相关如何消除自相关性性D-W统计量统计量D-W检验检验ut 对对t相互相互独立的零均值正态随机变量独立的零均值正态随机变量存在负存在负自相关性自相关性存在正存在正自相关性自相关性广义差分法广义差分法 D-W统计量与统计量与D-W检验检验 检验水平检验水平,样本容量,样本容量,回归变量数目回归变量数目D-W分布分布表表n较大较大DW4-dU44-dLdUdL20正正自自相相关关负负自自相相关关不不能
45、能确确定定不不能能确确定定无无自自相相关关检验检验临界值临界值dL和和dU由由DW值的大小确定值的大小确定自相关性自相关性广义差分变换广义差分变换 以以 0*,1,2 为为回归系数的普通回归模型回归系数的普通回归模型原模型原模型 DW值值 D-W检验检验无自相关无自相关 有自相关有自相关 广义广义差分差分继续此继续此过程过程原模型原模型 新模型新模型 新模型新模型 步骤步骤 原模型原模型变换变换不能确定不能确定增加数据量;增加数据量;选用其他方法选用其他方法.投资额新模型的建立投资额新模型的建立 DWold dL 作变换作变换 原模型原模型残差残差et样本容量样本容量n=20,回归回归变量数目
46、变量数目k=3,=0.05 查表查表临界值临界值dL=1.10,dU=1.54DWold=0.8754原模型有原模型有正自相关正自相关DW4-dU44-dLdUdL20正正自自相相关关负负自自相相关关不不能能确确定定不不能能确确定定无无自自相相关关剩余方差剩余方差s2=96.58161.7(基本模型基本模型),系数系数置信置信区间区间缩短,模型总体有效性改进。缩短,模型总体有效性改进。投资额新模型的建立投资额新模型的建立 系数系数系数估计值系数估计值系数置信区间系数置信区间 *0163.49051265.45922005.2178 10.69900.57510.8247 2-1009.0333
47、-1235.9392-782.1274R2=0.9772F=342.8988p0.0001s2=96.58prog0904.m新模型的自相关性检验新模型的自相关性检验dU DWnew 4-dU 新模型新模型残差残差et样本容量样本容量n=19,回归回归变量数目变量数目k=3,=0.05 查表查表临界值临界值dL=1.08,dU=1.53DWnew=1.5751新模型无自相关性新模型无自相关性DW4-dU44-dLdUdL20正正自自相相关关负负自自相相关关不不能能确确定定不不能能确确定定无无自自相相关关新模型新模型还原为还原为原始变量原始变量一阶自回归模型一阶自回归模型一阶自回归一阶自回归模型
48、残差模型残差et比比基本回归基本回归模型要小模型要小.新模型新模型 et*,原模型原模型 et+残差图比较残差图比较新模型新模型 t *,新模型新模型 t +拟合图比较拟合图比较模型结果比较模型结果比较基本回归模型基本回归模型一阶自回归模型一阶自回归模型投资额预测投资额预测对未来对未来投资额投资额(yt)作作预测,需先预测,需先估计出未来估计出未来的的GNP(x1t)和和PI(x2t)一阶自回归模型一阶自回归模型基本回归模型基本回归模型t 较小是由于较小是由于yt-1=424.5过小所致过小所致年份年份序号序号投资额投资额(yt)GNP(x1t)PI(x2t)年份年份序号序号投资额投资额(yt
49、)GNP(x1t)PI(x2t)190.9596.70.716718401.92631.71.7842297.4637.70.727719474.92954.71.95143113.5691.10.743620424.53073.02.0688213312.02.1938469.7638冠心病是一种常见的心脏疾病冠心病是一种常见的心脏疾病,严重危害人类的健康严重危害人类的健康.多项研究表明多项研究表明,冠心病冠心病发病率随着发病率随着年龄年龄的增加而上升的增加而上升.在冠心病流行病学研究中在冠心病流行病学研究中年龄年龄是最常见的混杂因素之一是最常见的混杂因素之一.100名被观察者的名被观察者的
50、年龄年龄及他们是否及他们是否患冠心病患冠心病的数据的数据根据以上数据建立数学模型根据以上数据建立数学模型,分析发病率与分析发病率与年龄的关系年龄的关系,并进行统计预测并进行统计预测.序号序号12399100年龄年龄2023246569冠心病冠心病(1患病患病,0不患不患)000119.5冠心病与年龄冠心病与年龄分析与假设分析与假设 被观察被观察者是独立抽取的者是独立抽取的.x被观察者被观察者年龄年龄,Y患病情况患病情况(Y=1患病患病,Y=0不患病不患病)按年龄段按年龄段分组分组统计患病人数及统计患病人数及比例比例患病比例随年龄患病比例随年龄增大递增增大递增,是介于是介于01的的S型曲线型曲线