《调整气象观测站问题论文.doc》由会员分享,可在线阅读,更多相关《调整气象观测站问题论文.doc(10页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、【精品文档】如有侵权,请联系网站删除,仅供学习与交流调整气象观测站问题论文.精品文档.数学建模承诺书我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。我们参赛选择的题号是(从A/B中选择一项填
2、写): B 我们的参赛报名号为(如果赛区设置报名号的话): 所属学校(请填写完整的全名): 电子科技大学中山学院 参赛队员 (打印并签名) :1. 2. 3. 指导教师或指导教师组负责人 (打印并签名): 日期: 2010 年 7 月 24 日赛区评阅编号(由赛区组委会评阅前进行编号):全国大学生数学建模竞赛编 号 专 用 页赛区评阅编号(由赛区组委会评阅前进行编号):赛区评阅记录(可供赛区评阅时使用):评阅人评分备注全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):调整气象观测站问题摘要某市为了节省开支,想要适当减少气象观测站,使得既可以节省开支,又可以
3、使得该市年降水量的信息损失最小。我们根据30年来各观测站测得的年降水量数据,通过统计分析,得到最优结果。问题一中,为了验证7、8号观测站只见是否具有相关关系,我们建立线性回归模型,然后用最小二乘法来估计回归系数、的值,求得7、8号观测站的线性回归方程,最后根据讨论结果得到7号观测站可以减少且其年降水量信息可以从8号观测站测到的数据中获取。问题二中,我们用模糊聚类分析求解,对所有数据建立原始数据矩阵,并对它进行标准化处理,运用夹角余弦法求出相似系数得到相似矩阵,然后运用传递闭包法求得结果,最后在matlab上进行求解。问题三中,在问题一、二的基础上我们选出在理论上可以减少的观测站,分别求出减少该
4、观测站并用其他观测站的数据代替该观测站的数据,计算出在减少前后该市每年的年降水量的差值,然后建立正态分布模型运用matlab得出预测误差的绝对值小于10mm和大于20mm的概率。关键字:最小二乘法 模糊聚类分析 夹角余弦法 正态分布 F检验法一、问题重述某市有10个县,每个县有一个气象观测站(位置如图),每个气象观测站测得的年降水量即为该县的年降水量。30年来各观测站测得的年降水量如下表。为了节省开支,想要适当减少气象观测站,问题是减少哪些观测站既可以节省开支,又可以使得该市年降水量的信息量损失较小。1有人认为第7个观测站和第8个观测站观测到的数据之间有相关关系,第7个观测站可以减少,第7个观
5、测站的年降水量信息可以从第8个观测站观测到的数据中获取,试讨论之。2还有哪些观测站可以减少,减少的观测站的年降水量信息如何获取。3如果以10个县年降水量的平均值为该市年平均降水量。在减少观测站以前,每个县年降水量都是观测数据。在减少观测站以后,被减少的观测站的年降水量只能从其它观测站观测到的数据中获取。减少观测站以前和减少观测站以后是用两种不同测量计算方法得到该市年平均降水量。两种不同测量计算方法得到的该结果会有误差,试预测误差的绝对值小于10mm的概率是多少?误差的绝对值大于20mm的概率是多少?二、模型假设1、该市的气候特征较稳定,不出现较大的自然灾害,30年的统计数据能够全面地反映该市的
6、气候特征;2、该市的气候不会因环境的变化而发生较大的变化;3、不考虑其他地区对该地区的影响;三、符号说明回归函数 回归变量,回归系数 回归系数第i年的随机测量误差 偏离真实直线的偏差平方和总离差平方和 残差平方和 和的相似系数 U回归平方和 第i处的降雨量 第j年的降雨量经过平移标准差变换后的值 经过平移极差变换后的值的估计值 的估计值横坐标的平均值 纵坐标的平均值总体平均数 总体标准差残差的方差 剩余标准差第m年n号观测站的年降水量数据四、模型的假设与求解4.1 问题一 对于问题一,我们验证7、8号观测站是否具有相关关系,于是我们建立线性回归模型进行验证,若7号观测站30年测得的数据与8号观
7、测站测得的数据具有相关关系,则说明7号观测站的数据可以由8号观测站取代。我们建立模型如下: y=+x+ E=0,D= 其中,固定的未知参数、为回归系数,自变量x为回归变量。 现在我们对一式的两边同时取期望得到y对x的回归直线方程:y=+x 然后用最小二乘法来估计回归系数、的值。 在我问题所给的数据中,我们得到30组独立观测值,使得它们满足上式的关系,即:y=+x+E=0,D=其中,、相互独立。 记=; 为偏离真实直线的偏差平方和,而在本文中最小二乘法就是选择、的估计、,使得:然后对将上式分别对、求偏导数,即:=-2=-2 令上式为零,得到一个关于、的表达式。 用、取代、,即:=0=0于是有:解
8、得:将化简得:其中:求导得回归方程为:将数据代入,根据matlab运行结果(见下图)得到第9和19组数据属于奇异数据 ,应当剔除,于是我们得到线性回归方程为: y= 61.4777+1.0233*x在该回归方程中,是拟合直线的斜率,是拟合直线在x=处的截距,30个点(,)得几何重心(,)总在拟合直线上,对于每组(,)可以求出拟合值,以及残差-。刚才我们求出来了线性回归方程,这只是我们对该数据做出的粗略判断,但实际上这些数据是否具有线性关系或者是显著的线性关系,则需要我们接下来的检验。 现在我们将采用F检验法对我们所求的回归方程进行检验。 我们知道对于 y=+x+当越大y随x的变化越明显;反之,
9、当 越小 ,y随x的变化越不明显,特别的,当=0时,则认为y与x之间不存在线性关系。当0时 认为具有线性关系,因此,问题转化为对假设:=0进行线性验证。假设=0被拒绝,则认为y与x存在线性关系,该方程有意义。令 =+U;其中,为总离差平方和,为残差平方和,U=(-)Q与U是相互独立的,再由F的分布的定义知,当成立时有 F=F(1,n-2)代入数据, 此时FF(1,n-2),根据F检验法知,当FF(1,n-2)时,应当拒绝,所以,原回归方程是合法的,即7、8号观测站之间具有相关关系,说明可以减少第7号观测站,其信息由8号观测站获取。 4.2 问题二(2)对于第二问,我们采用模糊聚类分析求解。首先
10、我们建立一个原始数据矩阵: 其中,n=10,m=30,然后,我们对这些数据进行标准化处理。(1) 平移标准差变换:其中是第j个指标的平均值,(2) 平移极差变换:其中1km,i=1m,j=1n (3)确立相似矩阵R: 与的相似关系和= 此时R=() 利用夹角余弦法求相似系数此时,它的相似矩阵R=()接下来我们要求的是R的传递闭包t R .RR=R, R R=R,当R R =R时 ,则有t R= R.根据闭包t R计算分类水平lamda,再利用MATLAB求出不同水平下的分类方案,并求出最合理的分类方案。MATLAB程序如见附录。根据matlab运行结果可以把分为四类:x2,x3、x6,x7、x
11、6,x8、x7,x8然后我们运用方差,求得各个观测站的方差:观测站104239方差5808.3566245.2628472.2499448.10712636.52观测站18675方差14274.0614737.4216135.416972.5219338.6根据上表可知,为了使该市的年降水量的信息损失最小,减少3、6、7号观测站,再用2号观测站的数据代替3号观测站的数据,用8号观测站的数据代替6、7号观测站的数据4.3 问题三 根据问题二的求解结果可以得到减少观测站前、后该市年降水量的理论差值,即误差,然后我们根据这些差值建立正态分布模型:、分别表示总体平均数和标准差。 根据所建立的模型,运用
12、问题二所得结论,在excel上求出所得数据,通过减少前和减少后的数据的比较作差,然后求其正态分布再在matlab上运行可得到误差的绝对值小于10mm和大于20mm的概率,它们分别为0.0677和0.5636 。程序及图见附录。五、模型评价及推广5.1 模型评价1、本文中我们建立线性回归模型,并用最小二乘法求解,在问题三中使用正态分布模型使得所得结果更有说服力,更加准确。2、在问题二中,我们运用模糊聚类分析法,在求解中请我们运用夹角余弦法、传递闭包法,使得最后结果满足既节省开支,又可以使得该市年降水量的信息损失最小。3、我们在模型假设时,没有考虑地理空间距离差异对气候的影响,所得结果与实际的测量
13、值会有一定的差值。4、本题所用模型的求解步骤较多,过程较复杂。5.2 模型推广 1、对所得结果用曲线图表示出来,使得结果更直观。 2、本题所建模型可以运用到城市规划、资源开发等方面。 3、在求解第二问时,我们减少了6、7号观测站,而用第8号观测站的数据代替6、7号观测站的数据,但我们从年降水量曲线图可知,7号观测站的年降水量处于6号和8号观测站的年降水量之间,我们可以考虑减少7号观测站,其数据用6号和8号观测站的平均代替,这样测的数据可能会更接近准确值。我们在本题中选择了偏向减少开支的解法。 六、参考文献【1】赵静 但琦 数学建模与数学试验 高等教育出版社 2000年第4版【2】郭大伟 数学建
14、模 安徽教育出版社 2009年第1版【3】邵学才 沈彤英 邓米克 将强荣 离散数学 清华大学出版社 2006年7月七、 附录7.1.1问题一散点图分析x=328 536 536 456 552 344 568 568 600 504 576 360 312 680 536 576 720 304 624 312 692 680 544 408 456 288 408 392 328 632; y=232 448 496 432 448 312 504 472 440 416 576 256 296 584 456 544 624 248 472 272 576 616 496 320 368
15、176 360 376 320 544; plot(x,y,*) xlabel(第8站测得的年降水量/mm) ylabel(第7站测得的年降水量/mm)7.1.2问题一偏差分析x=232 448 496 432 448 312 504 472 440 416 576 256 296 584 456 544 624 248 472 272 576 616 496 320 368 176 360 376 320 544; X=ones(30,1) x; Y=328 536 536 456 552 344 568 568 600 504 576 360 312 680 536 576 720 304
16、 624 312 692 680 544 408 456 288 408 392 328 632; b,bint,r,rint,stats=regress(Y,X); b,bint,stats rcoplot(r,rint) 7.2 问题二程序: clear,clcA=6004886166886486487285926885206646166087525606246489127684569127281000656624768824688744624 ;464384520440336184624440464384408512424504552384432496416320552440352368
17、480304552584416520;584520616520496312728528624376424552464584632496496592496472616480448480600384672680480680;448416488352496512432624472456392280328488360488400392408432504272496448304448472584472424;648432544880552880576728424640544720536472832472736440720616600848776720496560472432504672;17643250
18、4376448384480624544432552272344648464552752256188320544576568440352232424416432536;328536536456552344568568600504576360312680536576720304624312688680544408456288408392328632;232448496432448312504472440416576256296584456544624248472272576616496320368176360376320544;48851243255245666464046433659268857
19、6552704656480344536432648744720664608504680512568576336;544448592440544440424440368432496528336480464672504416408560512440432392560480576440368584;m n=size(A);B=biaozh(A);R=qiumhjz(B,10);tR=qiubb(R);lamda=qiusp(tR);for p=1:length(lamda) M(:,:,p)=tR=lamda(p); Disp( )%在命令窗口显示空行,方便阅读计算结果. Cl=qiucl(M(:,
20、:,p);cnum=0;for i=1:m ifisempty(cli) cnum=cnum+1;endenddisp(分为,num2str(cnum),类:); G1=x1; G2=x2; G3=x3; G4=x4; G5=x5; G6=x6; G7=x7; G8=x8; G9=x9; G10=x10; for i=1:mifisempty(cli) if length(cli)=1 Gcli(end)=;disp(”,Gcli,”,自成一类);else g=; for t=1:length(cli) g= g Gcli(t); end g(end)=;disp(”, g ,”,归为一类);
21、 end end end F(p)=qiuF(M(:,:,p),A);%计算在水平lamda(p)下相应的F统计量的值.end disp( )v,ind=max(F);%最大的统计量值F所对应的分类方案就是最合理的.Disp(在所有分类方案中分为num2str(ind)类是最合理的7.3问题三程序及图例:图:正态分布图z=normpdf(10,21.2,7.5)z = 0.0174 z=-normpdf(20,21.2,7.5)z = -0.0525 z=normpdf(20,21.2,7.5)z = 0.0525 z=normpdf(0,21.2,7.5)z = 9.7911e-004 z=
22、normpdf(1000,21.2,7.5)z = 0 z=normpdf(1,0,1)-normpdf(-1,0,1)z = 0 p=normcdf(1)p = 0.8413 p=normcdf(10)p = 1 p=normcdf(1,0,1)-normcdf(-1,0,1)p = 0.6827 p=normcdf(10,21.2,7.5)p = 0.0677 p=-normcdf(-1,0,1)p = -0.1587 p=normcdf(-1)p = 0.1587 p=normcdf(21.2,21.2,7.5)p = 0.5000 p=normcdf(10,21.2,7.5)p = 0.0677 p=normcdf(20,21.2,7.5)p = 0.4364 p=1-normcdf(20,21.2,7.5)p = 0.5636