《Markov链预测法资料.doc》由会员分享,可在线阅读,更多相关《Markov链预测法资料.doc(21页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、-+年凝冻日数的Markov链预测法4#【摘要】本文根据所给数据,利用Markov链建立了预测年凝冻日数的模型,分别从整体和局部两个角度进行分析。首先,我们直接以年凝冻日数为依据,对其进行K-均值聚类分析,划分状态。用频率估计概率的方法,估算出一步转移概率矩阵,然后建立Markov链模型。以2008年作为初始状态,估计出2009年凝冻日数所处状态为。按K-均值标准可知,即2009年凝冻的天数在15天以内的可能性为84.8%,在15天以上的可能性为15.2%。由于上述模型选取的是以年为单位的数据,只能估计出2009年的凝冻日数所处区间。为提高精度,我们选取2000-2008年的具体凝冻天数和日期
2、,记每一天只存在两种状态,出现雨凇为状态1,否则为状态0。然后由相邻两年间的状态转移变化,得出一步转移概率矩阵,。由这8个一步转移概率矩阵,根据一步转移矩阵的次方与步转移概率矩阵之差的范数和达到最小的准则,选出优化后的一步转移概率矩阵 ,再次建立Markov链模型。以2008年为初始状态,预测2009年的概率分布为 ,由频率稳定于概率,知2009年凝冻天数的估计值为14天。关键词: Markov链 转移概率矩阵 频率估计概率 1. 问题提出1.1背景知识 凝冻是指冬季出现的温度低于0有过冷却降水或固体降水和结冰现象发生的天气现象,即气象台所说的出现雨凇的天气。雨凇的形成与气温,降水量,湿度等因
3、素有关,超冷却的降水碰到温度等于或低于零摄氏度的物体表面使所形成玻璃状的透明或无光泽的表面粗糙并覆盖层,就叫做雨凇。其造成的危害巨大,高压线塔的倒塌,电力瘫痪,交通瘫痪,农作物的冻亡等。因而对出现雨凇天气的预测显得尤为重要。1.2问题分析 根据所给1969-2008年的数据,建立一个年凝冻日数的预测模型,预测2009年的凝冻日数,并作出误差分析。数据给出了是否出现雨凇与气温、降水量、湿度、气压和风速的关系,而雨凇的出现是一个随机过程,与多个因素有关,且受干预变量的影响,因而传统的回归分析方法,效果不好,而Markov链构造模型不需要从复杂的预测因子中寻找各因素之间的相互规律,只需要考虑事件本身
4、的演变特点,通过计算转移概率矩阵来预测内部状态的变化。 2. 建模准备2.1数据分析与处理 以年为单位,统计出现雨凇的天数,见表1: 年份日数年份日数年份日数19691519833199751970619842719984197101985019990197281986320001019731198732001619742019881220029197581989820038197681990620041719771619910200518197861992120061019794199362007819808199432008371981101995019827199682.2 Markov
5、链预测的理论基础2.2.1 Markov链定义 (Markov链)1 随机过程,称为Markov链,若它只取有限或可列个值(我们以来标记并称它们是过程的状态,或者其子集记为S,称为过程的状态空间).对任意的及状态有 = (5.1.1)式(5.1.1)刻画了Markov链的特性,称为Markov性。2.2.2 转移概率矩阵 由转移概率组成的矩阵,形如 称P为转移概率矩阵。且有性质: 【2】2.2.3(C-K方程) 对一切有 其证明如下: = = (全概率公式) = = = = 【3】2.3.4 传统的频率估计概率估算一步转移概率矩阵的方法为: 已知系统存在n种状态,状态空间为=0,1,2,n.假
6、设在次观测中,系统处于第种状态共有次,显然用表示系统从状态经过一步转移到状态的频数,显然有组成的矩阵称为转移频数矩阵。将转移频数矩阵的第行第列元素除以行各元素总和所得的值称为转移概率,记为。即有,于是我们得到用频率估计出一步转移概率矩阵【】 3.符号说明 符号 说明 第期的概率分布 从状态到状态的转移概率 状态空间且 频率 4模型的建立4.1 模型假设1)雨凇的年出现次数是一簇依赖于时间的随机变量,其变化过程是一个随机过程; 2)该随机过程具有无后效性; 3)雨凇年出现次数状态的一步转移概率矩阵只与时间差有关,与时间起点无关。4.2模型建立4.2.1以表1为基础,建立Markov链预测模型 :
7、 1)利用SPSS软件,以K均值聚类法将过去的年凝冻日数分为2个区间,确定每年凝冻日数的状态,见表2: 2)根据表2,以频率估计概率的方法,计算一步转移概率矩阵。出现状态的次数为,出现状态的次数为。由转为的次数为,故转移概率;由转为的次数为,故转移概率;由转为的次数为,故转移概率;由转为的次数为,故转移概率。由此可得雨凇年出现次数状态的一步转移概率矩阵为:;Markov链的基本原理就是利用初始状态概率向量和状态转移概率矩阵来推知预测对象将来一个时期所处的状态。 记,则有,称它为Markov链的初始分布,显然有。由上述 C-K方程 可知Markov链在任一时刻的一维分布由初始分布和步转移概率矩阵
8、所确定。 即Markov链的预测模型为 。 (1)4.2.2 根据所建Markov链模型,进行预测 用2008年凝冻天数作为初始状态,即.利用模型(1)式,计算可得2009年凝冻天数的一维分布为: 这表明2009年的凝冻天数所处的状态为1的概率为0.152,状态为2的概率为0.848.由之前SPSS软件的K-均值聚类可知,凝冻的天数在15天以内的可能性为84.8%,在15天以上的可能性为15.2%。4.3 模型检验和结果分析该模型虽然预测出了2009年凝冻日数的范围,并计算出其以84.8%的概率稳定于该状态,却无法的估计出2009年凝冻的具体天数。 由于凝冻基本发生在1月、2月、3月、11月、
9、12月,而2009年前三个月的历史天气数据可以查得,见数据1 【5】 2009年贵阳雨淞出现的次数 日期 雨淞出现 日期 雨淞出现 日期 雨淞出现 1-1 1 2-1 0 3-1 0 1-2 0 2-2 0 3-2 0 1-3 0 2-3 0 3-3 0 1-4 1 2-4 0 3-4 0 1-5 0 2-5 0 3-5 0 1-6 1 2-6 0 3-6 0 1-7 1 2-7 0 3-7 0 1-8 0 2-8 0 3-8 0 1-9 0 2-9 0 3-9 0 1-10 0 2-10 0 3-10 0 1-11 0 2-11 0 3-11 0 1-12 0 2-12 0 3-12 0 1
10、-13 0 2-13 0 3-13 0 1-14 0 2-14 0 3-14 0 1-15 0 2-15 0 3-15 0 1-16 0 2-16 0 3-16 0 1-17 0 2-17 0 3-17 0 1-18 0 2-18 0 3-18 0 1-19 0 2-19 0 3-19 0 1-20 0 2-20 0 3-20 0 1-21 0 2-21 0 3-21 0 1-22 0 2-22 0 3-22 0 1-23 0 2-23 0 3-23 0 1-24 1 2-24 0 3-24 0 1-25 1 2-25 0 3-25 0 1-26 1 2-26 0 3-26 0 1-27 1
11、2-27 0 3-27 0 1-28 0 2-28 0 3-28 0 1-29 0 3-29 0 1-30 0 3-30 0 1-31 0 3-31 0 由数据1可得,2009年发生凝冻1月天数为8天,2月天数为0天,3月天数为0天。 对题目所附数据做简单统计分析,见 表3表3 40以来各月份出现凝冻的天数1月份2月份3月份11月份12月份雨凇出现日数总和16410811343雨凇出现日数平均数4.12.70.2750.0751.075 根据上表可知,凝冻发生在前三个月的频率为 ,发生在后两个月的频率为 。即凝冻发生在11月、12月的天数和远小于1月、2月、3月的天数和,粗略估计2009年11
12、月、12月的天数和小于8天,则2009全年凝冻天数小于15天。与模型(1)非常吻合。 Markov链预测模型成功的关键在于转移概率矩阵的可靠性,因此模型的构造需要足够多的准确的统计数据,而本题提供了40个年度凝冻日数的数据偏少,会影响预测精度。本题在求转移概率矩阵的时候,采用的是传统的估算方法,先假设已知随机过程在n种状态的观测次数及系统从当前时刻向下一时刻转移次数的情况下,用频率估计概率的方法估算出一步转移概率矩阵。但在实际情况下,没有足够的观测次数,会导致一步转移概率矩阵和真实值相差很大。 对于本题,如果改为从具体每天是否出现雨凇的状态考虑,40年的海量数据,将会极大提高我们模型的估计精度
13、。 5模型的改进5.1数据分析 用SAS软件对表1的数据作时序图和自相关图(程序见附件),检验其平稳性。 时序图: 自相关图: 结合时序图与自相关图分析,以年为单位,其凝冻天数基本上平稳。我们不妨取20002008年的数据进行分析预测。5.2 对数据处理并再次建模 从2000-2008年,2月有28或29天,为计算方便,统一取28天,则每年关于凝冻的数据有 151个。 2000年出现雨凇的天数1月2月3月11月12月000000100001000010000100000000000000000000000000000000000000000000000000000100001000010000
14、0000000000000000000000000000000000010000000001000010000000000 2001年出现雨凇的天数1月2月3月11月12月0000000000000000000000000000000000000000100000000000000000000000000001100000000000000000010000000000000000000000000000001000010000000000000000000000000 观察上述两组数据,对于每一天雨凇的出现只存在两种情况,出现或否,即两种状态.现在我们以天为单位,以2000-2001年的数据
15、为例进行分析。2000年的统计数据有151个,其中处于状态的有141个,处于状态1的有10个。记其分布为 ;同理可知 ;从2000年转移至2001年, 状态 有138个; 状态 有3个;状态 有 9个; 状态 有1个。则2000年到2001年的转移概率矩阵为 ; 既有 。同理 2001年到2002年转移概率矩阵为 ; 2002年到2003年转移概率矩阵为 ; 2003年到2004年转移概率矩阵为 ; 2004年到2005年转移概率矩阵为 ; 2005年到2006年转移概率矩阵为 ; 2006年到2007年转移概率矩阵为 ; 2007年到2008年转移概率矩阵为 。由以上八个转移概率矩阵可以看出
16、,实际生活中相邻时刻的一步转移概率矩阵并不是完全相等的,为了能得出一个尽量精确的一步转移概率矩阵来预测2009年的数据,我们需要对上述转移概率矩阵进行优化。余波等人给出了利用最优化的思想,使一步转移矩阵的次方与步转移概率矩阵之差的范数和达到最小的准则,建立模型如下: 目标函数: (2) 约束条件: 。 【6】 (矩阵范数)对任意称为空间的矩阵范数,指满足: 对任意 设, 定义。 【7】结合本题数据,利用模型(2)建立规划求解: 优化后的一步转移概率矩阵记为 目标函数: 约束条件: 由MATLAB软件求解得 ; 以2008年基期,预测2009年的概率分布有 则预测2009年发生凝冻的天数为 14
17、天。 6、模型的优缺点分析 本文从整体和局部两个角度分别建模,两个模型的结果大致吻合,说明Markov链模拟的效果还不错。对于本题,雨凇的出现可以看成是一个随机过程,而影响雨凇出现的因素太多,若直接分析影响因素,会十分麻烦,且由于干预变量会使模型的精度大为降低。Markov链模型的优点在于它不需要从复杂的预测因子中寻找个因素之间的相互规律,直接通过概率矩阵来预测内部状态的变化。可是Markov链对转移概率矩阵的要求很高,实际中,由于观测数据的限制,误差影响,会造成转移概率矩阵精度的降低。因此为保证Markov链模拟的准确性,需要收集足够多的准确的数据。参考文献【1】 张波,张景肖.应用随机过程
18、.北京:清华大学出版社,2008年,P74.【2】 张波,张景肖.应用随机过程.北京:清华大学出版社,2008年,P75.【3】 张波,张景肖.应用随机过程.北京:清华大学出版社,2008年,P81.【4】 于波, 陈希镇, 华栋.马尔柯夫链在农作物年景预测中的应用.统计与决策2007年第21期.【5】 历史天气数据 http:/ 2009年7月23日.【6】 于波, 陈希镇, 华栋.马尔柯夫链在农作物年景预测中的应用.统计与决策2007年第21期.【7】 ppt Chapter1.2 向量范数与矩阵范数武汉大学精品课程 http:/ 2009年7月23日 附录1、 程序(时序图)data t
19、ext1;input days;time=intnx(year,1969,_n_-1);cards;15 6 0 8 1 20 8 8 16 6 4 8 10 7 3 27 0 3 3 128 6 0 1 6 3 0 8 5 4 0 10 6 9 8 17 18 108 37;proc gplot data=text1;plot days*time;symbol c=black v=star i=join;run;(自相关图)data text2;input freq;time=intnx(year,1969,_n_-1);cards;15 6 0 8 1 20 8 8 16 6 4 8 10
20、 7 3 27 0 3 3 12 8 6 0 1 6 3 0 8 5 4 0 10 6 9 8 17 18 10 8 37;proc arima data=text2;identify var=freq;run;2.数据 2002年出现雨凇的天数1月2月3月11月12月0000000000000000000000000000000000000000000000000000000000000000000000000000000000000000001000010000000000000000000100001000100001000010000100000001000 2003年出现雨凇的天数1
21、月2月3月11月12月0000001000000000000010100101000000000000100000000000000010000000000000000000000000000000000000000000000000000000000000000000000000100000000000000000000 2004年出现雨凇的天数1月2月3月11月12月00000010000100001000010000000000000000000000000000000000000000000000000000000000000001000000000100000000010000100
22、00000011000110000000010000100010001001 2005年出现雨凇的天数1月2月3月11月12月1100000000000000000000001000010000000000100001100011000010000100000000000000000001000000000000010000100001000000000000000000010000100000000000000000100 2006年出现雨凇的天数1月2月3月11月12月0000000000000000100010000100001000000000000000000000000000000
23、010000000000000000001000010000000010000100001000000000000000000000000000000000000000000000 2007年出现雨凇的天数1月2月3月11月12月000000000010000000000000000000001000000000000000000000010000100001000010000100001000000000000000000000000000000000000000000000000000000000000000000000 2008年出现雨凇的天数1月2月3月11月12月0100001000010000100001000010000100001000010000100001000010001100010000100001000010000100001000010000100001000110001100011000011000100001000010001001100