预测模型数据处理方法.pptx-淘文阁

资源描述

《预测模型数据处理方法.pptx》由会员分享，可在线阅读，更多相关《预测模型数据处理方法.pptx（30页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、最近几年，在全国大学生数学建模竞赛常常出现预测模型或是与预测有关的题目，例如疾病的传播，雨量的预报，人口的预测等。什么是预测模型？如何预测？有那些方法？对此下面作些介绍。预测的目的在于认识自然和社会发展规律，以及预测的目的在于认识自然和社会发展规律，以及在不同历史条件下各种规律的相互作用，揭示事物在不同历史条件下各种规律的相互作用，揭示事物发展的方向和趋势，分析事物发展的途径和条件，发展的方向和趋势，分析事物发展的途径和条件，使人们尽早地预知未来的状况和将要发生的事情，使人们尽早地预知未来的状况和将要发生的事情，并能动地控制其发展，使其为人类和社会进步服务。并能动地控制其发展，使其为人类和社

2、会进步服务。第1页/共30页一预测的前期准备工作为保证预测结果的精确度，预测之前必须做一系为保证预测结果的精确度，预测之前必须做一系列的准备工作：列的准备工作：（一）数据的准备：（一）数据的准备：数据的收集和整理；数据的收集和整理；数据的分析和处理；数据的分析和处理；数据的内涵及数量；数据的内涵及数量；第2页/共30页数据处理的原则准确，处理后的数据能正确反映事物发展的未来趋势和状况；及时，数据的处理要及时；适用，处理的数据能满足建模的需要；经济，要尽量减少数据处理的费用，以降低预测成本；一致，处理的数据在整个比较性。使用期间内必须是一致的，具有可比较性第3页/共30页数据处理的方法（

3、1）判别法判别法通过对历史数据的判断，选择其中可代表整个通过对历史数据的判断，选择其中可代表整个预测过程中很可能发生的模式的数据作为建模数据预测过程中很可能发生的模式的数据作为建模数据（2）剔除法剔除法如果数据量比较大，且非必须具备连续的数据如果数据量比较大，且非必须具备连续的数据量，这时可剔除数据中受随机干扰的异常值；量，这时可剔除数据中受随机干扰的异常值；（3）平均值法平均值法在数据比较少或需要连续数据时，则可采取平在数据比较少或需要连续数据时，则可采取平均值法对数据进行处理。均值法对数据进行处理。第4页/共30页（4）拉平法拉平法由于条件发生变化，常常使一些厉史数据不能由于条件发

4、生变化，常常使一些厉史数据不能反映现时的情况，例如，大型钢铁厂、化肥厂、或反映现时的情况，例如，大型钢铁厂、化肥厂、或油气田的建成投产或开发，可以使产量猛增，这时油气田的建成投产或开发，可以使产量猛增，这时历史数据将发生突变，出现一个转折，如用这类数历史数据将发生突变，出现一个转折，如用这类数据建模，则需要处理。这时拉平法是一种较好的方据建模，则需要处理。这时拉平法是一种较好的方法。它的原理是对转折点前的数据加一个适当的量法。它的原理是对转折点前的数据加一个适当的量值，使其与折点后的数据走向一致。值，使其与折点后的数据走向一致。（5）比例法比例法销售条件与环境的变化常常会引起一个企业产销售条

5、件与环境的变化常常会引起一个企业产品市场销售比例的改变。当比例变化较大时，说明品市场销售比例的改变。当比例变化较大时，说明销售条件与环境对销售的影响己超过其他因素对销销售条件与环境对销售的影响己超过其他因素对销第5页/共30页售的影响，也说明以前的销售统计数据所体现出的售的影响，也说明以前的销售统计数据所体现出的销售发展规律不再适用之于目前的情况了。如果仍销售发展规律不再适用之于目前的情况了。如果仍然利用这些数据建立预测模型，将无法体现销售条然利用这些数据建立预测模型，将无法体现销售条件和环境变化后的销售量变化的规律，用这样的模件和环境变化后的销售量变化的规律，用这样的模型进行预测，将会造成较

6、大的误差。因此，如果还型进行预测，将会造成较大的误差。因此，如果还想利用这些数据建立模型，进行预测，就应该把它想利用这些数据建立模型，进行预测，就应该把它们处理成能体现条件与环境发生变化之后的情况的们处理成能体现条件与环境发生变化之后的情况的数据。对于这类数据，比例法就是一种比较有效的数据。对于这类数据，比例法就是一种比较有效的处理方法。处理方法。（6）移动平均和指数平滑法移动平均和指数平滑法如果原始数据总体走向具有一定规律性，但因受随如果原始数据总体走向具有一定规律性，但因受随第6页/共30页机因素干扰，数据离散度很大，采用平均值法也难机因素干扰，数据离散度很大，采用平均值法也难以处理。这时

7、可采用一次、二次、甚至三次移动平以处理。这时可采用一次、二次、甚至三次移动平均和指数平滑对数据进行平滑，用平滑的数据建模。均和指数平滑对数据进行平滑，用平滑的数据建模。在分解预测时，为处理季节数据，则必须采用高次在分解预测时，为处理季节数据，则必须采用高次幂的移动平均法，对数据平滑。幂的移动平均法，对数据平滑。（7）差分法差分法有些模型，例如鲍克斯有些模型，例如鲍克斯-詹金斯模型只能处理平詹金斯模型只能处理平稳数据，如果原始数据为非平稳数据，则需釆取差稳数据，如果原始数据为非平稳数据，则需釆取差分处理。差分有三种主要类型：前向差分、后向差分处理。差分有三种主要类型：前向差分、后向差分、中心差

8、分。分、中心差分。第7页/共30页前向差分前向差分：在处理时间数列时，一阶前向差分定义：在处理时间数列时，一阶前向差分定义为为一阶前向差分是当时间由一阶前向差分是当时间由t变到变到t+1时，时，的改变量。的改变量。二阶前向差分定义为二阶前向差分定义为后向差分后向差分：在处理时间数列时，一阶后向差分定义：在处理时间数列时，一阶后向差分定义为为一阶后向差分是当时间由一阶后向差分是当时间由t递推到递推到t-1时，时，的改变量。的改变量。二阶后向差分定义为二阶后向差分定义为第8页/共30页中心差分中心差分：在处理时间数列时，一阶中心差分定义：在处理时间数列时，一阶中心差分定义为为二阶中心差分为二阶中心

9、差分为在处理时间数列时，主要应用后向差分。一次在处理时间数列时，主要应用后向差分。一次多项式数据通过一阶差分就可转换为平稳数据，二多项式数据通过一阶差分就可转换为平稳数据，二次多项式和三次多项式数据分别通过二阶和三阶差次多项式和三次多项式数据分别通过二阶和三阶差分可转换为平稳数据，而三次以上的高次多项式在分可转换为平稳数据，而三次以上的高次多项式在应用中很少采用。应用中很少采用。第9页/共30页二预测的数学准备在预测过程中需要很多数学知识，主要有微分方程、概率与数理统计、线性规划和非线性规划等等。但使用最多的是统计学的相关知识：常用的统计量、参数的估算、假设检验、区间估计等。这些我们就不

10、做介绍了。第10页/共30页定量预测法时间序列模型时间序列模型时间序列模型主要研究事物的自身发展规律，借以预测事物的未来趋势。主要方法有移动平均、指数平滑、分解预测、鲍克斯詹金斯模型、多变量模型以及类推法等。特点和应用范围特点和应用范围时间序列一般指一组按时间顺序排列的数据，展示了研究对象在一定时期的发生变化过程。时间序列模型，就是根据预测对象时间变化特征，研究事物自身的发展规律，探讨未来发展趋势，是一种重要的定量预测方法，包括多种模型，主要适用于经济预测、商业预测、需求预测、库存预测等，预测期限主要为中、短期，不适用于有拐点的长期预测。第11页/共30页（一）移动平均值模型（一）移动平

11、均值模型移动平均法是一种最简单的适应模型，是在算术平均移动平均法是一种最简单的适应模型，是在算术平均的基础上发展起来的一种预测方法。的基础上发展起来的一种预测方法。算术平均虽能代表一组数据的平均水平，但它不能反算术平均虽能代表一组数据的平均水平，但它不能反映数据的变化趋势，而原始数据虽然存在某种趋势，映数据的变化趋势，而原始数据虽然存在某种趋势，但数据可能是零散的或杂乱无章的，无法直接加以分但数据可能是零散的或杂乱无章的，无法直接加以分析。移动平均法克服了上述弱点，其基本方法是，选析。移动平均法克服了上述弱点，其基本方法是，选一个固定的周期一个固定的周期N，对数据进行平均，每递推一个周，对数据

12、进行平均，每递推一个周期就加上后一个数据，舍去初始数据，依次类推，直期就加上后一个数据，舍去初始数据，依次类推，直至把数据处理完毕。至把数据处理完毕。第12页/共30页以N=5为例：表示第五、第六个周期的一次移动平均值，依次类推。若移动平均的周期为N，则可得到计算移动平均值的一般公式：其中，表示第t期的一次移动平均值第13页/共30页可见，移动平均法实际上是对于某一期数据，可见，移动平均法实际上是对于某一期数据，取前取前N N个数据进行平均，个数据进行平均，N N个数权数相同，而其它数个数权数相同，而其它数据的权这样，经过移动平均，将消除数据列中异常据的权这样，经过移动平均，将消除数据列中异

13、常的因素，对数据进行修匀。一般情况下，如果数据的因素，对数据进行修匀。一般情况下，如果数据没有明显的周期变化和趋势变化，可用第没有明显的周期变化和趋势变化，可用第t t期的一期的一次移动平均值作为次移动平均值作为t+1t+1期的预测值，即期的预测值，即其一般公式为第14页/共30页表表1 1中的的第一列和第二列，即是原始数据与中的的第一列和第二列，即是原始数据与一次移动平均值的对比。始取一次移动平均值的对比。始取N=3N=3的的3 3期移动平均，期移动平均，则第三期数据的移动值为则第三期数据的移动值为5766.335766.33，是，是l l由（由（560056005796579659305

14、930）/3/3得到的。如用于预测，它可以作为得到的。如用于预测，它可以作为第第4 4期的预测值。在一次移动平均值的基础上，应期的预测值。在一次移动平均值的基础上，应用移动平均的原理，还可以进行二次甚至多次的移用移动平均的原理，还可以进行二次甚至多次的移动平均，二次移动平均，就是以一项移动平均值为动平均，二次移动平均，就是以一项移动平均值为原始数据，再进行一次移动平均，如以原始数据，再进行一次移动平均，如以N=5N=5为例：为例：其公式为其公式为其公式为其公式为式中：表示第9期的二次移动平均值，第15页/共30页其一般公式为二次移动平均使原始数据得到了进一步修匀，使其显现线性趋势。表1 1中

15、的第三列数据为N=3N=3的二次移动平均值。第16页/共30页序序列列原原始始数数据据一次移动平均值一次移动平均值二次移动平值二次移动平值1234567891011560057965930609262576567685171417436773880455775.35939.36093.06305.36558.36853.07142.77438.37739.75935.96112.56318.96572.26851.37144.77440.2移动平均值表（1）第17页/共30页式中：-预测超前期数通过查表（多项式模型参数估算公式）可知：对于上表中的数据，如以11期数据预测12期值，

16、当取N=3时，则有：在二次移动平均值的基础上，可建立线性模型：在二次移动平均值的基础上，可建立线性模型：第18页/共30页预测方程为第19页/共30页使用移动平均法，最重要的是移动周期N N的选择。因为式中：移动平均值方差原始数据点方差N 数据点数也就是说，移动平均修匀后的方差，随着N的加大而减少。也就是N越大，对原始数据修匀能力越强。下表数据可清楚反映这一规律。第20页/共30页（1）月月份份（2）期期数数（3）实际实际销售额销售额（4）三个月三个月移动平均值移动平均值（5）五个月五个月移动平均值移动平均值123456789101112123456789101112200.013

17、5.0195.0197.5310.0175.0155.0130.0220.0277.0235.0176.7175.8234.2227.5213.3153.3168.3209.2244.2207.5202.5206.5193.5198.0191.4203.5（某日用品电器销售额的移动平均预测）表（某日用品电器销售额的移动平均预测）表（2）第21页/共30页然而修匀能力与对外界变化的反映速度是互相然而修匀能力与对外界变化的反映速度是互相矛盾的，两者不能兼得。因此，对于矛盾的，两者不能兼得。因此，对于N N值一般应视值一般应视具体情况，采用折衷办法确定。根据过程的实际发具体情况，采用折衷办法确定。

18、根据过程的实际发展趋势，展趋势，N N值大体有如下四种选择方法：值大体有如下四种选择方法：（1）水平式水平式也就是趋势保持不变，移动平均值是无编差也就是趋势保持不变，移动平均值是无编差的，的，M值与值与N值无关。值无关。（2）脉冲式脉冲式趋势仅在某一段时间突然增加或减少，随后趋势仅在某一段时间突然增加或减少，随后又保持不变，又保持不变，N取得越大，取得越大，M的误差越小，因此的误差越小，因此N应取得较应取得较大些。大些。（3）阶梯式阶梯式趋势仅在开始一段时间保持不变，然后增加趋势仅在开始一段时间保持不变，然后增加或减少到一个新的水平后又保持不变，或减少到一个新的水平后又保持不变，N取得越

19、小，取得越小，M的误的误差越小，因此差越小，因此N应取得较小。应取得较小。第22页/共30页（4）斜坡式斜坡式趋势周期的递增或递减，趋势周期的递增或递减，M总是比实总是比实际趋向落后，因此际趋向落后，因此N应取得越小越好。应取得越小越好。一般情况下，如欲加大原始数据的修句力度，一般情况下，如欲加大原始数据的修句力度，则则N宜取大些，如果希望加大对外界变化的反映力宜取大些，如果希望加大对外界变化的反映力度，刨度，刨N宜取小些。宜取小些。N的取值范围一般为的取值范围一般为320。例例我国我国19801990年工业劳动人数见表，用二次年工业劳动人数见表，用二次移动平均数法预测移动平均数法预测19

20、911994年的劳动人数。年的劳动人数。年份年份19801981198219831984198519861987198819891990人数人数56005796593060926257656768571474367738804519801990年我国工业劳动人数（万人）（表年我国工业劳动人数（万人）（表3）第23页/共30页首先，选择移动平均周期首先，选择移动平均周期N。本例中数据趋势。本例中数据趋势较明显，呈直线趋势，为尽量反映近期变化动向，较明显，呈直线趋势，为尽量反映近期变化动向，可取可取N=3。利用移动平均公式，首先计算一次移动。利用移动平均公式，首先计算一次移动平均数：平均数：第2

21、4页/共30页在此基础上再计算二次移动平均数：在此基础上再计算二次移动平均数：计算结果见（表）。根据表（计算结果见（表）。根据表（3）的数据可建）的数据可建立线性趋势模型：立线性趋势模型：第25页/共30页前已计算得：则：由此得由此得19911994年劳动人数分别为年劳动人数分别为8338.7，8638.2，8937.7，和，和9236.2万人。万人。第26页/共30页（二）（二）指数平滑模型指数平滑模型在时间序列预测过程中，一般来说历史数据对在时间序列预测过程中，一般来说历史数据对未来发展的影响是不等价的，数据由近及远对未来未来发展的影响是不等价的，数据由近及远对未来的影响价值递减。如果这

22、种递减遵循指数规律，并的影响价值递减。如果这种递减遵循指数规律，并以此进行预测，则可采用指数平滑法。指数平滑法以此进行预测，则可采用指数平滑法。指数平滑法比移动平均法需要的数据量少，计算更为方便。比移动平均法需要的数据量少，计算更为方便。一次指数平滑公式为一次指数平滑公式为其中 t期数据的指数平滑值，a 平滑常数，0a1,现期数据值。第27页/共30页对上式递推展开则得依此类推可得一次指数平滑的一般公式为第28页/共30页上式表明，数据列的权数分别是a，a(1-a)，即离t时刻越远的数据，权数越小，而且权数的变化呈指数几何级数。用一次指数平滑法进行预测时，将用一次指数平滑法进行预测时，将t期的平滑期的平滑值作为值作为t+1期的预测值，即期的预测值，即第29页/共30页感谢您的观看！第30页/共30页

展开阅读全文