《预测模型数据处理方法课件.ppt》由会员分享,可在线阅读,更多相关《预测模型数据处理方法课件.ppt(30页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、关于预测模型数据处理方法第1页,此课件共30页哦 最近几年,在全国大学生数学建模竞赛常常出最近几年,在全国大学生数学建模竞赛常常出现预测模型或是与预测有关的题目,例如疾病的传现预测模型或是与预测有关的题目,例如疾病的传播,雨量的预报,人口的预测等。什么是预测模型?播,雨量的预报,人口的预测等。什么是预测模型?如何预测?有那些方法?对此下面作些介绍。如何预测?有那些方法?对此下面作些介绍。预测的目的在于认识自然和社会发展规律,以及在不同预测的目的在于认识自然和社会发展规律,以及在不同历史条件下各种规律的相互作用,揭示事物发展的方向历史条件下各种规律的相互作用,揭示事物发展的方向和趋势,分析事物发
2、展的途径和条件,使人们尽早地预和趋势,分析事物发展的途径和条件,使人们尽早地预知未来的状况和将要发生的事情,并能动地控制其发展,知未来的状况和将要发生的事情,并能动地控制其发展,使其为人类和社会进步服务。使其为人类和社会进步服务。第2页,此课件共30页哦一一 预测的前期准备工作预测的前期准备工作 为保证预测结果的精确度,预测之前必须做一系列的准备为保证预测结果的精确度,预测之前必须做一系列的准备工作:工作:(一)数据的准备:(一)数据的准备:数据的收集和整理;数据的收集和整理;数据的分析和处理;数据的分析和处理;数据的内涵及数量;数据的内涵及数量;第3页,此课件共30页哦数据处理的原则数据处理
3、的原则 准确准确,处理后的数据能正确反映事物发展的未来趋势,处理后的数据能正确反映事物发展的未来趋势和状况;和状况;及时及时,数据的处理要及时;,数据的处理要及时;适用适用,处理的数据能满足建模的需要;,处理的数据能满足建模的需要;经济经济,要尽量减少数据处理的费用,以降低预测成本;,要尽量减少数据处理的费用,以降低预测成本;一致一致,处理的数据在整个比较性。使用期间内必须是,处理的数据在整个比较性。使用期间内必须是一致的,具有可比较性一致的,具有可比较性 第4页,此课件共30页哦数据处理的方法数据处理的方法(1)判别法判别法 通过对历史数据的判断,选择其中可代表整个预测过通过对历史数据的判断
4、,选择其中可代表整个预测过程中很可能发生的模式的数据作为建模数据程中很可能发生的模式的数据作为建模数据(2)剔除法剔除法 如果数据量比较大,且非必须具备连续的数据量,这时如果数据量比较大,且非必须具备连续的数据量,这时可剔除数据中受随机干扰的异常值;可剔除数据中受随机干扰的异常值;(3)平均值法平均值法 在数据比较少或需要连续数据时,则可采取平均值在数据比较少或需要连续数据时,则可采取平均值法对数据进行处理。法对数据进行处理。第5页,此课件共30页哦(4)拉平法拉平法 由于条件发生变化,常常使一些厉史数据不能反由于条件发生变化,常常使一些厉史数据不能反映现时的情况,例如,大型钢铁厂、化肥厂、或
5、油气映现时的情况,例如,大型钢铁厂、化肥厂、或油气田的建成投产或开发,可以使产量猛增,这时历史数田的建成投产或开发,可以使产量猛增,这时历史数据将发生突变,出现一个转折,如用这类数据建模,据将发生突变,出现一个转折,如用这类数据建模,则需要处理。这时拉平法是一种较好的方法。它的原则需要处理。这时拉平法是一种较好的方法。它的原理是对转折点前的数据加一个适当的量值,使其与折理是对转折点前的数据加一个适当的量值,使其与折点后的数据走向一致。点后的数据走向一致。(5)比例法比例法 销售条件与环境的变化常常会引起一个企业产品销售条件与环境的变化常常会引起一个企业产品市场销售比例的改变。当比例变化较大时,
6、说明销售条市场销售比例的改变。当比例变化较大时,说明销售条件与环境对销售的影响己超过其他因素对销件与环境对销售的影响己超过其他因素对销第6页,此课件共30页哦售的影响,也说明以前的销售统计数据所体现出的销售售的影响,也说明以前的销售统计数据所体现出的销售发展规律不再适用之于目前的情况了。如果仍然利用这发展规律不再适用之于目前的情况了。如果仍然利用这些数据建立预测模型,将无法体现销售条件和环境变化些数据建立预测模型,将无法体现销售条件和环境变化后的销售量变化的规律,用这样的模型进行预测,将会后的销售量变化的规律,用这样的模型进行预测,将会造成较大的误差。因此,如果还想利用这些数据建立模造成较大的
7、误差。因此,如果还想利用这些数据建立模型,进行预测,就应该把它们处理成能体现条件与环境型,进行预测,就应该把它们处理成能体现条件与环境发生变化之后的情况的数据。对于这类数据,比例法就发生变化之后的情况的数据。对于这类数据,比例法就是一种比较有效的处理方法。是一种比较有效的处理方法。(6)移动平均和指数平滑法移动平均和指数平滑法如果原始数据总体走向具有一定规律性,但因受随如果原始数据总体走向具有一定规律性,但因受随第7页,此课件共30页哦机因素干扰,数据离散度很大,采用平均值法也难以处理。机因素干扰,数据离散度很大,采用平均值法也难以处理。这时可采用一次、二次、甚至三次移动平均和指数平滑对这时可
8、采用一次、二次、甚至三次移动平均和指数平滑对数据进行平滑,用平滑的数据建模。数据进行平滑,用平滑的数据建模。在分解预测时,为处理季节数据,则必须采用高次幂的移在分解预测时,为处理季节数据,则必须采用高次幂的移动平均法,对数据平滑。动平均法,对数据平滑。(7)差分法差分法 有些模型,例如鲍克斯有些模型,例如鲍克斯-詹金斯模型只能处理平稳数詹金斯模型只能处理平稳数据,如果原始数据为非平稳数据,则需釆取差分处理。据,如果原始数据为非平稳数据,则需釆取差分处理。差分有三种主要类型:前向差分、后向差分、中心差差分有三种主要类型:前向差分、后向差分、中心差分。分。第8页,此课件共30页哦前向差分前向差分:
9、在处理时间数列时,一阶前向差分定义为:在处理时间数列时,一阶前向差分定义为一阶前向差分是当时间由一阶前向差分是当时间由t变到变到t+1时,时,的改变量。的改变量。二阶前向差分定义为二阶前向差分定义为后向差分后向差分:在处理时间数列时,一阶后向差分定义为:在处理时间数列时,一阶后向差分定义为一阶后向差分是当时间由一阶后向差分是当时间由t递推到递推到t-1时,时,的改变量。的改变量。二阶后向差分定义为二阶后向差分定义为第9页,此课件共30页哦中心差分中心差分:在处理时间数列时,一阶中心差分定义为:在处理时间数列时,一阶中心差分定义为二阶中心差分为二阶中心差分为 在处理时间数列时,主要应用后向差分。
10、一次多在处理时间数列时,主要应用后向差分。一次多项式数据通过一阶差分就可转换为平稳数据,二次多项式数据通过一阶差分就可转换为平稳数据,二次多项式和三次多项式数据分别通过二阶和三阶差分可转项式和三次多项式数据分别通过二阶和三阶差分可转换为平稳数据,而三次以上的高次多项式在应用中很换为平稳数据,而三次以上的高次多项式在应用中很少采用。少采用。第10页,此课件共30页哦二二 预测的数学准备预测的数学准备 在预测过程中需要很多数学知识,主要有微在预测过程中需要很多数学知识,主要有微分方程、概率与数理统计、线性规划和非线分方程、概率与数理统计、线性规划和非线性规划等等。但使用最多的是统计学的相关性规划等
11、等。但使用最多的是统计学的相关知识:常用的统计量、参数的估算、假设检知识:常用的统计量、参数的估算、假设检验、区间估计等。这些我们就不做介绍了。验、区间估计等。这些我们就不做介绍了。第11页,此课件共30页哦定量预测法定量预测法 时间序列模型时间序列模型 时间序列模型主要研究事物的自身发展规律,借以时间序列模型主要研究事物的自身发展规律,借以预测事物的未来趋势。主要方法有移动平均、指数平滑、预测事物的未来趋势。主要方法有移动平均、指数平滑、分解预测、鲍克斯詹金斯模型、多变量模型以及类推法分解预测、鲍克斯詹金斯模型、多变量模型以及类推法等。等。特点和应用范围特点和应用范围 时间序列一般指一组按时
12、间顺序排时间序列一般指一组按时间顺序排列的数据,展示了研究对象在一定时期的发生变化过程。列的数据,展示了研究对象在一定时期的发生变化过程。时间序列模型,就是根据预测对象时间变化特征,研究时间序列模型,就是根据预测对象时间变化特征,研究事物自身的发展规律,探讨未来发展趋势,是一种重要事物自身的发展规律,探讨未来发展趋势,是一种重要的定量预测方法,包括多种模型,主要适用于经济预测、的定量预测方法,包括多种模型,主要适用于经济预测、商业预测、需求预测、库存预测等,预测期限主要为中、商业预测、需求预测、库存预测等,预测期限主要为中、短期,不适用于有拐点的长期预测。短期,不适用于有拐点的长期预测。第12
13、页,此课件共30页哦(一)移动平均值模型(一)移动平均值模型移动平均法是一种最简单的适应模型,是在算术平均移动平均法是一种最简单的适应模型,是在算术平均的基础上发展起来的一种预测方法。的基础上发展起来的一种预测方法。算术平均虽能代表一组数据的平均水平,但它不能反映数据算术平均虽能代表一组数据的平均水平,但它不能反映数据的变化趋势,而原始数据虽然存在某种趋势,但数据可能是的变化趋势,而原始数据虽然存在某种趋势,但数据可能是零散的或杂乱无章的,无法直接加以分析。移动平均法克服零散的或杂乱无章的,无法直接加以分析。移动平均法克服了上述弱点,其基本方法是,选一个固定的周期了上述弱点,其基本方法是,选一
14、个固定的周期N,对数据,对数据进行平均,每递推一个周期就加上后一个数据,舍去进行平均,每递推一个周期就加上后一个数据,舍去初始数据,依次类推,直至把数据处理完毕。初始数据,依次类推,直至把数据处理完毕。第13页,此课件共30页哦以以N=5为为例:例:表示第五、第六个周期的一次移表示第五、第六个周期的一次移动动平均平均值值,依,依次次类类推。若移推。若移动动平均的周期平均的周期为为N,则则可得到可得到计计算移算移动动平平均均值值的一般公式的一般公式:其中,其中,表示第表示第t期的一次移期的一次移动动平均平均值值第14页,此课件共30页哦 可见,移动平均法实际上是对于某一期数据,取可见,移动平均法
15、实际上是对于某一期数据,取前前N N个数据进行平均,个数据进行平均,N N个数权数相同,而其它数据的权个数权数相同,而其它数据的权这样,经过移动平均,将消除数据列中异常的因素,对这样,经过移动平均,将消除数据列中异常的因素,对数据进行修匀。一般情况下,如果数据没有明显的周期数据进行修匀。一般情况下,如果数据没有明显的周期变化和趋势变化,可用第变化和趋势变化,可用第t t期的一次移动平均值作为期的一次移动平均值作为t+1t+1期的预测值,即期的预测值,即其一般公式其一般公式为为第15页,此课件共30页哦 表表1 1中的的第一列和第二列,即是原始数据与一次移中的的第一列和第二列,即是原始数据与一次
16、移动平均值的对比。始取动平均值的对比。始取N=3N=3的的3 3期移动平均,则第三期数期移动平均,则第三期数据的移动值为据的移动值为5766.335766.33,是,是l l由(由(560056005796579659305930)/3/3得到的。如用于预测,它可以作为第得到的。如用于预测,它可以作为第4 4期的预测值。在一期的预测值。在一次移动平均值的基础上,应用移动平均的原理,还可以进次移动平均值的基础上,应用移动平均的原理,还可以进行二次甚至多次的移动平均,二次移动平均,就是以一项行二次甚至多次的移动平均,二次移动平均,就是以一项移动平均值为原始数据,再进行一次移动平均,如以移动平均值为
17、原始数据,再进行一次移动平均,如以N=5N=5为为例:其公式为其公式为例:其公式为其公式为式中:式中:表示第表示第9期的二次移期的二次移动动平均平均值值,第16页,此课件共30页哦其一般公式其一般公式为为 二次移动平均使原始数据得到了进一步修匀,使其二次移动平均使原始数据得到了进一步修匀,使其显现线性趋势。表显现线性趋势。表1 1中的第三列数据为中的第三列数据为N=3N=3的二次移动平的二次移动平均值。均值。第17页,此课件共30页哦移动平均值移动平均值 表(表(1)第18页,此课件共30页哦式中:式中:-预测预测超前期数超前期数通通过查过查表(多表(多项项式模型参数估算公式)可知:式模型参数
18、估算公式)可知:对对于上表中的数据,如以于上表中的数据,如以11期数据期数据预测预测12期期值值,当,当取取N=3时时,则则有:有:在二次移动平均值的基础上,可建立线性模型:在二次移动平均值的基础上,可建立线性模型:第19页,此课件共30页哦预测方程为预测方程为 第20页,此课件共30页哦 使用移动平均法,最重要的是移动周期使用移动平均法,最重要的是移动周期N N的选的选择。因为择。因为式中:式中:移移动动平均平均值值方差方差 原始数据点方差原始数据点方差N 数据点数数据点数 也就是说,移动平均修匀后的方差,随着也就是说,移动平均修匀后的方差,随着N的加大而减少。的加大而减少。也就是也就是N越
19、大,对原始数据修匀能力越强。下表数据可清楚反映越大,对原始数据修匀能力越强。下表数据可清楚反映这一规律。这一规律。第21页,此课件共30页哦(某日用品电器销售额的移动平均预测)表(某日用品电器销售额的移动平均预测)表(2)第22页,此课件共30页哦 然而修匀能力与对外界变化的反映速度是互相矛盾然而修匀能力与对外界变化的反映速度是互相矛盾的,两者不能兼得。因此,对于的,两者不能兼得。因此,对于N N值一般应视具体情况,值一般应视具体情况,采用折衷办法确定。根据过程的实际发展趋势,采用折衷办法确定。根据过程的实际发展趋势,N N值值大体有如下四种选择方法:大体有如下四种选择方法:(1)水平式水平式
20、 也就是趋势保持不变,移动平均值是无编差的,也就是趋势保持不变,移动平均值是无编差的,M值与值与N值无关。值无关。(2)脉冲式脉冲式 趋势仅在某一段时间突然增加或减少,随后又保持不趋势仅在某一段时间突然增加或减少,随后又保持不变,变,N取得越大,取得越大,M的误差越小,因此的误差越小,因此N应取得较大些。应取得较大些。(3)阶梯式阶梯式 趋势仅在开始一段时间保持不变,然后增加或减少到趋势仅在开始一段时间保持不变,然后增加或减少到一个新的水平后又保持不变,一个新的水平后又保持不变,N取得越小,取得越小,M的误差越小,因此的误差越小,因此N应取得较小。应取得较小。第23页,此课件共30页哦(4)斜
21、坡式斜坡式 趋势周期的递增或递减,趋势周期的递增或递减,M总是比实际总是比实际趋向落后,因此趋向落后,因此N应取得越小越好。应取得越小越好。一般情况下,如欲加大原始数据的修句力度,则一般情况下,如欲加大原始数据的修句力度,则N宜宜取大些,如果希望加大对外界变化的反映力度,刨取大些,如果希望加大对外界变化的反映力度,刨N宜宜取小些。取小些。N的取值范围一般为的取值范围一般为320。例例 我国我国19801990年工业劳动人数见表,用二次移动平年工业劳动人数见表,用二次移动平均数法预测均数法预测19911994年的劳动人数。年的劳动人数。19801990年我国工业劳动人数(万人)(表年我国工业劳动
22、人数(万人)(表3)第24页,此课件共30页哦 首先,选择移动平均周期首先,选择移动平均周期N。本例中数据趋势较明显,。本例中数据趋势较明显,呈直线趋势,为尽量反映近期变化动向,可取呈直线趋势,为尽量反映近期变化动向,可取N=3。利用。利用移动平均公式,首先计算一次移动平均数:移动平均公式,首先计算一次移动平均数:第25页,此课件共30页哦在此基础上再计算二次移动平均数:在此基础上再计算二次移动平均数:计算结果见(表)。根据表(计算结果见(表)。根据表(3)的数据可建立)的数据可建立线性趋势模型:线性趋势模型:第26页,此课件共30页哦前已前已计计算得:算得:则则:由此得由此得19911994
23、年劳动人数分别为年劳动人数分别为8338.7,8638.2,8937.7,和,和9236.2万人。万人。第27页,此课件共30页哦(二)(二)指数平滑模型指数平滑模型 在时间序列预测过程中,一般来说历史数据对未在时间序列预测过程中,一般来说历史数据对未来发展的影响是不等价的,数据由近及远对未来的影来发展的影响是不等价的,数据由近及远对未来的影响价值递减。如果这种递减遵循指数规律,并以此进响价值递减。如果这种递减遵循指数规律,并以此进行预测,则可采用指数平滑法。指数平滑法比移动平行预测,则可采用指数平滑法。指数平滑法比移动平均法需要的数据量少,计算更为方便。均法需要的数据量少,计算更为方便。一次指数平滑公式为一次指数平滑公式为其中其中 t期数据的指数平滑期数据的指数平滑值值,a 平滑常数,平滑常数,0a1,现现期数据期数据值值。第28页,此课件共30页哦对上式递推展开则得依此类推可得一次指数平滑的一般公式为 第29页,此课件共30页哦感感谢谢大大家家观观看看第30页,此课件共30页哦