《(5.1)--第五章系统预测(encrypted).pdf》由会员分享,可在线阅读,更多相关《(5.1)--第五章系统预测(encrypted).pdf(57页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 第5章 第 5 章 系 统 预 测 5.1 系统预测概述 5.1.1 系统预测的概念及实质“凡事预则立,不预则废”,“人无远虑,必有近忧”。自有历史记载以来,甚至更早一些,人们就试图对将来的状况进行预测。例如,对于各种节气、日食或月食等物理现象,人们在很早以前就能够凭借经验对它们做出足够精确的预测。但是,预测当今错综复杂的系统的发展变化,远比人们依靠经验预测天气复杂和困难得多。特别值得注意的是,系统预测绝不是靠个人的想入非非或冥思苦想,更不能靠算命先生或风水先生的“未卜先知”,而是需要依靠科学,这当然包括科学的头脑、科学的方法及科学的手段,在掌握一定的实际数据和历史资料的基础上进行。也就是说
2、,系统预测必须根据系统发展变化的实际数据和历史资料,运用现代的科学理论和方法,以及各种经验、判断和知识,对系统在未来一定时期内的可能的变化情况,进行推测、估计和分析。系统预测的实质就是充分分析、理解系统发展变化的规律,根据系统的过去和现在估计未来,根据已知预测未知,从而减少对系统未来认识的不确定性,以指导我们的决策行动,减少决策的盲目性。5.1.2 预测方法分类 如前所述,很多预测可以凭经验和直觉做出。例如,早晨上班之前,可以看看天色,然后根据以往的经验预测今天是否会下雨,从而决定是否带雨具。但是,随着现代社会 第 5 章 系 统 预 测 155 的发展,系统结构日益复杂,变化过程中存在极大的
3、不确定性和随机性,这就使我们在系统的组织、管理中凭经验直觉做出决策并获得成功的可能性大大减小。为了在错综复杂、急剧变化的环境中减少决策失误、改善管理调控,对科学预测的要求不断提高;系统预测的理论和方法也随着实践的需要有了迅速的发展,并形成了一套科学的系统预测理论方法体系。根据预测对象、时间、范围、性质等的不同,可对现有预测方法进行不同的分类。根据方法本身的性质特点,我们将预测方法分为定性预测方法、时间/时空序列分析预测方法、因果关系预测方法等,具体描述如下。(1)定性预测方法。这类方法主要是依据人们对系统过去和现在的经验、判断和直觉(如市场调查、专家打分、主观评价等)做出预测,主要有专家会议法
4、、德尔菲法、主观概率法、领先指标法等。(2)时间/时空序列分析预测方法。由于事物在其发展变化过程中,总有维持或延续原状态的趋向,事物的某些基本特征和性质将随时间的延续而维持下去,因此可以根据系统对象随时间变化的历史资料(如统计数据、实验数据和变化趋势等),只考虑系统变量随时间的发展变化规律,对其未来做出预测。时间序列分析预测方法主要包括移动平均法、指数平滑法、趋势外推预测法及博克斯詹金斯法等。时空序列(space-time series)是时间序列在空间上的扩展,是指在空间上有相关关系的多个时间序列的集合,如经济统计序列、卫星影像序列、环境监测序列、交通流量序列等。时空序列分析预测方法主要包括
5、时空自相关移动平均法、时空插值法、卡尔曼滤波法、层次贝叶斯法等。(3)因果关系预测方法。事物发展变化具有内在因果关系,如事物的存在、发展和变化都受有关因素的影响和制约,事物的存在和变化都有一定的模式;特性相近的事物,在其变化发展过程中,常有相似之处,因此可由先发事物的变化进程与状况,推测后发类似事物的发展变化。另外,由于系统变量之间也存在某种前因后果关系,找出影响某种结果的一个或几个因素,建立它们之间的数学模型,就可以根据自变量的变化预测结果变量的变化。因果关系模型中的因变量和自变量在时间上是同步的,即因变量的预测值要由并进的自变量的值来旁推。因果关系预测方法主要有回归分析(regressio
6、n analysis)法、马尔可夫过程(Markov process)法、状态空间预测法、计量经济预测法,以及系统动力学仿真法等。(4)其他预测方法。事物发展变化的规律复杂,很难确定事物存在、发展和变化的规律,为此采用人工智能的相关方法对事物的行为进行模拟分析。这类预测方法主要是机器学习算法,如神经网络、K 最近邻算法、支持/相关向量机、随机森林算法等。特别是进入大数据时代后,这类预测方法得到了新的发展和改进,应用也更为广泛,具体内 系统工程原理 156 容将在 5.1.3 节重点介绍。上述四类预测方法中,后面三类预测方法都属于定量预测方法,归纳起来如图 5.1.1所示。5.1.3 大数据预测
7、 近年来,随着互联网、物联网、云计算、三网融合等信息技术与通信技术的迅猛发 图 5.1.1 预测方法分类 展,数据快速增长,信息社会已经进入了大数据时代。大数据的涌现不仅改变着人们的生活与工作方式、企业的运作模式,甚至还引起科学研究方法的改变。作为大数据应用的核心大数据预测,其特征、步骤和方法不同于传统的数据统计预测。1.大数据预测的特点 大数据预测的特点由其数据来源的特点决定,主要包括以下内容。1)实样而非抽样 传统的统计预测方法的数据是随机抽样数据,而大数据时代,云计算和数据库使足够大样本乃至全体数据的获取变得非常容易。但需特别注意的是,实际样本不等于全体样本,依然存在系统性偏差的可能,所
8、以存在一个数据规模的阈值问题。数据少于这个阈值,问题解决不了;达到这个阈值,就可以解决以前令人们束手无策的问题;而数据规模超过这个阈值,对解决问题也没有更多的帮助。我们把这类问题称为“预言性数据分析问题”,即在做大数据处理之前,需确定阈值,即当数据量到达多大规模时,预测可以 第 5 章 系 统 预 测 157 达到何种满意程度。2)效率而非精确 过去使用抽样的方法,需要在具体运算上非常精确,正所谓“差之毫厘,谬以千里”。但精确的计算是以时间消耗为代价的,在小数据时代,追求精确是为了避免放大偏差不得已而为之。而大数据预测具有实时性的特点,算法的准确率不再是应用的最主要指标,很多场景中算法需要在处
9、理的实时性和准确率之间取得平衡。3)相关而非因果 大数据时代只需要知道是什么,而不需要知道为什么。大数据预测不同于传统的逻辑推理方法,它关注数据的相关性而不是因果关系,即“知其然,而不一定知其所以然”。相关性一般用支持度、可信度、兴趣度等参数来描述,相关分析的目的就是找出数据集里隐藏的相互关系网(关联网),从而对事物的未来发展做出预测。2.大数据预测的步骤 大数据预测的步骤与传统预测方法类似,包括数据抽取与集成、数据分析、结果分析与展示。1)数据抽取与集成 大数据的一个重要特点就是多样性,这就意味着数据来源广泛且类型繁杂,这种复杂的数据环境给大数据的处理带来极大的挑战。要想进行大数据预测,首先
10、必须对所需数据源的数据进行抽取和集成,从中提取出关系和实体,经过关联和聚合之后采用统一定义的结构来存储这些数据。在数据集成和提取时需要对数据进行清洗,保证数据质量及可信性。同时还要特别注意的是,大数据时代的数据往往是先有数据再有模式(模型),且模式是在不断的动态演化之中的。2)数据分析 数据分析是整个大数据预测流程的核心,传统的预测中数据分析包含三个步骤,即建模、参数估计、数据检验。考虑到大数据的特点,传统的预测技术(如统计分析、机器学习)都需要做出相应调整。一是大数据应用一般具有实时性特点,算法的准确率不再是最主要的指标,很多场景中预测算法要在处理的实时性和准确率之间取得平衡;二是在数据量增
11、长到一定规模后,可以从小量数据中挖掘出有效信息的算法不一定适用,如统计学中的邦弗朗尼原理(Bonferronis principle)就是一个典型的例子;三是验证方法需要适应数据量大、类型庞杂的特点,原有的一些统计检验方法和指标需要相应调整,对照性试验、在线测试等方法将占据重要位置。系统工程原理 158 3)结果分析与展示 传统文本或图形形式的分析与展示在大数据时代已稍显不足,可视化与人机交互技术是未来发展的重点方向。3.大数据预测的主要算法 1)K 最近邻算法 K 最近邻算法(k-nearest neighbor,KNN)给定一些已经训练好的数据,输入一个新的测试数据点,计算包含此测试数据点
12、的最近的点的分类情况,哪个分类的类型占多数,则此测试点的分类与此相同。有的时候可以赋予不同的分类点不同的权重,近的点的权重大点,远的点自然就小点。2)朴素贝叶斯算法 朴素贝叶斯(Naive Bayes)算法对给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。3)关联规则挖掘算法 关联规则挖掘(Apriori)算法是通过连接和剪枝运算挖掘出频繁项集,然后根据频繁项集得到关联规则,关联规则的导出需要满足最小置信度的要求。4)网页重要性/排名算法 网页重要性/排名(pagerank,PR)算法最早产生于谷歌(Google),核心思想是将网页的入链数作为
13、一个网页好坏的判定标准,如果一个网页内部包含了多个指向外部的链接,则 PR 值将会被均分,PR 算法也会遭到 Link Spam(垃圾链接)攻击。5)随机森林算法 随机森林(fandom forest)的思想是决策树与 boosting 算法的结合。决策树采用的是CART(classification and regression tree,即分类回归树),通过组合各个决策树的弱分类器,构成一个最终的强分类器。在构造决策树的时候采取随机数量的样本数和随机的部分属性进行子决策树的构建,避免了过分拟合现象的发生。虽然大数据分析预测是系统预测的发展趋势,但考虑到课程定位于基础知识的介绍,本章将重点介
14、绍传统的系统预测方法,对大数据预测有兴趣的读者可进一步参考相关文献与书籍。第 5 章 系 统 预 测 159 5.1.4 系统预测的一般步骤 系统预测是一种科学预测,是对系统对象的发展、演变的客观规律的认识和分析过程。因此,系统预测应该建立在科学的理论基础之上,采用合理的分析、测算,以及评价方法和手段。这样,系统预测技术应当包括它所遵循的理论、预测对象的历史和现状资料与数据、所能采用的计算方法或分析判断方法、预测方法和结果的评价与检验等要素。系统预测技术所遵循的理论又包括两个方面:一是预测对象本身所处学科领域的理论,用以辨识事物发展的客观规律,指导预测方法的选择和结果的分析检验,如天气预报和经
15、济预报可能采用完全不同的预测模型;二是预测方法本身的理论,主要是数理统计学的一些有关理论,近来也出现了一些智能预测的理论和方法等。因此,实施一个具体的系统预测项目,必须基于上述两方面的科学理论基础。一个成功的预测实践,应当科学、合理地选择预测方法,以及准确、完整地理解预测对象(包括其发展历史、现状及其资料、数据等)。尽管不同的预测对象、不同的预测方法可能导致不同的预测实施过程,但总体看来,系统预测方法,特别是定量预测方法大致可分为以下几个步骤。1)明确预测目的 一般来说,系统预测不是系统工程研究的最终目的,它应当是为系统决策服务的。因此,在预测过程中,首先要在整个系统研究的总目标指导下,确定预
16、测对象及具体的要求,包括预测指标、预测期限、可能选用的预测方法,以及要求的基本资料和数据。这是系统预测一项极为重要的准备工作,它实际上会使我们的预测工作有正确的科学理论和方法指导,做到有的放矢。2)收集、整理资料和数据 根据选用或可能选用的预测方法和预测指标,进行两个方面的工作:一方面是把与所研究系统相关的资料,包括历史资料、相似系统资料、专家判断、工程经验等尽可能收集齐全,并进行分析、整理,去伪存真,填平补齐;另一方面是进行调查、访问或试验,以取得系统的实际数据,这一点对定性预测和定量预测都很重要。3)建立预测模型 根据科学理论指导及所选择的预测方法,选择合适的变量来表达预测对象的关系,从而
17、建立预测用的数学模型。必要时可对数据进行适当处理(如进行数学变换),以符合模型本身的要求。4)模型参数估计 按照所建立的数学模型的性质和获得的样本数据,采取科学的统计方法,对模型中 系统工程原理 160 的参数进行估计,包括点估计和区间估计。5)模型检验 检验包括对模型的合理性及有效性进行的验证,最终识别和确认所选用的模型形式与结构。模型检验具体包括两个方面:一方面是对有关模型结构的检验,如对线性关系的假设、变量结构(变量选取)及独立性假设等的统计检验,以保证模型假设的合理性;另一方面是对模型精度(即预测误差)的检验,如对模型参数、误差区间、标准离差等的检验。一旦检验发现模型不合理,就必须对模
18、型加以修正。6)预测实施与结果分析 运用通过检验的预测模型,使用已知的历史资料和实际数据,就可进行未来预测,并对预测结果进一步作理论、经验等方面的分析。此外,必要时还可通过对不同方法获得的预测结果进行分析对比,来做出更加可信的判断,为系统决策提供科学依据。从预测实际工作来看,不可能仅靠上述六个预测步骤就能完全达成目标,有时需要若干次的反复和迭代,经过多次信息补充、模型修正等,才能完成系统预测任务。5.2 定性预测方法 定性预测是指预测者依靠熟悉业务知识、具有丰富经验和综合分析能力的人员与专家,根据已掌握的历史资料和现实数据,运用个人经验和分析,对事物未来发展做出性质和程度上的判断,然后通过一定
19、形式综合各方面意见,将其作为预测未来的主要依据。定性预测着重对事物发展的趋势、方向和重大转折点进行预测,主要凭借人的经验及分析能力。下面简要介绍两种典型的定性预测方法专家会议法和德尔菲法。5.2.1 专家会议法 专家会议法是指根据规定的原则选择一定数量的专家,按照一定的方式组织专家会议,发挥专家集体的智能结构效应,对预测对象未来的发展趋势及状况做出判断的方法。头脑风暴法是专家会议法的具体运用。专家会议有助于专家们交换意见,他们通过互相启发,可以弥补个人意见的不足;通过内外信息的交流与反馈,产生“思维共振”,进而将产生的创造性思维活动集中于预测对象,在较短时间内得到富有成效的创造性成果,为决策提
20、供预测依据。但是,专家会议也有不足之处,如有时心理因素影响较大、易屈服于权威或大多数人意见、易受劝 第 5 章 系 统 预 测 161 说性意见的影响、不愿意轻易改变自己已经发表过的意见等。专家会议的人选应按下述三个原则选取:如果参加者相互认识,要从同一职位(职称或级别)的人员中选取,领导人员不应参加,否则可能对参加者造成某种压力;如果参加者互不认识,可从不同职位(职称或级别)的人员中选取。这时,不论成员的职称或级别的高低,都应同等对待;参加者的专业应力求与所论及的预测对象的问题一致。运用专家会议法,必须确定专家会议的最佳人数和会议进行的时间。专家小组规模以 1015 人为宜,会议时间一般以进
21、行 2060 分钟效果最佳。会议提出的设想由分析组进行系统化处理,以便在后续阶段对提出的所有设想进行评估。5.2.2 德尔菲法 德尔菲是古希腊传说中的神谕之地,城中有座阿波罗神殿可以预卜未来,因而借用其名。德尔菲法最早出现于 20 世纪 50 年代末,是美国为预测其“遭受原子弹轰炸后,可能出现的结果”而发明的一种方法。1964 年美国兰德公司的赫尔默(Helmer)和戈登(Gordon)发表了长远预测研究报告,首次将德尔菲法用于技术预测,其中涵盖了科学突破、人口控制、自动化、空间进展、预防战争、武器系统等诸多领域。后来德尔菲法不断被用于其他领域(如经济趋势、健康和教育领域)并在七八十年代成为主
22、要的预测方法。德尔菲法在商业预测中也有成功应用,如 Basu 和 Schroeder 在 1977 年采用德尔菲法预测新产品在第一个两年内的销量,其预测结果与实际销售的误差仅为 3%4%,远低于定量方法 10%15%的误差,以及传统非结构化预测方法 20%的误差。据未来杂志报道,20 世纪 60 年代末到 70 年代中期,专家会议法和德尔菲法(以后者为主)在各类预测方法中所占比重由 20.8%增加到 24.2%。80 年代以来,中国不少单位也采用德尔菲法进行了预测、决策分析和编制规划工作。德尔菲法根据有专门知识的人的直接经验,对研究的问题进行判断、预测,也称专家调查法。它以匿名方式通过几轮滚动
23、式函询调查,征求专家意见,是专家会议法的发展。预测领导小组对每一轮的意见都进行汇总整理,将其作为参考资料再发给每个专家,供他们分析判断,提出新的论证。如此多次反复,专家意见日趋一致,结论的可靠性越来越大。下面从德尔菲法的特点、专家的选择、预测问题的提出、预测过程、德尔菲法应遵守的原则,以及结果的处理和表示等方面来进行介绍。系统工程原理 162 1.德尔菲法的特点 德尔菲法有如下三个特点:为克服专家会议法易受心理因素影响的缺点,德尔菲法采用匿名形式。应邀参加预测的专家互不了解,完全消除了心理因素的影响。专家可以参考前一轮的预测结果,修改自己的意见而无须做出公开说明,无损自己的威望。德尔菲法不同于
24、民意测验,一般要经过多轮才能得出结论。在匿名情况下,为了使参加预测的专家掌握每一轮预测的汇总结果和其他专家提出的意见,预测领导小组对每一轮的预测结果进行统计汇总,并将结果作为反馈材料发给每个专家,供专家在下一轮预测时参考。对调查获得的信息作定量处理是德尔菲法的一个重要特点。为了定量评价预测结果,德尔菲法采用统计方法对结果进行处理。2.专家的选择 开展德尔菲法预测需要成立一个预测领导小组。该小组负责拟定预测主题、编制预测事件一览表,以及对结果进行分析处理,此外一项更重要的工作是负责专家的选择。物色专家是实施德尔菲法的一个关键步骤,因为它本身就是一种对意见和价值进行判断的作业。因此,在选择专家过程
25、中不仅要注意选择精通专业技术、有一定声望、有学科代表性的专家,同时还需要选择边缘学科、交叉学科的专家。是否选择承担领导职务的专家,要看他们是否有足够的时间来认真填写调查表。根据预测问题的规模,专家组一般以 1050 人为宜。人数太少,学科代表性不足,并缺乏权威,同时影响预测精度;人数太多,难于组织,结果的处理也比较复杂。但是,对一些重大问题,专家人数也可扩大到 100 人以上。专家选定后还可根据具体预测问题,划分从事基础研究预测和应用研究预测的小组,也可按其他形式分组。美国兰德公司在采用德尔菲法就科学的突破、人口的增长、自动化技术、航天技术、战争的可能和防止、新的武器系统 6 个问题进行预测时
26、,专家组由 82 人组成,分 6 个小组活动;其中成员一半来自本公司,外单位成员中包括 6 名欧洲专家。在确定专家人数时,值得注意的是,即使专家同意参加预测,因种种原因专家也不见得每轮必答,有时甚至中途退出,因而预选人数要多于规定人数。3.预测问题的提出 在开展预测前,首先要明确预测主题和预测目的,准备背景资料,并根据预测任务拟定调查表,包括目标手段调查表和专家应答问题调查表。第 5 章 系 统 预 测 163 1)制定目标手段调查表 预测领导小组与专家一起对已掌握的数据进行分析,确定预测对象的总目标和子目标,以及达成目标的手段。例如,在预测计算机技术发展趋势时,总目标是:“当人类在所有活动领
27、域内都采用计算机有效地解决问题时,计算机技术的发展方向是什么?”其子目标可以划分为:解决人机联系问题;提高计算机智能;提高单台计算机效率;提高全国总装机效率;等等。达成目标的手段为:改善单元技术;改善外围设备和通信技术;发展信息处理方法(数学模型);改善编程手段;改善计算机结构;改善使用计算机的组织工作;改善计算机的设计方法;等等。2)制定专家应答问题调查表 专家应答问题调查表是德尔菲预测的重要工具,是信息的主要来源。它的质量可能直接影响预测结果。例如,如果需要专家对某个事件的完成时间进行预测,则需要根据问题制定事件完成时间调查表,其形式如表 5.2.1 所示。表 5.2.1 事件完成时间调查
28、表 事件 事件完成时间 10%概率 50%概率 90%概率 解决某一科学技术问题 a1i m1i b1i 设计一种机器 a2i m2i b2i 开发一种具有一定技术功能的装置 a3i m3i b3i 注:i 为第 i 个专家 4.预测过程 经典的德尔菲法预测要经过四轮调查。一般说来,经过四轮调查,专家意见可以相当协调或一致。有些派生或改造的德尔菲预测方法,考虑整个过程进行的时间和复杂程度,以及专家意见的一致程度,可以部分取消轮间反馈,适当简化预测过程。第一轮,由组织者发给专家第一轮调查表,该表是开放式的,不带任何框,只提出预测问题。请专家围绕预测主题提出预测事件。如果限制太多,会漏掉一些重要事
29、件。预测组织者要对专家填好的调查表进行汇总整理,归并同类事件,排除次要事件,用准确术语提出一个预测事件一览表,并作为第二轮调查表发给专家。第二轮,专家对第二轮调查表所列的每个事件做出评价。例如,说明事件发生的时间、叙述争论问题和事件或迟或早发生的理由。预测组织者收到第二轮专家意见后,对 系统工程原理 164 专家意见做统计处理,整理出第三张调查表。第三张调查表包括:事件,事件发生时间的中位数和上、下四分位数,以及事件发生时间在四分位数外侧的理由。第三轮,把第三张调查表发下去后,请专家做以下事情:重审争论;对上、下四分位数外的对立意见做一个评价;给出自己新的评价(尤其是在上、下四分位数外的专家,
30、应重述自己的理由);如果修正自己的观点,也请叙述为何改变,原来的理由错在哪里,或者说明哪里不完善。专家们的新评论和新争论返回到组织者手中后,组织者的工作与第二轮十分类似:统计中位数和上、下四分位数;总结专家观点,重点在于争论双方的意见,形成第四张调查表。第四轮,请专家对第四张调查表再次评价和权衡,做出新的预测。是否要求做出新的论证与评价,取决于组织者的要求。第四张调查表返回后,组织者的任务与上一轮的任务相同:计算每个事件发生时间的中位数和上、下四分位数,归纳总结各种意见的理由及争论点。5.德尔菲法应遵守的原则 人们从经验中总结了如下几个在组织德尔菲方法时应遵守的主要原则:对德尔菲法做出充分说明
31、。在发出调查表的同时,应向专家说明德尔菲方法的目的和任务、专家回答的作用,以及德尔菲法的原理和依据。问题要集中,提出的问题要有针对性。避免组合事件。例如,对题为“以海水中提炼的氘(重氢)为原料的核电站到哪一年可以建成”的预测事件,有的专家就难以做出回答。因为他虽然可以对核电站建成日期做出评价,然而他认为原料应是氚而不是氘。这时他如果提出预测,似乎他同意采用氘做原料;如果拒绝回答,似乎他对能否建成核电站持怀疑态度。因而,应避免提出“一种技术的实现是建立在某种方法的基础上的”这类组合事件。用词要确切。例如,“私人家庭到哪一年将普遍使用大屏幕彩电”的预测事件中,“普遍”二字比较含糊;另外,“大”字也
32、含糊。如果改为“私人家庭到哪一年将有 80%使用 64 厘米以上的彩电”则是确切的。领导小组意见不应强加在调查表中。调查表要简化,问题数量适当限制。一般认为上限以 25 个为宜,超过 50 个问题则要相当慎重。支付适当报酬,以鼓励专家的积极性。6.结果的处理和表示 对专家的回答进行分析和处理是德尔菲方法的最后阶段,也是最重要的阶段。在该 第 5 章 系 统 预 测 165 阶段最主要的工作是用一定的统计方法对专家的意见做出统计、归纳和处理,得出代表专家意见的预测值和离散程度。然后,对专家意见做出分析和评价,确定预测方案。结果的处理与表示主要可采用中位数和上、下四分位数法,算术平均法,主观概率法
33、,以及比重法或评分法等。例如,采用中位数和上、下四分位数法对事件完成时间预测结果的处理如下:用中位数代表专家预测的协调结果,用上、下四分位数代表专家意见的分散程度。如果将专家预测的结果在水平轴上按顺序排列,并分成四等分,则中分点值为中位数,表示专家中有一半人估计的时间早于它,而另一半人估计的时间晚于它。先于中分点的四分点为下四分位数,后于中分点的四分点为上四分位数。其他关于数量值的预测类似。例如,2006 年由 11 位专家参加的对“2007 年参加全国研究生入学考试的人数”的预测,其预测结果在水平轴上的排列如图 5.2.1 所示。这一预测结果的中位数为 136 万人,下四分位数为 131 万
34、,上四分位数为 141 万人。图 5.2.1 预测结果 预测学家 Jantsch 根据大量数据的统计,得出一个根据中位数推算上、下四分位数的经验公式,即如果中位数年份距组织预测的年份为 x 年,则下四分位数距组织预测年份为23x年,上四分位数为53x年。例如,1984 年进行了一项预测,测得中位数为 2020 年,则 x=2020-1984=36(年);下四分位数为 1984+23x=2008(年);上四分位数为1984+53x=2044(年)。有的预测结果只标明中位数,如“1988 年美国将有 50%的新产品采用计算机设计”,其中的 1988 年就是中位数。有的预测结果同时标明上、下四分位数
35、,如“1985 年(19841987 年)美国自动线销售额将为 1978 年的两倍”,其中 1985 年为中位数,括号中的 1984 年和 1987 年分别为下、上四分位数。系统工程原理 166 5.3 时间序列分析预测 5.3.1 时间序列的概念 1.什么是时间序列 系统中某一变量或指标的数值或统计观测值,按时间顺序排列成一个数值序列 x1,x2,xn,称为时间序列(time series)。例如,商场的月销售额、城市的季度用电量、某地区每年 5 月的降雨量、某地区的工业总产值和投资总额,以及由仪器测到的人体心电图、随时间变化的电路电压、电流信号等都是时间序列的典型例子。某市 6 年来汽车货
36、运量(表 5.3.1)是一个典型的时间序列。表 5.3.1 某市 6 年来汽车货运量(单位:108吨千米)年份 一季度 二季度 三季度 四季度 2000 4.77 6.16 5.04 5.13 2001 6.38 8.06 9.64 6.83 2002 7.46 6.37 8.46 8.89 2003 10.34 10.45 9.54 8.27 2004 8.48 8.15 9.43 9.67 2005 10.39 10.48 12.23 从系统的角度来看,某一时间序列代表客观世界的某一动态过程,它是系统中某一变量受其他各种因素影响的总结果,且表现为动态变化。因此,时间序列也往往称为“动态数据
37、”。系统变量变化的动态过程分为两类:一类可以用时间 t 的确定函数加以描述,称为确定性过程;另一类没有确定的变化形式,也不能用 t 的确定函数加以描述,但是可以用概率统计方法寻求合适的随机模型来近似地反映其变化规律,这种过程称为随机过程。在系统预测中讨论的每一个时间序列都是某一事物变化的随机过程的一个样本,它的一个本质特征是相邻观测值的依赖性,这种依赖性具有很大的实际意义。通过对样本中的这种依赖性进行分析研究,找出动态过程的特性、最佳的数学模型,估计模型参数,并检验利用数学模型进行统计预测的精度,就是时间序列分析预测的主要内容。2.时间序列的特征 虽然客观现象的性质多种多样,发展的时空条件千差
38、万别,影响事物发展的具体原因不可胜数,但是其仍有共同的规律性。通过对社会、经济和工程系统中的各种时间序 第 5 章 系 统 预 测 167 列的分析发现,时间序列的影响因素的作用特征可以概括为四种变动方式,即趋势变动T、季节变动 S、循环变动(周期变动)C 及不规则变动 I。也就是说,任何一个时间序列总是表现为上述几种变动的某种组合的总结果 Y,且可用乘法模型或加法模型表示为 YT S C I=或 YTSCI=+由此可见,时间序列的特征表现为如下四个方面。(1)趋势性,是指客观现象在一个相当长的时期内,由于受某些基本因素持续同性质(或同向)的影响所呈现出来的一种基本走势。尽管在这个时期内,事物
39、的发展仍有波动,变动幅度可能有时不等,但基本趋势不变。例如,股票市场的牛市和熊市。(2)周期性,是指客观现象以若干年为周期的涨落起伏相同或基本相同的一种波浪式的变动,如股票市场由牛市到熊市的周期再到下一个牛市与熊市的周期;资本主义经济由危机、萧条、复苏、繁荣的一个周期再到下一个危机、萧条、复苏、繁荣的周期。虽然每一个周期可能长短不同,但盛衰起伏周而复始。例如,宏观经济的繁荣、萧条存在 25 年的短周期,同时存在 520 年的中周期及 3050 年的长周期。事物的循环变动,也是由事物发展的内在原因决定的。(3)季节性,是指由于自然条件、社会条件的影响,社会经济现象在一年内或更短的时间内,随着季节
40、的转变而引起的周期性变动。例如,农产品收购、农业生产资料和其他季节性商品的销售、几大节日的客运量等,就有明显的季节性,而且年复一年地呈规律性变动。季节变动一般以一年为周期。此外,有的社会季节现象是以一日、一周、一月为周期而产生变动,也称为准季节变动。例如,市内公共汽车的乘客,早晨逐渐增多,上、下班时间达到高峰,入夜以后逐渐减少,是以一日为周期的变动;市内商店的顾客、影剧院的售票,星期六和星期日最多,是以一周为周期的变动;由于机关、团体、企业习惯在月初发工资,所以银行活期储蓄存款月初增加、月末减少,这是以一月为周期的变动。在现实生活中,季节变动是一种极为普遍的现象。例如,商业经营中时令商品的销售
41、量,农业生产中的蔬菜、水果、禽蛋的生产量,工业生产中的服装生产量,等等,都受生产条件和气候变化等因素的影响而形成有规则的周期性重复变动。季节变动是各种周期性变动中很重要的一种,但是季节性和周期性还是有差别的。具体来说,季节性是时间序列围绕趋势和周期年复一年地重复出现的一种有规律的波动,所以季节性中可能包含趋势性和周期性的组合,而周期性则不包含趋势性。或者说,周期性是平稳序列的特征,季节性是一般序列的特征。(4)不规则性。不规则性变动可分为突发性和随机性两种。前者是由难以预测的因素引起的,其规律目前难以认识和推测。对于具有随机性变动的时间序列,则可以利用 系统工程原理 168 一个经过历史或测试
42、数据验证的概率分布加以推测。在系统预测中,我们一般把不规则变动视为干扰,必须设法将其过滤掉,而将趋势变动反映出来,以预测时间序列的长期变化趋势,必要时还应将季节性或周期性特征反映出来。任何一个时间序列,可能同时具有以上几个特征,也可能是其中某几个特性的组合(表 5.3.1 的时间序列就具有趋势性和季节性)。时间序列可能具有不同特征,这就导致我们在进行系统预测时采用不同方法,因此在预测之前,有必要识别时间序列的变动特征,从而选择合适的预测方法。3.时间序列特征的识别 识别时间序列特征的简单方法是作图法,即以时间为横坐标,以变量值为纵坐标,将时间序列数值绘在坐标图上,一般就可以大致观察到时间序列的
43、特征。理论上时间序列的特征识别需要利用自相关系数或自相关过程的概念。为此,首先定义自相关系数如下。设时间序列为 x1,x2,xn,则 k 自相关系数 rk可按下式计算:()()(),1211 2,4n ktt ktknttxxxxnrkxx+=(5.3.1)式中,11nttxxn=(5.3.2)1)时间序列的随机性识别 时间序列的随机性识别,即识别时间序列的相邻观测值是否具有依赖性,还是完全由相互独立的随机数组成。当时间序列样本数 n 足够大时,如果所有的自相关系数 r1,r2,r3,都近似等于零,则表明该时间序列完全由随机数组成,具有完全的随机性特征。由数理统计知识可以推出:若计算样本较多(
44、20 个以上)的自相关系数 rk(k=1,2,20,)为 1.961.96krnn (5.3.3)当式(5.3.3)成立时,则有 95%的置信度可以认为所有的自相关系数 rk与零没有显著差异,因而认为该时间序列具有随机性特征。在有些情况下,可能由于偶然因素,有个别 rk 0,超出式(5.3.3)的范围。G.E.Box和 D.A.Pierce 提出可用2检验来判别 rk与零有无显著差异,其方法如下。第 5 章 系 统 预 测 169 计算 m 个自相关系数 r1,r2,rm(m6,n4m),构造统计量 Q 如下:21mkkQnr=(5.3.4)于是,由 rk(k=1,m)可直接计算 Q;再查2分
45、布表,取自由度为 m-1。给定显著性水平 0 xi(j i,i=1,2,n)时,就将其定义为 xi的一个逆序,xi的逆序数定义为 xi相应逆序的总个数 Ai。于是,时间序列的逆序总数为 11niiAA=(5.3.5)于是,在时间序列不存在单调趋势的条件下,统计量 ()()1Var2uAE AA+(5.3.6)渐近服从正态分布 N(0,1)。式中,A 的平均值为 ()()41EnnA=(5.3.7)A 的方差为 ()()2Var23572Annn=+(5.3.8)于是由 n 可以计算 E(A)及 Var(A),而且由实际序列可得 A 的值,从而由式(5.3.6)可计算 u 的值。设显著性水平为
46、0.05,则如果-1.96u1.96,可认为“序列无趋势”,否则拒绝上述假设。显然,如果 A 很大,则表明时间序列均值(或方差)有上升的趋势;而 系统工程原理 170 A 很小,则表明时间序列均值(或方差)有下降趋势。上述方法仅对单调序列有效,对一些复杂趋势序列可能存在困难。此时,一种办法是把数据分成若干段,然后分段利用上述方法加以识别。4)时间序列的周期性(季节性)识别 时间序列的周期性识别的简单方法,仍然是计算所有的自相关系数 rk,并组成 rk序列。一般说来,rk序列与原序列会具有相同的周期性规律,即在序列的峰、谷处,会出现1.96krn的情况,而其余的 rk大多仍满足1.96krn0;
47、b0。由式(5.3.22)可见,当 t+时,ytK,是达到饱和状态的极限值,而 yt对 t 的拐点(即增长速度的转折点)为ln1,2tatyKb=。(2)龚伯茨(Compertz)曲线。该曲线又称双指数模型,是英国统计学家和数学家龚伯茨发现的,其形式如下:eektbtyK=(5.3.23)式中,b 0;k 0。它和 Logistic 曲线类似,K 是饱和极限值(t+,ytK),其拐点 第 5 章 系 统 预 测 177 为1lnetbtyKk=,-。4)其他趋势曲线 实际上,预测用的趋势曲线远不止上述几种,通过适当组合变形,还可以产生很多可供选择的趋势曲线,如 5.3.245.3.25e5.3
48、.26e5.3.27tttttbttyLabbyactyatya=+=+=()()()()()修正指数曲线(双曲线)(另一种指数曲线)因此,如何根据实际中预测对象的规律来选择合适的趋势曲线,就成为趋势外推预测法应用的一个重要问题。2.趋势预测模型的选择 由于预测曲线具有多样性,能否正确地选择趋势模型,对预测任务的成败至关重要。为了获得与预测对象发展趋势一致的趋势模型,不仅要分析预测对象历史演变的特点,即历史数据的特点,更重要的是要分析其未来发展趋势。由此看来,选择趋势预测模型时,一方面要从客观上分析其过去序列的特点,另一方面又要从主观上判断其未来趋势。前者主要可由已有的样本数据分析得到,而后者
49、却要依据预测人员的经验和判断,体现了预测的科学性和艺术性的统一。具体来说,有以下几方面的问题需要研究:预测对象发展的时间特征是单调递增的,还是递减的;是有发展趋势的,还是周期性变化的;是有发展极限的,还是没有发展极限的;是渐变的,还是跳跃变化的。预测对象发展的极值特征,即预测对象的变化过程是否有极大值或极小值,这些极值点是否稳定,是可达到的,还是渐近的。预测对象发展的时间函数形状特点是否有拐点、是否具有对称性等。预测对象的发展过程在时间上是否有明显的限制。预测对象未来发展速度是等速的还是变速的、速度和加速度的变化特点等。利用趋势外推预测法从事实际预测时,一般可以建立几种不同的趋势模型,然后逐个
50、进行分析比较,包括进行残差平方和检验与进行专家评审等,来最终选择一个预测模型,实施预测或选择预测结果。3.趋势模型的参数辨识 显然,在趋势模型选定后,首要的工作就是要确定模型参数。不同的趋势模型可能 系统工程原理 178 会有不同的参数辨识方法,这里介绍最经典的最小二乘法。最小二乘法是广泛使用的一种曲线拟合方法。其优点是运算简单,能很好地平滑趋势中的随机干扰,对模型中的参数做出无偏估计(详见 5.4 节)。在实际运用中,有两种情况。一种是可以直接采用最小二乘法,只要作简单的变量替换,就可以进行,如多项式函数;另一种是模型需要作适当的变换,以转换成第一种情形,再做处理。1)多项式模型的参数辨识