基于GRNN网络的风电功率预测研究毕业设计论文.doc-淘文阁

资源描述

《基于GRNN网络的风电功率预测研究毕业设计论文.doc》由会员分享，可在线阅读，更多相关《基于GRNN网络的风电功率预测研究毕业设计论文.doc（38页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、基于GRNN网络的风电功率预测研究摘要大规模风电并网对电力系统造成很多不利影响，风电功率预测是减轻这些影响的一个重要手段，故对风功率预测方法的研究具有十分重要的意义。本文采用GRNN神经网络法对风电功率预测进行研究。首先，对风电场历史风功率数据进行分析，截断处理，建立时间序列预测的GRNN网络模型；利用该模型对历史数据进行超前一步预测，目的是为了找到最优的SPREAD值。SPREAD值是GRNN神经网络的重要参数，该参数的选择对模型的推广能力具有重要的意义。论文从理论上研究神经网络的泛化能力及GRNN网络的设计要点，重点讨论SPREAD参数的物理本质，给出训练过程中选择该参数的几种方法。其次

2、，以某风电场的风功率历史数据为样本，讨论样本设计及网络训练，运用MATLABR2008a平台编程实现对GRNN神经网络系统的建模设计。最后，通过对模拟仿真的手段设定获取最小泛化误差的目标函数，进而选出最优的SPREAD参数，检验预测效果。关键词：风电功率预测；泛化能力；GRNN神经网络；扩展系数Study on wind power forecasting in wind farms based on GRNN neural networksAbstractLarge scale wind power grid for power system caused a lot of adverse

3、effect, wind power forecasting is the important method to reduce the influence, so the research of wind power forecasting method has very vital significance.In this paper, we adopt the method of neural networks to GRNN to research wind power forecasting. First, we study the history wind power data o

4、f one wind farm and analysis them, then truncate the wind power data and build the GRNN neural networks model with time series; based on the model for forecasting ahead one step with the historical data, the purpose is to find the optimal value of the SPREAD. The value of the SPREAD is an important

5、parameter to the GRNN neural networks, and the choice of this parameter has very vital significance to the generalization of this model. From theory, this paper will research the generalization ability of the neural networks and the main points of designing GRNN neural networks. This paper focuses o

6、n the physical nature of SPREAD and gives several methods of the parameter selection in the training process. Second, we take the historical wind power data of one wind farm as sample, and discuss the sample designing and network training. We use MATLABR2008a platform for programming to design the G

7、RNN neural networks model of the system. Finally, we use the method of simulation to set the objective function with the minimal generalization error, and then choose the best SPREAD to inspect the prediction effect.Keywords: wind power foresting; generalization ability; generalize regression neural

8、 networks (GRNN); expansion coefficientII目录摘要IAbstractII1绪论11.1引言11.1.1课题研究背景11.1.2课题研究意义21.2风电场功率预测的国内外研究现状31.2.1国外研究现状31.2.2国内研究现状31.3风电场功率的预测方法41.3.1物理方法41.3.2统计方法41.3.3学习方法51.3.4三种方法的比较51.4本文的主要工作51.5本章小结62 径向基神经网络的基本理论72.1径向基函数（RBF）神经网络72.1.1 RBF神经网络概述72.1.2 RBF神经网络结构模型72.2 广义回归（GRNN）神经网络82.2.

9、1 GRNN神经网络概述82.2.2 GRNN神经网络结构92.2.3 GRNN神经网络的理论基础103预测数据及结构参数的预处理123.1 历史数据的预处理123.2 预测误差分析123.3 神经网络的泛化能力133.3.1 偏差-方差分解133.3.2 “欠拟合”与“过拟合”143.3.3 神经网络模型的评估153.4 GRNN网络设计要点163.4.1 SPREAD参数的物理本质163.4.2选择SPREAD的方法164基于GRNN神经网络的风功率预测建模方法204.1 问题描述204.2 数据预处理204.3 网络设计与训练214.3.1网络模型的评估方法214.3.2网络训练214.

10、3.3训练参数的选择225基于GRNN神经网络的风功率预测仿真应用245.1 仿真背景245.2 仿真实验265.2.1讨论SPREAD值对GRNN神经网络的影响265.2.2对提前1步预测与多步预测的比较265.3 网络测试结果296结论与展望31参考文献32致谢341绪论1.1引言1.1.1课题研究背景随着全球气温变暖和化石燃料一次性能源的逐渐枯竭，以及日益严峻的能源困局，风能、太阳能等可再生能源的利用在世界范围内受到普遍的重视。风力发电作为一种重要的可再生能源，近年来得到较快发展1。根据国际能源机构（IET）预测，2020年世界电力的12%将来自风电，到2040年风力发电将占世界发电总量

11、的23%2。风能的合理开发和利用可以有效缓解目前能源匮乏及燃料资源给环境带来的污染问题，在远期有可能成为世界上重要的替代能源。中国风力发电装机容量自2005年开始连续5年实现翻番增长。2005年底，中国风力发电累计总装机容量仅为1266MW，而到2010年底，全国累计装机容量为41827MW。2009年，中国的总累计装机容量已超过德国，成为世界第二，与排名第一的美国仍有近1000万千瓦的差距。截至2010年底，中国全年风力发电新增装机达1600万千瓦，累计装机容量达到4182.7万千瓦，总装机比上年增长约62%，首次超过美国，跃居世界第一。图1-1和图1-2分别为中国和全球近年风力发电装机容量

12、的统计，可见风力发电进入一个快速发展的阶段3图1-1 2005年2010年中国风电累计装机容量统计柱状图图1-2 2001年2010年全球风能累计装机容量统计柱状图风能具有波动性、间歇性、低能量密度等特点，使得风电场输出功率也具有波动性和间歇性。风电场建设规模的不断扩大、风电场数量的不断增加以及风电装机容量在电力系统中所占比例的不断提高给电力系统安全与经济运行带来了新的挑战。迎合此类问题，有关学者对风电场输出功率的预测进行了大量研究。1.1.2课题研究意义对我国风电场输出功率进行预测，具有重要的现实意义和学术价值，具体表现在：（1）优化电网调度，减少旋转备用容量，保证电网经济运行。对风电场功率

13、进行提前预测，使得电力调度部门可根据风电功率预测得到的出力曲线及时调整调度计划，优化常规机组出力，从而减少系统的备用容量，降低电力系统的运行成本，减轻风电对电网的不利影响。同时，在保证电能质量和电网安全、稳定运行的前提下，尽可能利用风力发电，提高系统中风电装机比例。（2）满足电力市场交易需求，为风力发电竞价上网提供优势。在电力市场中，一旦风力发电参与竞价上网，与其它可控的发电方式相比，风力发电的波动性将大大削弱风电的竞争力，而且还会由于供电的不可靠性带来经济惩罚。提前对风电功率预测，将有效提高风力发电的市场竞争力，是风能得到充分合理利用。（3）便于安排机组维护和检修，提高风电场容量系数。风电场

14、可以根据预测结果，选择风电场出力较小的时间，对设备进行维护和检修，从而提高发电量及风电场设备的有效利用率。（4）我国对风电场功率预测技术具有很大需求丹麦、德国、西班牙等风电技术较发达国家，已经普遍应用风电场功率预测技术，为风电占电力总量比重的不断增长提供了必要保证。与欧洲分布式风力发电方式不同，我国大部分风电场是集中在一个区域内的大容量风电场，风能的间歇性对于接入电网的影响更加突出。1.2风电场功率预测的国内外研究现状1.2.1国外研究现状国外从事风电场输出功率预测的研究工作起步比较早，现在丹麦、德国、西班牙等风电发展较为成熟的国家，已经研发出了用于风电场输出功率预测的成品系统，并在投入风电场

15、运行使用4。早在20世纪80年代就开始了风电功率预测技术研究，丹麦是最早进行风电功率预测系统开发的国家之一，在1990年Landberg采用类似欧洲风图集的推理方法开发了第一套风电功率预测系统。随后，丹麦里索国家实验室(Ris)开发了Prediktor系统，该系统使用的是物理模型预测方法。大范围的空气流动数据是由数值天气预报系统高精度有限区域模型(high resolution limited area model HIRLAM)提供的。丹麦科技大学的信息与数学建模学院开发的风电功率预测工具(wind power prediction tool WPPT)，1994年，WPPT在丹麦东部投入实

16、际运行，1999年在丹麦西部电力系统投入运行。Zephry是Ris和丹麦科技大学的信息与数学建模学院(informatics and mathematical modeling，IMM)联合开发的新一代短期风功率预测程序。德国奥尔登堡大学开发的风电功率预测系统Previento，可以对较大区域的功率进行提前2天的预测，其方法与Prediktor类似。WPMS(wind power management system WPMS)是德国太阳能研究所(Institute fur Solar Engergienersorgungstechnik ISET)开发的风电功率管理系统。eWind是美国AWS

17、 Truewind公司开发的风功率预测系统5，其主要组成包括一组高精度的三维大气物理数学模型、适应性统计模型、风电场输出模型和预测分发系统。另外还有爱尔兰、西班和法国等国家都开发了风电功率预测系统。西班牙马德里卡洛斯三世大学开发的sipreolico工具6。在Madeira岛和Crete岛运行的More-Care系统7和爱尔兰开发的Honeymoon系统等。1.2.2国内研究现状目前我国风电功率预测系统尚处于初步探索和理论研究阶段，并未开发出一定精度的风电功率预测系统8。因为我国目前还没有专门用于风电场发电量短期预报的NWP，所以已有的研究集中在用卡尔曼滤波法9、时间序列法10、人工神经网络等

18、方法进行提前预报。文献24采用了基于时间序列的神经网络法对风速进行预测。用时间序列法进行建模，将时间序列法的研究结果运用到神经网络法，为了提高预测精度和保持预测精度的稳定性，提出了滚动式权值调整手段，提高了预测的精度。文献11 文章提出了一种时间序列分析和卡尔曼滤波相结合的混合算法。其利用时间序列分析理论，对风电场风速信号进行非平稳建模，并根据卡尔曼预测递推方程进行预测12。这种混合算法不仅有效提高预测精度而且较好地改善了预测延时问题。1.3风电场功率的预测方法按照预测模型的不同，可以分为物理方法、统计方法和学习方法13-15。1.3.1物理方法物理方法的目标是尽可能准确估算出风电机组轮毂高

19、度处的气象信息。其首先利用数值天气预报(NWP)系统的预测结果得到风速、风向、气压、气温等天气数据，然后根据风机周围的物理信息得到风力发电机组轮毂高度的风速、风向等信息，最后利用风机的功率曲线计算得出风机的实际输出功率。图1-3物理方法预测流程图在物理模型方法中，需要对风电场所在地进行物理建模，包括风场的地形、地表植被及粗糙度、周围障碍物等等；还要对风机本身轮毂高度、功率曲线、机械传功等进行建模。该方法的输入参数为数字气象预报模型。预测流程如图1-3所示。1.3.2统计方法统计方法的实质是在系统的输入(NWP、历史数据、实测数据)和风电功率之间建立一个映射关系，通常为线性关系。这个关系可以用函

20、数的形式表示出来，例如回归分析法、指数平滑法、时间序列法、卡尔曼滤波法等，都是基于线性模型的。这些模型通过捕捉数据中与时间和空间相关的信息来进行预测。1.3.3学习方法学习方法的实质是用人工智能的方法提取输入和输出间的关系，而不是以解析的形式来描述，这种方式所建模型通常为非线性模型，比如神经网络法、小波分析法、支持向量机法等，都不能用某个数学表达式直接表示。这些模型采用某种学习算法，通过大量数据的学习和训练来建立输入输出间的关系。在进行短期和中期的风速或风功率预测时，模型的输入变量与统计方法的类似。由于人工智能的发展，目前国内外的风力发电功率预测研究主要集中在学习方法上，出现了一些人工智能的模

21、型。目前，主要采用BP神经网络、局部反馈神经网络等，进行风电场输出功率的短期预测。虽然其结果与实测值在总体趋势上较吻合，但数值误差仍较大。由于BP网络用于函数逼近16时，权值的调节采用的是负梯度下降法，这种调节权值的方法存在一定的局限性，即收敛速度慢和局部极小等缺点，因此不能满足风电场功率预测的快速准确的需求。研究表明：径向基（RBF, Radial Basis Function）神经网络的逼近精度明显高于BP神经网络且不存在局部最小问题，不需要事先确定隐含层的单元个数，并在逼近能力、分析能力和学习速度等方面均明显优于BP神经网络。文献15中利用径向基神经网络对风电场进行短期风功率预测，运用模

22、型进行了1h后的风电输出功率预测，预测误差在12%附近。通过对预测结果与实际功率值进行比较，可知该方法的预测精度较高且比较稳定。1.3.4三种方法的比较在上述三种方法中，物理方法不需要长期大量的观测数据，但需要获得有效的数字气象预报(NWP)数据，而风电场周围的物理信息对预测的准确度有很大的影响，要准确预测每个风机的轮毂高度及风电场所处的海拔高度、气温气压等情况是十分复杂的工作。统计方法比较简单，所用数据单一，对突变信息处理不好。国外采用最简单的persistence统计模型，其计算简单，在短期预测中性能很好，但随着预测时间的增加，准确定快速下降，故常用来作为基准模型评价其他高级模型的精确度。

23、学习方法可以根据风电场的位置，随之修改预测模型，其准确度比较高，但需要大量的历史数据。1.4本文的主要工作本文首先介绍国内外风电场输出功率预测方法的研究现状，对风电场功率预测的研究背景及意义进行论述，并分析各种预测方法的优缺点及适用情况。本文采用广义回归(GRNN)神经网络法对风电场输出功率实时超短期预测进行研究，深入学习神经网络的泛化能力和参数SPREAD的物理意义，选择最佳参数值进而得到最优网络设计。主要包括以下方面的内容：第1章研究了风力发电在国内外的发展情况和风电场输出功率预测的研究背景和意义，论述了国内外风电场功率预测的研究现状，并介绍几种国内常见的风电场功率预测方法。第2章介绍径向

24、基神经网络及广义回归神经网络的基本理论、网络模型结构和理论基础，为后文的预测工作奠定了理论基础。第3章研究预测数据集结构参数的预处理，分别从历史数据的预处理、预测误差公式及神经网络泛化能力三方面开展。重点讨论GRNN网络的设计要点，即讨论选择最优SPREAD参数的几种方法。第4章介绍基于GRNN神经网络对风电场风功率进行预测的建模方法，对网络设计过程中所遇到的问题逐一提出解决方案。第5章研究基于GRNN神经网络对风电场风功率进行预测的仿真应用，利用Matlab7的神经网络工具箱作为编程平台，编程实现GRNN网络设计与训练。对预测模型进行仿真实验，得到实验结果，最终得出实验结论。第6章对本文工作

25、进行总结，并对本文研究课题的后期研究提出合理展望。1.5本章小结本章首先表明了本课题的研究背景和意义。本章详细介绍了国内外风力发电的发展状况，指明了风力发电的发展前景良好，提出了非常输出功率预测的重要性。对国内外风电功率预测的研究现状作了简要介绍，分析可知国内的预测精度应通过先进的预测技术加以提高。本章最后概括了论文的结构安排。2 径向基神经网络的基本理论2.1径向基函数（RBF）神经网络径向基函数（RBF）神经网络可看做是一个高维空间中的曲线拟合（逼近）问题，学习等价于在多维空间中寻找一个能够最佳拟合训练数据的曲面，泛化等价于利用这个多维曲面对测试数据进行插值17。2.1.1 RBF神经网络

26、概述径向基函数(Radial Basis Function, RBF)是多维空间插值的传统技术，由Powell于1985年提出。在神经网络的背景下，隐藏单元提供一个“函数”集，该函数集在输入模式向量扩展至隐层空间时为其构建了一个任意的“基”，这个函数集中的函数就被称为径向基函数。1988年，Broom head和Lowe根据生物神经元具有局部响应这一特点，将RBF引入神经网络设计中，产生了RBF神经网络。1989年，Jackson论证了RBF神经网络对非线性连续函数的一致逼近性能。RBF神经网络的基本思想是：用RBF作为隐单元的“基”构成隐藏层空间，隐含层对输入矢量进行变换，将低维的模式输入数

27、据变换到高维空间中，使得在低维空间内的线性不可分问题在高维空间内线性可分18。RBF神经网络属于前向神经网络类型，网络的结构于多层前向网络类似，是一种三层的前向网络。第一层为输入层，有信号源结点组成；第二层为隐藏层，隐藏层节点数视所描述问题的需要而定，隐藏层中神经元的变换函数即径向基函数是对中心点径向对称且衰减的非负非线性函数，该函数是局部响应函数，而以前的前向网络变换函数都是全局响应的函数；第三层为输出层，它对输入模式做出响应。2.1.2 RBF神经网络结构模型图2-1所示为有R个输入的径向基神经元模型19。图2-1 径向基神经元模型由图可见，RBF网络传递函数radbas是以权值向量和阈值

28、向量之间的距离作为自变量的，其中，是通过输入向量和加权矩阵的行向量的乘积得到的。径向基网络传递函数的原型函数为：，其中为径向基函数，一般为高斯函数。径向基神经网络是一种两层前向神经网络，包含一个具有径向基函数神经元的隐层和一个具有线性神经元的输出层。其中隐层有个神经元，节点函数为高斯函数，输出层有个神经元，节点函数通常是简单的线性函数。其结构如图2-2所示。图2-2 径向基函数网络结构图模块计算输入向量p和输入权值的行向量之间的距离，产生维向量，然后与阈值相乘，在经过径向基传递函数从而得到第一层输出。第一层输出可由下式表示：。2.2 广义回归（GRNN）神经网络2.2.1 GRNN神经网络概述

29、1991年，Specht提出了广义回归神经网络(generalized regression neural network, GRNN)。广义回归神经网络是径向基网络的一种，它是利用径向基神经元和线性神经元建立起来的。GRNN不需事先确定方程式，它以概率密度函数代替固有的方程形式。GRNN通过执行Parzen非参数估计，从观测样本里求得自变量和因变量之间的连接概率密度函数之后，直接计算出因变量对自变量的回归值。GRNN不需设定模型的形式，但其隐回归单元的核函数中有扩展系数（光滑因子），它的取值对网络有很大的影响，需优化取值。Specht提出的GRNN，对所有隐层单元的核函数采用同一扩展系数，网

30、络的训练过程实质是一个一维寻优过程，训练极为方便快捷，且便于硬件实现20。GRNN网络模型具有很强的非线性映射能力和柔性网络结构，以及高度的容错性和鲁棒性，通常用来实现函数逼近。GRNN在逼近能力和学习速度上较RBF网络有更强的优势，网络最后收敛于样本量积聚较多的优化回归面，并且在样本数据较少时，预测效果也较好。2.2.2 GRNN神经网络结构GRNN网络在结构上与RBF网络较为相似20。它由四层构成，如图2-3所示，分别为输入层(input layer)、模式层(pattern layer)、求和层(summation layer)、输出层(output layer)。对应网络输入，其输出为

31、。图2-3 广义回归网络结构图（1）输入层输入层神经元的数目等于学习样本中输入向量的维数，各神经元是简单的分布单元，直接将输入变量传递给模式层。（2）模式层模式层神经元数目等于学习样本的数目n，各神经元对应不同的样本，模式层神经元传递函数为神经元i的输出为输入变量与其对应的样本X之间的Euclid距离平方的指数平方的指数形式。式中，X为网络输入变量；我第i个神经元对应的学习样本。（3）求和层求和层中使用两种类型神经元进行求和。一类的计算公式为，它对所有模式层神经元的输出进行算数求和，其模式与各神经元的连接权值为1，传递函数为另一类计算公式为，它对所有模式层的神经元进行加权求和，模式层中第

32、i个神经元与求和层中第j个分子求和神经元之间的连接权值为第i个输出样本中第j个元素，传递函数为 4）输出层输出层中神经元数目等于学习样本中输出向量的维数k，各神经元将求和层的输出相除，神经元j的输出对应估计结果的第j个元素，即下图所示为GRNN神经网络的运算流程图。2.2.3 GRNN神经网络的理论基础广义回归神经网络的理论基础是非线性回归分析，非独立变量Y相对于独立变量x的回归分析实际上是极端具有最大概率值的y。设随机变量x和随机变量y的联合概率密度函数为(x, y)，已知x的观测值为X，则y相对于X的回归，也即条件均值为 (2-1)即为输入为X的条件下，Y的预测输出。应用Parzen非参

33、数估计，可由样本数据集，估算密度函数。式中，为随机变量x和y的样本观测值；n为样本容量；p为随机变量x的维数值；为高斯函数的宽度系数，在此称为光滑因子，又称为扩展系数。用代替代入式(2-1)，并交换积分和加和的顺序：由于，对两个积分进行计算后可得网络的输出为估计值为所有样本观测值的加权平均，每个观测值的权重因子为相应的样本与之间Euclid距离平方的指数。当光滑因子非常大的时候，近似于所有样本因变量的均值。相反，当光滑因子趋向于0的时候，和训练样本非常接近，当需预测的点被包含在训练样本集中时，公式求出的因变量的预测值会和样本中对应的因变量非常接近，而一旦碰到样本中未能包含进去的点，

34、有可能预测效果会非常差，这种现象说明网络的泛化能力差。当取值适中，求预测值时，所有训练样本的因变量都被考虑了进去，与测试点距离近的样本点对应的因变量被加大了更大的权。3预测数据及结构参数的预处理3.1 历史数据的预处理对于GRNN神经网络的训练，大量的样本数据可以提高神经网络的拟合能力及其预报能力。然而，对于在线预测而言，庞大的历史数据会给数据存储带来很大的困难，所以在进行网络训练时要选择适合的数据进行训练。首先，要检验数据的合理性，例如，风功率的值应该均为正值，且最大不能超过总机组安装容量。挑选出不合理的风功率数据并对其进行适当修补，使得设计所用数据均具合理性。之后，对数据进行标准化处理，数

35、据标准化处理包括两方面，一方面：数据同趋化处理，用于解决不同性质数据不能直接进行数值运算的问题；另一方面：数据无量纲化处理，用于解决数据的可比性。常见的数据标准化方法有三种：“最小-最大标准化”、“小数定标标准化”和“z-score 标准化”。经过上述标准化处理，原始数据均转换为无量纲化指标测评值，即各指标值都处于同一个数量级别上，可以进行综合测评分析。本文采用的是“最小-最大标准化”，即对原始数据进行线性变换。用标准化计算公式对校正风功率数据集合进行归一化，用以消除数据中的冗余成分。由于数据在远离0的数据区域内学习时，学习速度较慢，甚至不利收敛，所以对数据的归一化处理可以加快神经网络的训练速

36、度。3.2 预测误差分析由于风电场风功率预测是一种对未来机组功率值的估算，无法避免地，它与客观实际之间存在一定的数值差距，这就是预测误差。研究功率预测误差产生的原因，计算并分析误差的大小具有重要意义。这样不仅可以认识预测结果的准确程度，而且在利用预测结果进行备用容量决策时具有重要的参考价值。常用的计算和分析预测误差的方法和指标有很多，计算预测误差的主要方法如下：（1)绝对误差AE：（2)相对误差RE：（3)平均绝对误差MAE：由于预测误差有正有负，为了避免正负抵消，故取误差的绝对值进行综合并计算其平均值，这是误差分析的综合指标之一。（4）均方根误差RMSE：由于对误差进行了平方，优点是加强了

37、数值大的误差在指标中的作用，从而提高了这个指标的灵敏性。这也是误差分析的综合指标之一。（5）标准误差S：为第k个实际功率值；为第k个预测功率值；为历史功率数据个数。3.3 神经网络的泛化能力神经网络模型设计常常需要满足多种不同的要求，比如，具有较好的泛化（推广）能力、易于硬件实现、训练速度快等，其中泛化能力最为重要，它是衡量神经网络性能优劣的一个重要方面，这是因为建立神经网络模型的一个重要目标是通过对已知环境信息的学习，掌握其中的规律，从而对新的环境信息作出正确的预测21。泛化能力的定义如下：它是指经过训练（学习）后的预测模型对围在训练集中出现（但具有统一规律性）的样本作出正确反应的能力，学习

38、不是简单地记忆已经学过的输入，而是通过对有限个训练样本的学习，学到隐含在样本中的有关环境本身的内在规律性。神经网络的泛化能力涉及其在独立的检验数据上的测试能力。在实践中，性能的评估非常重要，它指导了学习算法和模型的选择，并为最终选定模型提供质的度量。神经网络的泛化能力也就是指学习后的神经网络对测试样本或工作样本作出正确反应的能力，所以说没有泛化能力的神经网络没有任何实用价值。3.3.1 偏差-方差分解一般来说，神经网络模型的泛化能力取决于3个主要因素，即问题本身的复杂程度、参数的范围和样本量的大小。误差损失函数的“偏差-方差分解”是解释许多方法能力提高或降低神经网络泛化能力的重要依据21。以回

39、归和曲线拟合为例，给出预测误差函数表达式的偏差-方差分解。假定,即期望输出中有噪声，满足均值，方差，使用均方误差损失函数，可以导出在任意输入点X上，神经网络进行拟合的输出的误差： (3-1)第一项是神经网络目标输出在真正值附近的方差，这是噪声所引起的，除非，否则无论神经网络对估计得多好都无法完全避免；第二项是“偏差”平方项，代表的是神经网络估计值与真实值之间的差异，一个小的偏差意味着可以从数据集D中较准确地估计出；第三项是方差项，代表的是神经网络估计值在其本身期望均值附近的平方差，其反映了一个模型对数据的敏感度，即一个小的“方差”意味着神经网络的估计值不随训练集的波动而发生较大的波动。式(3

40、-1)表明均方误差可以用偏差想和方差项的和的形式表示。“偏差”项度量的是模型与真实系统之间匹配的“准确性”和“质量”：一个高的偏差意味着坏的匹配；而“方差”项度量的是模型与真实系统之间匹配的“精确性”和“特定性”：一个高的方差意味着弱匹配。偏差和方差两难是一个普遍的现象：一个模型学习算法如果逐渐提高对训练数据的适应性，那么它将巨响与更小的偏差，但可能导致更大的方差。反之，如果一个模型的参数较少，那么数据拟合的性能就不会太好，但拟合的程度不会随数据集的变化而变化太大。换言之，随着模型复杂度的增加，方差趋于增加，偏差趋于减小；随着模型复杂度的降低，则情况相反。3.3.2 “欠拟合”与“过拟合”神经

41、网络在训练中很容易陷入两种状态：“欠拟合”与“过拟合”。如果一个神经网络不够复杂，则令它完全探测到复杂数据集中的信号就非常困难，这就会导致“欠拟合”。一个神经网络若过于复杂则可能会将信号连同噪声一起进行拟合，这就会导致“过拟合”21。可以从偏差和方差的角度分析神经网络的这两种状态：“欠拟合”会使输出产生较大的偏差，而“过拟合”则产生较大的方差。神经网络陷入这两种状态均会是其泛化能力下降。如图3-1所示这种状态与偏差-方差的关系。在训练网络过程中，通过对偏差与方差之间的互相权衡，使泛化误差（均方误差）最小，从而得到更为有效的训练网络。本文采用标准误差衡量泛化误差的大小。图3-1 “欠拟合”、“过

42、拟合”与偏差-方差的关系对于GRNN网络而言，扩展系数的选择对于网络的创建有很大的影响。前文提到，网络的训练过程实质是一个一维寻优过程，寻的就是扩展系数的最优值。如果扩展系数选择不当，会造成网络中神经元响应区域不能覆盖整个输入范围，或者交叠区域过大导致重复响应，因而造成网络的“欠拟合”或者“过拟合”。3.3.3 神经网络模型的评估神经网络模型的评估是指：已经选定最终的模型，估计它在心数据上的预测误差（泛化误差）21。常用的估计泛化误差的方法有以下三种：（1）样本划分如果给定的数据量很大，估计泛化误差最好的方法是保留出部分数据作为“检验集”，即将数据集随机地分为3部分：训练集(Training

43、Set)、验证集(Validation Set)和检验集(Test Set)。“检验集”必须具有代表性，且不能以任何方式用在训练中。训练集用于拟合模型，验证集用于估计模型选择的预测误差，检验集用于最终选定的模型泛化误差的评估。训练结束后，在检验集上再次运行网络，计算出网络在检验集上的误差，假定检验集是随机选取的，那么这一误差可以作为泛化误差的无偏估计。至于这3部分该占多少比例，很难给出一般的规则，因为这依赖于数据的信噪比和训练样本的容量。对于数据量不是很大的情况，一般只分为训练集和验证集即可。（2）交叉验证(Cross-Validation)交叉验证方法是样本划分方法的改进，该方法可以使用所有

44、训练数据，其缺点是需要多次重复训练网络。又称为循环估计，是一种统计学上将数据样本切割成较小子集的实用方法。基本思想是在某种意义下将原始数据(data set)进行分组，一部分做为训练集(Training Set)，另一部分做为验证集(Validation Set or Test Set)，首先用训练集对网络进行训练，网络训练完成之后再利用验证集来测试训练得到的网络模型，以此来做为评价网络的性能指标。该方法是基于“重采样”技术。K-折交叉验证的方法如下：将数据分成容量大致相等的K份，将网络训练K次，即建立K个模型，每一次留出一份作为验证集，其他K-1份作为训练集；最终将K此验证集上的误差进行平均

45、得到神经网络预测误差的交叉验证估计。K值一般大于等于2，实际操作时一般从3开始去，最常见的交叉验证采用5折或者10折验证居多。图3-2所示为5折交叉验证法。交叉验证方法可以用于估计一个给定模型的泛化误差，也可以用于参数选择，即从众多可用参数中选出一个使泛化误差估计最小的最佳参数，进而得到优化模型。（3）自助法(Bootstrapping)Bootstrapping是交叉验证法的改进，可以更好地估计泛化误差。该方法的基本思想是：从训练数据中有放回的随机抽取数据集，每个数据集的容量都与原数据集相同。这样操作B次，产生B个自助法数据集，然后对每个自助法数据集重新训练网络，并检验B次重复试验上的拟合效果。由于自助训练集和原始训练集重叠过多，基于此得到的误差要远远低于真实误差，通过模仿交叉验证方法，可以获得一个较好的自助法估计。对每一个观测，仅计算不包含该观测的自助法样本的预测。利用自助法不仅可以估计泛化误差，还可以估计网络

展开阅读全文