《间歇过程最优迭代学习控制的发展从基于模型到数据驱动-池荣虎.pdf》由会员分享,可在线阅读,更多相关《间歇过程最优迭代学习控制的发展从基于模型到数据驱动-池荣虎.pdf(16页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第43卷第6期 自动化学报Vbl43,No62017年6月 ACTA AUTOMATICA SINICA June,2017间歇过程最优迭代学习控制的发展:从基于模型到数据驱动池荣虎 侯忠生2 黄彪3摘要本文综述了间歇过程的基于模型的和数据驱动的最优迭代学习控制方法基于模型的最优迭代学习控制方法需要已知被控对象精确的线性模型,其研究较为成熟和完善,有着系统的设计方法和分析工具数据驱动的最优迭代学习控制系统设计和分析的关键是非线性重复系统的迭代动态线性化本文简要综述了基于模型的最优迭代学习控制的研究进展,详细回顾了数据驱动的迭代动态线性化方法,包括其详细的推导过程和突出的特点回顾和讨论了广义的数
2、据驱动最优迭代学习控制方法,包括完整轨迹跟踪的数据驱动最优迭代学习控制方法,提出和讨论了多中间点跟踪的数据驱动最优点到点迭代学习控制方法,和终端输出跟踪的数据驱动最优终端迭代学习控制方法进一步,迭代学习控制研究中的关键问题,如随机迭代变化初始条件、迭代变化参考轨迹、输入输出约束、高阶学习控制律、计算复杂性等本文突出强调了基于模型的和数据驱动的最优迭代学习控制方法各自的特点与区别联系,以方便读者理解最后,本文提出数据驱动的迭代学习控制方法已成为越来越复杂间歇过程控制发展的未来方向,一些开放的具有挑战性的问题还有待于进一步研究关键词间歇过程,基于模型的最优迭代学习控制,迭代动态线性化,数据驱动的最
3、优迭代学习控制引用格式池荣虎,侯忠生,黄彪间歇过程最优迭代学习控制的发展:从基于模型到数据驱动自动化学报,2017,43(6):917-932DoI 1016383jaa82017c170086Optimal Iterative Learning Control of Batch Processes:From Modelbased to Data-drivenCHI RongHul HOU ZhongShen92 HUANG Bia03Abstract A brief overview on modelbased optimal iterative learning control(ILC)a
4、nd data-driven optimal ILC forbatch processes is presentedModelbased optimal ILC relies on an exactly known linear modelThere are many systematicmethods and tools for the optimal ILC controller design and analysisThe foundational of design and analysis t001 ofdata-driven optimal ILC methods for nonl
5、inear repetitive processes iS iterative dynamic linearizationThis work brieflyreviews the modelbased optimal ILC with its latest developmentThe data-driven iterative dynamic linearization methodis revisited in detail with its properties and distinct featuresThe general data-driven optimal iterative
6、learning control,including data-driven optimal ILC for a complete trajectory tracking,data-driven optimal pointto-point ILC for multipleintermediate points tracking,and data-driven optimal terminal ILC for the terminal output tracking,is overviewed anddiscussedThe key issues in terms of research of
7、optimal ILCsuch as stochastic initial conditionsiterationvaryingreference trajectorypoints,input and output constraints,highorder learning laws,and computational complexity arealso presented and discussedMoreover,this paper highlights and compares the modelbased optimal ILC and thegeneralized data-d
8、riven optimal ILC,and demonstrates their relation and difference to facilitate general understandingof these methodsFinally,it is shown that the data-driven ILC methods are receiving increasing interest owing to theincreasing complexity of batch processesSome corresponding challenging problems are p
9、resented as wellKey words Batch processes,modelbased optimal iterative learning control,iterative dynamic linearization,data-drivenoptimal iterative learning controlCitation Chi Rong-Hu,Hou Zhong-Sheng,Huang BiaoOptimal iterative learning control of batch processes:frommodelbased to data-drivenActa
10、Automatica Sinica,2017,43(6):917-932收稿日期2017-0223 录用日期20170511Manuscript received February 232017:accepted May 112017国家自然科学基金(61374102,61433002),山东省泰山学者工程资助Supported by National Natural Science Foundation of China(61374102,61433002),Taishan Scholar Program of ShandongProvince of China本文责任编委苏宏业Recomm
11、ended by Associate Editor SU Hong一1re1青岛科技大学自动化与电子工程学院青岛266042中国 2北京交通大学先进控制系统研究所北京100044中国 3阿尔伯塔大学化学与材料工程学院埃德蒙顿T6G2G6加拿大1 School of AutomationElectronics Engineering,Qingdao University of Science&Technology,Qingdao 266042China2Advanced Control Systems LaboratorySchool of Electronics&Information Eng
12、ineering,Beijing Jiaotong University,Beiiing 100044,China 3Department of Chemical and MaterialsEngineering,University of Alberta,Edmonton,AB T6G2G6,Canada万方数据918 自 动 化 学 报 43卷化学工业是世界经济的重要部分,可将原材料转换成70000多种当今高质量生活不可缺少的产品【1|化学工业过程包括连续操作和非连续操作间歇过程是非连续操作的主要方式,适于小批量生产,更具有灵活性,成为精细化产品生产的理想方式【2】,已广泛用于城市污水处理
13、【3J、纸浆造纸圳、半导体工业【5 J、医药生物发酵引、工业结晶过程7等间歇过程的控制与连续过程不同,主要在于两方面:1)间歇过程没有稳态操作点,设定点和控制信号是时变的;2)间歇过程是在有限时间上重复运行的,具有两个相互独立的变量,运行时间t和运行次数k独立变量k提供了实现控制目标的额外自由度因此,间歇过程的控制策略可分为两大类:一类是在线控制策略,例如基于PID或更复杂控制技术的反馈控制Isj,以及用于产品终端控制的模型预测控制(Model prediction control,MPC)方法【9J另外一类是基于重复学习的迭代学习控制10-12】和用于产品终端输出控制Runto-run控制1
14、3-15近年来,也有文献【1618】采用终端迭代学习控制策略处理间歇过程产品终端质量控制问题迭代学习控制(Iterative learning control,ILC)最早是由Arimoto等【19】提出的,针对重复运行的被控系统,不断重复一个相同轨迹的控制尝试,利用前一次或前几次操作时测得的误差信息和控制输入信息修正当前操作的控制输入,使该重复任务在该次操作中做得更好,最终实现在整个时间区间上,系统的输出完全跟踪上期望轨迹近年来,间歇过程的迭代学习控制逐渐成为研究热点Lee等120-21】提出了基于反馈的学习控制策略,并考虑了滤波技术来增强对建模误差和随机扰动的鲁棒性Liu等【22】基于间歇
15、过程的2D模型提出了一种鲁棒闭环ILC方法,在线性矩阵不等式约束下建立了保证闭环ILC系统鲁棒稳定性的充分条件文献23251提出了基于设定点迭代学习的PID控制策略,得到了鲁棒渐近收敛的充分条件文献【26提出了一种PD一型迭代学习控制用于生物反应器,并采用了模糊方法计算控制增益文献2730为间歇过程设计了多种鲁棒ILC控制策略时滞问题广泛存在于工业间歇过程中,对许多控制系统的稳定性和控制性能都造成了破坏因此,时滞系统的ILC设计问题引起了学者的关注313引,如文献31】提出了输入时滞的时变不确定间歇过程的鲁棒迭代学习控制方法,给出了2D状态预测器对系统状态进行预测,以此补偿输入延迟的影响需要说
16、明的是,传统的PID一型迭代学习控制方法的优点在于需要模型信息少,结构简单,易于实现然而,问题在于学习增益固定不变,在适应被控系统变化和外界扰动等不确定性方面的能力相对较弱,并且在实际应用中很难选取合适的学习增益尽管26】讨论了利用模糊规则计算学习增益的方法,但模糊规则的选择本身就是非常困难的迭代学习控制很容易与其他控制方法相结合,产生新的控制策略例如,文献33在迭代学习控制任务中引入了自适应机制,提出了基于能量函数设计的连续时间系统的自适应迭代学习控制方法进一步,文献3435将关键引理技术推广到迭代域中,提出了离散时间系统的自适应迭代学习控制策略以及时变参数的迭代辨识方法迄今,自适应ILC及
17、自适应迭代学习辨识方面的研究已获得很多成功的应用36-40 J限于篇幅,关于这方面的内容和结果不再一一列举另一方面,文献f41 l基于Lifted技术将被控对象用超向量形式重新描述为关于迭代次数的演变形式,从而可很容易地将最优技术引入到迭代学习控制任务,提出了模最优的迭代学习控制方法如文献【421所指出的,在基于二次性能指标的迭代学习控制的研究框架下,各种实际问题,例如受限约束、干扰、量测噪声及模型误差等,都可很容易地作为最优问题的约束条件而被严谨地综合到最优ILC控制器的设计中另外,最优迭代学习控制具有沿迭代方向的严格单调收敛性,是实际工程应用中最为期望的性质之一因此,最优迭代学习控制方法在
18、间歇过程为主的重复运行系统中得到了广泛应用,其理论研究经历了从线性到非线性,从基于模型到数据驱动的发展历程Moore等i43J提出了一种L,最优鲁棒迭代学习控制方法,处理系统的未知有界扰动问题Xu等【44】以时间最优和鲁棒性为综合目标,提出了一种新的鲁棒ILC最优设计和收敛性分析方法,给出了收敛速度的理论分析和评估,研究了系统动态如何影响学习性能的问题文献【45】基于线性时变摄动模型,提出了一种分层ILC方法,用于晶体冷却过程当控制变量不可测时,文献46提出了一种基于递归贝叶斯估计的最优迭代学习控制方法,并将其推广到基于线性化的非线性离散时间系统中针对系统约束问题,文献f471提出了基于二次性
19、能指标的鲁棒ILC的线性矩阵不等式方法文献481提出了Pareto迭代学习控制方法,讨论多性能目标的优化问题文献149提出了加速预测最优ILC收敛的方法,给出了两个加速算法和相应的收敛性分析结果表明该方法可提高预测最优ILC的控制性能文献50基于内模原理,提出了最优ILC控制增益的多目标设计方法Liu等151 J提出了一种改进的基于最优化指标的迭代学习算法,保证控制信号收敛于系统的线性二次型最优控制解由于间歇过程的非线性和有限性特点,很多学万方数据6期 池荣虎等:间歇过程最优迭代学习控制的发展:从基于模型到数据驱动 919者尝试结合模型预测控制方法文献5257提出了一些基于模型预测控制的迭代学
20、习控制方法文献158l结合二次型ILC和间歇模型预测控制技术,提出了一种两阶段算法随着社会经济的不断发展,现在工业过程变得越来越复杂,规模越来越大,一些所谓的“硬非线性特性”包括摩擦非线性、饱和非线性、死区非线性、间隙非线性、时滞非线性等,大量存在于实际控制工程中,经常会引起控制系统不期望的性态59因此,非线性系统的最优迭代学习控制引起了人们的重视非线性系统的最优ILC的设计,首先要对原非线性被控系统进行线性化,得到线性估计模型,在此基础上进行最优ILC的设计和分析因此,线性化方法是处理非线性控制系统的关键在常用的线性化方法中,泰勒展开60】和分段线性化【61j忽略了高阶项,至多是对原非线性系
21、统的近似;反馈线性化【62】需要精确已知被控系统的非线性结构和参数;正交函数线性化63】依赖于正交基空间的选取,所得到的线性化模型含有大量不确定参数因此,尽管文献6466基于非线性系统的线性名义近似模型,讨论了非线性系统的最优迭代学习控制,但所设计的控制器在实际应用中会由于模型失配和系统复杂等问题而遇到困难神经网络和模糊规则在近年来的非线性控制系统的研究中非常流行文献67提出了非线性系统的动态模糊推理边界线性化方法文献f681提出了基于递归神经网络模型的批ILC策略,用神经网络模拟间歇过程文献【69研究了滚筒锅炉汽轮机的非线性模糊模型预测ILC需要说明的是,在被控系统未知的情况下,如何选择合适
22、的神经网络模型和模糊隶属度函数一直是实际工程应用中的难题本质上,上述线性化方法是基于模型的【60-69】,显然对应的最优ILC控制器的设计和分析也是基于模型的所依赖的模型越精确就使得模型本身越复杂,依此所设计的控制器也会更加复杂,从而会使闭环系统的鲁棒性和可靠性降低,使控制系统的实现及应用变得更加困难并且,控制性能很大程度上依赖于被控系统线性模型的精确程度如果存在较大模型失配和建模误差,沿迭代轴的单调收敛性将不再保证另外,为了减小计算负担,大多数最优ILC的学习增益是离线计算的,一旦确定后在后续的迭代过程中将保持不变,从而对被控系统的变化和外界扰动的鲁棒性相对较差另一方面,工业过程中每时每刻都
23、产生并储存了大量的数据,蕴含了关于过程运行和设备状态的全部有用信息因此,在无法获得过程精确模型的情况下,如何利用这些离线或在线的过程数据直接进行控制器设计,提出基于数据驱动的控制方法,具有重要的理论和实际意义【70-7引数据驱动控制【7l】指的是控制器的设计和分析中并不显含或隐含地利用被控对象的任何模型信息,如系统矩阵、结构、状态等,而是仅利用系统过程产生的I0数据数据驱动控制的目标是在精确数学模型或系统不确定性描述不可获取情况下,充分利用系统的运行数据进行基于数据的控制系统的设计它与基于模型的控制理论一起成为完整的控制理论不可缺少的两个部分关于数据驱动控制理论与基于模型的控制理论之间的辩证关
24、系详见文献f70731数据驱动的最优ILC方法的设计和分析的前提也是线性化与传统的线性化方法【60“9】不同的是,文献7678针对重复运行的非线性生产过程,提出了一种新的迭代动态线性化方法(Iterativedynamic linearization,IDL),这是一种沿迭代批次在有限时间区间上逐点展开的批量线性化方法,建立了原非线性系统完全等价的迭代线性化模型其优点在于:1)该线性化方法是数据驱动的,是针对未知的非线性系统提出的,不需要原非线性系统的任何模型信息;2)所得到的线性化形式结构简单、参数少,只有原非线性系统的复合函数关于控制输入信号的偏导数需要根据系统的I0数据进行迭代估计因此,
25、文献7678所提出的迭代动态线性化方法是数据驱动的、面向控制器设计的,可直接借鉴线性系统的工具和方法进行控制器的设计和分析随后,文献7678借鉴线性系统的最优迭代学习控制理论的已有成果,基于上述迭代动态线性化模型,分别提出了数据驱动的最优迭代学习控制(Data-driven optimal ILC,DDOILC)、数据驱动的最优点到点迭代学习控制(Data-driven optimalpointtopoint ILC,DDOPTPILC)和数据驱动的最优终端迭代学习控制(Data-driven optimal terminal ILC,DDOTILC)方法这些方法的设计和分析直接面向未知的非线
26、性系统,利用系统运行所得到的IO数据,而不需要被控系统的任何建模过程需要说明的是,数据驱动的控制方法并不排斥基于模型的控制方法;相反,二者是相辅相成、优势互补的关系如文献70一73所述,现实世界中的实际系统按照对象模型的可获取性可分为:1)机理模型或辨识模型可精确获取;2)机理模型或辨识模型可获取但不精确,含有有限程度的不确定性;3)机理模型或辨识模型可获取,但非常复杂、阶数高、非线性强、时变性强;4)机理模型或辨识模型很难建立,或不可获取在上述四类被控对象中,已有的基于模型的控制方法只能很好地处理1)和部分2)等的实际对象,另一大半的被控对象则需要采用数据驱动的控制策略换言之,数据驱动的控制
27、方法可以万方数据自 动 化 学 报 43卷处理上述所有四类被控对象,但是对于机理清楚的被控过程,基于模型的控制方法会更加可靠并具有更好的控制性能;对难以建立精确数学模型或模型较为复杂的被控过程,数据驱动的控制方法则会更有优势因此,如何将基于模型的控制方法和数据驱动的控制方法进行有机融合和模块化设计是一个非常重要的研究课题数据驱动控制方法与基于模型控制方法之间的互补型控制系统设计的部分研究成果可参见文献17982|本文主要以间歇过程作为重复运行系统的控制背景,引出迭代学习控制理论和方法,对其最优迭代学习控制的研究分支的提出和发展历程进行较为详细的综述和分析目的在于分析和借鉴基于模型的最优ILC方
28、法的现有成果,包括系统的设计和分析工具,尝试在迭代动态线性化的前提下,提出更多适合实际生产需求的数据驱动的最优ILC方法,解决越来越复杂的间歇过程的控制中遇到的建模困难、鲁棒性差等根本难题在数据驱动的广义最优ILC的综述中,主要以迭代动态线性化为主线,分别回顾和分析了完整轨迹跟踪的最优ILC方法、多中间点跟踪的最优点对点ILC方法以及单个终点跟踪的最优终端ILC方法论文同时回顾了其他数据驱动的学习控制的最新进展,提出了需要进一步研究的问题前景和方向本文结构安排如下:第1节是基于模型的最优ILC的回顾,目的在于明确最优ILC的概念、定义和设计过程,并分析和研究最优ILC的最新进展第2节主要回顾了
29、非线性重复运行系统的迭代动态线性化方法,作为后面数据驱动最优ILC设计的依据和基础详细说明和分析了迭代动态线性化方法的特点和用途第3节是数据驱动广义最优ILC的设计和分析的回顾,包括完整轨迹跟踪、多点跟踪和单个终点跟踪等三种不同的控制任务,分析了数据驱动广义最优ILC的最新发展第4节是结论和展望,分析了数据驱动的最优ILC的发展方向,提出了一些开放的具有挑战性的研究问题1基于模型的最优迭代学习控制为了保证实际应用中的控制精度和可靠性,最优迭代学习控制受到越来越多的关注最早Togai等【83】、Tao等84】、Gorinevsky等85】分别提出了利用梯度法、牛顿拉尔逊法和高斯法等最优方法寻找最
30、优学习控制律Amann等首先基于范数优化原理对迭代学习控制进行了研究利用超向量技术,对如下有限时间区间上重复运行的线性离散时间系统进行了重新描述f z(t+1)=血(t)+Bu(t),x(o)=XO, ot【可(t)=cx(t),zR“,tR,YRp(1)简单起见,状态空间矩阵A,B,C假设为时不变通过定义如下两个超向量:!,=yW(1)yT(2)可T()Tt=,liT(o)UT(1)缸T(一1)T将空间方程写成如下形式:其中G=可=!,o+GuCBCAB CBCAN一1B CAN一2BCB是个块下三角矩阵;可o=(CA)T(CA2)T (CA)TTzo是初始条件响应向量 通常假设Yo=0或X
31、0=0Amann等提出了如下目标函数:唧B=时II缸k-Uk_1酬其中加入了输入变化的惩罚项,使算法沿批次轴具有积分行为在无其他约束和确定条件下,Amann等得出了非因果的输入更新律uk=u一1+R一1GTQek (4)1996年,Lee等f861根据有限时间上二次最优跟踪问题的求解思想,将上述非因果控制律(4)改写为如下因果形式:缸k=u一l+(GTQG+R)1 GTQe一l (5)Barton等87】将基于范数优化的迭代学习控制方法用于多轴机器人,提高了运动轨迹的跟踪性能和鲁棒性van de Wijdeven等188J提出了基于线性二次型的最优迭代学习控制在有限时间内的鲁棒单调收敛分析方法
32、Chu等149J利用逐次投影方法提高了非最小相位系统的范数优化迭代学习控制算法的跟踪性能和收敛速度文献89】证明了上述二次型迭代学习控制可作为输出反馈来实现,以增强系统的鲁棒性根据这一思想,文献8990提出了模型预测控制(MPC)与迭代学习控制的组合,成为间歇过程研究中的主要方向之一,吸引了很多学者的关注5258,91|万方数据6期 池荣虎等:间歇过程最优迭代学习控制的发展:从基于模型到数据驱动 921当间歇过程的批次扰动和噪声较大时,文献42提出了基于观测器的最优学习控制律Uk+l=Irk一-HQeklk其中eklk是基于测量误差ek中重复部分百的估计,由如下观测器求得eklk一1=仑一ll
33、k一1一GAukeklk=eklk一1+K(ek一仑1一1)其中妣=一Uk一1,K是个滤波增益矩阵最近,文献92】提出一种离散时间迭代学习Kalman滤波方法,将Kalman滤波与迭代学习控制相结合,对系统状态进行估计,为基于观测器的最优迭代学习控制的设计提供了新的思路在很多工业过程控制应用中,为了保证安全性,平滑操作等,总需要对过程变量施加以限制通常,对输入和输出的约束比较普遍,有如下几种形式:1)对输入值的约束t上2。”让+l让托2)对输入关于时间变化率的限制5u2“5u+l5u3)对输入关于批次变化率的限制Au2。”Au+1AuM当用连续的线性近似来描述非线性间歇过程时,上述约束条件能够
34、有效地将输入信号限制在线性范围内4)对于系统输出,通常增加如下软约束:Y2。叫一七+1 S Y七+1 S Y+惫+1, 七+l0文献42】将这些约束条件转化成如下线性矩阵不等式:其中,=“AUk+le+1,Ck+l0II33GG, e+1=札留”一牡6t2一Juk一6t托+J也kY。”一YkEk+1一Yhi+YkE+1缸簪”=max(缸抽”一t,Au幻”)t=min(钍M一牡k,u觚)从而,输入输出受限的线性系统的最优迭代学习控制律即为如下性能指标函数在上述约束不等式条件下的可行解。型三uT+,(GTQG+R)牡2eWQGAuk+1+爵1 S6k+1)最近,很多学者提出了基于模型预测控制的迭代
35、学习控制【52-5引,在最优问题中充分考虑并结合了系统的输入输出约束进一步,文献91提出了多变量约束的间歇过程的迭代学习模型预测控制方法,综合考虑了系统的约束问题、时变问题、外界扰动和随机特征等因素文献93基于间歇过程的二维分段线性化描述,通过线性矩阵不等式求解,提出了一种受限迭代学习控制方法,提高了控制性能近年来,多中间关键点跟踪控制和以间歇过程产品质量控制为主的终端跟踪控制的研究成为迭代学习控制的另一个热点问题文献94将基于范数优化的迭代学习控制策略引入到终端跟踪控制任务,提出了最优终端迭代学习控制(Optimal terminal iterative learning control,O
36、TILC)方法文献9597】提出了基于优化的点到点迭代学习控制(Pointto-point iterative learning control,PTPILC)方法,仅跟踪指定的参考点而不是参考轨迹上的所有点另外,文献90讨论了输入输出约束的问题文献98针对线性连续时间系统的多中间关键点的跟踪问题,提出了范数最优迭代学习方法最优迭代学习控制的研究中,还有一类基于参数优化的迭代学习控制(Parameter optimal iterative learning control,POILC)方法,由Owens等99】首先提出,主要目的是为了在保证算法具有单调收敛性的前提下,减少每次迭代时的计算量文献
37、100研究了系统输入输出矩阵的正定性与跟踪误差单调收敛的关系文献101提出了基于逆模型的鲁棒POILC算法文献102研究了梯度下降的鲁棒POILC算法Owens10 3】以多输人多输出线性系统为研究对象,将范数最优和参数最优迭代学习控制算法进行了统一描述,提出了一种新的最优迭代学习控制方法近年来,高阶迭代学习控制算法104_106也吸引了学者们的广泛关注,可以利用更多以前操作的控制知识,提高系统的控制性能文献106是文献【99参数优化迭代学习控制的扩展如果系统是非正定的,可通过在算法中增加合适的基函数,保证跟踪误差单调收敛为零由式(5)可以看出,基于超向量技术的范数最优迭代学习控制的输入输出矩
38、阵G的维数不仅跟间万方数据自 动 化 学 报 43卷歇过程的变量相关,还会随着操作批次长度而急剧增长,因此控制算法(5)在长时间区间内的执行和计算是非常耗时的,并且需要更多的存储单元因此,近年来一些学者【107-111】开始研究基于Lifted描述的最优迭代学习控制的高效计算问题文献【112提出了一种基于非Lifted描述的最优迭代学习控制方法,在系统输入输出描述中不再使用超向量技术,很大程度上降低了算法的计算复杂度如前所述,非线性系统的最优迭代学习控制本质上依赖于对非线性系统的线性化估计的显性表达例如,贾立等【11 3】利用神经模糊模型提出了间歇过程无约束迭代学习控制方法李恒杰等114】提出
39、基于克隆选择算法的非线性优化迭代学习控制逢勃等【115】将拟Broyden法和参数优化迭代学习控制方法结合,提出了单调收敛的迭代学习控制算法2数据驱动的迭代动态线性化方法在实际控制应用中,许多非线性系统模型,例如Hammerstein模型、双线性模型等,都可以表示为如下输入输出的一般非线性递归形式:yk(t+1)=f(yk(t),yk(tn。),u(),uk(tn。) (9)其中yk(t)和uk(t)是系统的输出和输入;,()是未知的非线性函数且连续可微;n。和n。是两个正整数,分别表示系统输出和输入的阶数,不失一般性,假设n。0,肛0表示权重因子;P0,叩(0,2)表示步长因子,其加入是为了
40、使算法(13)和(15)更具有一般性且方便收敛性分析;九()表示(t)的初值;矽k(i)表示向量k(t)的第i个元素,i=0,1,t;E是个非常小的正数DDOILC方法的收敛性和稳定性定理及证明参见文献77】,并且该方法可很容易地推广到多输入多输出系统注8 重置算法(14)是用来增强参数估计算法(16)跟踪迭代变化参数的能力在选择初值时,要使九(t)与。(t)所有元素的符号保持相同注9学习控制律(15)的学习增益是迭代一时间变化的,只需要量测的IO数据利用估计算法(13)和重置算法(14)获得注10与传统的最优ILC方法相比,DDOILC(13)一(15)称作是数据驱动或基于数据的控制策略控制
41、器的设计和分析仅依赖于系统的Vo数据,不需要已知任何被控对象的模型信息但是,数据驱动控制并不意味着要排斥基于模型的控制方法,二者应该是相互补充和辅助的关系如果已知被控系统的精确线性模型,基于模型的控制方法应该是首选,可充分利用已知的模型信息而实现更好的控制效果相反,数据驱动的方法则不。1用已知的系统模型信息文献771用精确已知的线性模型作为仿真实例,证明了基于模型的NOILC控制性能要优于DDOILC注11 尽管DDOILC方法不论是在学习控制器的形式上还是在基于压缩映射方法的收敛性分析上,都与传统的PID一型迭代学习控制极为相似,但是DDOILC的学习增益是迭代变化的且能利用所测量的实时IO
42、数据进行迭代整定因此,DDOILC在处理不确定性方面要优于传统的PID型ILC注12 DDOILC与传统的最优ILC也非常相似二者都是基于最优二次性能指标而设计的,都可实现沿迭代方向的单调收敛性然而,DDOILC是针对未知非线性系统提出的,而不是精确已知的线性系统因此,DDOILC是数据驱动的方法,传统的最优ILC是基于模型的方法注13由注11和注12中的分析可知,基于压缩映射的PID型ILC和基于目标函数的最优ILC都可以被看作是DDOILC的特例,并且DDOILC在处理强非线性、高不确定性、迭代变化扰动等问题时,可实现更好的控制性能文献116已通过仿真结果证实,当系统的模型扰动较大时,应用
43、基于模型的OILC方法,跟踪误差的收敛性将不再保证,甚至发散而DDOILC方法在系统模型出现大的变化时,仍能保障跟踪误差的收敛性32 多中间点跟踪的DDoPTPILC对点到点跟踪任务,假设在系统运行的有限时间区间1,2,)上,仅在指定点t1,t2,tM)处,要求系统输出跟踪期望值yd(t1),驰(t2),她(tM)在指定点1,t2,tM处,系统的输出可重新表述为177】:yk(t。)=9tm-1(yk(o),乱k(o),一uk(t。一1)(16)其中m=1,M定义矿=玑(t1),Yk(t2),Yk(M)TRM,可得如下点到点迭代动态线性化形式77:Yk=Uk=圣AUk0000(17)万方数据6
44、期 池荣虎等:间歇过程最优迭代学习控制的发展:从基于模型到数据驱动 925参。(t。一)=参。一。(t。一)+旦垦全丝二鱼立-=二亟墨最三三兰亨差三譬亏示堕!_盟(18)令穸d=Yd(1),Yd(t2),Yd(M)TRM并定义指定时刻点上的输出跟踪误差为雪k=ydy,文献77针对多个稀疏点的跟踪任务,提出了一种数据驱动的最优点到点迭代学习控制(DDOPTPILC)方法(18)一(20):参(t。一1)=事o(。一1),若sgn(赫)sgn(翻)或II参。(。一1)1IE,i=0,1,一,t。(19)(20)其中A0,p0表示权重因子;P0,叩(0,2)表示步长因子;m=1,M;E是个很小的正数
45、;圣k是圣的估计;o(t。一1)表示9k(t。一1)的初值;咖k(i)表示(t。一1)的第i个元素注14 与DDOILC(13)一(15)相比,DDOPTPILC(18)一(20)仅利用在指定时刻点的误差信息,从而可用于系统输出仅在指定时刻点可测的控制背景,并且由于去除了不必要点上的跟踪性能约束,可一定程度上加快收敛速度、降低控制能量、减少存储单元这在文献77仿真中已经得到验证33 终端点跟踪的DDoTILC终端迭代学习控制的目标是系统运行终端的状态或终端输出,而不是跟踪整个轨迹换句话说,寻找合适的控制输人序列矿k使得系统的终端输出Yk()在系统运行终点跟踪期望值妣,当迭代次数南趋于无穷时,终
46、端跟踪误差e(N)=Yd一玑()收敛于0系统运行终点的终端输出可重新表示为【76_7 71,yk(N)=9一(可(o),u(o),uk(1),uk(N一1)(21)其中yk(N)表示系统在迭代运行终点的输出类似地,终端迭代动态线性化形式为76_77Ayk(N)=yk(N)一Ykl(N)=丽Og*N-1,丽Og*N-1,丽Og*N-1(Uk-Uk-1)Ouk(1=lau(o) ) au()J妒k(一1)AUk(22)对于单个点的终端跟踪任务,文献77给出了一种数据驱动的最优终端迭代学习控制(DDOTILC)方法:pk(一1)=p一1(N一1)+叩(Ayk一1()一9一1(一1)AUk一1),SU
47、k1p+IIu一。112(23)pk(一1)=po(一1),若sgn(珊)C sgn(舭)或1lpk(一1)1l,i=0,1,一1(24)um=ut一+_黼e*一-()(25)其中入0,肛0表示权重因子;P0,叩(0,2)表示步长因子;是个很小的正常数;9。(一1)表示pk(N一1)的初始估计值注15DDOTILC(23)一(25)算法中仅利用了系统运行终点的终端输出跟踪误差,去掉了在其他点上不必要的限制,从而可提高控制性能如文献77】所示,不论在收敛速度、控制能量和收敛精度上都优于DDOILC方法34 DDoILC的关键问题和应用研究DDOILC方法应用中遇到的一些重要问题,如随机初始条件、高阶控制律、控制性能的增强、迭代变化参考轨迹等,也在最近的一些文献中进行了充分研究在实际间歇过程的应用中,产品的质量要求会根据市场、用户等需求而作调整,因此期望轨迹并不是在所有操作中都保持相同文献f1171首先考虑了随迭代变化的期望参考点,提出了数据驱动的自适应最优终端ILC方法,但跟踪误差的收敛性分析仍旧依赖于相同初始条件的假设由于定位精度、量测精度以及状态扰动等原因,相同初始条件在实际中很难满足,很大程度上阻碍了DDOILC的应用因此,文献118-119和文献120分别用神经网络和高阶内模来近似逼近随机迭代变化的初始条件对系统运行终端输出的影响,并用