动态规划与离散系统最优控制讲稿.ppt-淘文阁

资源描述

《动态规划与离散系统最优控制讲稿.ppt》由会员分享，可在线阅读，更多相关《动态规划与离散系统最优控制讲稿.ppt（68页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、动态规划与离散系统最优控制第一页，讲稿共六十八页哦动态规划与离散系统最优控制动态规划与离散系统最优控制(2/3)(2/3)q离散系统的控制问题为人们所重视的原因有二,1)连续系统在实现控制时，在应用计算机控制技术、数字计算机控制技术、数字控制技术时控制技术时,须经采样后成为离散化系统,再加以控制如许多现代工业控制领域的实际计算机控制问题。2)有些实际控制问题本身即为离散系统,如某些经济计划系统、人口系统的时间坐标只能以小时、天或月等标记;再如机床加工中心的时间坐标是以一个事件(如零件加工活动)的发生或结束为标志的。第二页，讲稿共六十八页哦动态规划与离散系统最优控制动态规划与离散系统最优控制(3

2、/3)(3/3)q本节将介绍解决离散系统最优控制解决离散系统最优控制的有效工具有效工具贝尔曼动态规划,以及线性离散系统的二次最优控制问题。内容为最优性原理与离散系统的动态规划法最优性原理与离散系统的动态规划法线性离散系统的二次型最优控制线性离散系统的二次型最优控制第三页，讲稿共六十八页哦最优性原理与离散系统的动态规划法最优性原理与离散系统的动态规划法(1/3)(1/3)6.1 最优性原理与离散系统的动态规划法最优性原理与离散系统的动态规划法q基于对多阶段决策过程的研究结果,贝尔曼在20世纪50年代首先提出了求解离散多阶段决策优化问题优化问题的动态规划法。多阶段决策优化问题多阶段决策优化问题方法

3、在许多领域得到应用和发展,如在生产计划、资源配置、信息处理、模式识别等方面都有成功的应用。本节介绍将动态规划优化方法应用于动态系统的最优控动态系统的最优控制制问题,构成最优控制的两种主要求解方法之一的最优控制动态规划法。第四页，讲稿共六十八页哦最优性原理与离散系统的动态规划法最优性原理与离散系统的动态规划法(2/3)(2/3)q动态规划的核心是贝尔曼最优性原理这个原理归结为一个基本的递推公式。求解多阶段决策问题时,要从末端开始要从末端开始,逆向递推,直至始端。动态规划的离散基本形式受受到到问问题题的的维维数数的的限限制制,应用有一定的局限性。但对于求解决线性离散系统的二二次次型型性能指标性能指

4、标的最优控制问题特别有效。至于连续系统的最优控制问题的动态规划法,不仅是一种可供选择的有充充分分性性的最优控制求解法,它还揭示了动态规划与变分法、极大值原理之间的关系,具有重要的理论价值。第五页，讲稿共六十八页哦最优性原理与离散系统的动态规划法最优性原理与离散系统的动态规划法(3/3)(3/3)q下面分别介绍多阶段决策问题多阶段决策问题最优性原理一般问题的问题描述最优性原理一般问题的问题描述离散系统的动态规划法离散系统的动态规划法第六页，讲稿共六十八页哦多阶段决策问题多阶段决策问题(1/12)(1/12)1.多阶段决策问题多阶段决策问题q在讨论动态规划法之前,先考察一个简单的最短时间行车问题,

5、简称行车问题。q例例如图10所示,某交通工具从S站出发,终点为 F 站,全程可分为4段。中间可能经过的各站及站间的行车时间均已标记在图上。图图10 某行车路线图某行车路线图试求最短行车时间的行车路线。第七页，讲稿共六十八页哦多阶段决策问题多阶段决策问题(2/12)(2/12)q由S站出发至终点F站可有多种不同的行车路线,沿各种行车路线所耗费的时间不同。为使总的行车时间最短,司机在路程的前3段要作出3次决策。首先，一开始司机要在经过x1(1)站还是x2(1)站两种情况中作出决策。到x1(1)站或x2(1)后,又面临下一站是经过x1(2)站还是x2(2)站的第2次决策。同样,在后续的每个阶段都

6、要作出类似的决策。第八页，讲稿共六十八页哦多阶段决策问题多阶段决策问题(3/12)(3/12)因此,计算8种不同的行车路线所耗费的总行车时间,取最小者即可求出最短时间行车路线。若行车问题需作决策的阶段数n较大,每次决策中可供选择的方案较多时,用上述的穷穷（枚枚）举举法法来解决最短行车时间问题计计算量非常大算量非常大。一般说来,用穷穷举举法法计算时间与作决策的阶阶段段数数n和每次决策中可可供供选选择择的的方方案案数数成指指数数关关系系,即通常所称的指数爆炸、维数灾难。第九页，讲稿共六十八页哦多阶段决策问题多阶段决策问题(4/12)(4/12)q通过分析发现,另一种求最短时间行车路线方法的是:从最

7、后一阶段开始,先分别算出x1(3)站和x2(3)站到终点F的最短时间（成本）,并分别记为Jx1(3)和Jx2(3)。实际上,最后一阶段阶段没有选择的余地。因此,由图10可求得Jx1(3)=4,Jx2(3)=3第十页，讲稿共六十八页哦多阶段决策问题多阶段决策问题(5/12)(5/12)q为便于今后求解过程的应用,可将从x1(3)站和x2(3)站到终点的最短时间Jx1(3)和Jx2(3)的数值标记于代表该站的小圆圈内,如图11所示。其他站的情况依此类推。图图11 最优行车路线图最优行车路线图第十一页，讲稿共六十八页哦多阶段决策问题多阶段决策问题(6/12)(6/12)q由此向后倒推,继

8、续考察倒数第2段,计算x1(2)站和x2(2)站到终点F的最短时间,并分别记为Jx1(2)和Jx2(2)。由图10可知,从x1(2)站到达终点F的路线中下一站只能是x1(3)站和x2(3)站中之一。由于从x1(3)站和x2(3)站分别前往终点的最短时间已经计算出,因此,从x1(2)站和x2(2)到终点的最短时间分别为，Jx1(2)=min1+Jx1(3),1+Jx2(3)=4 Jx2(2)=min2+Jx1(3),2+Jx2(3)=5其相应的最短时间行车路线x1(2),x2(3),F和x2(2),x2(3),F。第十二页，讲稿共六十八页哦多阶段决策问题多阶段决策问题(7/12)(7/12)q类

9、似于前面过程,其他各站到终点的最短时间和相应的行车路线如图11所示.从图11得到各站到终点站F的最短时间行车路线和所耗费的行车时间,从起点站S到终点站F的最短时间行车路线和所耗费的行车时间。第十三页，讲稿共六十八页哦多阶段决策问题多阶段决策问题(8/12)(8/12)q上述最短行车时间路线问题及其求解方法可以推广为多多阶阶段段决决策策优优化化问问题题,如建建筑筑安安装装工工期期计计划划、经经济济发发展展计计划划、资资源源合合理理配配置置等,其相应的最最优优性性指指标标可以为所耗费的时间最短,也可以为所耗费的能源最小、所得到的效益最好等。因此,前面介绍逆向递推求解最优化问题的方法是一种具有普遍性

10、意义的多阶段决策优化方法,称为动态规划法。从上述解题的叙述过程可以看出,动态规划法具有如下特点。第十四页，讲稿共六十八页哦多阶段决策问题多阶段决策问题(9/12)(9/12)1)与穷举法相比,动态规划法可使计算量大为减少。事实上,用动态规划法解多阶段决策问题,只需作一些简单的、非常有限的加法运算加法运算和和求极大运算求极大运算。如对一个有n个阶段,除最后一段外每一个状态下一步有m种可能决策方案的多阶段决策问题,共需作(n-2)m2+m=(mn-2m+1)m次加法运算,以及(mn-2m+1)(m-1)次从二取一的极大运算而对穷举法,则需作mmn-2(n-1)=mn-1(n-1)次加法运

11、算和mn-1-1次的从二取一的极大运算。如对前面的n=4,m=2的最短时间行车问题,用动态规划法求解共需作10次加法运算和5次从二取一的极大运算。而用穷举法求解,则分别为24次和8次。第十五页，讲稿共六十八页哦多阶段决策问题多阶段决策问题(10/12)(10/12)因此,动态规划法在减少计算量上的效果是显著的。阶段数n越大,决策方案m越多,则动态规划法的优点更为突出。如对n=10,m=4的多阶段决策问题,用动态规划法求解共需作132次加法运算和33次从二取一的极大运算,而用穷举法求解分别为2359296次和262143次。因此,动态规划法的效果是非常显著的。第十六页，讲稿共六十八页哦多阶段决策

12、问题多阶段决策问题(11/12)(11/12)2)用动态规划法求解多阶段决策问题的思路是:为了最后确定由起点S至终点F的最优路线，首首先先逆向递推逆向递推求出各状态各状态至至终点终点F的最优路线的最优路线在求取当前状态到终点的极值时,只需知道当当前前状状态态值值和和上上一一次次的的最最优优(集集合合)值值,就可以得到当前的最优值,并以此作为下一次优化的初始数据贝尔曼的最优性原理就是运用这个原理给出递推方法的第十七页，讲稿共六十八页哦多阶段决策问题多阶段决策问题(12/12)(12/12)3)由图11可知,与从起点S至终点F的最优路线S,x2(1),x1(2),x2(3),F 相对应的,该最优路

13、线的从x2(1)站至终点F部分的路线 x2(1),x1(2),x2(3),F 是从x2(1)站至终点F的最优路线类似地,从x1(2)站至终点F的最优路线x1(2),x2(3),F是从起点S至终点F的最优路线最优路线S,x2(1),x1(2),x2(3),F的一部分的一部分,也是从x2(1)至终点F的最优路线x2(1),x1(2),x2(3),F的一部分对于多阶段决策问题,最优路线和最优决策具有这种性质不是偶然偶然的,而反映了该问题的一种规律性,即所谓的贝尔曼的最优性原理贝尔曼的最优性原理它是动态规划法的核心第十八页，讲稿共六十八页哦最优性原理一般问题的问题描述最优性原理一般问题的问题描

14、述(1/22)(1/22)2.最优性原理一般问题的问题描述最优性原理一般问题的问题描述q动态规划的基本原理动态规划的基本原理介绍一些专有名词介绍多阶段决策问题介绍最优性原理应用最优性原理求解多阶段决策过程,并推广至离散系统最优控制q下面将在函数空间中描述N个阶段的决策过程,为此先引进下述概念与定义。1)状态向量状态向量x(k),表示过程在 k 时刻的状态。l对控制问题,相当于状态变量向量。第十九页，讲稿共六十八页哦最优性原理一般问题的问题描述最优性原理一般问题的问题描述(2/22)(2/22)2)决决策策向向量量u(k),表示过程在k时刻的从某一状态转变为另一状态的动因（激励）。对控制问题,则

15、相当于控制输入向量。3)策策略略u(0),u(1),u(N-1)是各个阶段的决策所组成的决策集合。对控制问题,则相当于控制输入向量的序列。4)成本成本(cost)J,由于状态发生转移所耗费的成本。对最优控制问题,相当于其性能指标性能指标。第二十页，讲稿共六十八页哦最优性原理一般问题的问题描述最优性原理一般问题的问题描述(3/22)(3/22)q设在决策u(k)的作用下,发生了状态从x(k)到x(k+1)的转移。显然新的状态x(k+1)完全取决于原来的状状态态x(k)和和所所采采取的决策取的决策u(k)。也可以把这种转移看成是在决策u(k)作用下的状态从x(k)到x(k+1)的一种变换,且这种变

16、换关系是唯一的,即 x(k+1)=f(x(k),u(k),k)在每一阶段,通常有若干个决策可供选择,我们用(k)代表第第k个阶段个阶段可供选择的决策集合。l一般说来,阶段不同,其决策集合(k)也不同。l用代表全部可供选择的决策的集合,即=(0)(1)(N-1)第二十一页，讲稿共六十八页哦最优性原理一般问题的问题描述最优性原理一般问题的问题描述(4/22)(4/22)q多阶段的决策问题描述如下多阶段的决策问题描述如下:设系统由决策u(k),经变换式(182)把状态从x(k)转移到x(k+1),其相应耗费的成本为F(x(k),u(k),k),k=0,1,N-1。现需通过一变换序列f(x(0),u(

17、0),0),f(x(1),u(1),1),f(x(N-1),u(N-1),N-1)将初始状态x(0)经x(1),x(N-1)转移到终态 x(N),这N次转移相对应的所耗费的总成本为试求出一个决策序列u(0),u(1),u(N-1),使N阶段决策问题的总成本最小。x(k+1)=f(x(k),u(k),k)(182)第二十二页，讲稿共六十八页哦最优性原理一般问题的问题描述最优性原理一般问题的问题描述(6/22)(6/22)q问题(183)的描述形式和最短路径问题有所不同。如果把(182)看作约束条件,最短路径问题是一个无约束的动态规划问题,而问题(183)是一个具有约束的动态规划问题,因为在每一级

18、优化(决策)的时候,都要考考虑虑状状态态与控制之间的变换关系与控制之间的变换关系。动态规划法是求解多阶段决策问题的一种最优化方法。这一问题的核心是最优性原理最优性原理。最优性原理可以表述如下:一个最优性决策具有这样的性质,即不论初始状态初始状态和初始决策如何和初始决策如何,对于前面决策所形成的状态来说,其余诸决策序列必须构成一个最优决策。为了证实最优性原理,有下面的定理.第二十三页，讲稿共六十八页哦最优性原理一般问题的问题描述最优性原理一般问题的问题描述(7/22)(7/22)定理定理7-177-17q定定理理17 若用u(0,N-1)表示N阶段决策过程中的一个策略,u(0,k-1)和u(k,

19、N-1)分别为前前k个阶段个阶段和后后N-k个阶段个阶段的子策略;并用Jx(0),u(0,N-1)表示N阶段决策过程的总成本,Jx(0),u(0,k-1)和Jx(k),u(k,N-1)分别为前k个阶段和后N-k个阶段的总成本,即存在如下两个等式u(0,N-1)=u(0,k-1),u(k,N-1)J x(0),u(0,N-1)=Jx(0),u(0,k-1)+Jx(k),u(k,N-1)则策略u*(0,N-1)=u*(0),u*(1),u*(N-1)为最优性决策的充充分必要分必要条件为:对任意k,0kN-1,下列关系成立式中 x(k)=f(x(k-1),u(k-1),k-1)是后N-k个阶段的初始

20、状态。第二十四页，讲稿共六十八页哦最优性原理一般问题最优性原理一般问题的问题描述的问题描述(8/22)(8/22)q证证明明(1)必要性证明。由最优策略的定义,并应用式(184)和式(185),有由于上式右边括弧中第一项与子子策策略略u(k,N-1)无关,因此有u(0,N-1)=u(0,k-1),u(k,N-1)(184)Jx(0),u(0,N-1)=Jx(0),u(0,k-1)+Jx(k),u(k,N-1)(185)第二十五页，讲稿共六十八页哦最优性原理一般问题的问题描述最优性原理一般问题的问题描述(9/22)(9/22)(2)充分性证明。设为任意一个策略,且是后N-k个阶段的初始状态,则

21、于是第二十六页，讲稿共六十八页哦最优性原理一般问题最优性原理一般问题的问题描述的问题描述(10/22)(10/22)因此,若式(186)成立,则对任一策略 ,都有即u*(0,N-1)为最优策略。q由上述定理17描述的最优性原理,可得如下推论。q推推论论2 若u*(0,N-1)是最优策略,则对任一k,0kN-1,其子策略u*(k,N-1)对以x*(k)=f(x*(k-1),u*(k-1),k-1)为初始状态的后N-k个阶段来说,也必是最优策略。第二十七页，讲稿共六十八页哦最优性原理一般问题的问题描述最优性原理一般问题的问题描述(11/22)(11/22)q证证明明用反证法。假设u*(k,N-1

22、)是最最优优策策略略，而对于以x*(k)=f(x*(k-1),u*(k-1),k-1)为初始状态的后后N-k个个阶阶段段来来说说不不是最优策略是最优策略,即有则第二十八页，讲稿共六十八页哦最优性原理一般问题的问题描述最优性原理一般问题的问题描述(12/22)(12/22)即 u*(0,k-1),u(k,N-1)为比 u*(0,N-1)更优的策略,与u*(0,N-1)为最优策略的假设矛盾。因此,最优策略 u*(0,N-1)的子策略 u*(k,N-1)对以x*(k)=f(x*(k-1),u*(k-1),k-1)为初始状态的后N-k个阶段来说,也必是最优策略推论得证。证毕q

23、由上述定理和推论,可得最优性原理的另一个表达形式式中,J*x(k),u*(k,N-1)表示以k时刻的状态x(k)为初始状态,后N-k个阶段在最优策略u*(k,N-1)下的最优总成本,最优策略u*(k,N-1)为最优策略u*(0,N-1)的后N-k个决策。第二十九页，讲稿共六十八页哦最优性原理一般问题最优性原理一般问题的问题描述的问题描述(13/22)(13/22)q基于最优性原理的表达形式(187)和总成本的表达式(183),可推得即第三十页，讲稿共六十八页哦最优性原理一般问题的问题描述最优性原理一般问题的问题描述(14/22)(14/22)因此,有如下一步逆向递推逆向递推形式式中,J*x(

24、N),N为总成本的边界条件,相当于控制性能指标泛函中的末值型指标。对总成本表达式,则有如下总成本J的边界条件J*x(N),N=0 第三十一页，讲稿共六十八页哦最优性原理一般问题最优性原理一般问题的问题描述的问题描述(15/22)(15/22)q由上述递推解过程,可归纳得如下动态规划法的递推方程,即贝尔曼递推方程q为了更好地理解动态规划的本质,再作如下说明。1)结合定理17的推论和式(187),最优性原理可以表述为:“一个最优性策略具有这样的性质,即不论过去的状态及过去的决策如何,如把当前状态视为后续过程的初始状态,则其后诸决策仍必须构成一最优策略。第三十二页，讲稿共六十八页哦最优性原理一般问题

25、的问题描述最优性原理一般问题的问题描述(16/22)(16/22)2)最优性原理得以成立的一个前提条件(必要条件),即所谓的过程无后效性,是当前状态x(k)仅由前一阶段状态x(k-1)和决策u(k-1)唯一决定。前一阶段状态x(k-1)和决策u(k-1)对后后续续过过程程的的影影响响通过当前状态x(k)起作用,并无其它直接影响。这种性质在数学上称为马尔柯夫(Markov)特性。第三十三页，讲稿共六十八页哦最优性原理一般问题最优性原理一般问题的问题描述的问题描述(17/22)(17/22)3)在N阶段决策过程中,前k个阶段的子策略对总成本的影响表现在两个方面,v其一是直接决定前k个阶段的局部总成

26、本,v其二通通过过对对状状态态x(k)的影响,间接地影响后N-k个阶段的局部总成本。因此,为了构成一个最优策略,其前k个阶段的子策略必须通盘通盘考虑这两个方面的影响。定理17中式(186)体现了这一思想,即在求前k个阶段的子策略时,应应使使前前k个个阶阶段段的的局局部部总总成成本本与与后后N-k个个阶阶段段的的局局部部总总成成本本之之和和最最小小,而不不是是仅仅使使前前k个个阶阶段段的的局局部部总总成成本本最小最小。第三十四页，讲稿共六十八页哦最优性原理一般问题最优性原理一般问题的问题描述的问题描述(18/22)(18/22)4)从动态规划的逆向递推求解公式(194)可知,欲求出最优决策u*(

27、0),就得先求出最优决策u*(1);依此类推,要求出最优决策u*(1),就得先求出最优决策u*(2);,最后,归结为首先求出最优决策u*(N-1),再逐步递推回代,相继得到最优决策序列u*(N-2),u*(1),u*(0)。q由此可知,动态规划法的解题顺序和事物的发展进程相反。下面通过一实例进一步说明多阶段决策的动态规划法的应用。第三十五页，讲稿共六十八页哦最优性原理一般问题的问题描述最优性原理一般问题的问题描述(19/22)(19/22)例例7-147-14q例例14 图12所示的是某零件的加工工序图,各节点代表机床,箭头代表加工工序,节点间的数字表示零件加工的经济效益。试求一产生最大经济效

28、益的工序路线。第三十六页，讲稿共六十八页哦最优性原理一般问题的问题描述最优性原理一般问题的问题描述(20/22)(20/22)q解解根据多阶段决策的动态规划法,反复使用逆向递推公式,则有J*F=0J*x1(4)=4J*x2(4)=3J*x1(3)=max4+J*x1(4)=8J*x2(3)=max1+J*x1(4),3+J*x2(4)=5J*S=max4+J*x1(1),5+J*x2(1)=16第三十七页，讲稿共六十八页哦最优性原理一般问题的问题描述最优性原理一般问题的问题描述(21/22)(21/22)q解解根据将所求得的各点的最佳效益标记在代表各机床的圆圈内,并同时将前面所求得的各相邻

29、机床之间的决策作于工序图上,即可得图13。图图13 某机械加工最优工序图某机械加工最优工序图第三十八页，讲稿共六十八页哦最优性原理一般问题的问题描述最优性原理一般问题的问题描述(22/22)(22/22)由图13可以很方便地得到从加工起始机床S到完成最后加工的机床 F的最佳经济效益工序路线S,x2(1),x2(2),x2(3),x1(4),F。由该图也可以很方便地求出各机床到机床各机床到机床F的最佳路线的最佳路线。第三十九页，讲稿共六十八页哦离散系统的动态规划法离散系统的动态规划法(1/9)(1/9)3.离散系统的动态规划法离散系统的动态规划法q离散系统的最优控制问

30、题可以归结为一个多阶段决策优化问题,其中决策变量即为其控制输入变量,总成本为其性能指标泛函。因此,利用前面的多阶段决策问题的动态规划法,可得离散系统最优控制问题的动态规划解法。第四十页，讲稿共六十八页哦离散系统的动态规划法离散系统的动态规划法(2/9)(2/9)定理定理7-187-18q定理定理18(离散系统的动态规划法)设离散系统的状态方程、状态初始条件和性能指标泛函分别为式中,f(x,u,k)和L(x,u,k)都是关于状态x(k)和时间k的连续可微函数;S(x(kf),kf)是关于x(kf)和kf的连续可微函数；u(k)和x(k)分别为r维和n维向量;第四十一页，讲稿共六十八页哦离散系统的

31、动态规划法离散系统的动态规划法(3/9)(3/9)容许控制u(k)满足u(k)U,kk0,kf式中,U为受不等式不等式约束条件限制的控制量u(k)的Rr空间中的闭集。设使性能指标泛函(196)极小的最优控制函数为u*(k)、最优状态轨线为x*(k)。则u*(k)和x*(k)满足如下逆向递推方程,即贝尔曼递推方程第四十二页，讲稿共六十八页哦离散系统的动态规划法离散系统的动态规划法(4/9)(4/9)q在离散系统最优控制问题的动态规划求解方法中,若控制量u(k)不受约束,可以在Rr空间中自由取值,则由贝尔曼递推方程(198)求解最优控制量u*(k),可等效地求解如下关系式即第四十三页，讲稿共六十八

32、页哦离散系统的动态规划法离散系统的动态规划法(5/9)(5/9)例例7-157-15q下面通过一个例子来说明由定理18求解离散系统的最优控制问题。q例例15 已知被控系统为求在性能指标泛函下的最优控制序列u*(k)和最优轨线x*(k)。第四十四页，讲稿共六十八页哦离散系统的动态规划法离散系统的动态规划法(6/9)(6/9)q解解由离散系统最优控制问题的贝尔曼逆向递推方程(198),可得因此,由可解得第四十五页，讲稿共六十八页哦离散系统的动态规划法离散系统的动态规划法(7/9)(7/9)再由可解得最后,由可解得第四十六页，讲稿共六十八页哦离散系统的动态规划法离散系统的动态规划法(8/9)(8/

33、9)因此,由初始状态x(0)=2,可解得最优控制序列和最优轨线分别为第四十七页，讲稿共六十八页哦离散系统的动态规划法离散系统的动态规划法(9/9)(9/9)q前面讨论了一般求解离散系统最优控制问题的动态规划法,给出了求解方法和基本步骤。对于一一般般的的非非线线性性离离散散系系统统,采用上述动态规划法很很难难得得到到其其最最优优控控制制函函数数u*(t)和最最优优状状态态x*(t)的解析表达式,使得离散系统最优控制问题的求解较复杂,难以实际应用。但对于线线性性离离散散系系统统,当其最优控制问题的性能指标泛函为二二次次型型性性能能指指标标时,其最优控制函数u*(t)和最优状态x*(t)具有较简洁的

34、解析表达式,并能很方便地构成最优状态反馈律和闭环最优控制系统。下面,作为离散最优控制问题的动态规划法的具应用,我们将讨论线性离散系统的二次型性能指标泛函下的最优控制问题,即离散最优二次型问题。第四十八页，讲稿共六十八页哦线性离散系统的二次型最优控制线性离散系统的二次型最优控制(1/3)(1/3)6.2 线性离散系统的二次型最优控制线性离散系统的二次型最优控制q类似于线性连续系统的二次型最优控制问题,线性离散系统的二次型最优控制律也是线性控制,易于实现。下面将介绍线性离散系统的二次型最优控制,内容为：时变状态调节器时变状态调节器定常状态调节器定常状态调节器第四十九页，讲稿共六十八页哦时变状态

35、调节器时变状态调节器(1/14)(1/14)1.时变状态调节器时变状态调节器q线性连续系统的二次型最优控制问题在前面已经作了详细的讨论下面将会看到,线性离散系统的二次型最优控制问题的解可最后归结到一个最优状态反馈律和求解一个与黎卡提矩阵微分方程相类似的黎卡提矩阵差分方程。q线性离散系统的二次型性能指标泛函下的最优控制问题的描述如下。第五十页，讲稿共六十八页哦时变状态调节器时变状态调节器(2/14)(2/14)q线线性性离离散散系系统统的的二二次次型型最最优优控控制制问问题题设线性时变离散系统的状态方程和初始条件分别为x(k+1)=G(k)x(k)+H(k)u(k)x(k0)=x0式中,控制量

36、u(k)不受约束。寻找最优控制函数u*(k),使下列二次型性能指标泛函为最小式中,F和Q(k)为非负定矩阵;R(k)为正定矩阵;末态时刻kf是固定的。第五十一页，讲稿共六十八页哦时变状态调节器时变状态调节器(3/14)(3/14)q下面讨论用动态规划法求解上述离散系统的最优控制问题。根据贝尔曼的动态规划法,求解上述最优控制问题需从最后一级开始,由后往前按贝尔曼递推公式进行计算。因此,由贝尔曼递推方程(198),可得如下线性离散系统的二次型最优控制问题的递推计算公式和边界条件第五十二页，讲稿共六十八页哦时变状态调节器时变状态调节器(4/14)(4/14)因此,对最后一级应有将系统的状态方程代入上

37、式,可得第五十三页，讲稿共六十八页哦时变状态调节器时变状态调节器(5/14)(5/14)由于u(k)不受约束,上式对u(k)求极值等价于求解如下方程解得式中,K(kf-1)为如下kf-1时刻的最优状态反馈矩阵第五十四页，讲稿共六十八页哦时变状态调节器时变状态调节器(6/14)(6/14)将最优控制函数u*(kf-1)代入式(205),则有如下最后一级的最优成本函数第五十五页，讲稿共六十八页哦时变状态调节器时变状态调节器(7/14)(7/14)定义则式(210)可表示为第五十六页，讲稿共六十八页哦时变状态调节器时变状态调节器(8/14)(8/14)q最优成本函数的逆向递推的边界条件(204)也可

38、以表示为因此,上述在最后一级应用动态规划法的递推方程所得到的最优状态反馈矩阵和最优成本函数可总结为其中第五十七页，讲稿共六十八页哦时变状态调节器时变状态调节器(9/14)(9/14)q依贝尔曼的逆向递推公式,在倒数第二级应有比较上式和式(205)可以看出,两式形式上相同。因此,只要注意两式之间的如下对应关系kf-1kf,kf-2kf-1,P(kf-1)P(kf)=F就可以类似于最后一级的推导,得到在倒数第二级的如下最优控制解的结论第五十八页，讲稿共六十八页哦时变状态调节器时变状态调节器(10/14)(10/14)其中第五十九页，讲稿共六十八页哦时变状态调节器时变状态调节器(11/14)(11/

39、14)q依此类推,我们可以证明如下离散时变系统的二次型性能指标最优控制问题在倒数第步的逆向递推方程式中,k=kf-1,kf-2,0;逆向递推的边界条件为第六十页，讲稿共六十八页哦时变状态调节器时变状态调节器(12/14)(12/14)q从上面的推导可知,离散系统的二次型最优控制问题的最优控制u*(k)是状态变量x(k)的线性反馈,其中rn维矩阵K(k)称为最优状态反馈增益矩阵。由上述递推计算式可知,K(k)只与G(k),H(k),F,Q(k)和R(k)有关,与系统的初始状态无关。因此,由最优状态反馈律实现最优二次型闭环控制时,可事先离线计算出K(k),在线控制时仅作简单比例控制运算。第六十一页

40、，讲稿共六十八页哦时变状态调节器时变状态调节器(13/14)(13/14)q将反馈增益矩阵K(k)的计算式代入黎卡提矩阵型差分方程,经整理可得黎卡提矩阵型差分方程的另一种表示形式其中第六十二页，讲稿共六十八页哦时变状态调节器时变状态调节器(14/14)(14/14)q与黎卡提矩阵微分方程相对应的,上述关于P(k)递推计算的差分方程称为黎卡提矩阵差分方程黎卡提矩阵差分方程。由于矩阵F为为非非负负定定矩矩阵阵,因此,可以证明黎卡提矩阵差分方程的解P(k)至少为非负定的至少为非负定的。进一步,若矩阵F为为正正定定矩矩阵阵,则该差分方程的解P(k)为为正正定的定的。第六十三页，讲稿共六十八页哦定常状

41、态调节器定常状态调节器(1/8)(1/8)2.定常状态调节器定常状态调节器 q正如线性定常连续系统的无限时间定常状态调节器可由线性时变连续系统的有限时间状态调节器令末态时刻tf而导出一样,线性定常离散系统的无限时间定常状态调节器也可由前面讨论的有限时间的线性离散时变系统状态调节器令末态时刻kf导出。下面将给出线性定常离散系统的无限时间定常状态调节器的有关结论。q线性定常离散系统的无限时间定常状态调节器问题的描述如下。第六十四页，讲稿共六十八页哦定常状态调节器定常状态调节器(2/8)(2/8)q设状态能镇定的线性定常系统的状态方程和初始条件分别为x(k+1)=Gx(k)+Hu(k)x(k0)=x

42、0式中,控制量u(k)不受约束。寻找最优控制函数u*(k),使下列二次型性能指标泛函为最小式中,Q为非负定矩阵;R为正定矩阵。第六十五页，讲稿共六十八页哦定常状态调节器定常状态调节器(3/8)(3/8)q由前面讨论的有限时间的线性离散系统状态调节器的逆向递推解式,令末态时刻kf,可得无限时间的离散定常系统状态调节器问题的控制律第六十六页，讲稿共六十八页哦定常状态调节器定常状态调节器(4/8)(4/8)q从上面的推导可知,离散系统的定常调节器问题的最优控制u*(k)是状态变量x(k)的线性反馈,其中rn维矩阵K称为最优定常状态反馈增益矩阵。由式(232)和式(233)可知,K只与G,H,Q和R有

43、关,与系统的状态x(k)无关。因此,由最优状态反馈律实现闭环控制时,可事先离线计算出K,然后可实现定常的最优状态反馈律。q与解线性定常连续系统的定常状态调节器问题的黎卡提矩阵型代数方程相对应的,矩阵型代数方程(233)称为离散形式的黎卡提矩阵型代数方程。可以证明,若线性定常离散系统是状态能镇定的,矩阵代数方程(233)的解P至少为非负定的。第六十七页，讲稿共六十八页哦定常状态调节器定常状态调节器(5/8)(5/8)例例7-167-16q例例16 已知被控系统x(k+1)=gx(k)+hu(k)求系统在性能指标泛函为最小的定常调节器的最优状态反馈律。q解解由式(233),可得本问题的离散型黎卡提方程其中第六十八页，讲稿共六十八页哦

展开阅读全文