《(精品)第06章强化学习(1).ppt》由会员分享,可在线阅读,更多相关《(精品)第06章强化学习(1).ppt(18页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、Automation and Control Engineering SeriesAutomation and Control Engineering Series强化学习强化学习(1)養天地正氣養天地正氣 法古今完人法古今完人2 2/33/331 介绍介绍1.1 1.1 动态规划与强化学习问题动态规划与强化学习问题动态规划与强化学习问题动态规划与强化学习问题 1.3 1.3 关于本书关于本书关于本书关于本书1.2 1.2 动态规划与强化学习中的逼近动态规划与强化学习中的逼近动态规划与强化学习中的逼近动态规划与强化学习中的逼近養天地正氣養天地正氣 法古今完人法古今完人3 3/33/33前言(前
2、言(1)动态规划(动态规划(DP)强化学习(强化学习(RLRL)解决最优控制问题解决最优控制问题需要行需要行为模型为模型不需要不需要行为模行为模型型在一段时间里,为获得预期在一段时间里,为获得预期目标目标,选择哪些,选择哪些动作动作(决策决策)应用于)应用于系统。系统。目标目标:是优化长期性能,即与环境交互过程中的累计:是优化长期性能,即与环境交互过程中的累计奖赏奖赏。奖赏奖赏:奖赏用于评价一步决策性能。:奖赏用于评价一步决策性能。自动控制自动控制人工智能人工智能运筹学运筹学医学医学经济学经济学应用:应用:養天地正氣養天地正氣 法古今完人法古今完人4 4/33/33自动控制自动控制:控制器控制
3、器接收来自过程的接收来自过程的输出指标输出指标(状态,奖赏),通过(状态,奖赏),通过控制器的决策,对控制器的决策,对过程过程采取一些采取一些动作动作,产生满足某种要求的,产生满足某种要求的行为行为。决策者决策者是控制器,是控制器,系统系统是被控制的过程。是被控制的过程。人工智能人工智能:采取动作,通过感知和影响来监测其所处的环境。:采取动作,通过感知和影响来监测其所处的环境。决策者决策者是是agent,系统系统是是agent所处的环境。所处的环境。前言(前言(2)控制器控制器过程过程动作动作输出输出智能智能agent环境环境动作动作感知感知自动控制自动控制人工智能人工智能養天地正氣養天地正氣
4、 法古今完人法古今完人5 5/33/33DP:需要系统模型。需要系统模型。优点:优点:几乎不需要对系统做任何假设,可以具有非线性和随机性。几乎不需要对系统做任何假设,可以具有非线性和随机性。构造模拟模型比衍生一个解析模型容易,特别是对随机情况。构造模拟模型比衍生一个解析模型容易,特别是对随机情况。前言(前言(3)RL:不需要系统模型。不需要系统模型。(事先对系统无法全面感知,代价太大,无法得到)(事先对系统无法全面感知,代价太大,无法得到)优点:优点:系统中得到的数据来工作,不需要行为模型。系统中得到的数据来工作,不需要行为模型。离线离线RL,在线,在线RL。如有模型,可用模型替代实际系统,产
5、生数据。如有模型,可用模型替代实际系统,产生数据。養天地正氣養天地正氣 法古今完人法古今完人6 6/33/331.1 动态规划与强化学习问题(动态规划与强化学习问题(1)DP和和RL问题的主要要素是通过它们之间的交互流联系在一起问题的主要要素是通过它们之间的交互流联系在一起:过程为控制器提供目前所处的状态。过程为控制器提供目前所处的状态。控制器根据目前的状态,为过程提供应采取的动作。控制器根据目前的状态,为过程提供应采取的动作。过程给出下一状态,并根据奖赏函数,给出其获得的立即奖赏。过程给出下一状态,并根据奖赏函数,给出其获得的立即奖赏。養天地正氣養天地正氣 法古今完人法古今完人7 7/33/
6、331.1 动态规划与强化学习问题(动态规划与强化学习问题(2)目标目标:避开障碍物,从底端到达右上角的目标。:避开障碍物,从底端到达右上角的目标。控制器(控制器(agent):机器人的软件,决策算法。机器人的软件,决策算法。过程(环境)过程(环境):与机器人密切相关的环境(地面、障碍物、目标等):与机器人密切相关的环境(地面、障碍物、目标等)。用于决策的物理实体、传感器和执行器。用于决策的物理实体、传感器和执行器。goalobstacle養天地正氣養天地正氣 法古今完人法古今完人8 8/33/331.1 动态规划与强化学习问题(动态规划与强化学习问题(3)状态(状态(x):机器人的位置(直角
7、坐标)。:机器人的位置(直角坐标)。动作(动作(u):机器人走一步(直角坐标)。:机器人走一步(直角坐标)。迁移函数(迁移函数(f):从目前的位置走一步,到达下一位置,遇到障碍变复杂。:从目前的位置走一步,到达下一位置,遇到障碍变复杂。奖赏函数(奖赏函数():产生奖赏(:产生奖赏(r),评价迁移的质量。),评价迁移的质量。目标:目标:+10;障碍:;障碍:-1;其他:;其他:0,可构造带更多信息的奖赏。,可构造带更多信息的奖赏。策略(策略(h):从状态到动作的映射。从状态到动作的映射。goalobstacle養天地正氣養天地正氣 法古今完人法古今完人9 9/33/331.1 动态规划与强化学习
8、问题(动态规划与强化学习问题(4)在在DPDP和和RLRL中,目标是使回报最大化,其中回报是由交互过程中的累积奖赏构中,目标是使回报最大化,其中回报是由交互过程中的累积奖赏构成。成。主要考虑折扣无限水平回报,即累积回报开始于初始时间步主要考虑折扣无限水平回报,即累积回报开始于初始时间步k k=0=0,沿(可能),沿(可能)无限长的轨迹,对得到的奖赏值进行累积,通过一个因子无限长的轨迹,对得到的奖赏值进行累积,通过一个因子0,10,1对奖赏对奖赏加权,这个因子随着时间步的增加呈指数地减少。加权,这个因子随着时间步的增加呈指数地减少。goalobstacle“远视远视”程程度度養天地正氣養天地正氣
9、 法古今完人法古今完人1010/33/331.1 动态规划与强化学习问题(动态规划与强化学习问题(5)奖赏依赖于所遵循的状态奖赏依赖于所遵循的状态-动作轨迹,每个奖赏动作轨迹,每个奖赏rk+1是迁移是迁移(xk,uk,xk+1)的结果,状态)的结果,状态-动作轨迹依赖于使用的策略:动作轨迹依赖于使用的策略:DP和和RL的核心挑战的核心挑战 得到一个解,通过由立即奖赏构成的回报优化长期性能。得到一个解,通过由立即奖赏构成的回报优化长期性能。解解DP/RL问题转化为找最优策略问题转化为找最优策略h*问题,即对每个初始状态,使其回报问题,即对每个初始状态,使其回报最大化。最大化。得到最优策略的方法:
10、得到最优策略的方法:计算最大的回报:计算最大的回报:養天地正氣養天地正氣 法古今完人法古今完人1111/33/331.2 动态规划与强化学习中的逼近(动态规划与强化学习中的逼近(1)为保证表示的精确性,唯一的方法是,对每个状态为保证表示的精确性,唯一的方法是,对每个状态-动作对,存储动作对,存储各自的各自的Q函数值(函数值(Q值)。值)。存在问题:存在问题:对于机器人的每个位置,以及相应位置可能采取的每个走步,都必须对于机器人的每个位置,以及相应位置可能采取的每个走步,都必须存储其值。存储其值。因为位置和走步都是连续变化的,因此可能得到无穷多个不同的值。因为位置和走步都是连续变化的,因此可能得
11、到无穷多个不同的值。使用使用Q函数的压缩表示。函数的压缩表示。養天地正氣養天地正氣 法古今完人法古今完人1212/33/331.2 动态规划与强化学习中的逼近(动态规划与强化学习中的逼近(2)Q函数的压缩表示函数的压缩表示步骤:步骤:在状态空间中,定义有限个在状态空间中,定义有限个BF,1 1,N N(径向基函数,(径向基函数,Tile 编码,编码,粗糙编码等)粗糙编码等)。动作空间被离散化为有限多个动作动作空间被离散化为有限多个动作(导航实例中,(导航实例中,“最近邻最近邻”离散化为离散化为left,right,forward,back四个动作)四个动作)。对于每个状态动作对,不再存储各自的
12、对于每个状态动作对,不再存储各自的Q值,而是存储参数向量值,而是存储参数向量。一组。一组BF和一个离散动作的结合都对应的一个参数向量和一个离散动作的结合都对应的一个参数向量,的维数与向量的维数与向量 相同相同。状态依赖基函数状态依赖基函数动作离散化动作离散化養天地正氣養天地正氣 法古今完人法古今完人1313/33/33对于每个状态对于每个状态x,通过公式,通过公式 ,计算出相对应的,计算出相对应的1,N。“forward”对应的对应的向量向量为为:线线性方法,状性方法,状态动态动作作对对(x,forward),forward)对应对应的近似的近似Q值为值为:1.2 动态规划与强化学习中的逼近(
13、动态规划与强化学习中的逼近(3)状态依赖基函数状态依赖基函数養天地正氣養天地正氣 法古今完人法古今完人1414/33/33DP/RL算法只需要保存算法只需要保存4N个参数,当个参数,当N不太大时,这一点能很容易不太大时,这一点能很容易做到。做到。这种函数的表示方法能泛化到任意这种函数的表示方法能泛化到任意DP/RL问题。问题。即使对具有有限数目的离散状态和动作的问题,压缩表示可以减少即使对具有有限数目的离散状态和动作的问题,压缩表示可以减少值的数目,使其更容易存储。值的数目,使其更容易存储。并非所有的并非所有的DP和和RL算法都使用算法都使用Q函数,它们通常也需要压缩表示,函数,它们通常也需要
14、压缩表示,因此可以扩展到一般情况。因此可以扩展到一般情况。1.2 动态规划与强化学习中的逼近(动态规划与强化学习中的逼近(4)近似表示近似表示養天地正氣養天地正氣 法古今完人法古今完人1515/33/33为了得到一个近似的最优策略,采取动作,使得为了得到一个近似的最优策略,采取动作,使得Q函数最大化。函数最大化。在大的或连续的状态空间中,这种优化问题潜在地存在很大的困难,在大的或连续的状态空间中,这种优化问题潜在地存在很大的困难,通常只能被近似地解决。通常只能被近似地解决。使用离散动作函数时,足以计算所有的离散动作的近似使用离散动作函数时,足以计算所有的离散动作的近似Q值,通过值,通过枚举即可
15、以找到这些枚举即可以找到这些Q值中的最大值。值中的最大值。1.2 动态规划与强化学习中的逼近(动态规划与强化学习中的逼近(5)近似最优策略近似最优策略養天地正氣養天地正氣 法古今完人法古今完人1616/33/33如果算法是迭代的,使用逼近算法能否收敛?或如果算法是迭代的,如果算法是迭代的,使用逼近算法能否收敛?或如果算法是迭代的,它能得到一个有意义的解吗?它能得到一个有意义的解吗?如果得到有意义的解,它接近最优吗?更确切地说,它距离最优解如果得到有意义的解,它接近最优吗?更确切地说,它距离最优解有多远?有多远?算法是否具有一致性,即随着逼近呈指数的增长,算法是否逐渐收算法是否具有一致性,即随着
16、逼近呈指数的增长,算法是否逐渐收敛到最优解?敛到最优解?1.2 动态规划与强化学习中的逼近(动态规划与强化学习中的逼近(6)需要考虑的问题需要考虑的问题養天地正氣養天地正氣 法古今完人法古今完人1717/33/33对给定的问题,选择一个适当的函数逼近器,是一个非常常见的任务。对给定的问题,选择一个适当的函数逼近器,是一个非常常见的任务。由由于于函函数数逼逼近近器器的的复复杂杂性性直直接接影影响响到到DP和和RL算算法法的的存存储储和和计计算算代代价价,因因此此必须对它进行有效控制。必须对它进行有效控制。由由于于越越复复杂杂的的逼逼近近器器需需要要的的数数据据量量越越大大,因因此此在在近近似似RL中中,对对得得到到的的数数据据量的限制也同样重要。量的限制也同样重要。如如果果能能得得到到关关于于激激励励函函数数的的先先验验知知识识,可可以以提提前前设设计计一一个个低低复复杂杂度度、但但仍仍然精确的逼近器。然精确的逼近器。本本书书中中我我们们特特别别关关注注的的是是自自动动寻寻找找适适合合某某一一问问题题的的低低复复杂杂度度的的逼逼近近器器,而而不是依靠手工设计。不是依靠手工设计。1.2 动态规划与强化学习中的逼近(动态规划与强化学习中的逼近(7)函数逼进器的选择函数逼进器的选择養天地正氣養天地正氣 法古今完人法古今完人1818/33/33