第13章:强化学习.pdf

上传人:奉*** 文档编号:4025297 上传时间:2021-01-04 格式:PDF 页数:28 大小:1.84MB
返回 下载 相关 举报
第13章:强化学习.pdf_第1页
第1页 / 共28页
第13章:强化学习.pdf_第2页
第2页 / 共28页
点击查看更多>>
资源描述

《第13章:强化学习.pdf》由会员分享,可在线阅读,更多相关《第13章:强化学习.pdf(28页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第13章:强化学习 本章内容本章内容 二、有模型学习 一、强化学习概述 三、无模型学习 四、对强化学习的理解 机器学习三大分支:机器学习三大分支: 无监督学习 监督学习 强化学习 一、强化学习概述一、强化学习概述 基本概念:基本概念:强化学习又称为增强学习、加强学习、再励学习 或激励学习,是一种从环境状态到行为映射的学习,目的是 使动作从环境中获得的累积回报值最大。强化学习是机器学 习分支之一,介于监督学习和无监督学习之间。 强化学习技术是从控制理论 、统计学、心理学等相关学 科发展而来。 在人工智能、机器学习和自 动控制等领域中得到广泛研 究和应用,并被认为是设计 智能系统的核心技术之一。

2、随着强化学习的数学基础研 究取得突破性进展后,强化 学习成为机器学习领域研究 热点之一。 一、强化学习概述一、强化学习概述 强化学习发展历史强化学习发展历史 1954年Minsky首次提出“强化”和“强化学习”的概念。 1953到1957年,Bellman提出了求解最优控制问题的一个有效 方法-动态规划,同年,还提出了最优控制问题的随机离散版 本,就是著名的马尔可夫决策过程 1960年Howard提出马尔可夫决策过程的策略迭代方法,这些都 成为现代强化学习的理论基础。 1972年,Klopf把试错学习和时序差分结合在一起。 1988年 Sutton提出了TD算法 1989年 Watkins提出

3、了Q学习算法 1994年 Rummery等提出了SARSA学习算法 2015 Google DeepMind公司提出了深度强化学习DRL 一、强化学习概述一、强化学习概述 强化学习的特点:强化学习的特点: 强化学习围绕着如何与环境交互学习,在行动评价的环境 中获得改进的行动方案,以适应环境达到预想的目的。学习者 并不会被告知采取哪个动作,而只能通过尝试每个动作,获得 环境对所采取动作的反馈信息,从而指导以后的行动。因此, 强化学习主要特点包括: 试错搜索: Agent通过尝试多个动作,搜索最优策略; 延迟回报:其反馈信号是延迟的而非瞬间的; 适应性:Agent不断利用环境中的反馈信息来改善其性

4、能; 不依赖外部教师信号:因为Agent只根据反馈信号进行学习, 因此不需要外部教师信号。 一、强化学习概述一、强化学习概述 强化学习基本模型强化学习基本模型 一、强化学习概述一、强化学习概述 在强化学习中,Agent 选择 一个动作a作用于环境; 环境接收该动作后发生变化, 同 时 产 生 一 个 强 化 信 号 Reward(奖或罚)反馈给 Agent; Agent再根据强化信号和环境 的当前状态s再选择下一个动 作,选择的原则是使受到奖 赏值的概率增大。 强化学习的目的就是寻找一个最优策 略,使得Agent在运行中所获得的累计 期望回报最大。 一、强化学习概述一、强化学习概述 从广义上讲

5、,强化学习是解决序贯决策问题的方法之一,将强 化学习纳入马尔科夫决策过程的框架后,可以分为基于模型的 动态规划方法和基于无模型的强化学习方法。 分类分类 郭宪等,深入浅出强化学习入门,电子工业出版社,2018 二、有模型学习二、有模型学习 定义:定义:在已知模型的环境中学习,称为“有模型学习”,也即 ,对于多步强化学习任务,其对应的马尔可夫决策过程四元组 表示均为已知,称为“模型已知”。 S:环境的状态空间 A:agent可选择的动作空间 R(s,a):奖励函数,返回的值表示在状态下执行a动作的奖励 P(s|s,a):状态转移概率函数,表示从s状态执行a动作后环 境转移至s状态的概率 二、有模

6、型学习二、有模型学习 策略迭代算法策略迭代算法-流程流程 某一个随机策略作为初始策略 策略评价+策略改进+策略评价+策略改进+ 若满足收敛条件,则退出,否则,转入 策略迭代算法的缺点在于:每次改进策略后都需要重新进 行策略评价,计算比较耗时。 二、有模型学习二、有模型学习 策略迭代算法策略迭代算法-策略评价 郭宪等,深入浅出强化学习入门,电子工业出版社,2018 二、有模型学习二、有模型学习 策略迭代算法策略迭代算法 -策略评价举例 即时奖励:左图是一个九宫格,左上角和右下角是终 点,它们的reward是0,其他的状态reward都是-1。 状态空间:除了灰色两个格子,其他都是非终点状态 动作

7、空间:在每个状态下,都有四种动作可以执行, 分别是上下左右(东西南北)。 转移概率:任何想要离开大正方形的动作将保持其状 态不变,也就是原地不动。其他时候都是直接移动到 下一个状态。所以状态转移概率是确定性的。 折扣因子:=1 当前策略:在任何状态下,agent都采取均匀随机策略 ,也就是它的动作是随机选择的,即: (e|)=(w|)=(s|)=(n|)=0.25 问题:评价均匀随机策略。也就是说,求解均匀随机策略下所 有状态的V值 ls/79093453 二、有模型学习二、有模型学习 -1.0 -1.0 -1.0 -1.0 -1.0 -1.0 -1.0 -1.0 -1.0 -1.0 -1.0

8、 -1.0 -1.0 -1.0 K=1 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 K=0 0.0 -1.7 -2.0 -2.0 -2.0 -2.0 -2.0 -2.0 -1.7 -2.0 -2.0 -1.7 -2.0 -2.0 -1.7 K=2 0.0 0.0 Repeat k=0,1, for every s do 策略迭代算法策略迭代算法-策略评价举例 二、有模型学习二、有模型学习 策略迭代算法策略迭代算法-策略改进:在每个状态采用贪心 策略,从而找到更好的策略。 -6.1 -8.4 -9.0 -

9、8.4 -7.7 -8.4 -7.7 -6.1 -8.4 -8.4 -6.1 -9.0 -8.4 -6.1 K=10 0.0 0.0 0.0 0.0 二、有模型学习二、有模型学习 值迭代算法值迭代算法:基于策略迭代的方法是交替进行策略评价和策略 改进,其中策略评价中需要迭代多次,以保证当前策略评价收 敛。因此,算法收敛较慢。为了解决该问题,提出了值迭代算 法。 -14 -20 -22 -20 -18 -20 -18 -14 -20 -20 -14 -22 -20 -14 0.0 0.0 0.0 0.0 -6.1 -8.4 -9.0 -8.4 -7.7 -8.4 -7.7 -6.1 -8.4 -

10、8.4 -6.1 -9.0 -8.4 -6.1 K=10 0.0 0.0 0.0 0.0 策略改进不一策略改进不一 定要等到值函定要等到值函 数收敛!数收敛! 二、有模型学习二、有模型学习 值迭代算法值迭代算法: 当模型未知,即状态转移概率、奖赏函数往往我们是不知 道的,甚至很难知道环境中一共有多少状态。此时我们无 法直接利用Bellman方程来求解得到最优策略。 若学习算法不依赖环境建模,则称为“无模型学习”,或称 模型无关的学习(Model-free Learning)。 模型无关的强化学习,是在不知道马尔科夫决策过程的情 况下学习到最优策略。模型无关的策略学习主要有两种算 法:蒙塔卡洛强

11、化学习, 时序差分强化学习。而时序差分强 化学习又包括SARSA 和 Q-learning两种算法。 三、无模型学习三、无模型学习 蒙特卡洛采样蒙特卡洛采样 MDP是通过5元组:来做决策的。对于这种已知 模型的情况,也就是知道了这个5元组,我们可以通过求解 贝尔曼方程获得奖赏最大化。 但是,在现实世界中,我们无法同时知道这个5元组。比如 状态转移概率就很难知道,我们无法使用bellman方程来求 解V和Q值。 一个想法是,虽然我不知道状态转移概率P,但是这个概率 是真实存在的。我们可以直接去尝试,不断采样,然后会得 到奖赏,通过奖赏来评价值函数。 三、无模型学习三、无模型学习 同策略同策略 蒙

12、 特 卡 洛 强蒙 特 卡 洛 强 化学习化学习 三、无模型学习三、无模型学习 周志华 著. 机器学习, 北 京: 清华大学出版社, 2016 年1月,pp:384 异策略异策略 蒙特卡洛强化蒙特卡洛强化 学习学习 三、无模型学习三、无模型学习 周志华 著. 机器学习, 北 京: 清华大学出版社, 2016 年1月,pp:386 时序差分强化时序差分强化学习学习(Temporal-Difference) 三、无模型学习三、无模型学习 在蒙特卡洛学习中,却需要一条完整的轨迹,才能估计某个状态 动作值函数,从而进行更新,导致了算法效率低下。 在时序差分学习中,算法在每执行一步策略后就进行值函数的

13、更新,因此效率较高。 时序差分强化学习时序差分强化学习 三、无模型学习三、无模型学习 蒙特卡洛强化学习蒙特卡洛强化学习 时序差分方法:分为同策略的Sarsa和异策略的Q-learning 郭宪等,深入浅出强化学习入门,电子工业出版社,2018 三、无模型学习三、无模型学习 Sarsa算法 在Sarsa算法中,选择动作时遵循的策略和更新动作值函 数时遵循的策略是相同的,均为-贪心策略 三、无模型学习三、无模型学习 Q-learning算法 在Q-learning算法中,选择动作时遵循的策略是-贪心策略, 更新动作值函数时,直接使用了最大的Q(St+1,a) 四、对强化学习的理解四、对强化学习的理

14、解 状态状态 动作动作 策略策略 示例示例 标记标记 分类器分类器 强化学习 监督学习 强化学习在某种意义上可看作具有“延迟标记信 息”的监督学习问题。 四、对强化学习的理解四、对强化学习的理解 强化学习可以分为基于模型的方法与无模型的方法。前者发展 主要来自最优控制领域。而后者发展更多的来自机器学习领域 。无模型的强化学习算法通过大量采样,估计智能体的状态- 动作值函数或回报函数,从而获得最优的策略。 但是,无模型的强化学习可能面临的一些问题: 奖励函数难以设计,缺乏理论指导。 不对具体问题进行建模,而是尝试用一个通用的算法解决所 有问题,没有利用问题固有的信息。 因为没有模型,解释性不强,

15、调试困难。 . 四、对强化学习的理解四、对强化学习的理解 深度学习(DL)技术和强化学习(RL)的结合,形成了深 度强化学习(DRL),迅速成为人工智能界的焦点。 在视频游戏、棋类游戏、机器人控制等领域取得了巨大成 功。 可能面临的问题: 难以平衡“探索”和“利用”, 以致算法陷入局部极小; 样本利用较低; 对环境容易出现过拟合; 灾难性的不稳定性。 . 四、对强化学习的理解四、对强化学习的理解 潜在的研究方向包括: 提高无模型方法的数据利用率和扩展性; 设计高效的探索策略。平衡“探索”与“利用”; 与模仿学习结合,既能更快地得到反馈、又能更快地收敛; 探索好的奖励机制。奖励机制对强化学习算法性能的影响是 巨大的,因此该方向一直是强化学习的研究热点。 混合迁移学习和多任务学习。当前强化的采样效率较低,而 且学到的知识不通用,迁移学习与多任务学习可以有效解决 这些问题。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁