《(13)--第16章 强化学习(下)机器学习模型与算法.ppt》由会员分享,可在线阅读,更多相关《(13)--第16章 强化学习(下)机器学习模型与算法.ppt(28页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、强化学习概述n 任务与奖赏nK-摇臂赌博机n有模型学习n免模型学习n 值函数近似n模仿学习24.免模型学习n免模型学习(model-free learning):更加符合实际情况u转移概率,奖赏函数未知u甚至环境中的状态数目也未知u假定状态空间有限n免模型学习所面临的困难u策略无法评估u无法通过值函数计算状态-动作值函数u机器只能从一个起始状态开始探索环境4.免模型学习n免模型学习(model-free learning):更加符合实际情况u转移概率,奖赏函数未知u甚至环境中的状态数目也未知u假定状态空间有限n免模型学习所面临的困难u策略无法评估u无法通过值函数计算状态-动作值函数u机器只能从
2、一个起始状态开始探索环境n解决困难的办法u多次采样u直接估计每一对状态-动作的值函数u在探索过程中逐渐发现各个状态4.免模型学习两种著名的免模型学习方法:n蒙特卡罗强化学习n时序差分学习54.1蒙特卡罗强化学习n蒙特卡罗强化学习:采样轨迹,用样本均值近似期望u策略评估:蒙特卡罗法l从某状态出发,执行某策略l对轨迹中出现的每对状态-动作,记录其后的奖赏之和l采样多条轨迹,每个状态-动作对的累积奖赏取平均l一条轨迹u策略改进:换入当前最优动作4.1蒙特卡罗强化学习4.1蒙特卡罗强化学习4.1蒙特卡罗强化学习4.1蒙特卡罗强化学习n异策略蒙特卡罗强化学习算法4.1蒙特卡罗强化学习n蒙特卡罗强化学习的
3、缺点:低效u求平均时以“批处理式”进行u在一个完整的采样轨迹完成后才对状态-动作值函数进行更新u没有充分利用强化学习任务的 MDP 结构n克服缺点的办法:时序差分(temporal difference,TD)学习4.2 时序差分学习4.2 时序差分学习nSarsa算法 需要前一步的状态(state)、前一步的动(action)、奖赏值(reward)、当前状态(state)、将要执行的动作(action)4.2 时序差分学习5.值函数近似n问题:前面都假定状态空间是离散(有限)的,若状态空间是连续(无限)的,该怎么办?n连续状态空间所面临的困难u值函数不再是关于状态的“表格值函数”(tabu
4、lar value function)n解决困难的办法:值函数近似u为简便起见,假定状态空间u为简便起见,首先考虑线性近似u假定行为空间有限5.值函数近似n值函数近似u将值函数表达为状态的线性函数u用最小二乘误差来度量学到的值函数与真实的值函数 之间的近似程度状态向量参数向量5.值函数近似n值函数近似u用梯度下降法更新参数向量,求解优化问题u单个样本更新策略u借助时序差分学习,使用估计的值函数 代替真实值函数5.值函数近似n线性值函数近似Sarsa算法 可以通过引入核方法实现非线性值函数近似。6.模仿学习n强化学习任务中多步决策的搜索空间巨大,基于累积奖赏来学习很多步之前的合适决策非常困难模仿
5、学习n强化学习任务中多步决策的搜索空间巨大,基于累积奖赏来学习很多步之前的合适决策非常困难n缓解方法:直接模仿人类专家的状态-动作对来学习策略u相当于告诉机器在什么状态下应该选择什么动作u引入了监督信息来学习策略n直接模仿学习状态动作策略模仿学习n直接模仿学习u利用专家的决策轨迹,构造数据集D:状态作为特征,动作作为标记u利用数据集D,使用分类/回归算法即可学得策略u将学得的策略作为初始策略u策略改进,从而获得更好的策略人类专家决策轨迹数据:构造出的“有标记”数据集:模仿学习n强化学习任务中,设计合理的符合应用场景的奖赏函数往往相当困难模仿学习n强化学习任务中,设计合理的符合应用场景的奖赏函数往往相当困难n缓解方法:从人类专家提供的范例数据中反推出奖赏函数n逆强化学习u基本思想:欲使机器做出与范例一致的行为等价于在某个奖赏函数的环境中求解最优策略,该最优策略所产生的轨迹与范例数据一致。模仿学习模仿学习n迭代式逆强化学习算法强化学习的应用总结n强化学习:多步决策过程n有模型学习u基于动态规划的寻优n如何处理环境中的未知因素u蒙特卡罗强化学习u时序差分学习n如何处理连续状态空间u值函数近似n如何提速强化学习过程u直接模仿学习u逆强化学习End28