马尔科夫决策过程ppt课件.pptx

上传人:飞****2 文档编号:29942838 上传时间:2022-08-02 格式:PPTX 页数:16 大小:1.48MB
返回 下载 相关 举报
马尔科夫决策过程ppt课件.pptx_第1页
第1页 / 共16页
马尔科夫决策过程ppt课件.pptx_第2页
第2页 / 共16页
点击查看更多>>
资源描述

《马尔科夫决策过程ppt课件.pptx》由会员分享,可在线阅读,更多相关《马尔科夫决策过程ppt课件.pptx(16页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

马尔科夫决策过程(MDP)目录强化学习简介马尔科夫决策过程值迭代和策略迭代马尔科夫模型的创建简介在强化学习中,提供了一个回报函数,用于告诉learning agent的行动做的是好是坏。例如对于一个四足爬行机器人,向前移动给它奖励,翻到或者向后退就给予惩罚。强化学习可用于自动驾驶、手机网络的路由选择、营销策略的选择以及工厂控制等领域。马尔科夫决策过程S0(S0(始始) ) S1S1S2S2S3S4S5S6S7S8(终)马尔科夫决策过称为整个决策过程的回报为如果回报函数只与状态有关,则回报为最优回报根据Bellman equations,可以得到下式最优策略得到最优策略在知道马尔科夫五元组的情况下,可以通过两种算法得到最优策略,即值迭代和策略迭代这里只考虑有限状态和有限动作的情况。值迭代两种更新值函数的方法首先为所有状态计算新的V(s), 全部计算完成后,再一次性的替换原先旧的V(s).(同步更新)每计算出一个V(s), 就用新的V(s)值替换旧的V(s)值。(异步更新)计算出最优值函数后,就可以根据下式计算最优策略策略迭代值迭代与策略迭代的区别创建马尔科夫模型在之前的讨论中,状态转移概率和回报函数都是已知的,然而在实际情况中,这两个变量是未知的,需要经过实验得到。未知状态转移概率情况下MDP算法

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 教案示例

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁