《强化学习简介ppt课件.ppt》由会员分享,可在线阅读,更多相关《强化学习简介ppt课件.ppt(48页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、“雪亮工程雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程群众性治安防控工程”。强化学习简介强化学习简介Reinforcement Learning“雪亮工程雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、
2、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程群众性治安防控工程”。2 2什么是机器学习(什么是机器学习( Machine Learning)?)? 机器学习是一门多领域交叉学科,涉及概率论、机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。识结构使之不断改善自身的
3、性能。 1959年美国的塞缪尔设计了一个下棋程序,这年美国的塞缪尔设计了一个下棋程序,这个程序具有学习能力,它可以在不断的对弈中改善个程序具有学习能力,它可以在不断的对弈中改善自己的棋艺。自己的棋艺。4年后,这个程序战胜了设计者本人。年后,这个程序战胜了设计者本人。又过了又过了3年,这个程序战胜了美国一个保持年,这个程序战胜了美国一个保持8年之久年之久的常胜不败的冠军。的常胜不败的冠军。“雪亮工程雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以
4、综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程群众性治安防控工程”。3 3机器学习的分类?机器学习的分类? 机器学习机器学习监督学习:计算机获得简单的输入给出期望的输出,监督学习:计算机获得简单的输入给出期望的输出,过程是通过一个过程是通过一个“训练模型训练模型”,学习通用的准则来从,学习通用的准则来从输入映射到输出输入映射到输出。无监督学习:没有给出标记用来学习算法,让它自己无监督学习:没有给出标记用来学习算法,让它自己去发现输入的结构。无监督学习自己可以被当成一个去发现输入的结构。无监督学习自己可以被当成一个目标或者一个实现结果的途径(特征学习
5、)。目标或者一个实现结果的途径(特征学习)。强化学习:一个计算机程序与动态环境交互,同时表强化学习:一个计算机程序与动态环境交互,同时表现出确切目标(比如驾驶一辆交通工具或者玩一个游现出确切目标(比如驾驶一辆交通工具或者玩一个游戏对抗一个对手)。这个程序的奖惩机制会作为反馈,戏对抗一个对手)。这个程序的奖惩机制会作为反馈,实现它在问题领域中的导航。实现它在问题领域中的导航。“雪亮工程雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支
6、撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程群众性治安防控工程”。4强化学习(强化学习(reinforcement learning)与监督学习、)与监督学习、非监督学习的区别非监督学习的区别n 没有监督者,只有奖励信号没有监督者,只有奖励信号n 反馈是延迟的,不是顺时的反馈是延迟的,不是顺时的n 时序性强,不适用于独立分布的数据时序性强,不适用于独立分布的数据n 自治智能体(自治智能体(agent)的行为会影响后续信息的的行为会影响后续信息的接收接收“雪亮工程雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为
7、基础、以公共安全视频监控联网应用为重点的是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程群众性治安防控工程”。5思考:思考: 五子棋:棋手通过数学公式计算,发现位置五子棋:棋手通过数学公式计算,发现位置1比位置比位置2价值大,这是强化学习吗?价值大,这是强化学习吗? 这不叫强化学习,叫规划这不叫强化学习,叫规划 如果通过几次尝试,走位置如果通过几次尝试,走位置1比走位置比走位置2赢棋赢棋的可能性大,得出经验,则为强化学习的可能性大,得出经验,则为强化学习“雪亮工程雪亮工程是以区(县)、乡(镇
8、)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程群众性治安防控工程”。6强化学习模型强化学习模型几个定义几个定义自治智能体自治智能体Agent学习的主体,如小猫、小狗、人、机器人、控制程序等学习的主体,如小猫、小狗、人、机器人、控制程序等Agent的特点的特点1、主动对环境做出试探、主动对环境做出试探2、环境对试探动作反馈是评价性的(好或坏)、环境对试探动作反馈是评价性的(好或坏)
9、3、在行动、在行动-评价的环境中获得知识,改进行动方案,达到评价的环境中获得知识,改进行动方案,达到预期目的预期目的 “雪亮工程雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程群众性治安防控工程”。7奖励信号(奖励信号(rewards) 奖励信号奖励信号R是一个标量信号是一个标量信号 表示表示agent在步骤在步骤T中所产生动作好坏中所产生动作好坏 Ag
10、ent的任务是最大化累积奖励信号的任务是最大化累积奖励信号“雪亮工程雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程群众性治安防控工程”。8强化学习模型强化学习模型“雪亮工程雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的是以区(县)、乡(镇)、村(社区)三级综治
11、中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程群众性治安防控工程”。9例子例子图中黄点是机器人,图中黄点是机器人,目的是走到绿色的目的是走到绿色的方块方块reward+1000,黑色方块是墙壁,黑色方块是墙壁,撞到撞到reward-10,红色方块是陷阱,红色方块是陷阱,撞到撞到reward-1000,其他其他reward+0“雪亮工程雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以
12、综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程群众性治安防控工程”。10“雪亮工程雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程群众性治安防控工程”。11“雪亮工程雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的是以
13、区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程群众性治安防控工程”。12“雪亮工程雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程群众性治安防控工程”。13强化学习基本要素强化学习基本要素强化学习基本要素及其关系强化学习基本要素及其关系“雪亮工程雪亮工程
14、是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程群众性治安防控工程”。14 策略定义了策略定义了agent在给定时间内的行为方式,在给定时间内的行为方式,一个策略就是从环境感知的状态到在这些状一个策略就是从环境感知的状态到在这些状态中可采取动作的一个映射。态中可采取动作的一个映射。 可能是一个查找表,也可能是一个函数可能是一个查找表,也可能是一个函数 确定性策略
15、:确定性策略:a = (s) 随机策略:随机策略: (a s) = PAt = a St = s“雪亮工程雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程群众性治安防控工程”。15 回报函数是强化学习问题中的目标,它把环境中回报函数是强化学习问题中的目标,它把环境中感知到的状态映射为单独的一个奖赏感知到的状态映射为单独的一个奖赏 回报函数可以作为改变策略
16、的标准回报函数可以作为改变策略的标准“雪亮工程雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程群众性治安防控工程”。16 值函数:一个状态起值函数:一个状态起agent所能积累的回所能积累的回报的总和。报的总和。 在决策和评价决策中考虑最多的是值函在决策和评价决策中考虑最多的是值函数数“雪亮工程雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥
17、平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程群众性治安防控工程”。17 环境模型模拟了环境的行为,即给定一个状环境模型模拟了环境的行为,即给定一个状态和动作,模型可以预测必定导致的下一个态和动作,模型可以预测必定导致的下一个状态和下一个奖赏。模型一般用于规划状态和下一个奖赏。模型一般用于规划 规划是算出来的,强化学习是试出来的规划是算出来的,强化学习是试出来的“雪亮工程雪亮工程是以区(县)、乡(镇)、村(社区
18、)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程群众性治安防控工程”。18 马尔可夫过程马尔可夫过程 马尔可夫奖励过程马尔可夫奖励过程 马尔可夫决策过程马尔可夫决策过程马尔科夫决策过程(马尔科夫决策过程(MDP)“雪亮工程雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的是以区(县)、乡(镇)、村(社区)
19、三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程群众性治安防控工程”。19马尔科夫性:所谓马尔科夫性是指系统的下一马尔科夫性:所谓马尔科夫性是指系统的下一个状态个状态s(t+1)仅与当前状态仅与当前状态s(t)有关,而与以前有关,而与以前的状态无关。的状态无关。 马尔可夫过程马尔可夫过程定义:状态定义:状态s(t) 是马尔科夫的,当且仅是马尔科夫的,当且仅当当P St+1 St = P St+1 S1; :; St “雪亮工程雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为
20、基础、以公共安全视频监控联网应用为重点的是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程群众性治安防控工程”。20对于一个马尔科夫状态对于一个马尔科夫状态s和接下来的状态和接下来的状态s , 状态转状态转移概率定义为移概率定义为通常马尔科夫过程是一个二元组(通常马尔科夫过程是一个二元组(S,P),且满),且满足:足:S是有限状态集合,是有限状态集合, P是状态转移概率。状态是状态转移概率。状态转移概率矩阵为:转移概率矩阵为:“雪亮工程雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指
21、挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程群众性治安防控工程”。21“雪亮工程雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程群众性治安防控工程”。22以下状态序列
22、称为马尔以下状态序列称为马尔科夫链,假设从科夫链,假设从C1开始开始“雪亮工程雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程群众性治安防控工程”。23“雪亮工程雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平
23、台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程群众性治安防控工程”。24对于游戏或者机器人,马尔科夫过程不足以描述其特点,因为不管是游戏还是机器人,他们都是通过动作与环境进行交互,并从环境中获得奖励,而马尔科夫过程中不存在动作和奖励。“雪亮工程雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程群众性治安防
24、控工程”。25马尔可夫奖励过程马尔可夫奖励过程马尔可夫奖励过程(马尔可夫奖励过程(MRP)是一种带有价值的马)是一种带有价值的马尔科夫链,由元组(尔科夫链,由元组(S,P,R, )来表示)来表示 S为有限的状态集为有限的状态集 P为状态转移概率为状态转移概率 R为奖励函数为奖励函数 为折扣因子,为折扣因子, 0,1 “雪亮工程雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的
25、“群众性治安防控工程群众性治安防控工程”。26“雪亮工程雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程群众性治安防控工程”。27强化学习是找到最优的策略,这里的最优是指得到的总强化学习是找到最优的策略,这里的最优是指得到的总回报最大。回报最大。当给定一个策略时,我们就可以计算累积回报。首先当给定一个策略时,我们就可以计算累积回报。首先定义累积回报:定义
26、累积回报:“雪亮工程雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程群众性治安防控工程”。28当给定策略当给定策略时,假设从状态时,假设从状态C1出发,学生状态序列出发,学生状态序列可能为:可能为:在策略在策略下,可以计算累积回报下,可以计算累积回报G1,此时,此时G1有多个有多个可能值可能值 。由于策略。由于策略是随机的,因此累积回报也是随是随机的,因
27、此累积回报也是随机的。为了评价状态机的。为了评价状态s1的价值,我们需要定义一个确的价值,我们需要定义一个确定量来描述状态定量来描述状态s1的价值,很自然的想法是利用累积的价值,很自然的想法是利用累积回报来衡量状态回报来衡量状态s1 的价值。然而,累积回报的价值。然而,累积回报G1 是个是个随机变量,不是一个确定值,因此无法进行描述。但随机变量,不是一个确定值,因此无法进行描述。但其期望是个确定值,可以作为状态值函数的定义。其期望是个确定值,可以作为状态值函数的定义。“雪亮工程雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视
28、频监控联网应用为重点的是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程群众性治安防控工程”。29当智能体采用策略当智能体采用策略时,累积回报服从一个分布,时,累积回报服从一个分布,累积回报在状态累积回报在状态s处的期望值定义为状态值函数:处的期望值定义为状态值函数:“雪亮工程雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以
29、网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程群众性治安防控工程”。30例例“雪亮工程雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程群众性治安防控工程”。31例例“雪亮工程雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的是以区(县)、乡
30、(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程群众性治安防控工程”。32例例“雪亮工程雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程群众性治安防控工程”。33例例“雪亮工程雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格
31、化管理为基础、以公共安全视频监控联网应用为重点的是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程群众性治安防控工程”。34贝尔曼方程贝尔曼方程状态值函数可以分为两部分:状态值函数可以分为两部分: 瞬时奖励瞬时奖励 后继状态值函数的折扣值后继状态值函数的折扣值“雪亮工程雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管
32、理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程群众性治安防控工程”。35“雪亮工程雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程群众性治安防控工程”。36“雪亮工程雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的是以区(县)、乡(镇)、村(社区
33、)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程群众性治安防控工程”。37马尔可夫决策过程马尔可夫决策过程马尔可夫决策过程是一种带有决策作用的马尔可夫决策过程是一种带有决策作用的马尔科夫奖励过程,由元组(马尔科夫奖励过程,由元组(S,A,P,R, )来表示)来表示 S为有限的状态集为有限的状态集 A为有限的动作集为有限的动作集 P为状态转移概率为状态转移概率 R为奖励函数为奖励函数 为折扣因子,为折扣因子, 0,1 “雪亮工程雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理
34、为基础、以公共安全视频监控联网应用为重点的是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程群众性治安防控工程”。38“雪亮工程雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程群众性治安防控工程”。39策略策略策略是指状态到动作的映射,策略常用符号策略是
35、指状态到动作的映射,策略常用符号表示,表示,它是指给定状态它是指给定状态s时,动作集上的一个分布,即时,动作集上的一个分布,即 策略完全的表示智能体的运动策略完全的表示智能体的运动 策略决定于当前状态,与历史状态无关策略决定于当前状态,与历史状态无关 策略一般是固定的,不随时间变化策略一般是固定的,不随时间变化“雪亮工程雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众
36、性治安防控工程群众性治安防控工程”。40价值函数价值函数 状态值函数状态值函数 状态行为值函数状态行为值函数“雪亮工程雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程群众性治安防控工程”。41“雪亮工程雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的是以区(县)、
37、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程群众性治安防控工程”。42贝尔曼方程贝尔曼方程状态值函数贝尔曼方程:状态值函数贝尔曼方程:状态行为值函数贝尔曼方程:状态行为值函数贝尔曼方程:“雪亮工程雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程群众性治安防控工程
38、”。43“雪亮工程雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程群众性治安防控工程”。44“雪亮工程雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监
39、控联网应用为重点的“群众性治安防控工程群众性治安防控工程”。45“雪亮工程雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程群众性治安防控工程”。46“雪亮工程雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程群众性治安防控工程”。47“雪亮工程雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程群众性治安防控工程”。48谢谢大家谢谢大家