《人工智能与人机博弈.pptx》由会员分享,可在线阅读,更多相关《人工智能与人机博弈.pptx(50页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、人工智能与人机博弈人工智能与人机博弈自动化技术发展趋势自动化技术发展趋势自动自动自动自动化技化技化技化技术术术术自动化技术是一门涉及学科较多、应用广泛的综合性系统工程,其对象为大规模、复杂的工程和非工程系统广义内涵包括三方面的含义:代替人体力劳动的机器人;代替或辅助人脑力劳动的程序;对人机进行协调、管理、控制和优化的智能系统研究内容包括自动控制和信息处理两方面,应用包括过程自动化、机械制造自动化、管理自动化和家庭自动化等不断提高传统行业的技术水平和市场竞争力,并与光电子、计算机、信息技术等融合和创新,不断创造和形成新的经济增长点和管理战略哲理第1页/共49页智能科学发展趋势智能科学发展趋势智能
2、智能智能智能科学科学科学科学智能属于哲学问题,智能科学研究智能的本质和实现技术,是由脑科学、认知科学、人工智能等综合形成的交叉学科脑科学从分子水平、神经回路、行为实验研究自然智能机理,目的在于阐明人类大脑的结构与功能,以及人类行为与心理活动的物质基础认知科学是研究人类感知、学习、记忆、思维、意识等人脑心智活动过程的科学,是心理学、信息学、神经科学和自然哲学的交叉人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学第2页/共49页自动化自动化技术技术智能科学智能科学人工智能人工智能技术技术 在科学发展过程中,在那些已经建立起来的学科之在科学发展过程中,在
3、那些已经建立起来的学科之间,还存在着一些被人忽视的无人区,正是从这些领域间,还存在着一些被人忽视的无人区,正是从这些领域里可能得到最大的收获。里可能得到最大的收获。诺伯特诺伯特维纳维纳控制论控制论,19481948第3页/共49页人工智能技术的挑战人工智能技术的挑战人人人人-信息信息信息信息人人人人-机器机器机器机器人人人人-环境环境环境环境科技进步改变着我们的生活,但却使人们在信息、机器高度密集的环境中,变得更为被动和无奈。信息越来越多,甚至成为垃圾,对信息的有效组织和挖掘极度匮乏,人与信息的共生环境尚未建立。简单的体力劳动已可以被机器所替代,但脑力劳动,特别是智力尚未完全转移和扩展到机器上
4、。需要更好地尊重、理解并满足人的各种需要,以人为本,促进人与物理时空环境的和谐发展。第4页/共49页人工智能技术发展的特征人工智能由人类设计,为人类服务,本质为计算,基础为数据。必须体现服务人类的特点,而不应该伤害人类,特别是不应该有目的性地做出伤害人类的行为。以人为本以人为本第5页/共49页人工智能技术发展的特征环境增强环境增强人工智能能感知环境,能产生反应,能与人交互,能与人互补。能够帮助人类做人类不擅长、不喜欢但机器能够完成的工作,而人类则适合于去做更需要创造性、洞察力、想象力的工作。第6页/共49页人工智能技术发展的特征学习适应学习适应人工智能有适应特性,有学习能力,有演化迭代,有连接
5、扩展。人工智能可以应对不断变化的现实环境,从而使人工智能系统在各行各业产生丰富的应用。第7页/共49页人机博弈 棋类游戏是人类智慧的结晶,自古以来就有着广泛的爱好者群体,也产生了一代又一代的偶像级棋王。选择棋类游戏作为人工智能研究的对象,不仅是因为棋类游戏规则清晰,胜负判断一目了然,而且也更容易在爱好者群体中产生共鸣,因此人工智能研究者前赴后继投身到对不同棋类游戏的挑战中。互动环节:人机小挑战第8页/共49页机器学习之父 机器博弈的水平实际上代表了当时计算机体系架构与计算机科学的最高水平。早在1962年,就职于IBM的阿瑟萨缪尔就在内存仅为32k的IBM 7090晶体管计算机上开发出了西洋跳棋
6、(Checkers)AI程序,并击败了当时全美最强的西洋棋选手之一的罗伯特尼雷,引起了轰动。值得一提的是,萨缪尔所研制的下棋程序是世界上第一个有自主学习功能的游戏程序,因此他也被后人称之为“机器学习之父”。阿瑟萨缪尔第9页/共49页里程碑事件 1997年IBM公司“更深的蓝更深的蓝”(Deeper Blue)战胜世界国际象棋棋王卡斯帕罗夫,这是基于知识规则引擎和强大计算机硬件的人工智能系统的胜利2011年IBM公司的问答机器人“沃森沃森”在美国智力问答竞赛节目中大胜人类冠军,这是基于自然语言理解和知识图谱的人工智能系统的胜利2016年谷歌公司AlphaGo战胜了围棋世界冠军李世石,2017年初
7、AlphaGo升级版Master横扫全球60位顶尖高手,这是基于蒙特卡洛树搜索和深度学习的人工智能系统的胜利真正引起中国人广泛关注的机器博弈史上三个里程碑事件是:第10页/共49页PART1国际象棋机器学习人机对抗历史深蓝成功秘诀第11页/共49页国际象棋 国际象棋起源于亚洲,后由阿拉伯人传入欧洲,成为国际通行棋种,也是一项受到广泛喜爱的智力竞技运动,据称全世界有多达三亿的国际象棋爱好者,甚至在1924年曾一度被列为奥林匹克运动会正式比赛项目。国际象棋棋盘由横纵各8格、颜色一深一浅交错排列的64个小方格组成,棋子共32个,分为黑白两方,每方各16个。和88的西洋跳棋Checkers相比,国际象
8、棋的状态复杂度(指从初始局面出发,产生的所有合法局面的总和)从1021上升到1046,博弈树复杂度(指从初始局面开始,其最小搜索树的所有叶子节点的总和)也从1031上升到10123。第12页/共49页19581973198319871988198919911993人机对抗历史从1958年开始,人工智能研究者对国际象棋的挑战持续了半个多世纪:1958年名为“思考”IBM704成为第一台能同人下国际象棋的计算机,处理速度每秒200步;1973年B.Slate和Atkin开发了国际象棋软件“CHESS4.0”,成为未来国际象棋AI程序基础;1983年,Ken Thompson开发了国际象棋硬件“BE
9、LLE”,达到大师水平;1987年,美国卡内基梅隆大学设计的国际象棋计算机程序“深思”(Deep Thought)以每秒钟75万步的处理速度露面,其水平相当于拥有2450国际等级分的棋手;1988年,“深思”击败丹麦特级大师拉 尔森;1989年,“深思”已经有6台信息处理器,每秒处理速度达到200万步,但还是在与世界棋王卡斯帕罗夫的人机大战中以0比2败北;1991年,由CHESSBASE公司研制的国际象棋计算机程序“弗里茨”(Fretz)问世;1993年,“深思”二代击败了丹麦国家队,并在与前女子世界冠军小波尔加的对抗中获胜。第13页/共49页深蓝一战卡斯帕罗夫 1995年,IBM公司设计了全
10、球第一台采用并行化系统、以RS/6000SP为基础、集成了总计256块处理器以及480颗专门为国际象棋对弈设计的VLSI加速芯片的国际象棋计算机“深蓝”,重达1270公斤。1996年2月10日至17日,为了纪念首台通用计算机ENIAC诞生50周年,“深蓝”在美国费城向国际象棋世界冠军、世界排名第一的加里卡斯帕罗夫发起了挑战。在6局的人机对弈比赛中,“深蓝”并未占到什么便宜,棋王卡斯帕罗夫以4比2的总比分轻松获胜,但“深蓝”赢得了六场比赛中的一场胜利,这也是计算机第一次在与顶级选手的对弈中取得胜局。第14页/共49页“深蓝”升级改造 第一次对决落败之后,IBM对“深蓝”计算机进行了升级,97型深
11、蓝取名“更深的蓝”(Deeper Blue)。团队还丰富了象棋加速芯片中的象棋知识,使它能够识别不同的棋局,并从众多可能性中找出最佳行棋方案。“更深的蓝”每秒可检索1亿到2亿个棋局,系统能够搜寻和估算出当前局面往后的12步行棋方案,最多可达20步,而人类棋手的极限是10步。即使按照一盘棋平均走80步,每步棋可能的落子位置为35个计算,其状态复杂度和博弈树复杂度也远非超级计算机所能穷举,为了在合理的时间内完成走棋任务,必须要进行剪枝搜索。运算能力运算能力运算能力运算能力“更深的蓝”(Deeper Blue)运算速度为每秒2亿步棋,计算能力为每秒113.8亿次浮点运算,是1996年版本的2倍,其运
12、算能力在当时的全球超级计算机中也能排在第259位。剪枝搜索剪枝搜索剪枝搜索剪枝搜索象棋知识象棋知识象棋知识象棋知识第15页/共49页“更深的蓝”出师告捷 1997年5月,IBM公司再次邀请加里卡斯帕罗夫到美国纽约曼哈顿进行第二次人机大战,同样是6盘棋制比赛。在前5局里,卡斯帕罗夫为了避免在计算力方面用人脑与“更深的蓝”进行直接较量,他采取了独特的行棋策略来对付“更深的蓝”,但是这个奇招并没有取得明显的效果,“更深的蓝”总是能够凭借准确无误的局面判断和精确的计算给出最强的应手。最终前五局双方2.5对2.5打平,尤其是第三、第四、第五局连续三场和局,卡斯帕罗夫的助手看见他坐在房间的角落里,双手捂面
13、,仿佛已经失去了斗志。在最后一局中,卡斯帕罗夫失去耐心,回到了“正常”的下法,在第七回合就犯了一个不可挽回的低级错误,局势急转直下,最终在第六盘决胜局中仅仅走了19步就向“更深的蓝”俯首称臣。最终卡斯帕罗夫1胜2负3平,以2.5比3.5的总比分输给“更深的蓝”。“更深的蓝”赢得了这场备受世人瞩目的人机大战,也标志着国际象棋近2000年的发展历史走向了新时代。第16页/共49页 人机博弈胜负已明 “深蓝”并不是终结,卡斯帕罗夫也没有服气。1999年,“弗里茨”升级为“更弗里茨”(Deep Fritz),并在2001年击败了卡斯帕罗夫。当今国际象棋男子等级分排名最高的选手是出生于1990年的挪威特
14、级大师卡尔森(Magnus Carlsen),他的等级分是2863分,而至少有10款开源国际象棋引擎等级分达到了3000分以上。人与机器的国际象棋之争已胜负分明,国际象棋领域的人机博弈也画上了句号,取而代之的是2010年开始举办的机机博弈国际象棋引擎竞赛TCEC(Thoresen Chess Engine Competition)。第17页/共49页加速芯片:“深蓝”的成功秘诀 “深蓝”计算机在硬件上将通用计算机处理器与象棋加速芯片相结合,采用混合决策的方法,即在通用处理器上执行运算分解任务,交给象棋加速芯片并行处理复杂的棋步自动推理,然后将推理得到的可能行棋方案结果返回通用处理器,最后由通用
15、处理器决策出最终的行棋方案。97型深蓝与1996年相比,运算速度差不多提高了两倍,象棋加速芯片的升级功不可没。升级后的象棋加速芯片能够从棋局中抽取更多的特征,并在有限的时间内计算出当前盘面往后12步甚至20步的行棋方案,从而让“深蓝”更准确地评估盘面整体局势。第18页/共49页知识规则引擎:“深蓝”的成功秘诀 “深蓝”在软件设计上采用了超大规模知识库结合优化搜索的方法。一方面,“深蓝”存储了国际象棋100 多年来70万份国际特级大师的棋谱,利用知识库在开局和残局阶段节省处理时间并得出更合理的行棋方案。另一方面,“深蓝”采用Alpha-Beta剪枝搜索算法和基于规则的方法对棋局进行评价,通过缩小
16、搜索空间的上界和下界提高搜索效率,同时根据棋子的重要程度、棋子的位置、棋子对的关系等特征对棋局进行更有效的评价。剪枝搜索算法示意图第19页/共49页PART2智力问答Watson自然语言处理知识图谱自主学习第20页/共49页Watson认知计算系统平台问世 在“深蓝”之后,IBM公司又选择了一个新的领域挑战人类极限DeepQA,不仅仅把DeepQA项目看成一个问答游戏系统,而且将其称之为认知计算系统平台。认知计算被定义为一种全新的计算模式,它包含数据分析、自然语言处理和机器学习领域的大量技术创新,能够帮助人类从大量非结构化数据中找出有用的答案。IBM公司对其寄予厚望,并用公司创始人Thomas
17、JWatson的名字将这个平台命名为Watson。如果说“深蓝”只是在做非常大规模的计算,是人类数学能力的体现,那么Watson就是将机器学习、大规模并行计算、语义处理等领域整合在一个体系架构下来理解人类自然语言的尝试。第21页/共49页 Watson问答系统能力解析与用户进行交互,根据用户问题通过自然语言与用户进行交互,根据用户问题通过自然语言理解技术分析包括结构化数据和图文、音视频、理解技术分析包括结构化数据和图文、音视频、图像等非结构化所有类型的数据,最终实现用图像等非结构化所有类型的数据,最终实现用户提出问题的有效应答。户提出问题的有效应答。通过假设生成,透过数据揭示洞察、模式和关通过
18、假设生成,透过数据揭示洞察、模式和关系,将散落在各处的知识片段连接起来进行推系,将散落在各处的知识片段连接起来进行推理、分析、对比、归纳、总结和论证,从而获理、分析、对比、归纳、总结和论证,从而获取深入的理解和决策的证据。取深入的理解和决策的证据。理解理解(Understanding)通过以证据为基础的学习能力,从大数据中快通过以证据为基础的学习能力,从大数据中快速提取关键信息,像人类一样学习和记忆这些速提取关键信息,像人类一样学习和记忆这些知识,并可以通过专家训练,在不断与人的交知识,并可以通过专家训练,在不断与人的交互中通过经验学习来获取反馈,优化模型。互中通过经验学习来获取反馈,优化模型
19、。推理推理(Reasoning)通过精细的个性化分析能力,获得用户的语义、通过精细的个性化分析能力,获得用户的语义、情绪等信息,进一步利用文本分析与心理语言情绪等信息,进一步利用文本分析与心理语言学模型对海量数据进行深入分析,掌握用户个学模型对海量数据进行深入分析,掌握用户个性特质,构建全方位用户画像,实现更加自然性特质,构建全方位用户画像,实现更加自然的的互动交流。互动交流。学习学习(Learning)交互交互(interacting)第22页/共49页 Watson研发团队全面备战 IBM公司调动其全球研发团队参与到DeepQA项目中,这些团队分工极为细致,让它的各个团队都发挥出最大的效率
20、,目标就是在2011年的综艺节目危险边缘(Quiz Show Jeopardy!)中一鸣惊人。问答搜索:以色列海法团队负责深度开放域问答系统工程的搜索;词语连接:日本东京团队负责在问答中将词意和词语连接;数据支持:中国北京和上海团队则负责以不同的资源给Watson提供数据支持 算法研究:此外还有专门研究算法的团队和研究博弈下注策略的团队等。团团队队分分工工算法算法研究研究数据数据支持支持词语词语连接连接问答问答搜索搜索 Watson包括90台IBM小型机服务器、360个Power 750系列处理器以及IBM研发的DeepQA系统。Power 750系列处理器是当时RISC(精简指令集计算机)架
21、构中最强的处理器,可以支持Watson在不超过3秒钟的时间内得出可靠答案。第23页/共49页1.摄像头拍照,OCR识别文字,得到文字文本。2.提取专有名词基本信息,为其打上分类标签。7.语音合成引擎将答案文本转换成语音并播放出来,完成回答。3.提取文字结构信息,减少冗余搜索。4.逐级分解每个问题,直到获得所有子问题的答案。5.在自身知识图谱中搜索并汇集特定实体的属性信息,实现实体属性完整勾画。6.运用算法评估可能答案,可信度最高且超过51%,执行器按下信号灯。文字识别文字识别实体抽取实体抽取关系抽取关系抽取问题分析问题分析答案生成答案生成判断决策判断决策回答问题回答问题 Watson的工作过程
22、第24页/共49页 Watson挑战成功 最终比分成绩为Watson:$77147,Jennings:$24000,Rutter:$21600,比赛尘埃落定,人类已经和Watson相距太远。2011年2月14日-16日,做好一切准备的Watson开始了与人类的对决。Watson在第一轮中就奠定了领先地位,但在比赛中出现了几个糟糕的回答。比如一个美国城市类的问题,Watson的答案为多伦多。这道题的回答让人大跌眼镜,主要原因是Watson没有为答案设置边缘条件。另一道回答奥利奥饼干是什么时候被推出的时候,几秒前人类选手Jennings回答相同问题时刚被告知“20年”错了,Watson还是继续回答
23、“1920年”。这是因为研究团队为了简化Watson的编程,让它对其他玩家的回答“装聋作哑”,结果吃了大亏。第25页/共49页 Watson进入商业化运营阶段 如今,Watson已经被运用到超过35个国家的17个产业领域,超过7.7万名开发者参与到Watson Developer Cloud平台来实施他们的商业梦想,Watson API的月调用量也已高达13亿次,并仍在增长。借着这次Watson人机大战的风头,2012年IBM公司的小型机占据了全球将近2/3的市场份额,Watson也于2013年开始进入商业化运营,陆续推出的相关产品:Watson相关产品相关产品Watson发现发现顾问顾问(W
24、atson Discovery Advisor)Watson参与参与顾问顾问(Watson Engagement Advisor)Watson分析分析(Watson Analytics)Watson探索探索(Watson Explorer)Watson知识知识工作室工作室(Watson Knowledge Studio)Watson肿瘤肿瘤治疗治疗(Watson for Oncology)Watson临床临床试验匹配试验匹配(Watson for Clinical Trial Matching)第26页/共49页 Watson成功秘诀:自然语言处理 “Jeopardy!”这类问答类节目,对于人
25、类而言规则很简单,但是对于Watson则意味着众多挑战。它不仅要理解主持人提问的自然语言,还需要分析这些语言是否包含讽刺、双关、修饰等,以正确判断题目的意思,并评估各种答案的可能性,给出最后的选择。自然语言处理研究实现人与计算机之间用自然语言进行有效通信的各种理论和方法,是计算机科学与人工智能研究中的重要方向之一。第27页/共49页 自然语言处理技术广泛应用 Watson的成功得益于自然语言处理技术多年的积累,同样也带动了这个领域进入了一个更加快速的发展阶段:2011年10月苹果公司在发布新品时集成Siri智能语音助手,把聊天问答系统带入了成熟商业化阶段;2013年谷歌公司开源Word2Vec
26、引爆深度学习这个新的热点,机器翻译、文档摘要、关系抽取等任务不断取得重要进展,从此人工智能走向第三次高潮。苹果Siri智能语音助手谷歌公司开源Word2Vec第28页/共49页 Watson成功秘诀:知识图谱 知识图谱本质上是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱中,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。可以说,知识图谱就是把异构信息连接在一起而得到的一个关系网络,提供了从“关系”的角度去分析问题的能力。2012年谷歌公司推出知识图谱搜索服务,国内互联网公司百度和搜狗也分别推出“知心”和“知立方”来改进其搜索质量。在搜索引擎
27、中引入知识图谱大幅的地提升和优化了搜索体验。谷谷歌改进知识图谱歌改进知识图谱 添加比较及过滤等新添加比较及过滤等新功能功能第29页/共49页 知识图谱的广泛应用 知识图谱也被广泛应用于聊天机器人和问答系统中,用于辅助深度理解人类的语言和支持推理,并提升人机问答的用户体验。此外,在金融、农业、电商、医疗健康、环境保护等垂直领域,知识图谱同样得到了广泛的应用。知识图谱问答系统金融农业电商医疗健康环保第30页/共49页PART3围棋AlphaGo机器学习蒙特卡洛树搜索深度学习第31页/共49页 围棋复杂度增加 8*8格国际象棋的状态复杂度为1046,博弈树复杂度为10123。19*19格的围棋,其状
28、态复杂度已上升到10172,博弈树复杂度则达到惊人的10360,因此也被视为人类在棋类人机对抗中最后的堡垒。国际象棋国际象棋围棋围棋第32页/共49页人机对抗的尝试与探索 在很长一段时间里,静态方法成了主流研究方向,中山大学化学系教授陈志行开发的围棋博弈程序“手谈”和开源软件GNU GO在2003年以前能够在9*9围棋中达到人类5-7级水平。2006年S.Gelly等人提出的UCT算法(Upper Confidence Bound Apply to Tree,上限置信区间算法),该算法在蒙特卡洛树搜索中使用UCB公式解决了探索和利用的平衡,并采用随机模拟对围棋局面进行评价。该程序的胜率竟然比先
29、前最先进的蒙特卡罗扩展算法高出了几乎一倍,但它也仅能在9路围棋中偶尔战胜人类职业棋手,在19路围棋中还远远不能与人类抗衡。静静态态方方法法UCT算算法法陈志行陈志行手谈手谈第33页/共49页 AlphaGo横空出世 这是围棋历史上一次史无前例的突破,人工智能程序能在不让子的情况下,第一次在完整的围棋竞技中击败专业选手。AlphaGo大战樊麾 2016年D.Silver等人在世界顶级科学杂志Nature发表文章,称被谷歌公司收购的DeepMind团队开发出AlphaGo在没有任何让子情况下,以5:0完胜欧洲围棋冠军、职业二段选手樊麾。第34页/共49页 AlphaGo系统简介该系统通过对该系统通
30、过对16万局人类高手棋谱中的局人类高手棋谱中的3000万手盘面进行监督学习和强化学习;手盘面进行监督学习和强化学习;使用使用策略网络和估值网络实现落子决策和实现落子决策和局势评估;局势评估;监督、强化学监督、强化学习习通过与通过与蒙特卡洛树搜索算法结合,极大地结合,极大地改善了搜索决策的质量;改善了搜索决策的质量;策略、价值网策略、价值网络络提出提出异步分布式并行算法,使其可运行于,使其可运行于CPU/GPU集群上。集群上。蒙特卡洛算法蒙特卡洛算法 异步分布并异步分布并行算法行算法系统系统第35页/共49页 AlphaGo所向披靡 2016年3月AlphaGo与李世石进行围棋人机大战,以4比1
31、的总比分获胜;2016年末2017年初,它以Master为帐号与中日韩数十位围棋高手快棋对决,连续60局全胜。2017年5月在中国乌镇围棋峰会上,它与柯洁对战,以3比0的总比分获胜。围棋界公认AlphaGo的棋力已经超过人类职业围棋顶尖水平,其最新版本自我估分在4500分左右,实力水平大约在13段左右,人类选手中已然无敌。AlphaGo大战李世石Master大战聂卫平AlphaGo大战柯洁第36页/共49页 AlphaGo新技能AlphaGo通过学习大量棋谱,以及更大规模的自我对弈完成学习,这种深度学习深度学习的能力使得它能不断学习进化。AlphaGo发现了人类没有的围棋着法,初步展示了机器发
32、现“新事新事物物”的创造性。这意味着它的增强学习算法可以从大数据中发现新的规律和知识,为人类扩展自己的知识体系开辟了新的认知通道。AlphaGo展现了曾被认为是人类独有、计算机难以做到的“棋感直觉棋感直觉”这些技术使得人工智能程序初步具备了既可以考虑局部得失,又可以考虑全局态势的能力,从而具备了一种全局性“直觉”能力。深度深度学习学习发现发现新着法新着法棋感棋感知觉知觉新技能新技能第37页/共49页 AlphaGo Zero青出于蓝 学习策略整合策略、整合策略、价值网络价值网络舍弃快速走子网络引入残差结构 2.舍弃快速走子网络,不再进行随机模拟,而是完全使用神经网络得到的结果替换随机模拟,从而
33、在提升学习速率的同时,增强神经网络估值的准确性。1.AlphaGo Zero将策略网络和价值网络整合在一起,使用纯粹的深度强化学习方法进行端到端的自我对弈学习,神经网络的权值完全从随机初始化开始,使用强化学习进行自我博弈和提升。3.AlphaGo Zero神经网络中还引入了残差结构,可使用更深的神经网络进行特征表征提取,从而能在更加复杂的棋盘局面中进行学习。第38页/共49页 AlphaGo Zero青出于蓝 AlphaGo最高需要1920块CPU和280块GPU训练,AlphaGo Lee用了176块GPU和48块TPU,而AlphaGo Zero仅仅使用了单机4块TPU便完成了训练任务。硬
34、件结构硬件结构 AlphaGo Zero仅用3天的时间便达到了AlphaGo Lee的水平,21天后达到AlphaGo Master的水平。AlphaGo Zero成功证明了在没有人类指导和经验的前提下,深度强化学习方法在围棋领域里仍然能够出色的完成指定的任务,甚至于比有人类经验知识指导时,完成的更加出色。第39页/共49页 AlphaGo成功秘诀:蒙特卡洛树搜索 在机器博弈中,每步行棋方案的运算时间、堆栈空间都是有限的,只能给出局部最优解,因此2006年提出的蒙特卡洛树搜索就成为随机搜索算法的首选。应用应用意义意义它结合了随机模拟的一般性和树搜索的准确性,近年来在围棋等完全信息博弈、多人博弈
35、及随机类博弈难题上取得了成功应用。理论上,蒙特卡洛树搜索可被用在以状态,行动定义并用模拟预测输出结果的任何领域。它结合了广度优先搜索和深度优先搜索,会较好地集中到“更值得搜索的变化”(虽然不一定准确),同时可以给出一个同样不怎么准确的全局评估结果,最后随着搜索树的自动生长,可以保证在足够大的运算能力和足够长的时间后收敛到完美解。第40页/共49页 AlphaGo成功秘诀:强化学习目标:从一个已经标记的训练集中进行学习。机器学习有监督学习Supervised Learning无监督学习Unsupervised Learning强化学习Reinforcement Learning目标:从一堆未标记
36、样本中发现隐藏的结构。目标:在当前行动和未来状态中获得最大回报。在边获得样例边学习的过程中,不断迭代“在当前模型的情况下,如何选择下一步的行动才对完善当前的模型最有利”的过程直到模型收敛。第41页/共49页强化学习的广泛应用 阿里巴巴公司在双11推荐场景中,使用了深度强化学习与自适应在线学习建立决策引擎,对海量用户行为以及百亿级商品特征进行实时分析,提高人和商品的配对效率,将手机用户点击率提升了10-20%。无人驾驶无人驾驶广告投放广告投放 强化学习在机器博弈以外还有很多应用,例如无人驾驶和广告投放等。第42页/共49页PART4更多的人机大战Alpha AILibratus先知1.0战争策略
37、游戏第43页/共49页 人工智能改变世界 随着深度学习、强化学习、人机协同等技术的快速发展,人工智能必将成为未来科技的制高点。以AlphaGo为代表和标志的技术突破,预示着一种具有直觉、认知和自我进化能力的新的人工智能时代的到来。这不仅会给工业界带来巨大的震动,也将对我们的工作生活方式带来本质的改变。人工智能工业工业工作工作生活生活第44页/共49页 感知和决策能力提高 在通用人工智能领域,感知和决策能力是衡量一个智能体水平的关键指标。深度学习具有较强的感知能力,但是缺乏一定的决策能力;而强化学习具有决策能力,对感知问题束手无策。因此,将两者结合起来,优势互补,能够为复杂系统的感知决策问题提供
38、解决思路。AlphaGo运用的方法,实际上是一种解决复杂决策问题的通用框架,而不仅是围棋领域的独门秘籍。人工智能程序所具有的的自我学习的能力,使得机器博弈有了进化的可能。第45页/共49页 通用人工智能任重道远 由于搜索算法与生俱来的搜索时间与空间的开销,对实时制游戏有着巨大的影响,因此DeepMind团队在星际争霸游戏中使用深度强化学习方法所能达到的效果也与期望相去甚远。因此,通用人工智能问题的研究及解决仍然任重道远。开发AlphaGo的DeepMind设计团队将下一步挑战目标设定为即时战争策略游戏“星际争霸”,已经开始向军事指挥和战争决策接近,说明这种技术框架未来具有极为广阔的应用前景。前
39、景前景广阔广阔前景广阔任重道远第46页/共49页 即时战略领域人机大战 2016.62016.62016.82016.82017.22017.22017.92017.92016年6月,人工智能飞行员Alpha AI(阿尔法鹰)战胜了美国空军著名战术专家李上校;2016年8月,卡耐基梅隆大学的Mayhem机器人战队战胜了所有人类战队,夺得美国国防高级研究计划局(DARPA)第24届网络挑战大赛(CGC)冠军;2017年2月,卡耐基梅隆大学开发的人工智能系统Libratus在人机德州扑克大战中击败了人类顶级职业玩家;2017年9月,由中国科学院自动化研究所研制的人工智能程序“先知1.0”在全国首届兵棋推演大赛上,以7:1的战绩战胜了经验丰富的人类高手。第47页/共49页 即时战略游戏人工智能展望 既然国际象棋领域能够诞生“深蓝”,围棋领域能够诞生AlphaGo,那么以即时战略游戏为代表的更复杂、更灵活、更加不透明的人机协同环境下不完全信息机器博弈,也一定会产生出能够超越人类最高水平的人工智能体,并且很可能在两三年内就可以诞生!期待人机博弈下一次大战!第48页/共49页感谢您的观看!感谢您的观看!第49页/共49页