《第九章 人工智能导论典型应用1.pdf》由会员分享,可在线阅读,更多相关《第九章 人工智能导论典型应用1.pdf(47页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、1 人工智能发展的特点 我们从历史的视角去审视人工智能的发展,会发现一些显著 特点: (1)在人工智能的每个发展时期,都有比较明确的主流方法 和里程碑式的应用成果问世。 1970年代的自动推理方法1970年代的自动推理方法 1990年代的浅层机器学习和状态空间搜索方法、1990年代的浅层机器学习和状态空间搜索方法、 2010年代的深度学习方法2010年代的深度学习方法 3 AI winter II 1987-1993 AI winter I 1974-1980 1956 1970 1985 2006 now 1960 逻辑智能 计算智能 认知智能 自动推理方法 浅层机器学习, 状态空间搜索 深
2、度学习 4 人工智能发展的特点 (2)其次,人工智能学科的发展往往与实际 应用紧密结合,是“商用-需求-技术”三者 组成的闭环。 迄今为止,人工智能的每次技术进步, 都会引起商业应用浪潮。 然后在应用中,不断产生新的需求,同时不 断暴露出的现有方法的问题,催生新一代技 术更新。 新技术又推动新一轮商业应用,实现螺旋式 上升。 商业 应用 问题 需求 技术 更新 5 浅层算法加 搜索技术 达到瓶颈 专家系统达 到商用瓶颈 1956 1970 1985 2006 now 1960 逻辑智能 计算智能 认知智能 自动推理方法状态空间搜索深度学习 专家系统深蓝、watson 谷歌翻译、siri、人脸识
3、 别、alphaGo 例如,我们之前所说的人工智能的三次发展浪潮,都是在最顶峰时期引发商业化浪潮, 在商业化遇到瓶颈时进入低谷,随后引发下一次技术革命,和新的发展浪潮。 我们现在所处的是第三次浪潮发展初中期。 方法 商业应用 6 人工智能发展的特点 (3)第三个特点:长期来看,人工智能发展的核心方法论 没有变化,研究问题大都具有持续性。 人工智能学科自1956年建立,就有着明确的方法论:“用计算机人工智能学科自1956年建立,就有着明确的方法论:“用计算机 模拟学习能力和智能特征”至今仍然如此,所有目前的人工智能模拟学习能力和智能特征”至今仍然如此,所有目前的人工智能 方法仍然以“模拟”为目标
4、。方法仍然以“模拟”为目标。 人工智能学科自建立起,就有一批典型问题,这些问题经过几代人工智能学科自建立起,就有一批典型问题,这些问题经过几代 技术更新,经过几十年的发展,形成我们现在所看到的人工智能。技术更新,经过几十年的发展,形成我们现在所看到的人工智能。 也就是说,人工智能问题,也几乎没有本质变化,变化的是研究也就是说,人工智能问题,也几乎没有本质变化,变化的是研究 方法和商业应用场景。方法和商业应用场景。 7 语言信息处理:与AI相伴 AI winter II 1987-1993 AI winter I 1974-1980 1956 1970 1985 2006 now 1960 逻辑
5、智能 计算智能 认知智能 1956:形式语言 学方法,与明斯基 的逻辑计算方法相 互印证,形成早期 基于规则的处理方 法。 1966:ALPAC报告 批判机器翻译方法 1971:DARPA停 止资助CMU的语音 项目 1990:IBM统计机 器翻译方法提出。 2000s:语音识别 达到90%准确率 2006:谷歌机器 翻译上线 2009:邓力基于深度学 习的语音识别方法发表 2013: word2vec发布, 词嵌入时代到来 2016: 深度学习机器翻 译取得突破 8 以语言信息处理为例,我们目前熟知的“语音识别”、“机器翻译”实际上在人 工智能早期就已经是研究问题,随着人工智能方法的更迭,这
6、些问题也一直在随 之发展,从未间断。 现阶段人工智能的典型问题 自2006年深度学习方法被提出以来,人工智能研究进入了新 的发展浪潮。与之前的两次发展浪潮类似,在最近十年中, 许多人工智能的典型问题相继在原有基础上取得突破,并成 功进行商业化,形成目前人工智能发展的态势。 可以说,这又是一轮新的技术更新引发的商业应用浪潮。 在这此浪潮中,有哪些“弄潮儿”呢?其实我们在绪论中讲 解概念时已经有提及。 9 什么是“人工智能”? 人工智能是研究开发能够模拟、延伸和扩展人类智能的理论、方法、 技术及应用系统的一门新的技术科学。人工智能的研究目的是促使 智能机器: 会听(语音识别、机器翻译等)、会听(语
7、音识别、机器翻译等)、 会看(图像识别、文字识别等)、会看(图像识别、文字识别等)、 会说(语音合成、人机对话等)、会说(语音合成、人机对话等)、 会思考(人机对弈、定理证明等)、会思考(人机对弈、定理证明等)、 会学习(机器学习、知识表示等)、会学习(机器学习、知识表示等)、 会行动(机器人、自动驾驶汽车等)。会行动(机器人、自动驾驶汽车等)。 谭铁牛,谭铁牛,求是2019/04 我们曾提到的目前阶段人工智能 研究问题,包括会听、会看、会说、会思考 等等,这些就是目前的典型问题。 10 现阶段人工智能的典型问题 本章中,我们分别给大家介绍: 机器视觉:让计算机看懂机器视觉:让计算机看懂 语言
8、信息处理:让计算机理解语言信息处理:让计算机理解 语音技术:让计算机会说语音技术:让计算机会说 智能竞技:让计算机会思考、判断智能竞技:让计算机会思考、判断 在每个问题中,我们重点介绍问题的发展脉络,介绍其发展历 史与人工智能之间的关联关系。 希望通过本章的讲解,能够让同学们更深入体会人工智能的学 科魅力,以及自然科学发展的魅力。 11 概念 如果要给计算机视觉一个统一的定义,可以说:计算机视觉是 一门研究如何对数字图像或者视频进行智能理解的交叉学科, 它模拟了人类的视觉系统,让机器具备“会看”的能力。 如何模拟呢? 人类视觉系统首先有一个精密的成像系统眼睛,实现了“人类视觉系统首先有一个精密
9、的成像系统眼睛,实现了“看到看到”。”。 在计算机视觉中,这一功能一般由光学系统,摄像头来模拟。在计算机视觉中,这一功能一般由光学系统,摄像头来模拟。 同时,人类视觉系统还包括大脑,实现视觉信息的高效分析和理解,同时,人类视觉系统还包括大脑,实现视觉信息的高效分析和理解, 实现“实现“看懂看懂”。比如在一个场景中,人类视觉可以轻松区分场景中的”。比如在一个场景中,人类视觉可以轻松区分场景中的 不同物品、不同人物的面容、判断距离、理解文字和图案等等。不同物品、不同人物的面容、判断距离、理解文字和图案等等。 在人工智能研究领域,计算机视觉主要研究的是模拟大脑如何“看懂”在人工智能研究领域,计算机视
10、觉主要研究的是模拟大脑如何“看懂” 的问题。的问题。 13 “看懂”非常复杂 假设我们要设计一个视觉辅助的自动驾驶系统,计算机需 要具有哪些功能才能“看懂”? 前景背景分割:区分天 空、路面 物体识别:区分场景中 的各种物体, 距离估计:当前位置和 周围物体之间的距离 场景文字分割和识别: 包含文字信息的部分单 独处理 动态物体的轨迹判断: 汽车、行人的速度、前 进方向等 14 发展历程 最早计算机视觉的研究,始于1960年代图像识别研究。 经历了几十年的变迁,计算机视觉研究的问题由简单到复 杂,研究方法也随着人工智能的发展而变迁。 但仍然具有典型的人工智能学科的特点 (1)从最开始就有明确的
11、方向,甚至几十年研究的问题都一致,(1)从最开始就有明确的方向,甚至几十年研究的问题都一致, 如如物体识别、人脸识别、三维重建、物体识别、人脸识别、三维重建、等。等。 (2)方法更迭明显,在不同阶段均有主流方法。(2)方法更迭明显,在不同阶段均有主流方法。 15 1960年代,积木世界分析 1963年,MIT 的 Roberts发表了(可能是)该领域的第一篇论文, 通过计算机程序从数字图像中提取出诸如立方体、楔形体、棱柱体 等多面体的三维结构。 该工作开创了以“识别三维积木场景中的物体”为目的的计算机视 觉研究。学者们认为,如果积木世界中的物体可以被识别出来,则 可以推广到更复杂的三维场景物体
12、识别中。 在当时,专家总结不同物体在图像中的特点,编写数据结构和规则, 通过推理来实现识别。有人称为“积木世界”分析方法。 16 1977年,马尔视觉理论 1977 年,David Marr提出了计算机视觉 理论,又称Marr视觉理论。 马尔认为,人的视觉主要功能在于“从视 网膜成像的二维图像来恢复空间物体的可 见三维表面形状”,称之为“三维重建” 能力。因此,计算机视觉需要首先把三维 结构从图像里面恢复出来,再去做理解和 判断。 3维物体3维物体 2.5维表达 基元 马尔认为,从图像到三维表达,要经过三个计算层次: (1)从图像得到基元; (2)通过立体视觉、运动、轮廓、光照等模块,得到2.
13、5维表达; (3)最后提升得到三维表达。 17 1980s:特征匹配 1980年代的一个变革在于,人们发现要让计算机理解图像, 不一定先要恢复物体的三维结构。直接从图像出发,同样 可以实现视觉分析,最典型的就是物体识别。 例如:让计算机识别苹果和橙子。 (1)由专家来分析苹果和橙子的形状或其他特征,建立先验知(1)由专家来分析苹果和橙子的形状或其他特征,建立先验知 识:识:特征库特征库。如颜色、纹理、形状等。如颜色、纹理、形状等。 (2)计算机计算图像中的物体的相应特征,并与先验知识(2)计算机计算图像中的物体的相应特征,并与先验知识匹配匹配。 一般为统计方法或者数值比较方法。一般为统计方法或
14、者数值比较方法。 (3)如果满足匹配条件,就完成了识别。(3)如果满足匹配条件,就完成了识别。 18 (1)建立专家知识 颜色特征形状特征表面纹理 (2)特征匹配 0.8 0.2 0.8 0.2 0.1 0.9 (3)识别 19 1980s:特征匹配 在这一阶段,围绕视觉特征,提出很多方法,将我们已知 的物品转化成先验特征,然后用几何以及代数的方法在特 征层面进行进行匹配。 常见的特征包括: (1)颜色特征(1)颜色特征 (2)纹理特征(2)纹理特征 (3)形状轮廓特征(3)形状轮廓特征 20 (1)颜色特征(1)颜色特征 (2)纹理特征(2)纹理特征 (3)形状轮廓特征(3)形状轮廓特征 2
15、1 1980s:特征匹配 同时,计算机视觉形成了以“特征”为核心的方法:找到一种合适 的特征抽象方法,对一个待识别或者待分类问题进行特征表达,然 后进行计算,给出识别结果。 到了1990年代,特征方法逐渐发展壮大,对物体的描述从整体特征 细化为局部特征,通过统计大量局部特征得到整体特征,提高了识 别准确率。产生了一系列实用系统。 22 1990-2000年代,机器学习方法 到2000年左右,机器学习方法开始盛行。以机器学习为核心的计算 机视觉研究框架开始成为主流。 此前,实现计算机视觉需要专家规则,统计模型,去匹配图像和此前,实现计算机视觉需要专家规则,统计模型,去匹配图像和 特征。专家既要选
16、择特征知识,还需要制定判断规则。特征。专家既要选择特征知识,还需要制定判断规则。 当引入机器学习以后,模型可以自行从海量数据里寻找最优的识当引入机器学习以后,模型可以自行从海量数据里寻找最优的识 别方法,从而提高了系统效率。别方法,从而提高了系统效率。 23 1990-2000年代,机器学习方法 机器学习离不开大规模数据集。在这一时期,随着互联网 时代的到来,视觉领域的大规模数据集也相伴而生。 (1)人脸检测的FDDB的数据集。这个数据集包含了超过5000多(1)人脸检测的FDDB的数据集。这个数据集包含了超过5000多 张人脸数据,每一张人脸,都人为的用框给框出来,机器就可以张人脸数据,每一
17、张人脸,都人为的用框给框出来,机器就可以 从这些框好的数据里面,通过机器学习的手段去学习人脸。从这些框好的数据里面,通过机器学习的手段去学习人脸。 24 1990-2000年代,机器学习方法 (2) PASCAL Visual Object Challenge,该数据库中有20种类(2) PASCAL Visual Object Challenge,该数据库中有20种类 别的图片,每种图片数量在一千至一万张不等别的图片,每种图片数量在一千至一万张不等 25 1990-2000年代,机器学习方法 (3)ImageNet 包含总计两万两千种类别,和一千四百余万张图(3)ImageNet 包含总计两
18、万两千种类别,和一千四百余万张图 片。长期成为计算机视觉的标准测试数据。片。长期成为计算机视觉的标准测试数据。 26 1990-2000年代,机器学习方法 图像预处理 特征设计与 特征提取 特征变换与 选择 分类/回归 求解器 XY x 机器学习:解决了从特征 到识别结果的优化问题 特征提取:解决 了图像表征问题 在这一时期,计算机视觉仍然以特征提取为核心。即,专家根据问题设计特征,实现原始图像的特征表达。 然后借助大规模训练样本,使用统计机器学习方法实现特征的解析,求解最优的识别结果。 因此,在这个框架中,图像处理、特征提取、特征变换、机器学习,构成串联结构。 27 1990-2000年代,
19、机器学习方法 机器学习方法在许多情况下能起到很好的效果,但在2010年后 也逐渐遇到瓶颈。 针对问题设计特征需要大量的经验,并且还需要根据应用场景进针对问题设计特征需要大量的经验,并且还需要根据应用场景进 行大量的调试工作。行大量的调试工作。 随着问题的复杂化,机器学习模型的选择和调试也变得复杂,随着问题的复杂化,机器学习模型的选择和调试也变得复杂, 选择恰当特征、搭配恰当机器学习模型,达到最优的效果,变得选择恰当特征、搭配恰当机器学习模型,达到最优的效果,变得 日益困难。日益困难。 而且在此时,计算机视觉方法有点脱离“模拟人类视觉”的初 衷,陷入扩大数据,复杂化模型的循环。 以我们现在的视角
20、来看,称为基于特征的浅层学习方法。 28 2012,深度学习带来突破 突破在2012年到来,这一年的ImageNet图像分类任务上, Hiton教授研究组的深度卷积神经网络模型将数据集上的错 误率由26%降到15%,成为当年最大的“黑马”。 此后短短三年时间,各种深度神经网络突飞猛进,到2015 年该比赛的错误率降到了3.6%。可以说基本上解决了困扰 几十年的物体识别问题。 29 基于深度学习的计算机视觉 x 特征选择和变换由 神经网络来自动完成 xY 一个神经网络可以实 现识别和优化问题 符合人类视觉系统结构 30 深度学习取得成功的原因,也正是浅层方法的瓶颈所在: (1)深度学习不需要专家
21、提供知识,而是通过神经网络堆叠结构,(1)深度学习不需要专家提供知识,而是通过神经网络堆叠结构, 训练其中的参数,实现特征表征。训练其中的参数,实现特征表征。 (2)深度学习具有复杂参数结构,使其可以用一个模型解决问题,(2)深度学习具有复杂参数结构,使其可以用一个模型解决问题, 避免浅层模型中多步串联,错误累积的问题。避免浅层模型中多步串联,错误累积的问题。 (3)基于深度学习的计算机视觉,(3)基于深度学习的计算机视觉,从原理上符合人类视觉解析方式,从原理上符合人类视觉解析方式, 因而很容易吸收脑科学研究成果,扩展性极强。因而很容易吸收脑科学研究成果,扩展性极强。 目前,基于深度学习解决计
22、算机视觉也存在许多问题: (1)模型过于复杂,百层模型量级,要求海量训练数据。而人类视(1)模型过于复杂,百层模型量级,要求海量训练数据。而人类视 觉系统只需要少量样本就可以学到物体的知识。觉系统只需要少量样本就可以学到物体的知识。 (2)在复杂问题方面仍然缺少深层理解,说明我们对大脑如何处理(2)在复杂问题方面仍然缺少深层理解,说明我们对大脑如何处理 图像信息仍然缺少更深入的研究。图像信息仍然缺少更深入的研究。 小结 31 计算机视觉的发展历程 AI winter II 1987-1993 AI winter I 1974-1980 1956 1970 1985 2006 now 1960
23、逻辑智能 计算智能 认知智能 自动推理方法 浅层机器学习, 状态空间搜索 深度学习 人工 智能 计算机 视觉 “积木世界” 分析方法 专家知识 特征匹配 浅层机器学习深度学习 32 语音处理的范畴 语音处理技术,从狭义上讲,就是能让计算机“听懂”人 类说的话,也就是我们所熟知的语音识别技术。 广义上讲,则包括许多细分门类,如语音合成、语音增强、 多语音分离、声纹识别、口语评测等等。 语音处理一直是人工智能领域研究的重要分支。两者的发 展息息相关。本小节中,我们重点以语音识别为主线,探 究两者之间的关联。 34 1920年代 早在计算机发明之前,语音识别的设想 就已经被人们提出,早期的声码器可被
24、 视作语音识别的雏形。 在1920年,一款名为Radio Rex的玩具狗 应该可以被看做是最早的语音识别器, 因为当这只狗的名字被呼唤的时候,它 能够以“从底座上弹出来”这样的动作 进行反应。 35 1950年代 1952年,AT&T贝尔实验室开发Audrey语音识别系统,它能够识别10 个英文数字。 1960年,英国Denes等人研究了第一个计算机语音识别系统。 在这个时期,语音识别采用的方法均为“模板匹配”。所识别的内 容仅限于数字、孤立词。这些早期系统曾被用于公共事业公司,如 让客户自动抄表。计算机只需要区分有限数量的不同数字的声音即 可。 36 动态时间模板匹配 采集得到的标准语音信号
25、 将说话人的信号匹配到标准语音 37 1970-1980年代 从1971年到1976年,DARPA投资了进行了五年的语音识别研 究,目的是做成一台至少能理解1000个单词的机器。 1986年,我国 “863”计划也开始支持语音识别研究。 到1980年代后,语音识别的研究的重点逐渐转向大词汇量、 非特定人连续语音识别,也就是现在同上意义下的语音识 别。在研究思路上也发生了重大变化,即由传统的基于标 准模板匹配的技术思路开始转向基于统计机器学习模型的 技术思路。 38 1970-1980年代 在这一时期,语音识别开始形成独立的研究框架: 特征提取搜索算法 声学模型 语言模型 识别结果 从原始语音信
26、号中抽取与识别 最相关的特征。语音特征研究 曾经是语音识别的核心问题。 利用训练样本,建立特征与音 素之间的关联关系,并用统计 模型表达。通常用GMM-HMM 建模。 针对连续语言,使用语 言模型通过上下文判断 音节对应的词。解决多 音字词引起的歧义。 通过声学模型和语言模 型,对原始特征进行打 分,得到状态空间,然 后利用A*搜索寻找最佳 识别结果。 39 1970-1980年代 GMM-HMM 建立的声学模型,识别得到词图,再结合语言模型,搜索最优路径, 得到识别结果。 40 语音识别的发展历程 AI winter II 1987-1993 AI winter I 1974-1980 19
27、56 1970 1985 2006 now 1960 逻辑智能 计算智能 认知智能 自动推理方法 浅层机器学习, 状态空间搜索 深度学习 人工 智能 语音 识别 模板匹配 方法 统计机器学习建立模型 状态空间搜索实现识别 41 2000年代 语音识别在1990-2000年代处于稳步推进的过程,各种声学 特征、改进的解码算法被提出。连续语音流的识别准确率 也在不断提升 到2001年,英语识别准确率达到80%,中文达到70%。到2001年,英语识别准确率达到80%,中文达到70%。 2010年左右,英语识别准确率达到85%以上,中文达到80%左右。2010年左右,英语识别准确率达到85%以上,中文
28、达到80%左右。 在此期间,统计语音识别方法没有太大改变,逐渐开始遇 到瓶颈。统计模型对语音的鲁棒性低,容易受到杂音影响 等问题始终无法解决。 42 2009,深度学习语音识别 2006年深度学习方法提出之后,仅3年后的2009年就在语音识 别领域取得成功应用。 此后,不同类型的深度学习模型应用到语音识别问题中。 早期,许多研究工作用深度神经网络替代传统的GMM-HMM声学 模型。 2014年以后,语音识别逐渐采用“端到端”的解决方案 到2017年底,在标准数据集上语音识别的准确率已经突破97%。 43 基于深度学习的声学模型 最早,深度学习应用于声学模型的建立。识别依然依赖于状态空间搜索。
29、44 端到端的语音识别 2014年以后,语音识别逐渐开始向“端到端”方法发展。 45 小结 目前,以语音识别为代表的语音处理技术已经基本成熟, 并且进入到多种商业应用场景。 可以说,是本轮人工智能浪潮中应用最成功的领域。 直接带动了语音输入法、语音翻译、智能音箱、手机助手、 等一系列产业的发展。 也使语音成为继键盘、鼠标之后,新一代的人机交互接口。 46 语音识别的发展历程 AI winter II 1987-1993 AI winter I 1974-1980 1956 1970 1985 2006 now 1960 逻辑智能 计算智能 认知智能 自动推理方法 浅层机器学习, 状态空间搜索 深度学习 人工 智能 语音 识别 模板匹配 方法 统计机器学习方法深度学习方法 47