机器人的学习研究进展深学习及应用.pptx-淘文阁

资源描述

《机器人的学习研究进展深学习及应用.pptx》由会员分享，可在线阅读，更多相关《机器人的学习研究进展深学习及应用.pptx（85页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、内内容容 1 1.深度学习概述深度学习概述 2.2.深度学习应用研究深度学习应用研究第1页/共85页1 1.深度学习概述深度学习概述1.1 1.1 概述概述1.2 1.2 背景背景1.3 1.3 人脑视觉机理人脑视觉机理1.4 1.4 关于特征关于特征1.5 1.5 深度学习的基本思想深度学习的基本思想1.6 1.6 浅层学习（浅层学习（Shallow LearningShallow Learning）和深度学习（）和深度学习（Deep LearningDeep Learning）第2页/共85页1 1.深度学习概述深度学习概述1.7 Deep learning1.7 Deep learni

2、ng与与Neural NetworkNeural Network1.8 Deep learning1.8 Deep learning训练过程训练过程1.9 Deep Learning1.9 Deep Learning的常用模型或者方法的常用模型或者方法第3页/共85页1.1 1.1 概述概述Artificial IntelligenceArtificial Intelligence，也就是人工智能，就像长生不老和星际漫游一样，是人类最美好的梦想之一。，也就是人工智能，就像长生不老和星际漫游一样，是人类最美好的梦想之一。虽然计算机技术已经取得了长足的进步，但是到目前为止，还没有一台电脑能产生虽然

3、计算机技术已经取得了长足的进步，但是到目前为止，还没有一台电脑能产生“自我自我”的意识。的意识。的确如此，在人类和大量现成数据的帮助下，电脑可以表现的十分强大，但是离开了这两者，它甚至都不的确如此，在人类和大量现成数据的帮助下，电脑可以表现的十分强大，但是离开了这两者，它甚至都不能分辨一个喵星人和一个汪星人。能分辨一个喵星人和一个汪星人。第4页/共85页1.1 1.1 概述概述图灵（计算机和人工智能的鼻祖，分别对应于其著名的图灵（计算机和人工智能的鼻祖，分别对应于其著名的“图灵机图灵机”和和“图灵测试图灵测试”）在）在 1950 1950 年的论文里，提出图灵试验的设想，年的论文里，提出图灵试

4、验的设想，即，隔墙对话，你将不知道与你谈话的，是人还是电脑。这无疑即，隔墙对话，你将不知道与你谈话的，是人还是电脑。这无疑给计算机，尤其是人工智能，预设了一个很高的期望值。给计算机，尤其是人工智能，预设了一个很高的期望值。但是半个世纪过去了，人工智能的进展，远远没有达到图灵试验但是半个世纪过去了，人工智能的进展，远远没有达到图灵试验的标准。这不仅让多年翘首以待的人们，心灰意冷，认为人工智的标准。这不仅让多年翘首以待的人们，心灰意冷，认为人工智能是忽悠，相关领域是能是忽悠，相关领域是“伪科学伪科学”。第5页/共85页1.1 1.1 概述概述但是自但是自 2006 2006 年以来，机器学习领域，

5、取得了突破性的进展。图灵试验，至少不是那么可望而不可及了。年以来，机器学习领域，取得了突破性的进展。图灵试验，至少不是那么可望而不可及了。至于技术手段，不仅仅依赖于云计算对大数据的并行处理能力，而且依赖于算法。至于技术手段，不仅仅依赖于云计算对大数据的并行处理能力，而且依赖于算法。这个算法就是，这个算法就是，Deep LearningDeep Learning。借助于。借助于 Deep Learning Deep Learning 算法，人类终于找到了如何处理算法，人类终于找到了如何处理“抽象概念抽象概念”这个亘古难题的方法。这个亘古难题的方法。第6页/共85页1.1 1.1 概述概述2012

6、2012年年6 6月，纽约时报披露了月，纽约时报披露了Google BrainGoogle Brain项目项目，吸引了公众的广泛关注。这个项目是由著名的斯坦福吸引了公众的广泛关注。这个项目是由著名的斯坦福大学的机器学习教授大学的机器学习教授Andrew NgAndrew Ng和在大规模计算机系和在大规模计算机系统方面的世界顶尖专家统方面的世界顶尖专家Jeff DeanJeff Dean共同主导，用共同主导，用1600016000个个CPU CoreCPU Core的并行计算平台训练一种称为的并行计算平台训练一种称为“深深度神经网络度神经网络”（DNNDNN，Deep Neural Networ

7、ksDeep Neural Networks）的机）的机器学习模型（内部共有器学习模型（内部共有1010亿个节点。亿个节点。第7页/共85页1.1 1.1 概述概述这一网络自然是不能跟人类的神经网络相提并论的。要知道，这一网络自然是不能跟人类的神经网络相提并论的。要知道，人脑人脑中可是有中可是有150150多亿个神经元，互相连接的多亿个神经元，互相连接的节点也就是突触数更是如银河沙数。曾经有人估算过，如果将一个人的大脑中所有神经细胞的轴突和树突节点也就是突触数更是如银河沙数。曾经有人估算过，如果将一个人的大脑中所有神经细胞的轴突和树突依次连接起来，并拉成一根直线，可从地球连到月亮，再从月亮返回

8、地球）。依次连接起来，并拉成一根直线，可从地球连到月亮，再从月亮返回地球）。“深度神经网络深度神经网络”在在语音识别和图像识别语音识别和图像识别等领域获得了巨大的成功。等领域获得了巨大的成功。第8页/共85页1.1 1.1 概述概述项目负责人之一项目负责人之一AndrewAndrew称：称：“我们没有像通常做的那我们没有像通常做的那样自己框定边界，而是直接把海量数据投放到算法中，样自己框定边界，而是直接把海量数据投放到算法中，让数据自己说话，系统会自动从数据中学习。让数据自己说话，系统会自动从数据中学习。”另外一另外一名负责人名负责人JeffJeff则说：则说：“我们在训练的时候从来不会告诉我

9、们在训练的时候从来不会告诉机器说：机器说：这是一只猫。这是一只猫。系统其实是自己发明或者领系统其实是自己发明或者领悟了悟了“猫猫”的概念。的概念。”第9页/共85页1.1 1.1 概述概述20122012年年1111月，月，微软微软在中国天津的一次活动上公开演示了一个全在中国天津的一次活动上公开演示了一个全自动的同声传译系统，讲演者用英文演讲，后台的计算机一气自动的同声传译系统，讲演者用英文演讲，后台的计算机一气呵成自动完成语音识别、英中机器翻译和中文语音合成，效果呵成自动完成语音识别、英中机器翻译和中文语音合成，效果非常流畅。据报道，后面支撑的关键技术也是非常流畅。据报道，后面支撑的关键技术

10、也是DNNDNN，或者深度，或者深度学习（学习（DLDL，DeepLearningDeepLearning）。）。20132013年年1 1月，在月，在百度百度年会上，创始人兼年会上，创始人兼CEOCEO李彦宏高调宣布要成李彦宏高调宣布要成立百度研究院，其中第一个成立的就是立百度研究院，其中第一个成立的就是“深度学习研究所深度学习研究所”（IDLIDL，Institue of Deep LearningInstitue of Deep Learning）。）。第10页/共85页1.1 1.1 概述概述为什么拥有大数据的互联网公司争相投入大量资源研发深度学习技术。听为什么拥有大数据的互联网公司争

11、相投入大量资源研发深度学习技术。听起来感觉起来感觉deeplearningdeeplearning很牛那样。很牛那样。那什么是那什么是deep learningdeep learning？为什么有为什么有deep learningdeep learning？它是怎么来的？它是怎么来的？又能干什么呢？又能干什么呢？目前存在哪些困难呢？目前存在哪些困难呢？这些问题的简答都需要慢慢来。咱们先来了解下机器学习（人工智能的核这些问题的简答都需要慢慢来。咱们先来了解下机器学习（人工智能的核心）的背景。心）的背景。第11页/共85页1.2 1.2 背景背景机器学习（机器学习（Machine Learning

12、Machine Learning）是一门专门研究计算机怎样模拟或实现是一门专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能的学科。不断改善自身的性能的学科。19591959年美国的年美国的塞缪尔塞缪尔(Samuel)(Samuel)设计了一个下棋程序，这个程序具有学习设计了一个下棋程序，这个程序具有学习能力，它可以在不断的对弈中改善自己的棋艺。能力，它可以在不断的对弈中改善自己的棋艺。4 4年后，这个程序战胜了年后，这个程序战胜了设计者本人。又过了设计者本人。又过了3

13、3年，这个程序战胜了美国一个保持年，这个程序战胜了美国一个保持8 8年之久的常胜不年之久的常胜不败的冠军。败的冠军。这个程序向人们展示了这个程序向人们展示了机器学习的能力机器学习的能力，提出了许多令人深思的社会问题，提出了许多令人深思的社会问题与哲学问题。与哲学问题。第12页/共85页1.2 1.2 背景背景机器学习虽然发展了几十年，但还是存在很多没有良好解决的问题：机器学习虽然发展了几十年，但还是存在很多没有良好解决的问题：第13页/共85页1.2 1.2 背景背景例如图像识别、语音识别、自然语言理解、天气预测、基因表达、内容推荐等等。目前我们通过机器学习例如图像识别、语音识别、自然语言理解

14、、天气预测、基因表达、内容推荐等等。目前我们通过机器学习去解决这些问题的思路都是这样的（以视觉感知为例子）：去解决这些问题的思路都是这样的（以视觉感知为例子）：第14页/共85页1.2 1.2 背景背景从开始的通过传感器（例如从开始的通过传感器（例如CMOSCMOS）来）来获得数据获得数据。然后经过。然后经过预预处理处理、特征提取特征提取、特征选择特征选择，再到，再到推理、预测或者识别推理、预测或者识别。最。最后一个部分，也就是后一个部分，也就是机器学习机器学习的部分，绝大部分的工作是在的部分，绝大部分的工作是在这方面做的，也存在很多的学术论文和研究。这方面做的，也存在很多的学术论文和研究。而

15、中间的三部分，概括起来就是而中间的三部分，概括起来就是特征表达特征表达。良好的特征表达，。良好的特征表达，对最终算法的准确性起了非常关键的作用，而且系统主要的对最终算法的准确性起了非常关键的作用，而且系统主要的计算和测试工作都耗在这一大部分。但是这块实际中一般都计算和测试工作都耗在这一大部分。但是这块实际中一般都是人工完成的，即靠人工提取特征。是人工完成的，即靠人工提取特征。第15页/共85页1.2 1.2 背景背景截止现在，也出现了不少优截止现在，也出现了不少优秀特征表示方式（好的特征秀特征表示方式（好的特征应具有不变性（大小、尺度应具有不变性（大小、尺度和旋转等）和可区分性）。和旋转等）和

16、可区分性）。例如例如SiftSift的出现，是局部图的出现，是局部图像特征描述子研究领域一项像特征描述子研究领域一项里程碑式的工作。由于里程碑式的工作。由于SIFTSIFT对对尺度尺度、旋转旋转以及一定以及一定视角视角和和光照变化光照变化等图像变化都具等图像变化都具有不变性，并且有不变性，并且SIFTSIFT具有很具有很强的可区分性，的确让很多强的可区分性，的确让很多问题的解决变为可能。但它问题的解决变为可能。但它也不是万能的。也不是万能的。第16页/共85页1.2 1.2 背景背景然而，手工地选取特征是一件非常费力、启发式（需要专业知识）然而，手工地选取特征是一件非常费力、启发式（需要专业知

17、识）的方法，能不能选取好很大程度上靠经验和运气，而且它的调节需的方法，能不能选取好很大程度上靠经验和运气，而且它的调节需要大量的时间。要大量的时间。既然手工选取特征不太好，那么能不能自动地学习一些特征呢？答既然手工选取特征不太好，那么能不能自动地学习一些特征呢？答案是能！案是能！Deep LearningDeep Learning就是用来干这个事情的，看它的一个别名就是用来干这个事情的，看它的一个别名Unsupervised Feature LearningUnsupervised Feature Learning，就可以顾名思义了，就可以顾名思义了，UnsupervisedUnsupervi

18、sed的意思就是不要人参与特征的选取过程。的意思就是不要人参与特征的选取过程。第17页/共85页1.2 1.2 背景背景那它是怎么学习的呢？怎么知道哪些特征好哪些不好呢？那它是怎么学习的呢？怎么知道哪些特征好哪些不好呢？我们说我们说机器学习机器学习是一门专门研究计算机怎样模拟或实现人类的是一门专门研究计算机怎样模拟或实现人类的学习行为的学科。那人类的视觉系统是怎么工作的呢？为什么学习行为的学科。那人类的视觉系统是怎么工作的呢？为什么在茫茫人海，芸芸众生，滚滚红尘中我们都可以找到另一个她在茫茫人海，芸芸众生，滚滚红尘中我们都可以找到另一个她（因为，你存在我深深的脑海里，我的梦里、我的心里、我的（

19、因为，你存在我深深的脑海里，我的梦里、我的心里、我的歌声里歌声里）。）。第18页/共85页1.2 1.2 背景背景人脑那么优秀，我们能不能参考人脑，模拟人脑呢？（注：人脑那么优秀，我们能不能参考人脑，模拟人脑呢？（注：好像和人脑扯上点关系的特征、算法，都不错，但不知道是好像和人脑扯上点关系的特征、算法，都不错，但不知道是不是人为强加的，为了使自己的研究变得神圣和高雅。）不是人为强加的，为了使自己的研究变得神圣和高雅。）近几十年以来，近几十年以来，认知神经科学、生物学认知神经科学、生物学等等学科的发展，让等等学科的发展，让我们对自己这个神秘的而又神奇的大脑不再那么的陌生。也我们对自己这个神秘的而

20、又神奇的大脑不再那么的陌生。也给人工智能的发展推波助澜。给人工智能的发展推波助澜。第19页/共85页1.3 1.3 人脑视觉机理人脑视觉机理19811981年的诺贝尔医学年的诺贝尔医学/生理学奖，颁发给了生理学奖，颁发给了 David Hubel David Hubel（出生于加拿大的美国神经生物学家）（出生于加拿大的美国神经生物学家）和和Torsten WieselTorsten Wiesel以及以及 Roger Sperry Roger Sperry。前两位的主要贡献，是。前两位的主要贡献，是“发现了视觉系统的信息处理机制发现了视觉系统的信息处理机制”，发现，发现可视皮层是分级的。如可视皮

21、层是分级的。如“人见到蛇的情景人见到蛇的情景”。第20页/共85页第21页/共85页1.3 1.3 人脑视觉机理人脑视觉机理我们看看他们做了什么。我们看看他们做了什么。1958 1958 年，年，DavidHubel DavidHubel 和和Torsten Wiesel Torsten Wiesel 在在 JohnHopkins University JohnHopkins University研究了瞳孔区域与大脑皮层神经元的研究了瞳孔区域与大脑皮层神经元的对应关系。他们在猫的后脑头骨上开了一个对应关系。他们在猫的后脑头骨上开了一个3 3 毫米的小洞，向洞里毫米的小洞，向洞里插入电极，测量神

22、经元的活跃程度。插入电极，测量神经元的活跃程度。然后，他们在小猫的眼前，展现各种然后，他们在小猫的眼前，展现各种形状形状、各种、各种亮度亮度的物体。并且，的物体。并且，在展现每一件物体时，还改变物体放置的在展现每一件物体时，还改变物体放置的位置位置和和角度角度。他们期望通。他们期望通过这个办法，让小猫瞳孔感受不同类型、不同强弱的刺激。过这个办法，让小猫瞳孔感受不同类型、不同强弱的刺激。第22页/共85页1.3 1.3 人脑视觉机理人脑视觉机理之所以做这个试验，目的是去证明一个猜测：之所以做这个试验，目的是去证明一个猜测：位于后脑皮层的不同视觉神经元，位于后脑皮层的不同视觉神经元，与瞳孔所受刺激

23、之间，存在某种对应关系与瞳孔所受刺激之间，存在某种对应关系。一旦瞳孔受到某一种刺激，后脑皮。一旦瞳孔受到某一种刺激，后脑皮层的某一部分神经元就会活跃。层的某一部分神经元就会活跃。经历了很多天反复的枯燥的试验，同时牺牲了若干只可怜的小猫，经历了很多天反复的枯燥的试验，同时牺牲了若干只可怜的小猫，David Hubel David Hubel 和和Torsten Wiesel Torsten Wiesel 发现了一种被称为发现了一种被称为“方向选择性细胞方向选择性细胞（Orientation Orientation Selective CellSelective Cell）”的神经元细胞。当瞳孔发

24、现了眼前的物体的边缘，而且这的神经元细胞。当瞳孔发现了眼前的物体的边缘，而且这个边缘指向某个方向时，这种神经元细胞就会活跃。个边缘指向某个方向时，这种神经元细胞就会活跃。这个发现激发了人们对于神经系统的进一步思考。神经这个发现激发了人们对于神经系统的进一步思考。神经-中枢中枢-大脑的工作过程，大脑的工作过程，或许是一个不断迭代、不断抽象的过程。或许是一个不断迭代、不断抽象的过程。第23页/共85页1.3 1.3 人脑视觉机理人脑视觉机理这里的关键词有两个，一个是这里的关键词有两个，一个是抽象抽象，一个是，一个是迭代迭代。从原始信号，做。从原始信号，做低级低级抽象抽象，逐渐向，逐渐向高级高级抽象

25、抽象迭代迭代。人类的逻辑思维，经常使用高度人类的逻辑思维，经常使用高度抽象的概念抽象的概念。例如，从原始信号摄入开始（瞳孔摄入像素例如，从原始信号摄入开始（瞳孔摄入像素 Pixels Pixels），接着做初步），接着做初步处理（大脑皮层某些细胞发现边缘和方向），然后抽象（大脑判定，处理（大脑皮层某些细胞发现边缘和方向），然后抽象（大脑判定，眼前的物体的形状，是圆形的），然后进一步抽象（大脑进一步判眼前的物体的形状，是圆形的），然后进一步抽象（大脑进一步判定该物体是只气球）。定该物体是只气球）。再比如人脸识别，如下图：再比如人脸识别，如下图：第24页/共85页第25页/共85页1.3 1.3

26、人脑视觉机理人脑视觉机理这个生理学的发现，促成了计算机人工智能在四十年后的突破性发展。这个生理学的发现，促成了计算机人工智能在四十年后的突破性发展。总的来说，总的来说，人的视觉系统的信息处理是分级的人的视觉系统的信息处理是分级的。从低级的。从低级的V1V1区提取边缘特征，再到区提取边缘特征，再到V2V2区的形状或者目标的部分等，再到更高层，整个目标、目标的行为等。区的形状或者目标的部分等，再到更高层，整个目标、目标的行为等。也就是说也就是说高层的特征是低层特征的组合高层的特征是低层特征的组合，从低层到高层的特征表示越来越抽象，越，从低层到高层的特征表示越来越抽象，越来越能表现语义或者意图。而来

27、越能表现语义或者意图。而抽象层面越高，存在的可能猜测就越少，就越利于分抽象层面越高，存在的可能猜测就越少，就越利于分类类。例如，单词集合和句子的对应是多对一的，句子和语义的对应又是多对一的，语义例如，单词集合和句子的对应是多对一的，句子和语义的对应又是多对一的，语义和意图的对应还是多对一的，这是个层级体系。和意图的对应还是多对一的，这是个层级体系。第26页/共85页1.3 1.3 人脑视觉机理人脑视觉机理敏感的人注意到这个关键词了：敏感的人注意到这个关键词了：分层分层。而。而Deep learningDeep learning的的deepdeep是不是就是不是就表示我存在多少层，也就是多深呢？

28、表示我存在多少层，也就是多深呢？对。那对。那Deep learningDeep learning是如何借鉴这个过程的呢是如何借鉴这个过程的呢？毕竟是归于计算机来处？毕竟是归于计算机来处理，面对的一个问题就是理，面对的一个问题就是怎么对这个过程进行建模怎么对这个过程进行建模？因为我们要学习的是因为我们要学习的是特征的表达特征的表达，那么关于特征，或者说关于这个层级特，那么关于特征，或者说关于这个层级特征，我们需要了解地更深入点。所以在说征，我们需要了解地更深入点。所以在说Deep LearningDeep Learning之前，我们下面之前，我们下面有必要解释一下特征。有必要解释一下特征。第27

29、页/共85页1.4 1.4 关于特征关于特征特征特征是机器学习系统的原材料，对最终模型的影响是毋庸置疑的。是机器学习系统的原材料，对最终模型的影响是毋庸置疑的。如果数据被很好地表达成了特征，通常线性模型就能达到满意的精度。如果数据被很好地表达成了特征，通常线性模型就能达到满意的精度。那对于特征，我们需要考虑什么呢？那对于特征，我们需要考虑什么呢？第28页/共85页1.4 1.4 关于特征关于特征1.4.1 1.4.1 特征表示的粒度特征表示的粒度1.4.2 1.4.2 初级（浅层）特征表示初级（浅层）特征表示1.4.3 1.4.3 结构性特征表示结构性特征表示1.4.4 1.4.4 需要有多少

30、个特征需要有多少个特征第29页/共85页1.4.1 1.4.1 特征表示的粒度特征表示的粒度学习算法在一个学习算法在一个什么粒度上的特征表示什么粒度上的特征表示，才有，才有能发挥作用？就一个图片来说，能发挥作用？就一个图片来说，像素级的特征像素级的特征根本没有价值根本没有价值。例如上面的摩托车，从像素级别，根本得不到例如上面的摩托车，从像素级别，根本得不到任何信息，其无法进行摩托车和非摩托车的区任何信息，其无法进行摩托车和非摩托车的区分。分。第30页/共85页1.4.1 1.4.1 特征表示的粒度特征表示的粒度而如果特征是一个具有结构性（或者说有含义）的而如果特征是一个具有结构性（或者说有含义

31、）的时候，比如是否具有时候，比如是否具有车把手车把手（handlehandle），是否具有），是否具有车轮车轮（wheelwheel），就很容易把摩托车和非摩托车区），就很容易把摩托车和非摩托车区分开来，学习算法才能发挥作用。分开来，学习算法才能发挥作用。第31页/共85页1.4.2 1.4.2 初级（浅层）特征表示初级（浅层）特征表示既然像素级的特征表示方法没有作用，那怎样的表示才有用呢？既然像素级的特征表示方法没有作用，那怎样的表示才有用呢？1995 1995 年前后，年前后，Bruno OlshausenBruno Olshausen和和 David Field David Field

32、两位学者任职两位学者任职 Cornell UniversityCornell University，他们试图同时用，他们试图同时用生理学生理学和和计算机计算机的手段，双管齐的手段，双管齐下，研究视觉问题。下，研究视觉问题。他们收集了很多黑白风景照片，从这些照片中，提取出他们收集了很多黑白风景照片，从这些照片中，提取出400400个小碎片，每个小碎片，每个小碎片的尺寸均为个小碎片的尺寸均为 16x1616x16 像素，不妨把这像素，不妨把这400400个碎片标记为个碎片标记为 SiSi,i,i=0,.399=0,.399。接下来，再从这些黑白风景照片中，随机提取另一个碎片，。接下来，再从这些黑白

33、风景照片中，随机提取另一个碎片，尺寸也是尺寸也是 16x16 16x16 像素，不妨把这个碎片标记为像素，不妨把这个碎片标记为 T T。第32页/共85页1.4.2 1.4.2 初级（浅层）特征表示初级（浅层）特征表示他们提出的问题是，如何他们提出的问题是，如何从这从这400400个碎片中，选取一组碎片个碎片中，选取一组碎片Sk,Sk,通过叠加的办法，合成出一个新的碎片通过叠加的办法，合成出一个新的碎片，而，而这个新的碎这个新的碎片应当与随机选择的目标碎片片应当与随机选择的目标碎片T T尽可能相似尽可能相似，同时，同时，SkSk的数量的数量尽可能少尽可能少。用数学的语言来描述，就是：。用数学的

34、语言来描述，就是：Sum_k(ak*Sk)-TSum_k(ak*Sk)-T,其中其中 ak ak 是在叠加碎片是在叠加碎片 Sk Sk 时的时的权重系数权重系数。为解决这个问题，为解决这个问题，Bruno OlshausenBruno Olshausen和和 David Field David Field 发明了一发明了一个算法，稀疏编码（个算法，稀疏编码（Sparse CodingSparse Coding）。）。第33页/共85页1.4.2 1.4.2 初级（浅层）特征表示初级（浅层）特征表示稀疏编码稀疏编码是一个重复迭代的过程，每次迭代分两步：是一个重复迭代的过程，每次迭代分两步：1 1

35、）选择一组）选择一组 Sk Sk，然后调整，然后调整 ak ak，使得，使得Sum_k(ak*Sk)Sum_k(ak*Sk)最接近最接近 T T；2 2）固定住）固定住 ak ak，在，在 400 400 个碎片中，选择其它更合适的碎片个碎片中，选择其它更合适的碎片SkSk，替代原先，替代原先的的 Sk Sk，使得，使得Sum_k(ak*Sk)Sum_k(ak*Sk)最接近最接近 T T。经过几次迭代后，经过几次迭代后，最佳的最佳的 Sk Sk 组合被遴选出来组合被遴选出来。令人惊奇的是，。令人惊奇的是，被选中的被选中的 Sk Sk基本上都是照片上不同物体的边缘线，这些线段形状基本上都是照片上

36、不同物体的边缘线，这些线段形状相似，区别在于方向相似，区别在于方向。第34页/共85页1.4.2 1.4.2 初级（浅层）特征表示初级（浅层）特征表示Bruno OlshausenBruno Olshausen和和 David Field David Field 的算法结果，与的算法结果，与 David Hubel David Hubel 和和Torsten Wiesel Torsten Wiesel 的生理发现，不谋而合！的生理发现，不谋而合！也就是说，复杂图形往往由一些基本结构组成。比如下图：一个图也就是说，复杂图形往往由一些基本结构组成。比如下图：一个图可以通过用可以通过用6464种正交

37、的种正交的edgesedges（可以理解成正交的基本结构）来线性（可以理解成正交的基本结构）来线性表示。比如样例的表示。比如样例的x x可以用可以用1-641-64个个edgesedges中的三个按照中的三个按照0.8,0.3,0.50.8,0.3,0.5的权重调和而成。而其他基本的权重调和而成。而其他基本edgeedge没有贡献，因此均为没有贡献，因此均为0 0。第35页/共85页第36页/共85页1.4.2 1.4.2 初级（浅层）特征表示初级（浅层）特征表示另外，许多专家还发现，不仅图像存在这个规律，声音也存在。他另外，许多专家还发现，不仅图像存在这个规律，声音也存在。他们们从未标注的声

38、音中发现了从未标注的声音中发现了2020种基本的声音结构种基本的声音结构，其余的声音可以，其余的声音可以由这由这2020种基本结构合成。种基本结构合成。第37页/共85页第38页/共85页1.4.3 1.4.3 结构性特征表示结构性特征表示小块的图形可以由基本小块的图形可以由基本edgeedge构成，更结构化，更复杂的，具有概念性的图形如何表构成，更结构化，更复杂的，具有概念性的图形如何表示呢？示呢？这就需要更高层次的特征表示，比如这就需要更高层次的特征表示，比如V2V2，V4V4。因此。因此V1V1看像素级是像素级。看像素级是像素级。V2V2看看V1V1是是像素级，这个是层次递进的，高层表达

39、由底层表达的组合而成。像素级，这个是层次递进的，高层表达由底层表达的组合而成。专业点说就是基专业点说就是基basisbasis。V1V1区提出的区提出的basisbasis是边缘，然后是边缘，然后V2V2层是层是V1V1层这些层这些basisbasis的组的组合，这时候合，这时候V2V2区得到的又是高一层的区得到的又是高一层的basisbasis，上上层又是上一层的组合，上上层又是上一层的组合basisbasis结果结果.所以有专家说所以有专家说Deep learningDeep learning就是就是“搞基搞基”，因为难听，所以美其名曰，因为难听，所以美其名曰Deep Deep learn

40、inglearning或者或者Unsupervised Feature Learning.Unsupervised Feature Learning.第39页/共85页1.4.3 1.4.3 结构性特征表示结构性特征表示直观上说，就是找到有意义的小碎片（直观上说，就是找到有意义的小碎片（patchpatch），），再将其进行组合（再将其进行组合（combinecombine），就得到了上一层），就得到了上一层的特征（的特征（featurefeature），递归地向上学习特征），递归地向上学习特征（learning featurelearning feature）。）。第40页/共85页1.4.

41、3 1.4.3 结构性特征表示结构性特征表示在不同对象（在不同对象（objectobject）上做训练时，所得的边缘基）上做训练时，所得的边缘基（edge basisedge basis）是非常相似的，但对象部分（）是非常相似的，但对象部分（object object partsparts）和模式（）和模式（modelsmodels）完全不同。这样便于图像完全不同。这样便于图像的准确识别。的准确识别。第41页/共85页1.4.3 1.4.3 结构性特征表示结构性特征表示从文本来说，一个从文本来说，一个docdoc文档文档表示什么意思？我们描述一件事情，用什么来表示表示什么意思？我们描述一件事情

42、，用什么来表示比较合适？比较合适？用一个一个用一个一个字字嘛嘛?不是，字就是像素级别了，起码应该是不是，字就是像素级别了，起码应该是termterm（术语（术语/词组）词组），换句话说，换句话说每个每个docdoc都由都由termterm构成构成;但这样表示概念的能力就够了嘛，可能也不够，需要再上一步，达到但这样表示概念的能力就够了嘛，可能也不够，需要再上一步，达到topictopic级，有了级，有了topictopic，再到，再到docdoc就合理。就合理。但每个层次的数量差距很大，比如但每个层次的数量差距很大，比如docdoc表示的概念表示的概念-topictopic（千（千-万量级）万量

43、级）-termterm（1010万万量级）量级）-wordword（百万量级）。（百万量级）。一个人在看一个一个人在看一个docdoc的时候，眼睛看到的是的时候，眼睛看到的是wordword，由这些，由这些wordword在大脑里自动切词在大脑里自动切词形成形成termterm，在按照概念组织的方式，先验的学习，得到，在按照概念组织的方式，先验的学习，得到topictopic，然后再进行高层，然后再进行高层次的次的learninglearning。第42页/共85页1.4.4 1.4.4 需要有多少个特征需要有多少个特征我们知道需要层次的特征构建，由浅入深，但每一层该有多少个特征呢？我们知道需

44、要层次的特征构建，由浅入深，但每一层该有多少个特征呢？任何一种方法，特征越多，给出的参考信息就越多，准确性会得到提升。但任何一种方法，特征越多，给出的参考信息就越多，准确性会得到提升。但特征多意味着计算复杂，探索特征多意味着计算复杂，探索的空间大，可以用来训练的数据在每个特征上就会稀疏的空间大，可以用来训练的数据在每个特征上就会稀疏，都会带来各种问题，并不一定特征越多越好。，都会带来各种问题，并不一定特征越多越好。第43页/共85页第44页/共85页小小结结上面我们谈到为什么会有上面我们谈到为什么会有Deep learningDeep learning（让机器自动学（让机器自动学习良好的特征

45、，而免去人工选取过程。还有参考人的分层习良好的特征，而免去人工选取过程。还有参考人的分层视觉处理系统），我们得到一个结论就是视觉处理系统），我们得到一个结论就是Deep learningDeep learning需要多层来获得更抽象的特征表达需要多层来获得更抽象的特征表达。那么多少层才合适呢？用什么架构来建模呢？怎么进行非那么多少层才合适呢？用什么架构来建模呢？怎么进行非监督训练呢？监督训练呢？第45页/共85页1.5 1.5 深度学习的基本思想深度学习的基本思想假设我们有一个系统假设我们有一个系统S S，它有，它有n n层（层（S1,SnS1,Sn），它的输入是），它的输入是I I，输出是，

46、输出是O O，形象地表示为：形象地表示为：I=S1=S2=.=Sn=OI=S1=S2=.=Sn=O，如果输出，如果输出O O等于输入等于输入I I，即输入即输入I I经过这个系统变化之后没有任何的信息损失。这意味着输入经过这个系统变化之后没有任何的信息损失。这意味着输入I I经过经过每一层每一层SiSi都没有任何的信息损失，即在任何一层都没有任何的信息损失，即在任何一层SiSi，它都是原有信息（即，它都是原有信息（即输入输入I I）的另外一种表示。）的另外一种表示。现在回到我们的主题现在回到我们的主题Deep LearningDeep Learning，我们需要自动地学习特征，假设我，我们需要

47、自动地学习特征，假设我们有一堆输入们有一堆输入I I（如一堆图像或者文本），假设我们设计了一个系统（如一堆图像或者文本），假设我们设计了一个系统S S（有（有n n层），我们通过调整系统中参数，使得它的输出仍然是输入层），我们通过调整系统中参数，使得它的输出仍然是输入I I，那么我们，那么我们就可以自动地获取得到输入就可以自动地获取得到输入I I的一系列层次特征，即的一系列层次特征，即S1S1，,Sn,Sn。第46页/共85页1.5 1.5 深度学习的基本思想深度学习的基本思想对于深度学习来说，其思想就是对堆叠多个层，也就是说对于深度学习来说，其思想就是对堆叠多个层，也就是说这一这一层的输出作

48、为下一层的输入层的输出作为下一层的输入。通过这种方式，就可以实现对输。通过这种方式，就可以实现对输入信息进行分级表达了。入信息进行分级表达了。另外，前面是假设输出严格地等于输入，这个限制太严格，我另外，前面是假设输出严格地等于输入，这个限制太严格，我们可以略微地放松这个限制，例如们可以略微地放松这个限制，例如我们只要使得输入与输出的我们只要使得输入与输出的差别尽可能地小即可差别尽可能地小即可，这个放松会导致另外一类不同的，这个放松会导致另外一类不同的Deep Deep LearningLearning方法方法。上述就是。上述就是Deep LearningDeep Learning的基本思想。的

49、基本思想。第47页/共85页1.6 1.6 浅层学习和深度学习浅层学习和深度学习1.6.1 1.6.1 浅层学习（浅层学习（Shallow LearningShallow Learning）：机器学习第一次浪潮）：机器学习第一次浪潮1.6.2 1.6.2 深度学习（深度学习（Deep LearningDeep Learning）：机器学习第二次浪潮）：机器学习第二次浪潮第48页/共85页1.6.1 1.6.1 浅层学习：机器学习第一次浪浅层学习：机器学习第一次浪潮潮2020世纪世纪8080年代末期，用于年代末期，用于人工神经网络人工神经网络的的反向传播算法反向传播算法（也叫（也叫Back Pr

50、opagationBack Propagation算法或者算法或者BPBP算法算法）的发明，）的发明，给机器学习带来了希望，掀起了给机器学习带来了希望，掀起了基于统计模型的机器学基于统计模型的机器学习习热潮。这个热潮一直持续到今天。热潮。这个热潮一直持续到今天。人们发现，利用人们发现，利用BPBP算法可以算法可以让一个人工神经网络模型从让一个人工神经网络模型从大量训练样本中学习统计规律，从而对未知事件做预测大量训练样本中学习统计规律，从而对未知事件做预测。这种基于统计的机器学习方法比起过去基于人工规则的这种基于统计的机器学习方法比起过去基于人工规则的系统，在很多方面显出优越性。系统，在很多方面

展开阅读全文