机器人的学习研究进展：深度学习及应用课件.ppt-淘文阁

资源描述

《机器人的学习研究进展：深度学习及应用课件.ppt》由会员分享，可在线阅读，更多相关《机器人的学习研究进展：深度学习及应用课件.ppt（85页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、机器人的学习研究进展：机器人的学习研究进展：深度学习及应用深度学习及应用内内容容 1 1.深度学习概述深度学习概述 2.2.深度学习应用研究深度学习应用研究1 1.深度学习概述深度学习概述1.1 1.1 概述概述1.2 1.2 背景背景1.3 1.3 人脑视觉机理人脑视觉机理1.4 1.4 关于特征关于特征1.5 1.5 深度学习的基本思想深度学习的基本思想1.6 1.6 浅层学习（浅层学习（Shallow LearningShallow Learning）和深）和深度学习（度学习（Deep LearningDeep Learning）1 1.深度学习概述深度学习概述1.7 Deep lea

2、rning1.7 Deep learning与与Neural NetworkNeural Network1.8 Deep learning1.8 Deep learning训练过程训练过程1.9 Deep Learning1.9 Deep Learning的常用模型或者方法的常用模型或者方法1.1 1.1 概述概述Artificial IntelligenceArtificial Intelligence，也就是人工智，也就是人工智能，就像长生不老和星际漫游一样，是人能，就像长生不老和星际漫游一样，是人类最美好的梦想之一。虽然计算机技术已类最美好的梦想之一。虽然计算机技术已经取得了长足的进步，

3、但是到目前为止，经取得了长足的进步，但是到目前为止，还没有一台电脑能产生还没有一台电脑能产生“自我自我”的意识。的意识。的确如此，在人类和大量现成数据的帮助的确如此，在人类和大量现成数据的帮助下，电脑可以表现的十分强大，但是离开下，电脑可以表现的十分强大，但是离开了这两者，它甚至都不能分辨一个喵星人了这两者，它甚至都不能分辨一个喵星人和一个汪星人。和一个汪星人。1.1 1.1 概述概述图灵（计算机和人工智能的鼻祖，分别对应于其著名的图灵（计算机和人工智能的鼻祖，分别对应于其著名的“图灵机图灵机”和和“图灵测试图灵测试”）在）在 1950 1950 年的论文里，提出图灵试验的设想，即，隔年的论文

4、里，提出图灵试验的设想，即，隔墙对话，你将不知道与你谈话的，是人还是电脑。这无疑给计算机，墙对话，你将不知道与你谈话的，是人还是电脑。这无疑给计算机，尤其是人工智能，预设了一个很高的期望值。尤其是人工智能，预设了一个很高的期望值。但是半个世纪过去了，人工智能的进展，远远没有达到图灵试验的标但是半个世纪过去了，人工智能的进展，远远没有达到图灵试验的标准。这不仅让多年翘首以待的人们，心灰意冷，认为人工智能是忽悠，准。这不仅让多年翘首以待的人们，心灰意冷，认为人工智能是忽悠，相关领域是相关领域是“伪科学伪科学”。1.1 1.1 概述概述但是自但是自 2006 2006 年以来，机器学习领域，取年以来

5、，机器学习领域，取得了突破性的进展。图灵试验，至少不是得了突破性的进展。图灵试验，至少不是那么可望而不可及了。至于技术手段，不那么可望而不可及了。至于技术手段，不仅仅依赖于云计算对大数据的并行处理能仅仅依赖于云计算对大数据的并行处理能力，而且依赖于算法。力，而且依赖于算法。这个算法就是，这个算法就是，Deep LearningDeep Learning。借助于。借助于 Deep Learning Deep Learning 算法，人类终于找到了如算法，人类终于找到了如何处理何处理“抽象概念抽象概念”这个亘古难题的方法。这个亘古难题的方法。1.1 1.1 概述概述20122012年年6 6月，纽

6、约时报披露了月，纽约时报披露了Google Google BrainBrain项目项目，吸引了公众的广泛关注。这，吸引了公众的广泛关注。这个项目是由著名的斯坦福大学的机器学个项目是由著名的斯坦福大学的机器学习教授习教授Andrew NgAndrew Ng和在大规模计算机系统和在大规模计算机系统方面的世界顶尖专家方面的世界顶尖专家Jeff DeanJeff Dean共同主导，共同主导，用用1600016000个个CPU CoreCPU Core的并行计算平台训练的并行计算平台训练一种称为一种称为“深度神经网络深度神经网络”（DNNDNN，Deep Deep Neural NetworksNeur

7、al Networks）的机器学习模型（内）的机器学习模型（内部共有部共有1010亿个节点。亿个节点。1.1 1.1 概述概述这一网络自然是不能跟人类的神经网络相这一网络自然是不能跟人类的神经网络相提并论的。要知道，提并论的。要知道，人脑人脑中可是有中可是有150150多亿多亿个神经元，互相连接的节点也就是突触数个神经元，互相连接的节点也就是突触数更是如银河沙数。曾经有人估算过，如果更是如银河沙数。曾经有人估算过，如果将一个人的大脑中所有神经细胞的轴突和将一个人的大脑中所有神经细胞的轴突和树突依次连接起来，并拉成一根直线，可树突依次连接起来，并拉成一根直线，可从地球连到月亮，再从月亮返回地球）

8、。从地球连到月亮，再从月亮返回地球）。“深度神经网络深度神经网络”在在语音识别和图像识别语音识别和图像识别等领域获得了巨大的成功。等领域获得了巨大的成功。1.1 1.1 概述概述项目负责人之一项目负责人之一AndrewAndrew称：称：“我们没有像通常做的那样自我们没有像通常做的那样自己框定边界，而是直接把海量数据投放到算法中，让数据己框定边界，而是直接把海量数据投放到算法中，让数据自己说话，系统会自动从数据中学习。自己说话，系统会自动从数据中学习。”另外一名负责人另外一名负责人JeffJeff则说：则说：“我们在训练的时候从来不会告诉机器说：我们在训练的时候从来不会告诉机器说：这是一只猫。

9、这是一只猫。系统其实是自己发明或者领悟了系统其实是自己发明或者领悟了“猫猫”的概念。的概念。”1.1 1.1 概述概述20122012年年1111月，月，微软微软在中国天津的一次活动上公开演示了一个全自在中国天津的一次活动上公开演示了一个全自动的同声传译系统，讲演者用英文演讲，后台的计算机一气呵成动的同声传译系统，讲演者用英文演讲，后台的计算机一气呵成自动完成语音识别、英中机器翻译和中文语音合成，效果非常流自动完成语音识别、英中机器翻译和中文语音合成，效果非常流畅。据报道，后面支撑的关键技术也是畅。据报道，后面支撑的关键技术也是DNNDNN，或者深度学习（，或者深度学习（DLDL，DeepLe

10、arningDeepLearning）。）。20132013年年1 1月，在月，在百度百度年会上，创始人兼年会上，创始人兼CEOCEO李彦宏高调宣布要成立李彦宏高调宣布要成立百度研究院，其中第一个成立的就是百度研究院，其中第一个成立的就是“深度学习研究所深度学习研究所”（IDLIDL，Institue of Deep LearningInstitue of Deep Learning）。）。1.1 1.1 概述概述为什么拥有大数据的互联网公司争相投入大量资源研发深为什么拥有大数据的互联网公司争相投入大量资源研发深度学习技术。听起来感觉度学习技术。听起来感觉deeplearningdeeplea

11、rning很牛那样。很牛那样。那什么是那什么是deep learningdeep learning？为什么有为什么有deep learningdeep learning？它是怎么来的？它是怎么来的？又能干什么呢？又能干什么呢？目前存在哪些困难呢？目前存在哪些困难呢？这些问题的简答都需要慢慢来。咱们先来了解下机器学习这些问题的简答都需要慢慢来。咱们先来了解下机器学习（人工智能的核心）的背景。（人工智能的核心）的背景。1.2 1.2 背景背景机器学习（机器学习（Machine LearningMachine Learning）是一门专门研究计算机怎是一门专门研究计算机怎样模拟或实现人类的学习行为，

12、以获取新的知识或技能，样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能的学科。重新组织已有的知识结构使之不断改善自身的性能的学科。19591959年美国的年美国的塞缪尔塞缪尔(Samuel)(Samuel)设计了一个下棋程序，这个设计了一个下棋程序，这个程序具有学习能力，它可以在不断的对弈中改善自己的棋程序具有学习能力，它可以在不断的对弈中改善自己的棋艺。艺。4 4年后，这个程序战胜了设计者本人。又过了年后，这个程序战胜了设计者本人。又过了3 3年，这年，这个程序战胜了美国一个保持个程序战胜了美国一个保持8 8年之久的常胜不败的冠军。年之久的常胜不

13、败的冠军。这个程序向人们展示了这个程序向人们展示了机器学习的能力机器学习的能力，提出了许多令人，提出了许多令人深思的社会问题与哲学问题。深思的社会问题与哲学问题。1.2 1.2 背景背景机器学习虽然发展了几十年，但还是存在机器学习虽然发展了几十年，但还是存在很多没有良好解决的问题：很多没有良好解决的问题：1.2 1.2 背景背景例如图像识别、语音识别、自然语言理解、例如图像识别、语音识别、自然语言理解、天气预测、基因表达、内容推荐等等。目天气预测、基因表达、内容推荐等等。目前我们通过机器学习去解决这些问题的思前我们通过机器学习去解决这些问题的思路都是这样的（以视觉感知为例子）：路都是这样的（以

14、视觉感知为例子）：1.2 1.2 背景背景从开始的通过传感器（例如从开始的通过传感器（例如CMOSCMOS）来）来获得数据获得数据。然后经过。然后经过预处预处理理、特征提取特征提取、特征选择特征选择，再到，再到推理、预测或者识别推理、预测或者识别。最后一。最后一个部分，也就是个部分，也就是机器学习机器学习的部分，绝大部分的工作是在这方面的部分，绝大部分的工作是在这方面做的，也存在很多的学术论文和研究。做的，也存在很多的学术论文和研究。而中间的三部分，概括起来就是而中间的三部分，概括起来就是特征表达特征表达。良好的特征表达，。良好的特征表达，对最终算法的准确性起了非常关键的作用，而且系统主要的计

15、对最终算法的准确性起了非常关键的作用，而且系统主要的计算和测试工作都耗在这一大部分。但是这块实际中一般都是人算和测试工作都耗在这一大部分。但是这块实际中一般都是人工完成的，即靠人工提取特征。工完成的，即靠人工提取特征。1.2 1.2 背景背景截止现在，也出现了不少优截止现在，也出现了不少优秀特征表示方式（好的特征秀特征表示方式（好的特征应具有不变性（大小、尺度应具有不变性（大小、尺度和旋转等）和可区分性）。和旋转等）和可区分性）。例如例如SiftSift的出现，是局部图的出现，是局部图像特征描述子研究领域一项像特征描述子研究领域一项里程碑式的工作。由于里程碑式的工作。由于SIFTSIFT对对尺

16、度尺度、旋转旋转以及一定以及一定视角视角和和光照变化光照变化等图像变化都具等图像变化都具有不变性，并且有不变性，并且SIFTSIFT具有很具有很强的可区分性，的确让很多强的可区分性，的确让很多问题的解决变为可能。但它问题的解决变为可能。但它也不是万能的。也不是万能的。1.2 1.2 背景背景然而，手工地选取特征是一件非常费力、启发式（需然而，手工地选取特征是一件非常费力、启发式（需要专业知识）的方法，能不能选取好很大程度上靠经要专业知识）的方法，能不能选取好很大程度上靠经验和运气，而且它的调节需要大量的时间。验和运气，而且它的调节需要大量的时间。既然手工选取特征不太好，那么能不能自动地学习一既

17、然手工选取特征不太好，那么能不能自动地学习一些特征呢？答案是能！些特征呢？答案是能！Deep LearningDeep Learning就是用来干这就是用来干这个事情的，看它的一个别名个事情的，看它的一个别名Unsupervised Feature Unsupervised Feature LearningLearning，就可以顾名思义了，就可以顾名思义了，UnsupervisedUnsupervised的意思的意思就是不要人参与特征的选取过程。就是不要人参与特征的选取过程。1.2 1.2 背景背景那它是怎么学习的呢？怎么知道哪些特征好哪些那它是怎么学习的呢？怎么知道哪些特征好哪些不好呢？不

18、好呢？我们说我们说机器学习机器学习是一门专门研究计算机怎样模拟是一门专门研究计算机怎样模拟或实现人类的学习行为的学科。那人类的视觉系或实现人类的学习行为的学科。那人类的视觉系统是怎么工作的呢？为什么在茫茫人海，芸芸众统是怎么工作的呢？为什么在茫茫人海，芸芸众生，滚滚红尘中我们都可以找到另一个她（因为，生，滚滚红尘中我们都可以找到另一个她（因为，你存在我深深的脑海里，我的梦里、我的心里、你存在我深深的脑海里，我的梦里、我的心里、我的歌声里我的歌声里）。）。1.2 1.2 背景背景人脑那么优秀，我们能不能参考人脑，模拟人人脑那么优秀，我们能不能参考人脑，模拟人脑呢？（注：好像和人脑扯上点关系的特征

19、、脑呢？（注：好像和人脑扯上点关系的特征、算法，都不错，但不知道是不是人为强加的，算法，都不错，但不知道是不是人为强加的，为了使自己的研究变得神圣和高雅。）为了使自己的研究变得神圣和高雅。）近几十年以来，近几十年以来，认知神经科学、生物学认知神经科学、生物学等等学等等学科的发展，让我们对自己这个神秘的而又神奇科的发展，让我们对自己这个神秘的而又神奇的大脑不再那么的陌生。也给人工智能的发展的大脑不再那么的陌生。也给人工智能的发展推波助澜。推波助澜。1.3 1.3 人脑视觉机理人脑视觉机理19811981年的诺贝尔医学年的诺贝尔医学/生理学奖，颁发给了生理学奖，颁发给了 David HubelDa

20、vid Hubel（出生于加拿大的美国神经生（出生于加拿大的美国神经生物学家）物学家）和和Torsten WieselTorsten Wiesel以及以及 Roger Roger SperrySperry。前两位的主要贡献，是。前两位的主要贡献，是“发现了发现了视觉系统的信息处理机制视觉系统的信息处理机制”，发现可视皮，发现可视皮层是分级的。如层是分级的。如“人见到蛇的情景人见到蛇的情景”。1.3 1.3 人脑视觉机理人脑视觉机理我们看看他们做了什么。我们看看他们做了什么。1958 1958 年，年，DavidHubel DavidHubel 和和Torsten Wiesel Torsten

21、Wiesel 在在 JohnHopkins University JohnHopkins University研究了研究了瞳孔区域与大脑皮层神经元的对应关系。他们在猫的瞳孔区域与大脑皮层神经元的对应关系。他们在猫的后脑头骨上开了一个后脑头骨上开了一个3 3 毫米的小洞，向洞里插入电极，毫米的小洞，向洞里插入电极，测量神经元的活跃程度。测量神经元的活跃程度。然后，他们在小猫的眼前，展现各种然后，他们在小猫的眼前，展现各种形状形状、各种、各种亮度亮度的物体。并且，在展现每一件物体时，还改变物体放的物体。并且，在展现每一件物体时，还改变物体放置的置的位置位置和和角度角度。他们期望通过这个办法，让小猫

22、瞳。他们期望通过这个办法，让小猫瞳孔感受不同类型、不同强弱的刺激。孔感受不同类型、不同强弱的刺激。1.3 1.3 人脑视觉机理人脑视觉机理之所以做这个试验，目的是去证明一个猜测：之所以做这个试验，目的是去证明一个猜测：位于后脑皮层的位于后脑皮层的不同视觉神经元，与瞳孔所受刺激之间，存在某种对应关系不同视觉神经元，与瞳孔所受刺激之间，存在某种对应关系。一旦瞳孔受到某一种刺激，后脑皮层的某一部分神经元就会活一旦瞳孔受到某一种刺激，后脑皮层的某一部分神经元就会活跃。跃。经历了很多天反复的枯燥的试验，同时牺牲了若干只可怜的小经历了很多天反复的枯燥的试验，同时牺牲了若干只可怜的小猫，猫，David Hu

23、bel David Hubel 和和Torsten Wiesel Torsten Wiesel 发现了一种被称为发现了一种被称为“方向方向选择性细胞选择性细胞（Orientation Selective CellOrientation Selective Cell）”的神经元细胞。的神经元细胞。当瞳孔发现了眼前的物体的边缘，而且这个边缘指向某个方向当瞳孔发现了眼前的物体的边缘，而且这个边缘指向某个方向时，这种神经元细胞就会活跃。时，这种神经元细胞就会活跃。这个发现激发了人们对于神经系统的进一步思考。神经这个发现激发了人们对于神经系统的进一步思考。神经-中枢中枢-大脑的工作过程，或许是一个不断迭

24、代、不断抽象的过程。大脑的工作过程，或许是一个不断迭代、不断抽象的过程。1.3 1.3 人脑视觉机理人脑视觉机理这里的关键词有两个，一个是这里的关键词有两个，一个是抽象抽象，一个是，一个是迭代迭代。从。从原始信号，做原始信号，做低级低级抽象抽象，逐渐向，逐渐向高级高级抽象抽象迭代迭代。人类人类的逻辑思维，经常使用高度抽象的概念的逻辑思维，经常使用高度抽象的概念。例如，从原始信号摄入开始（瞳孔摄入像素例如，从原始信号摄入开始（瞳孔摄入像素 PixelsPixels），接着做初步处理（大脑皮层某些细胞发现），接着做初步处理（大脑皮层某些细胞发现边缘和方向），然后抽象（大脑判定，眼前的物体的边缘和方

25、向），然后抽象（大脑判定，眼前的物体的形状，是圆形的），然后进一步抽象（大脑进一步判形状，是圆形的），然后进一步抽象（大脑进一步判定该物体是只气球）。定该物体是只气球）。再比如人脸识别，如下图：再比如人脸识别，如下图：1.3 1.3 人脑视觉机理人脑视觉机理这个生理学的发现，促成了计算机人工智能在四十年后的突破性这个生理学的发现，促成了计算机人工智能在四十年后的突破性发展。发展。总的来说，总的来说，人的视觉系统的信息处理是分级的人的视觉系统的信息处理是分级的。从低级的。从低级的V1V1区提区提取边缘特征，再到取边缘特征，再到V2V2区的形状或者目标的部分等，再到更高层，区的形状或者目标的部分等

26、，再到更高层，整个目标、目标的行为等。整个目标、目标的行为等。也就是说也就是说高层的特征是低层特征的组合高层的特征是低层特征的组合，从低层到高层的特征表，从低层到高层的特征表示越来越抽象，越来越能表现语义或者意图。而示越来越抽象，越来越能表现语义或者意图。而抽象层面越高，抽象层面越高，存在的可能猜测就越少，就越利于分类存在的可能猜测就越少，就越利于分类。例如，单词集合和句子的对应是多对一的，句子和语义的对应又例如，单词集合和句子的对应是多对一的，句子和语义的对应又是多对一的，语义和意图的对应还是多对一的，这是个层级体系。是多对一的，语义和意图的对应还是多对一的，这是个层级体系。1.3 1.3

27、人脑视觉机理人脑视觉机理敏感的人注意到这个关键词了：敏感的人注意到这个关键词了：分层分层。而。而Deep learningDeep learning的的deepdeep是不是就表示我存在多少层，也就是多深呢？是不是就表示我存在多少层，也就是多深呢？对。那对。那Deep learningDeep learning是如何借鉴这个过程的呢是如何借鉴这个过程的呢？毕竟是？毕竟是归于计算机来处理，面对的一个问题就是归于计算机来处理，面对的一个问题就是怎么对这个过程怎么对这个过程进行建模进行建模？因为我们要学习的是因为我们要学习的是特征的表达特征的表达，那么关于特征，或者说，那么关于特征，或者说关于这个层

28、级特征，我们需要了解地更深入点。所以在说关于这个层级特征，我们需要了解地更深入点。所以在说Deep LearningDeep Learning之前，我们下面有必要解释一下特征。之前，我们下面有必要解释一下特征。1.4 1.4 关于特征关于特征特征特征是机器学习系统的原材料，对最终模是机器学习系统的原材料，对最终模型的影响是毋庸置疑的。型的影响是毋庸置疑的。如果数据被很好地表达成了特征，通常线如果数据被很好地表达成了特征，通常线性模型就能达到满意的精度。性模型就能达到满意的精度。那对于特征，我们需要考虑什么呢？那对于特征，我们需要考虑什么呢？1.4 1.4 关于特征关于特征1.4.1 1.4.1

29、特征表示的粒度特征表示的粒度1.4.2 1.4.2 初级（浅层）特征表示初级（浅层）特征表示1.4.3 1.4.3 结构性特征表示结构性特征表示1.4.4 1.4.4 需要有多少个特征需要有多少个特征1.4.1 1.4.1 特征表示的粒度特征表示的粒度学习算法在一个学习算法在一个什么粒度上的特征表示什么粒度上的特征表示，才有能，才有能发挥作用？就一个图片来说，发挥作用？就一个图片来说，像素级的特征根本像素级的特征根本没有价值没有价值。例如上面的摩托车，从像素级别，根本得不到任例如上面的摩托车，从像素级别，根本得不到任何信息，其无法进行摩托车和非摩托车的区分。何信息，其无法进行摩托车和非摩托车

30、的区分。1.4.1 1.4.1 特征表示的粒度特征表示的粒度而如果特征是一个具有结构性（或者说有含义）的时而如果特征是一个具有结构性（或者说有含义）的时候，比如是否具有候，比如是否具有车把手车把手（handlehandle），是否具有），是否具有车轮车轮（wheelwheel），就很容易把摩托车和非摩托车区分开来，），就很容易把摩托车和非摩托车区分开来，学习算法才能发挥作用。学习算法才能发挥作用。1.4.2 1.4.2 初级（浅层）特征表示初级（浅层）特征表示既然像素级的特征表示方法没有作用，那怎样的表示才有既然像素级的特征表示方法没有作用，那怎样的表示才有用呢？用呢？1995 1995 年前

31、后，年前后，Bruno OlshausenBruno Olshausen和和 David Field David Field 两位学两位学者任职者任职 Cornell University Cornell University，他们试图同时用，他们试图同时用生理学生理学和和计算机计算机的手段，双管齐下，研究视觉问题。的手段，双管齐下，研究视觉问题。他们收集了很多黑白风景照片，从这些照片中，提取出他们收集了很多黑白风景照片，从这些照片中，提取出400400个小碎片，每个小碎片的尺寸均为个小碎片，每个小碎片的尺寸均为 16x1616x16 像素，不妨像素，不妨把这把这400400个碎片标记为个碎片

32、标记为 SiSi,i=0,.399,i=0,.399。接下来，再。接下来，再从这些黑白风景照片中，随机提取另一个碎片，尺寸也是从这些黑白风景照片中，随机提取另一个碎片，尺寸也是 16x16 16x16 像素，不妨把这个碎片标记为像素，不妨把这个碎片标记为 T T。1.4.2 1.4.2 初级（浅层）特征表示初级（浅层）特征表示他们提出的问题是，如何他们提出的问题是，如何从这从这400400个碎片中，选取个碎片中，选取一组碎片一组碎片Sk,Sk,通过叠加的办法，合成出一个新通过叠加的办法，合成出一个新的碎片的碎片，而，而这个新的碎片应当与随机选择的目标这个新的碎片应当与随机选择的目标碎片碎片T

33、T尽可能相似尽可能相似，同时，同时，SkSk的数量尽可能少的数量尽可能少。用数学的语言来描述，就是：用数学的语言来描述，就是：Sum_k(ak*Sk)-TSum_k(ak*Sk)-T,其中其中 ak ak 是在叠加碎片是在叠加碎片 Sk Sk 时的时的权重系数权重系数。为解决这个问题，为解决这个问题，Bruno OlshausenBruno Olshausen和和 David David Field Field 发明了一个算法，稀疏编码（发明了一个算法，稀疏编码（Sparse Sparse CodingCoding）。）。1.4.2 1.4.2 初级（浅层）特征表示初级（浅层）特征表示稀疏编码

34、稀疏编码是一个重复迭代的过程，每次迭代分两步：是一个重复迭代的过程，每次迭代分两步：1 1）选择一组）选择一组 Sk Sk，然后调整，然后调整 ak ak，使得，使得Sum_k(ak*Sum_k(ak*Sk)Sk)最接近最接近 T T；2 2）固定住）固定住 ak ak，在，在 400 400 个碎片中，选择其它更合适的碎片个碎片中，选择其它更合适的碎片SkSk，替代原先的，替代原先的 Sk Sk，使得，使得Sum_k(ak*Sk)Sum_k(ak*Sk)最接最接近近 T T。经过几次迭代后，经过几次迭代后，最佳的最佳的 Sk Sk 组合被遴选出来组合被遴选出来。令。令人惊奇的是，人惊奇的是，

35、被选中的被选中的 Sk Sk基本上都是照片上不同基本上都是照片上不同物体的边缘线，这些线段形状相似，区别在于方向物体的边缘线，这些线段形状相似，区别在于方向。1.4.2 1.4.2 初级（浅层）特征表示初级（浅层）特征表示Bruno OlshausenBruno Olshausen和和 David Field David Field 的算法结果，与的算法结果，与 David Hubel David Hubel 和和Torsten Wiesel Torsten Wiesel 的生理发现，不谋的生理发现，不谋而合！而合！也就是说，复杂图形往往由一些基本结构组成。比如也就是说，复杂图形往往由一些基本

36、结构组成。比如下图：一个图可以通过用下图：一个图可以通过用6464种正交的种正交的edgesedges（可以理（可以理解成正交的基本结构）来线性表示。比如样例的解成正交的基本结构）来线性表示。比如样例的x x可可以用以用1-641-64个个edgesedges中的三个按照中的三个按照0.8,0.3,0.50.8,0.3,0.5的权重调的权重调和而成。而其他基本和而成。而其他基本edgeedge没有贡献，因此均为没有贡献，因此均为0 0。1.4.2 1.4.2 初级（浅层）特征表示初级（浅层）特征表示另外，许多专家还发现，不仅图像存在这个规律，声另外，许多专家还发现，不仅图像存在这个规律，声音也

37、存在。他们音也存在。他们从未标注的声音中发现了从未标注的声音中发现了2020种基本的种基本的声音结构声音结构，其余的声音可以由这，其余的声音可以由这2020种基本结构合成。种基本结构合成。1.4.3 1.4.3 结构性特征表示结构性特征表示小块的图形可以由基本小块的图形可以由基本edgeedge构成，更结构化，更复杂的，具有概构成，更结构化，更复杂的，具有概念性的图形如何表示呢？念性的图形如何表示呢？这就需要更高层次的特征表示，比如这就需要更高层次的特征表示，比如V2V2，V4V4。因此。因此V1V1看像素级是看像素级是像素级。像素级。V2V2看看V1V1是像素级，这个是层次递进的，高层表达由

38、底层是像素级，这个是层次递进的，高层表达由底层表达的组合而成。表达的组合而成。专业点说就是基专业点说就是基basisbasis。V1V1区提出的区提出的basisbasis是边缘，然后是边缘，然后V2V2层是层是V1V1层这些层这些basisbasis的组合，这时候的组合，这时候V2V2区得到的又是高一层的区得到的又是高一层的basisbasis，上，上上层又是上一层的组合上层又是上一层的组合basisbasis结果结果.所以有专家说所以有专家说Deep learningDeep learning就是就是“搞基搞基”，因为难听，所以美其，因为难听，所以美其名曰名曰Deep learningDe

39、ep learning或者或者Unsupervised Feature Learning.Unsupervised Feature Learning.1.4.3 1.4.3 结构性特征表示结构性特征表示直观上说，就是找到有意义的小碎片（直观上说，就是找到有意义的小碎片（patchpatch），），再将其进行组合（再将其进行组合（combinecombine），就得到了上一层的），就得到了上一层的特征（特征（featurefeature），递归地向上学习特征），递归地向上学习特征（learning featurelearning feature）。）。1.4.3 1.4.3 结构性特征表示结构性

40、特征表示在不同对象（在不同对象（objectobject）上做训练时，所得的边缘基（）上做训练时，所得的边缘基（edge edge basisbasis）是非常相似的，但对象部分（）是非常相似的，但对象部分（object partsobject parts）和）和模式（模式（modelsmodels）完全不同。这样便于图像的准确识别。完全不同。这样便于图像的准确识别。1.4.3 1.4.3 结构性特征表示结构性特征表示从文本来说，一个从文本来说，一个docdoc文档文档表示什么意思？我们描述一件事情，表示什么意思？我们描述一件事情，用什么来表示比较合适？用什么来表示比较合适？用一个一个用一个一

41、个字字嘛嘛?不是，字就是像素级别了，起码应该是不是，字就是像素级别了，起码应该是termterm（术语（术语/词组）词组），换句话说每个，换句话说每个docdoc都由都由termterm构成构成;但这样表示概念的能力就够了嘛，可能也不够，需要再上一步，达到但这样表示概念的能力就够了嘛，可能也不够，需要再上一步，达到topictopic级，有了级，有了topictopic，再到，再到docdoc就合理。就合理。但每个层次的数量差距很大，比如但每个层次的数量差距很大，比如docdoc表示的概念表示的概念-topictopic（千（千-万量万量级）级）-termterm（1010万量级）万量级）-w

42、ordword（百万量级）。（百万量级）。一个人在看一个一个人在看一个docdoc的时候，眼睛看到的是的时候，眼睛看到的是wordword，由这些，由这些wordword在在大脑里自动切词形成大脑里自动切词形成termterm，在按照概念组织的方式，先验的学，在按照概念组织的方式，先验的学习，得到习，得到topictopic，然后再进行高层次的，然后再进行高层次的learninglearning。1.4.4 1.4.4 需要有多少个特征需要有多少个特征我们知道需要层次的特征构建，由浅入深，我们知道需要层次的特征构建，由浅入深，但每一层该有多少个特征呢？但每一层该有多少个特征呢？任何一种方法，特

43、征越多，给出的参考信任何一种方法，特征越多，给出的参考信息就越多，准确性会得到提升。但息就越多，准确性会得到提升。但特征多特征多意味着计算复杂，探索的空间大，可以用意味着计算复杂，探索的空间大，可以用来训练的数据在每个特征上就会稀疏来训练的数据在每个特征上就会稀疏，都，都会带来各种问题，并不一定特征越多越好。会带来各种问题，并不一定特征越多越好。小小结结上面我们谈到为什么会有上面我们谈到为什么会有Deep learningDeep learning（让（让机器自动学习良好的特征，而免去人工选取机器自动学习良好的特征，而免去人工选取过程。还有参考人的分层视觉处理系统），过程。还有参考人的分层视

44、觉处理系统），我们得到一个结论就是我们得到一个结论就是Deep learningDeep learning需要多需要多层来获得更抽象的特征表达层来获得更抽象的特征表达。那么多少层才合适呢？用什么架构来建模呢那么多少层才合适呢？用什么架构来建模呢？怎么进行非监督训练呢？怎么进行非监督训练呢？1.5 1.5 深度学习的基本思想深度学习的基本思想假设我们有一个系统假设我们有一个系统S S，它有，它有n n层（层（S1,SnS1,Sn），它的输入），它的输入是是I I，输出是，输出是O O，形象地表示为：，形象地表示为：I=S1=S2=.=Sn I=S1=S2=.=Sn=O=O，如果输出，如果输出O

45、O等于输入等于输入I I，即输入，即输入I I经过这个系统变化经过这个系统变化之后没有任何的信息损失。这意味着输入之后没有任何的信息损失。这意味着输入I I经过每一层经过每一层SiSi都没有任何的信息损失，即在任何一层都没有任何的信息损失，即在任何一层SiSi，它都是原有信，它都是原有信息（即输入息（即输入I I）的另外一种表示。）的另外一种表示。现在回到我们的主题现在回到我们的主题Deep LearningDeep Learning，我们需要自动地学，我们需要自动地学习特征，假设我们有一堆输入习特征，假设我们有一堆输入I I（如一堆图像或者文本），（如一堆图像或者文本），假设我们设计了一个系

46、统假设我们设计了一个系统S S（有（有n n层），我们通过调整系统层），我们通过调整系统中参数，使得它的输出仍然是输入中参数，使得它的输出仍然是输入I I，那么我们就可以自，那么我们就可以自动地获取得到输入动地获取得到输入I I的一系列层次特征，即的一系列层次特征，即S1S1，,Sn,Sn。1.5 1.5 深度学习的基本思想深度学习的基本思想对于深度学习来说，其思想就是对堆叠多个层，对于深度学习来说，其思想就是对堆叠多个层，也就是说也就是说这一层的输出作为下一层的输入这一层的输出作为下一层的输入。通过。通过这种方式，就可以实现对输入信息进行分级表达这种方式，就可以实现对输入信息进行分级表达了。

47、了。另外，前面是假设输出严格地等于输入，这个限另外，前面是假设输出严格地等于输入，这个限制太严格，我们可以略微地放松这个限制，例如制太严格，我们可以略微地放松这个限制，例如我们只要使得输入与输出的差别尽可能地小即可我们只要使得输入与输出的差别尽可能地小即可，这个放松会导致另外一类不同的这个放松会导致另外一类不同的Deep LearningDeep Learning方方法法。上述就是。上述就是Deep LearningDeep Learning的基本思想。的基本思想。1.6 1.6 浅层学习和深度学习浅层学习和深度学习1.6.1 1.6.1 浅层学习（浅层学习（Shallow LearningS

48、hallow Learning）：）：机器学习第一次浪潮机器学习第一次浪潮1.6.2 1.6.2 深度学习（深度学习（Deep LearningDeep Learning）：机器）：机器学习第二次浪潮学习第二次浪潮1.6.1 1.6.1 浅层学习：机器学习第一次浪潮浅层学习：机器学习第一次浪潮2020世纪世纪8080年代末期，用于年代末期，用于人工神经网络人工神经网络的的反向传播算法反向传播算法（也叫（也叫Back PropagationBack Propagation算法或者算法或者BPBP算法算法）的发明，给机）的发明，给机器学习带来了希望，掀起了器学习带来了希望，掀起了基于统计模型的机器

49、学习基于统计模型的机器学习热潮。热潮。这个热潮一直持续到今天。这个热潮一直持续到今天。人们发现，利用人们发现，利用BPBP算法可以算法可以让一个人工神经网络模型从大让一个人工神经网络模型从大量训练样本中学习统计规律，从而对未知事件做预测量训练样本中学习统计规律，从而对未知事件做预测。这。这种基于统计的机器学习方法比起过去基于人工规则的系统，种基于统计的机器学习方法比起过去基于人工规则的系统，在很多方面显出优越性。在很多方面显出优越性。这个时候的人工神经网络，虽也被称作这个时候的人工神经网络，虽也被称作多层感知机多层感知机（Multi-layer PerceptronMulti-layer Pe

50、rceptron），但实际是一种），但实际是一种只含有一层只含有一层隐层节点的浅层模型隐层节点的浅层模型。1.6.1 1.6.1 浅层学习：机器学习第一次浪潮浅层学习：机器学习第一次浪潮2020世纪世纪9090年代，各种各样的浅层机器学习模型相继被提出，年代，各种各样的浅层机器学习模型相继被提出，例如例如支撑向量机支撑向量机（SVMSVM，Support Vector MachinesSupport Vector Machines）、）、BoostingBoosting、最大熵方法最大熵方法（如（如LRLR，Logistic RegressionLogistic Regression）等。等。

展开阅读全文