百度大脑李彦宏演讲视频.docx-淘文阁

资源描述

《百度大脑李彦宏演讲视频.docx》由会员分享，可在线阅读，更多相关《百度大脑李彦宏演讲视频.docx（19页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、百度大脑李彦宏演讲视频大家知道，百度世界是我们每年举办一次的百度技术创新大会。今年的主题我们聚焦在人工智能，大家在之前收到的请柬上已经看到这个主题了。刚刚开场视频是以人工智能为主题的，今天我的主题演讲也将围绕着人工智能来展开。今年6月份，我在百度联盟峰会上讲了一个概念，叫做互联网的下一幕。下一幕是什么意思呢?就是讲，互联网的发展在此之前已经经过了两个非常重要的阶段，第一个阶段大概持续了十几年的时间，就是我们讲的PC互联网阶段。第二个阶段是在近期四五年，我们把它叫做移动互联网的阶段。对于中国市场来讲，随着上网人数越来越多，上网人口的浸透率越来越高，如今已经到达了七亿多，就是讲已经超过了50%的浸

2、透率，同时，每一个上网的人如今也基本都用上了智能手机。这意味着什么呢?这意味着，将来互联网的增长不能再靠人口红利来驱动了，也就是讲，移动互联网的时代其实正在离开我们。这可能是很多人觉得难以接受的。我们国家如今进入了所谓的新常态，经济的增长需要靠互联网+行动计划来推动，所谓互联网+就是希望用互联网的思维方式、互联网的效率来推动各个行业、产业的继续发展。但是，我们互联网的从业者其实又深深地感遭到了这其中的危机，这个危机就是由于过去的粗放增长阶段已经结束了。移动互联网之后的下一幕是什么?其实如今已经很清楚了，就是我们所讲的人工智能。人工智能对于百度来讲是核心当中的核心，我们也很幸运，在过去的五六年当

3、中，百度花了很大很大的精神投入到人工智能的研发当中。人工智能对于百度来讲意味着什么呢?我能够用简单的四个字来描绘，就是百度大脑。百度大脑的概念我们其实在大约三年前就对外讲过。那个时候我们讲，百度大脑已经具备了大概两三岁孩子的智力水平了。自此以后，不断的有人来问我，尤其是今年人工智能忽然火起来了之后，很多人来问我讲，你们这个百度大脑如今相当于多少岁人的智力水平了。要回答这个问题其实还蛮难的，我也不知道它如今是多少岁了，由于毕竟人脑和电脑它还是有很大的区别，百度大脑固然是一个人工智能的大脑，但是它和人正常的发育的经过还是很不一样的。百度大脑到底由什么构成的呢?它基本上是由三个大的部分组成的。第一个

4、组成部分，就是人工智能的算法。我们有超大规模的神经网络，这是模拟人的神经元组成的网络，但其实我们也不知道真正人脑工作的原理是什么，只是想象当中应该是这个样子。我们还使用了万亿级的参数，人脑的神经源大概是千亿级的，我们也有千亿的样本和千亿的特征进行训练。整个这些东西组成了百度大脑当中算法的部分。百度大脑的第二个组成部分是我们计算能力。如今我们已经使用了数十万台的服务器来进行计算，而这当中很多的服务器不是传统基于CPU的服务器，而是基于GPU。早年的时候，GPU主要在游戏等领域使用得比拟广泛，在人工智能、尤其是深度学习起来以后，我们发现，其实GPU十分合适人工智能的计算，尤其是深度学习的计算，一块

5、GPU能够顶100个CPU的计算能力。有关GPU的事情，我之后会请一位外部的嘉宾，就是NVIDIA的创始人和CEO黄仁勋先生，让他给大家介绍更多有关GPU的，尤其是在人工智能领域应用的情况。百度大脑的第三部分是数据。数据也非常非常重要，而且这个数据量也是非常大的。比方讲，我们已经采集了全网上万亿的互联网网页内容，这其中包括了很多视频、音频、图像，这些数据也是数以百亿级的。我们还有天天数十亿次网民的搜索请求，而且还有天天数百亿次的网民定位请求，就是讲这个人在什么地方，这样的请求也比大家想象得多，天天都有好几百亿次这样的定位请求。有了算法，有了计算能力，有了数据，百度大脑就能够开场工作了。百度大脑

6、又到底有什么样的功能?让我们来看一看。我们今天想重点介绍的四个功能：一个是语音的能力，一个是图像的能力，一个是自然语言理解的能力，还有一个就是用户画像的能力。这几个能力固然都是属于人工智能中比拟典型的应用，但是它的发展阶段也是很不一样的。比方讲语音，如今就已经进入了相比照较成熟的阶段，在很多很多领域中都开场进入实用阶段，识别的准确率也已经很高了。图像近期几年也有了长足的进展。这两者都属于人工智能当中认知的部分，所以深度学习的算法非常合适处理这些形式。相对来讲，自然语言的理解、或处理能力就愈加难一些，并处在一个愈加早期的阶段，由于它除了认知方面的能力之外，还要求有推理、规划等等能力，才能够真正地

7、理解自然语言。用户画像的能力，其实从传统意义上来讲并不是人工智能的领域，但是由于近年来大数据的发展，尤其是大型互联网公司有能力搜集很多用户的数据之后，再用人工智能的方法、用机器学习的方法，就能够把一个人的特征描绘得非常非常清楚。所以今天，用户画像也变成了人工智能、或者讲变成了百度大脑的一个重要功能。下面我就分别来讲一下这几个功能，这几个百度大脑的功能。我们先看一下语音，刚刚也讲了应该讲今天人工智能发展的最成熟的一部分能力，而语音又分成两个方向，一个是语音的合成，一个是语音的识别。我们先看看语音识别。今年MITTechnologyReview(（MIT科技评论）)杂志，把百度的DeepSpeec

8、h2评为2016改变世界十大突破技术，这就是百度的语音识别引擎，它已经到了第二代，主要就是使用了深度学习的能力。这样的一个技术已经能够把语音识别的准确度做到多少呢?大概能够做到97%的准确率，这样的准确率已经到达、甚至有时已经超过了人对语音的识别能力。当然，我们讲这些能力不是为了简单地去夸耀这个数字有多好，我更感兴趣的是，当你有了这些能力时，它能够在什么领域应用，又能够在哪些方面帮助到我们，这其实才是最最让我们觉得兴奋的地方。我个人的想象力很有限，整个百度几万人的想象力也是有限的，但是这些能力假如赋予到很多很多人，赋予给几亿人、几十亿人，这个可能性几乎是无限的。先用我们比拟有限的想象力来给大家

9、举一个例子。这是一个销售、销售的例子，是一个2B(ToB)的应用。这个应用是什么意思呢?很多的公司其实都有销售这样的一个部门，都需要这样做。但是销售，尤其是销售这个行业，大家知道流动性是比拟大的，很多销售都是新人，新人的话就会经过一定的时间培训才能够上岗，但即便是经过培训的话，也不一定有那些有经历的销售那么出活儿、出单。其实有经历、最优秀的销售和一般、较差的销售相比，在效率上有非常大的差异。我们怎么才能够让新手、让没有经历的销售，能够具备最优秀销售的销售能力?过去的做法是，把优秀的销售经历总结成册子让大家去学习，让这些销售去背，但是怎么活学活用还是需要一个经过的。而有了这么高精度的语音识别能力

10、之后，我们就能够彻底改变这样一个状况了，甚至能够让一个刚刚上岗一个月的销售就具备最优秀销售的能力，也就是讲，我们能够通过实时的语音识别甄别出用户或客户在问什么问题，然后我们再实时地在屏幕上告诉新的销售，最优秀的销售是怎么回答这个问题的。过去没有实时的语音识别的时候，你需要线下学，学完了之后上去用、很容易就忘了，但是有了这个系统之后，我们就能够解决这样的问题。我们来看一下这个案例。【播放语音识别技术演示视频】大家看到，在刚刚的经过中，百度大脑一直在实时地识别双方的对话，尤其是从里面传出来的声音，有的时候并不是那么明晰，对于人来讲要完全听清楚每一个字其实都是有一定难度的，但百度大脑的语音识别能力已

11、经能够做到非常精准，并且能够根据用户的问题、实时推荐下一步的工作要如何应对，这是一个语音识别应用在企业日常运作中的一个例子，就像我刚刚讲的，应该还有很多很多应用场景，大家能够根据本人的背景去想象。语音识别是一方面，语音合成又是另外一个方面。语音合成是什么意思呢?就是机器能够把文字转换成语音，把它念出来、读出来。今天的语音合成也有了和过去非常不一样的体验，最主要的就是，它能够用比拟自然的人的声音读出来，而不是像过去机器一样，每一个字之间的停顿都是一样长，是匀速的、没有表情的。这样的自然体验，当然对于用户的黏性来讲也是有很大的作用。如今，百度天天要响应2.5亿次的语音合成请求，这些请求用来干什么呢

12、?比方讲，过去人们看小讲，今天能够在手机百度里面听小讲。渐渐的人们听小讲的时间也更长了，过去每个人平均在小讲频道会花大概四特别钟左右的时间，如今要花将近两个半小时，就是由于把计算机合成出来的语音读出来给我们听，确实是一个很不错的体验，甚至是一种享受。那么这种读出来的小讲，和我们平常听到的广播有什么本质上的不一样?其实非常不一样。广播是每一个人听到的东西是一模一样的，而今天的语音合成，它能够做到每一个人听到的东西都是不一样的，完全根据你个人的需求进行定制，这就是为什么它的(用户)黏性会很高，它能够具备自然发声的能力。不仅如此，其实我们能够想象一下，它假如能够模拟一个自然人的表达方式或发声能力，它

13、就能够模拟任何一个你喜欢的人的讲话方式。不知道有没有人注意到，百度地图里导航功能就是用语音来进行的，其中有一个选项能够用我的声音进行导航。其实导航的那些话我并没有讲过，机器只是根据我平常讲话的情况合成了一个李彦宏的声音。这样的声音不仅在我身上能够做到，在很多其别人身上可以以做到。我们如今来给大家展示一个合成的声音。我们合成了一下13年前已经逝世的张国荣的声音，我们来放一段video。【播放情感语音合成视频】为什么给大家展示这个呢?一方面我知道，很多人是张国荣的粉丝，另一方面，其实合成张国荣的声音比合成一般人的声音要更难。为什么呢?由于他的国语语料相对来讲比拟少，所以，我们能够合成他的声音，就一

14、定能合成很多很多人的声音。对于百度来讲，百度大脑的语音合成能力能够让每个人都有本人的声音模型，你只要根据我们的要求讲50句话，我就学会了你讲话的方式。当你拥有本人的合成声音之后，比方讲家里的老人想经常听你讲一讲，你把这个声音合成出来让他听就好了。或者讲你平常要加班，小孩睡觉之前想听个故事，你合成本人的声音给孩子讲一遍这个故事，听起来也会很亲切。所以大家能够看到，这些语音的能力会带来各种各样新的可能性。下面我给大家讲一下列图像。用一个比拟专业的术语来讲，我们叫做计算机视觉。这也是如今广义的人工智能中非常重要的领域。讲到图像的识别，我想大家自然而然会反响出来一个什么应用呢?应该就是我们通常讲的人脸

15、识别的应用。人脸识别的准确率今天已经到达了99.7%，已经非常非常准确了。现场的屏幕能够识别出来我们一些嘉宾，根据他们的人脸，我们知道这个人是谁，这个准确率已经比拟高了。刚刚进来的时候，大家可以以看到一些人脸识别的展台，我们是能够识别很多很多人的面孔的。那么，人脸识别这个技术是怎么实现的?我们要对人脸的特征提取它的关键点，把这些点打出来之后要做一些处理，把它连成一个面部表情，据此来识别这样一个人。这就使得当一个人的表情发生变化的时候，我们仍然能够识别出来这个特点是没有发生变化的，比方他在哭，他在笑，他在愤怒，他在迷茫，他的表情是不一样的，但是他的表情特征是不变的，所以我们仍然能够很准确地识别出

16、这样一个人。除了面部识别之外，图像识别还在很多领域也有应用。我们再看一个，这是上海的一个全景图，大家使用百度地图有时候需要看这样一个景，到一个陌生的地方之前，想看看到那看到的样子是什么。当然，这个图不是一个简单的图像的收集，我们收集了图像之后要对图像中各种各样的目的进行识别，这个大楼是什么样的大楼，那个路牌上面写的什么字，对写的这个字识别的话，跟人脸识别还不太一样，这里面有一个特殊的图像识别的技术就是OCR，这个是二十多年前我们的一个专利，到今天它的准确率已经非常高了，下面我们也是用一段视频给大家看一下百度地图是怎样利用图像识别的。【播放百度地图视频】这是百度地图利用图像识别的情况，其实还有一

17、个很重要的领域也是非常需要图像识别的技术，这个领域是什么呢?这就是我们过去一年来讲得比拟多的无人驾驶汽车。无人驾驶汽车涉及到很多很多的技术，比方讲我们需要计算机视觉的技术，需要高精度地图，需要对环境的感悟，需要定位，甚至需要语音的通话。但应该讲，计算机视觉或者是图像识别的技术是最后一公里，无人驾驶汽车真的要变成没有人，真的要能够解决99.999%、甚至100%的情况，最终还是要依靠计算机视觉的能力，要识别各种各样的极端的情况。去年年底开场，我们给大家展示过百度的无人车在五环上跑，在高速上跑的情况，过去一年左右的时间我们也花了不少精神去提升我们在城市道路上运营的水平，下面我们也放一段视频给大家看

18、一下。【播放无人车视频】大家看到左下角这是人能够看到的视野，这个视野其实是比拟窄的，主屏幕是无人车能够看到的路面情况，大家能够感遭到，它感悟的范围其实比人要宽了很多，很多比拟远的目的都能够感悟到，每个目的都给出它唯一的编号进行识别。对面有什么车过来了，碰到红绿灯，碰到障碍怎么办，行人怎么能识别出来，或者是树木，周边的汽车等等，每一个目的我们都进行了识别和编号，这就是实际的、一个百度无人驾驶汽车在城市道路中行驶的情况，上面的45是限速。这是大致的一个车看到的世界是什么样的。这里面涉及了很多计算机视觉或者是图像识别的技术，尤其是这两个技术：一个是我们叫做车辆的检测，你行驶经过中怎么能够知道旁边有车

19、辆，这个车辆在哪?这个车辆的检测我们如今根据国际权威的评测来看，车辆检测的能力，百度无人车已经排名第一了。还有一个很重要的能力是车辆跟踪的能力。这个不仅是全自动的无人车，即便是对半自动的、高度自动驾驶来讲，也是一个很基本的能力。你如何能够准确地跟着前面的车走，这个技术在包括准确性、全面性、连续性等六项指标中，我们已经有四项拿到了第一。这是无人车对于图像识别依靠的情况。我们再给大家展示一个领域，就是加强现实AR，AR其实也是非常依靠(图像识别)。拿着手机拍一下现实的情况，我们要能够识别出来这是哪，这里面有什么，然后才能跟用户进行互动，才能产生真实世界和一些虚拟世界的完美的结合。那么这个东西有什么

20、应用呢?我们也觉得很高兴我们的周总、我们的广告主非常敏锐地把握到了这么一个时机，他讲OK，我能够把现实世界中我的产品和虚拟世界中我希望用户感悟的东西结合在一起，这样的一个做法可以以讲是一种新型的广告形式，下面我们就来看一个详细的例子。这是我们跟欧莱雅中国合作的一个例子。我们放视频。【播放欧莱雅视频】所以大家看到无论你拿手机拍一张明信片，还是拍一个实物的洗发水，它都能够准确地识别出来这个东西，和用户进行互动，这里面不仅有图像识别的技术，也很大程度上取决于广告主的创意，假如创意和这个技术结合，对消费者的吸引力也非常大，所以我们也等待将来的时间和客户很好地合作，把这个创意，把最优秀的想法和最优秀的技

21、术结合起来，给消费者带来实惠。这是有关图像识别方面的几个例子。下面我们再看自然语言处理。自然语言处理其实我刚刚也讲了，它的成熟程度应该不如语音，甚至不如图像识别，但是即便在目前的状态下，它也能够给大家带来很多很多不一样的体验。最直接的例子应该是我们去年在百度世界大会上讲的一个例子，就是度秘。度秘是一个个人智能的助理。这个个人智能助理今天我们能够在手机百度里面找到，度秘跟用户进行交互，如今已经有超过一半的交互是通过语音和图像来完成的，去年我们也讲了，语音和图像将来会变成一个主流。度秘除了它能够识别语音和图像之外，其实它更关键、更核心的技术，是能够用人的语言来与人进行沟通，并且能够理解人的很多意思

22、和意图，尽管不是每一次都能理解。过去这段时间我们也利用度秘的自然语言的能力做了一个比拟有意思的应用，用度秘来讲解奥运篮球，下面我们看一下视频。【播放度秘与杨毅合作讲解视频】这个不是度秘单独完成的一次讲解，是他和著名篮球评论员杨毅先生一起合作做的一次奥运篮球比赛的讲解。今天我们也很高兴把杨毅先生请到了现场，如今请他上台。【嘉宾杨毅登台】杨毅：大家上午好，我是杨毅。Robin：刚刚我们看到很有意思。你跟度秘一起讲解了一场篮球的比赛，而且我也注意到你的风格和度秘的风格还是很不一样的，我想问你一下，作为一个篮球评论员，你觉得一个好的讲解员应该具备什么样的能力?杨毅：首先我觉得很难讲我有资格来讲一个好的

23、评论员要具备什么样的能力，我相信很多行业都在不断地前进和发展。而且对一个讲解员，即便他讲解了一万场比赛，但他下面面临的一场比赛也是新的。但我想，总的来讲，一个讲解要想很好地工作，首先你要对这个项目有非常深入的了解，无论对它的项目特点还是历史背景，第二个要有非常快速的现场反响能力，第三个我觉得要有出众的语言表达能力，把你看到的、听到的，能够尽快地呈现给观众或者是听众。Robin：对，这些能力度秘都在不断地学习经过中，还有很多不完美的地方，我也希望度秘能够从你的身上学到很多很多东西。刚刚我们看到你和度秘合作的这样一次讲解，它跟你学习了一次之后，我们想让它单独做一次篮球比赛的讲解，如今我们看一下度秘

24、讲解篮球奥运决赛的情况。【播放度秘讲解奥运篮球决赛视频】Robin：ok，这是度秘单独的讲解，也想请杨毅先生评论一下你的学生表现怎么样?杨毅：显然度秘比之前和它一起讲的时候完成得更好了。其实我跟它讲的时候，它的表现就是出乎我的意料的，我也听讲它学习过上百场甚至上千场的比赛，它比照赛的基本知识储备是没问题的，在这个行业里面，它可能比我知道得还多，由于几年前的比赛我可能已经忘了，但是仍然装在它的电脑里。上知天文，下知地理，什么都明白，它的表达也是比拟清楚的，在我跟它讲的时候，我觉得只要一个小小的问题，我觉得它讲话的速度确实是好慢。但是大家刚刚看到，它讲决赛的时候能明显感到语速加快了，更符合体育竞技

25、的特点，更快速地将现场的情绪传达给观众。Robin：对，我其实非常同意。刚刚听的时候我也有点着急，它讲的语速是比拟慢的。但是像你刚刚讲的，度秘也有它的优势，比方它的记忆能力是比人强的，它学习了几百场的奥运篮球比赛，每个运发动的个人资料它都记得非常清楚，碰到这些知识型的问题，它能够非常迅速地、方便地回答。另外我们看讲解本身，用户是能够跟度秘进行互动的，你点一下双方三分球的比照，马上就出来各种各样的数据了，这是度秘的优势。但是度秘的劣势就是它对人的语言的理解和人的语言的创造能力还有很多需要学习的地方，我们也非常希望杨毅先生能够多给我们度秘提一些建议和提升的地方，也希望我们下次再有时机合作时，它讲话

26、至少快一点。杨毅：我觉得它下面的这些功能是非常好的。你能够想象一下，假如它成为一个成熟的产品，在每个球迷收看比赛的时候在家里身边沙发上都能摆一个小机器人，一边看着电视里的比赛，听着电视里的讲解，当然它可能在电视里讲解;同时他身边也有个度秘，能够不断地就他所关心的问题问身边这个小机器人，能够随时给他进行解答，就真正成为了球迷在收看比赛时候的好朋友。Robin：我相信这一天一定会到来的!而且对于度秘来讲，篮球和其他的比赛没有任何区别，都是学习知识，它主要的能力还是不断地学习人的思维方式和表达方式。杨毅：我相信它肯定会越来越好。Robin：谢谢杨毅。【嘉宾杨毅下场】Robin：这是有关自然语言理解的

27、一些介绍，下面再给大家展示一个自然语言理解的应用。这个应用的领域其实也不是十分新，就是自动翻译。你要想把一种语言转换成另外一种语言，你必须得理解这种语言在讲什么。它不是简单的把语音转成文字，更多的是需要你知道它是什么意思。今天的百度翻译已经能够支持27种语言、数百种不同方向的对译了。如今我们来看一下百度翻译有多大程度上能够理解人的自然语言。【播放百度翻译演示视频】Robin：这其实不是一个演示，这是一个实际的例子。今天当大家打开百度翻译，它已经具备了这样的能力。所以我们看到对于自然语言的理解一旦能够到达一定程度，它就又打开了很多新的可能性。下面我们讲百度大脑的第四个能力，就是用户画像的能力。用

28、户画像也是基于百度的大数据以及机器学习的方式所获得的一个能力。如今我们已经有接近10亿的用户画像，其中对于他们的识别我们已经用到了千万级的细分标签。这些标签主要在两个维度上体现，一个是通用的维度，它的人口学特征、短期的意图、位置属性;也有一些垂直行业的特征，他在金融领域是什么样的情况，它在保险、医疗、旅游、健康等领域都有什么样的喜好、习惯，这些东西都共同构成了我们的用户画像。用户画像有什么用处?首先给大家举一个百度的例子。近期几个月大家可能注意到了手机百度，除了上面的搜索框之外，下面增加了各种各样的文章。这些文章有时候是新闻，有时候不见得是新闻，但是确实是你感兴趣的东西。之所以它能够把你感兴趣

29、的东西推荐出来，就是由于我们利用了百度的用户画像。我知道你是一个什么人，你喜欢看什么样的东西。有了这样的个性化推荐，过去两个月手机百度推荐的文章的浏览量增长了10倍，这种能力就是靠百度给用户打了60多万个标签，而每个用户都是这其中某些标签组合后描绘出来的，所以它能够做到千人千面，准确地讲，不是千人千面，而是万人万面，亿人亿面，每个人对于百度来讲都是不一样的个体。所以，每个人看到的信息和文章都是不一样的。这是一个百度内部使用的例子，我们也以为用户画像能够在很多其他领域使用。我们再给大家展示一个外部的例子。这是6月份上映的电影（魔兽），它的出品人是传奇影业，他们就是利用了百度大脑的用户画像功能来提

30、升它的票房。那么它是怎么做到的呢?我们也来看一个视频。【播放传奇影业视频】这个做法很聪明，它把人群分成三类，一类人是不管怎么样都要看的，另外一类是不管怎么样都不会看的，这两种人他们都不太关心。它关心的是它能够影响的人群，再通过用户画像把这些人从摇摆的转换成真正去电影院看的。(原来)他以为假如有5%的票房提升就很满意了，最后实际上提升超过了200%。当然这不是简单的讲百度你给我用户画像，它一用就实现了提升，他们也下了很大的功夫去设计整体的推广经过。原版的video是比这个长很多的，大家有兴趣能够联络我们的工作人员，看它完好的做法是什么样的。讲到这里，我基本上把百度大脑几个主要的大功能都已经呈现出来了。

展开阅读全文