谷歌与大数据时代ppt课件.ppt

上传人:飞****2 文档编号:31138072 上传时间:2022-08-07 格式:PPT 页数:25 大小:1.52MB
返回 下载 相关 举报
谷歌与大数据时代ppt课件.ppt_第1页
第1页 / 共25页
谷歌与大数据时代ppt课件.ppt_第2页
第2页 / 共25页
点击查看更多>>
资源描述

《谷歌与大数据时代ppt课件.ppt》由会员分享,可在线阅读,更多相关《谷歌与大数据时代ppt课件.ppt(25页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物谷歌与大数据时代谷歌与大数据时代我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物谷歌与大数据谷歌搜索与流感预测无所不包的谷歌翻译系统谷歌的数字图书馆谷歌街景与GPS采集谷歌的拼写检查我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物流感预测1.1.谷歌谷歌搜索与流感预测搜索与流感预测各国各

2、国都要求医生在发现新型流感病例时告知疾都要求医生在发现新型流感病例时告知疾病控制与预防中心。病控制与预防中心。但由于人们可能患病多日实在受不了了才会去但由于人们可能患病多日实在受不了了才会去医院,同时这个信息传达回疾控中心也需要时医院,同时这个信息传达回疾控中心也需要时间,因此,通告新流感病例时往往会有一两周间,因此,通告新流感病例时往往会有一两周的延迟。而且,疾控中心每周只进行一次数据的延迟。而且,疾控中心每周只进行一次数据汇总汇总。然而,对于一种飞速传播的疾病,信息滞后两然而,对于一种飞速传播的疾病,信息滞后两周的后果将是致命的。这种滞后导致公共卫生周的后果将是致命的。这种滞后导致公共卫生

3、机构在疫情爆发的关键时期反而无所适从。机构在疫情爆发的关键时期反而无所适从。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物1.1.谷歌谷歌搜索与流感预测搜索与流感预测然而然而在甲型在甲型H1N1流感爆发的几周前,流感爆发的几周前,谷歌公司谷歌公司便已便已预测预测到到冬季流感传播冬季流感传播的具体情况。的具体情况。谷歌通过观察人们在网上的搜索记录来完成谷歌通过观察人们在网上的搜索记录来完成这个预测,而这种方法以前一直是被忽略的。这个预测,而这种方法以前一直是被忽略的。我吓了一跳,蝎子是多么丑恶和恐怖的东西,

4、为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物1.1.谷歌谷歌搜索与流感预测搜索与流感预测谷歌公司谷歌公司把把5000万条美国人最频繁检索的词条和美国疾控中心万条美国人最频繁检索的词条和美国疾控中心在在2003年至年至2008年间季节性流感传播时期的数据进行了比较。年间季节性流感传播时期的数据进行了比较。他们通过分析人们的搜索记录来判断这些人是否患上了流感他们通过分析人们的搜索记录来判断这些人是否患上了流感。其他公司也曾试图确定这些相关的词条,但是他们缺乏像谷歌其他公司也曾试图确定这些相关的词条,但是他们缺乏像谷歌公司一样庞大的数据资源、处理能

5、力和统计技术。公司一样庞大的数据资源、处理能力和统计技术。更关键的是,他们建立的系统并不依赖于这样的语义理解。更关键的是,他们建立的系统并不依赖于这样的语义理解。他们设立的这个系统唯一关注的就是特定检索词条的使用频率他们设立的这个系统唯一关注的就是特定检索词条的使用频率与流感在时间和空间上的传播之间的联系。与流感在时间和空间上的传播之间的联系。谷歌公司谷歌公司为了测试这些检索词条,总共处理了为了测试这些检索词条,总共处理了4.5亿个不同的数亿个不同的数学模型。他们的预测与官方数据的相关性高达学模型。他们的预测与官方数据的相关性高达97%,并且及时并且及时判断出流感是从哪里传播出来的判断出流感是

6、从哪里传播出来的,不会像疾控中心一样要在流不会像疾控中心一样要在流感爆发一两周之后才可以做到。感爆发一两周之后才可以做到。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物1.1.谷歌谷歌搜索与流感预测搜索与流感预测 所以,所以,2009年甲型年甲型H1N1流感爆发的时候,与流感爆发的时候,与习惯性滞后的官方数据相比,习惯性滞后的官方数据相比,谷歌谷歌成为了一个更有成为了一个更有效、更及时的指示标。效、更及时的指示标。公共卫生机构的官员获得了非常有价值的数据信息。公共卫生机构的官员获得了非常有价值的数据信息。

7、 更更惊人的是,惊人的是,谷歌公司谷歌公司甚至不需要分发口腔试纸甚至不需要分发口腔试纸和联系医生和联系医生它是建立在大数据的基础之上的。它是建立在大数据的基础之上的。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物1.1.谷歌谷歌搜索与流感预测搜索与流感预测这是这是大数据时代大数据时代所独有的一种新型能力:所独有的一种新型能力: 以一种以一种前所未有的方式,通过对海量数据进行分析,获前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见。得有巨大价值的产品和服务,或深刻的洞见。 有

8、有巨大价值的产品和服务,或深刻的洞见。巨大价值的产品和服务,或深刻的洞见。 基于这样的技术理念和数据储备,下一次流感来基于这样的技术理念和数据储备,下一次流感来袭的时候,世界将会拥有一种更好的预测工具,袭的时候,世界将会拥有一种更好的预测工具,以预防流感的传播。以预防流感的传播。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物2.无所不包的无所不包的谷歌谷歌翻译系统翻译系统20062006年,年,谷歌公司谷歌公司也开始涉足机器翻译。这被当作实也开始涉足机器翻译。这被当作实现现“收集全世界的数据资源,并让人人

9、都可享受这些收集全世界的数据资源,并让人人都可享受这些资源资源”这个目标的一个步骤。谷歌翻译开始利用一个这个目标的一个步骤。谷歌翻译开始利用一个更大更繁杂的数据库,也就是全球的互联网,而不再更大更繁杂的数据库,也就是全球的互联网,而不再只利用两种语言之间的文本翻译。只利用两种语言之间的文本翻译。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物2.无所不包的无所不包的谷歌谷歌翻译系统翻译系统谷歌谷歌翻译系统为了训练计算机,会吸收它能找到的所翻译系统为了训练计算机,会吸收它能找到的所有翻译。它会从各种各样语言的

10、公司网站上寻找对译有翻译。它会从各种各样语言的公司网站上寻找对译文档,还会去寻找联合国和欧盟这些国际组织发布的文档,还会去寻找联合国和欧盟这些国际组织发布的官方文件和报告的译本官方文件和报告的译本,甚至会吸收速读项目中的书甚至会吸收速读项目中的书籍翻译。籍翻译。谷歌谷歌的翻译系统会掌握用不同语言翻译的质量参差的翻译系统会掌握用不同语言翻译的质量参差不齐的数十亿页的文档。不齐的数十亿页的文档。不考虑翻译质量的话,上万亿的语料库就相当于不考虑翻译质量的话,上万亿的语料库就相当于950950亿句英语。亿句英语。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到

11、愉快,证实我的猜测没有错:表里边有一个活的生物2.无所不包的无所不包的谷歌谷歌翻译系统翻译系统尽管其输入源很混乱,但较其他翻译系统而言,尽管其输入源很混乱,但较其他翻译系统而言,谷歌谷歌的翻译质量相对而言还是最好的,而且可的翻译质量相对而言还是最好的,而且可翻译的内容更多。翻译的内容更多。到到2012年年中,年年中,谷歌谷歌数据库涵盖了数据库涵盖了60多种语言,多种语言,甚至能够接受甚至能够接受14种语言的语音输入,并有很流种语言的语音输入,并有很流利的对等翻译。利的对等翻译。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表

12、里边有一个活的生物2.无所不包的无所不包的谷歌谷歌翻译系统翻译系统之所以能做到这些,是因为它将语言视为能够判别可之所以能做到这些,是因为它将语言视为能够判别可能性的数据,而不是语言本身。能性的数据,而不是语言本身。因为在翻译的时候它能适当增减词汇,所以谷歌的翻因为在翻译的时候它能适当增减词汇,所以谷歌的翻译比其他系统的翻译灵活很多。译比其他系统的翻译灵活很多。谷歌谷歌的翻译之所以更好是因为的翻译之所以更好是因为谷歌谷歌翻译增翻译增加了很多各种各样的数据加了很多各种各样的数据,是因为它接受是因为它接受了有错误的数据。了有错误的数据。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美

13、丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物2.无所不包的无所不包的谷歌谷歌翻译系统翻译系统20062006年,年,谷歌谷歌发布的上万亿的语料库,就是来自于互发布的上万亿的语料库,就是来自于互联网的一些废弃内容。这就是联网的一些废弃内容。这就是“训练集训练集”,可以正确,可以正确地推算出英语词汇搭配在一起的可能性。地推算出英语词汇搭配在一起的可能性。如今如今谷歌谷歌语料库则是一个质的突破,语料库则是一个质的突破,它它使用庞大的数使用庞大的数据库使得自然语言处理这一方向取得了飞跃式的发展。据库使得自然语言处理这一方向取得了飞跃式的发展。自然语言处理能力是语音识别系统和

14、计算机翻译的自然语言处理能力是语音识别系统和计算机翻译的基础。基础。互联网上最火的网址都表明,它们欣赏互联网上最火的网址都表明,它们欣赏不精确而不会假装精确。不精确而不会假装精确。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物3.谷歌谷歌的数字图书馆的数字图书馆20042004年,年,谷歌谷歌发布了一个野心勃勃的计划:它试图发布了一个野心勃勃的计划:它试图把所有版权条例允许的书本内容进行数字化,让世把所有版权条例允许的书本内容进行数字化,让世界上所有的人都能通过网络免费阅读这些书籍。为界上所有的人都能通过

15、网络免费阅读这些书籍。为了完成这个伟大的计划,了完成这个伟大的计划,谷歌谷歌与全球最大和最著名与全球最大和最著名的图书馆进行了合作,并且还发明了一个能自动翻的图书馆进行了合作,并且还发明了一个能自动翻页的扫描仪,这样对上百万书籍的扫描工作才切实页的扫描仪,这样对上百万书籍的扫描工作才切实可行且不至于太过昂贵。可行且不至于太过昂贵。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物3.谷歌谷歌的数字图书馆的数字图书馆虽然这是一个现代的、数字化的亚历山大图书馆,比历史上任何一个图书馆都要强大,但谷歌依然希望它能做

16、得更多。谷歌知道,这些信息只有被数据化,它的巨大潜在价值才会被释放出来。因此谷歌使用了能识别数字图像的光学字符识别软件来识别文本的字、词、句和段落,如此一来,书页的数字化图像就转化成了数据化文本。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物3.谷歌谷歌的数字图书馆的数字图书馆如今,不仅人类可以使用这些文本信息,计算机也如今,不仅人类可以使用这些文本信息,计算机也可以处理和分析这些文本数据了。通过检索和查询,可以处理和分析这些文本数据了。通过检索和查询,我们可以对它进行无穷无尽的文本分析我们可以对它进行无

17、穷无尽的文本分析。数据化的实现让抄袭学术作品的行为越来越无数据化的实现让抄袭学术作品的行为越来越无处藏身,因此,很多欧洲政客的抄袭行为被曝处藏身,因此,很多欧洲政客的抄袭行为被曝光,最终不得不引咎辞职。光,最终不得不引咎辞职。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物4.谷歌谷歌街景与街景与GPS采集采集如今,如今,GPS已经只是众多定位系统中的一种了。已经只是众多定位系统中的一种了。这些新系统通过对电塔和无线路由器的信号强度这些新系统通过对电塔和无线路由器的信号强度进行三角测量来定位地理位置,从而弥

18、补了进行三角测量来定位地理位置,从而弥补了GPS无法在室内和高楼之间进行定位的缺陷无法在室内和高楼之间进行定位的缺陷。谷歌谷歌的街景车边拍照边收集无线路由器信息的街景车边拍照边收集无线路由器信息正是正是如此。如此。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物4.谷歌谷歌街景与街景与GPS采集采集除了人以外,除了人以外,谷歌谷歌也可以跟踪事物的地理位置信息。也可以跟踪事物的地理位置信息。随着汽车装上了无线传感器,地理位置信息随着汽车装上了无线传感器,地理位置信息的数据化深刻变革了保险的概念。这些数据的数据

19、化深刻变革了保险的概念。这些数据提供了关于时间、地点和实际行驶路程的详提供了关于时间、地点和实际行驶路程的详细信息,使保险公司能更好地为车险定价。细信息,使保险公司能更好地为车险定价。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物4.谷歌谷歌街景与街景与GPS采集采集通过汽车定位每个人的地理方位也改变了通过汽车定位每个人的地理方位也改变了一些固定资产投入的模式,比方说公路和一些固定资产投入的模式,比方说公路和其他基础设施可以让使用这些资源的司机其他基础设施可以让使用这些资源的司机和其他人分担一部分投入。和

20、其他人分担一部分投入。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物4.谷歌谷歌街景与街景与GPS采集采集 “谷歌街景”服务只是谷歌地图服务的补充。 谷歌公司希望用户将它和之前发布的“谷歌地球”结合起来,从而充分的了解地球上的每一个地区。 不过之前“谷歌地球”就曾遭受猛烈的批评,因为它通过卫星从高空拍摄,并向用户提供此类的地球照片。 这些照片大大流行,因为可以让人们看到地球上每一处角落。但是也有人认为卫星照片的精确程度太高,让人们感到仿佛受到了监视。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这

21、样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物5.谷歌谷歌的拼写检查的拼写检查 在过去的20多年中,微软为其Word软件开发出了一个强大的拼写检查程序,通过与频繁更的字典正确拼写相比较来对用户键入的字符流进行判断。字典囊括所有已知词汇,系统将拼写相似但字典中没有的词汇判断为拼写错误,并对其进行纠正。由于需要不断编译和更新字,微软Word的拼写检查仅适用于最常用的语言,且每年需要花费数百万美元的创建和维护费用。微软的拼写检查我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物5.

22、谷歌谷歌的拼写检查的拼写检查谷歌谷歌拥有世界上最完整的拼写检查器,基本上涵盖了拥有世界上最完整的拼写检查器,基本上涵盖了世界上的每一种语言。这个系统一直在不断地完善和世界上的每一种语言。这个系统一直在不断地完善和增加新的词汇,这是人们每天使用搜索引擎的附加结增加新的词汇,这是人们每天使用搜索引擎的附加结果。果。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物5.谷歌谷歌的拼写检查的拼写检查而且,而且,谷歌谷歌几乎是几乎是“免费免费”地获得了这种拼写地获得了这种拼写检查,它依据的是其每天处理的检查,它依据的是

23、其每天处理的30亿查询中输亿查询中输入搜索框中的错误拼写。一个巧妙的反馈循环入搜索框中的错误拼写。一个巧妙的反馈循环可以将用户实际想输入的内容告知系统。可以将用户实际想输入的内容告知系统。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物5.谷歌谷歌的拼写检查的拼写检查微软只看到了拼写检查作为文字处理这一个目微软只看到了拼写检查作为文字处理这一个目的的价值,而的的价值,而谷歌谷歌却理解了其更深层次的价值。却理解了其更深层次的价值。不仅利用错别字开发了世界上最好、最新式的不仅利用错别字开发了世界上最好、最新式的

24、拼写检查器来提高搜索质量,而且将其应用于拼写检查器来提高搜索质量,而且将其应用于许多其他服务中。许多其他服务中。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物大数据先锋:谷歌 作为典型的大数据公司,谷歌自然知道收集信息并进行数据化的价值,因为这些数据有非常多的潜在用途。所以,谷歌精明地利用这些数据化了的文本来改进它的服务。 此外,在收集数据时强调扩展性方面,谷歌毫无疑问是做得最好的公司之一。谷歌不仅将其用于基本用途,而且进行了大量的二次使用。 所以,谷歌当之无愧地可被称作大数据先锋!我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物谢谢谢谢观赏观赏

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 教案示例

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁