大数据的产业价值上.pdf

上传人:深夜****等你... 文档编号:84223303 上传时间:2023-04-04 格式:PDF 页数:6 大小:818.36KB
返回 下载 相关 举报
大数据的产业价值上.pdf_第1页
第1页 / 共6页
大数据的产业价值上.pdf_第2页
第2页 / 共6页
点击查看更多>>
资源描述

《大数据的产业价值上.pdf》由会员分享,可在线阅读,更多相关《大数据的产业价值上.pdf(6页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、谢谢观赏 谢谢观赏 谢谢观赏 谢谢观赏 大数据的产业价值(上)清华大学教授 大家好,我是来自清华大学的汪东升,今天我们讨论的题目是“大数据的产业价值”。目前,“云计算”、“物联网”、“智慧城市”、“互联网+”、“工业 2.0”以及“大数据”这些 热词,我们几乎每天都能听到。很多政府报告,包括各种媒体,都把这些热词称为第三次浪 潮,也是第三次的革命,也有些报告指出这是弯道超车的一个机会。为此,我结合这些热词,以大数据为重点探讨一下大数据的产业价值以及与其他热门名词的相互关系,以便于我们在 弯道的时候做到真正超车。我主要介绍以下三个方面:第一,大数据及其相关概念的理解;第二,大数据的产业价值;第三

2、,问题与建议。一、大数据及其相关概念的理解(一)大数据概念及其特点 这是我们从阿里 PPT 上摘录的一页。这是目前互联网上每 60 秒发生的事情,大家都能 体验到。比如全球 IP 网一分钟可以传送 639TB 以上的数据,我们用 Facebook、微信、Twitter 等社交媒体、社交网络发生若干次的访问,增量也是非常巨大的。比如苹果的应用下载 4.7 万亿次,以及其他方面的应用都是海量的数据。可以这样讲,在 2015 年要用五年时间才能看 完互联网上一秒内所存的视频,可见信息量之大,以及增长速度之快。由于数据量不断增加,会出现数据爆炸,知识反而是贫乏的,同时难以决策,对我们的 决策带来更大的

3、困难。从数据角度来说,可以有利于行业细分、数字化、多媒体、多维度、大规模和细粒度。从数字中,我们得到一些关联、模式、趋势、相关性关系以及分类,继而 为决策提供支持,包括市场定位、资金分配、产品选择、广告营销、时机选择以及位置选择。因此我们说,大数据时代到来了。1、大数据概念的发展脉络 大数据概念的发展脉络,我们简单地归结为以下这几个流程:2008 年,最初是在Nature 自然杂志上推出了一些大数据的装刊,对大数据的基本概念作了一些阐述;2010 年 4 月 21 日,这个概念首次列入维基百科的条目,并指出“大数据是指无法在一定时间内用常规软件 工具对其内容进行抓取、管理和处理的数据结合”;2

4、011 年 2 月,Scienee 推出专刊,说明大 数据对于科学研究的重要性;在2011 年 5 月,麦肯锡全球研究院发布了一份报告一一 大数 据:创新、竞争和生产力的下一个新领域,推动了工业性和学术界对大数据的关注,报告提 出,大数据是指具有以下三个特征的数据:大数据量、快速增长及多数据来源和类型;2011 年 11 月,IBM 在产品发布会上主推大数据的概念,并概括为 4 个 v 的特性,也就是大规模、多样化、快速增长以及潜藏价值;2012 年,美国国家科学基金发布大数据指南,指出大数据 是海量、多样、分布、异构的数据。2、大数据的构成 所谓大数据是指大交易数据、大交互数据和大数据处理的

5、统称。大交易数据包括在线的 交易处理、在线的分析处理以及数据仓库等。大交互数据就是我们经常用的 Twitter 等等这些社交媒体数据。这些数据集成在一起对于大数据的集成、分析以及决策提 Facebook、谢谢观赏 谢谢观赏 供了方便。从这张图上可以看出大数据的构成,大数据包括交易数据和交互数据在内的所有 数据集,因此大数据等于海量数据加上复杂类型的数据。所谓海量交易数据,就是我们经常 用的数据库数据,企业内部的经营交易信息,主要包括联机交易数据和联机分析数据,是结 构化的、通过关系数据库进行管理和访问的静态历史数据,我们进行查询统计能了解过去发 生的事情。另外一种是海量交互数据,比如 Face

6、book、Twitter、LinkedIn 以及微信等等,以及其他来源的社交媒体或社交构成,它包括呼叫详细记录 CDR 设备和存储传感信息、GPS 和地理定位映射信息、通过管理文件传输管理文件协议的海量图片文件,还有点击数字量、科学信息、电子邮件等等,可以预测未来,这些数据大多数是非结构化的数据。对于这样的 结构化数据和非结构化数据需要进行海量数据的处理,大数据的涌现已经催生出了设计用于 数据密集型处理的架构,比如一些科研架构,我们经常说的就是 Hadoop 等。3、大数据的基本概念 关于大数据没有标准的定义,这是一个英文的定义:大数据是一种数据,它具有可扩展 性、多样性、复杂性的特点,它需要

7、一种新的架构、新的技术、新的算法以及新的分析工具 去管理这些数据,同时从中抽取隐含在内的重要信息,这就是大数据的概念,它谈不上是一 个定义。关于大数据的概念,我们的理解是:大数据是指数据海量、计算复杂的数据集合,在一 定时间内难以依靠已有数据处理技术来进行有效的采集、管理和分析,通常可以用 4v 特点来 表示。这也不是一个标准的定义,只是一个概念,目前数据量不断地增大,类型不断地增多,我们现在的技术、结构和算法还无法支撑它、分析它,这是一个难题。4、大数据的特点 4v 特性主要是规模巨大、产生高速、形式多样、信息价值这 4 个 v 特性。规模巨大是指,非结构化数据的超大规模比结构化数据增长 1

8、0 倍到 50 倍;产生高速是指速度产生是非常巨 大的,实时分析而非批量式分析,数据输入、处理与丢弃,立竿见影而非事后见效,要求它 的实时性;形式多样也就是我们所说的异构性,数据包括文本、图象、视频、机器数据,模 式不明显,语法语义也不连贯;信息价值就是大量不相关的信息,对未来趋势与模式的深度 复杂分析,通过这些分析能得到我们所用的信息。因此,大数据就像“航母”,利用起来威力 巨大,放着不动也消耗巨大。(1)规模巨大 首先,规模是巨大的,从 TB 级别到 PB 一直到 ZB 的级别。关于数据的度量尺度,我们可 以看一下,TB是 10 的 12 次方,PB 是 10 的 15 次方,ZB 达到

9、10 的 21 次方。大数据包括 互联网的数据,2011 年产生量是1.8ZB,以每本书 10 兆字节来计算,这个数据相当于 700 万个中国国家图书馆的容量,可见它的数据是非常大的。同时还有医疗保健数据、海洋气象 数据以及基因工程等方面的数据。美国国立基金研究所宣布,“千人基金计划”所产生的数据 总量已达到 200TB,成为世界上最大的人类基因变异数据集。(2)产生高速 数据持续产生高速,并要求实时处理。我们看一下电信运营数据,联通上网记录每秒 83 万条,每月 1 万亿条,大概 300TB 的容量;天文数据五年的总数据量可以达到 15PB;还有企 业运行数据,到 2000 年时,全球新产生

10、的数据量为 1000PB 到 2000PB,到 2010 年全球企业 一年存储的数据量超过 7000PB,这是产生谢谢观赏 谢谢观赏 高速的一个特点。(3)形式多样 数据来源和数据通道也是多方面的,比如多样化的数据来源,从 Twitter、谷歌、Facebook、手机等等各种终端来的数据也是非常丰富多彩的。因此下一个特点是形式多样,各种类型的数据,包括语音、图片、音频、视频、地理位置信息等非结构化数据,个性化数 据占绝大多数。大数据时代,数据呈爆炸的趋势,in ternet 一分钟发生了 639TB 的网络流量,同时有两亿封邮件、70 万份的 Facebook 更新、30小时的 YouTube

11、 新增视频、70 万个谷歌搜 索,可见数据是爆炸性的增长,不断产生的。(4)信息价值 从信息的价值角度来说,可用信息在数据总量中的比例低,其潜在价值是巨大的。每一 个信息给我们的信息量是非常小的,但是把它们归结在一起,通过有效的手段进行提取分析 会得到非常有用的高效信息。以视频为例,7X24 小时的全程视频监控中,可能有用的数据仅 仅只有一两秒,有用信息在数据总量中的比例低,但是潜在的价值是非常大的,比如大量的 视频中我们可以找到犯罪嫌疑人,杀人恶魔周克华就是从这种视频监控的海量信息中查找出 来的。大数据时代的市场空间非常巨大,数据已经成为一种资产,像货币和黄金一样,“21 世 纪的原油”这种

12、说法可不是随便说的,说明数据对于我们国家的战略、对国民技术发展起到 非常重要的作用,就像原油一样。全球未来 5 年 58%勺增速,到 2017 年可以达到 500 亿美元。中国 2013 年增速为 138%2016 年市场将达到 100 亿,这就是 2012 年到 2017 年的增速情况,几乎呈线性增长。2012 年到 2017 年,中国的大数据市场规模也非常巨大,2011 年被称为中 国大数据的市场元年,2012 年到 2016 年迎来了大数据飞速发展时期,2012 年中国大数据市 场规模达到 4.7 亿元,2013 年大数据市场迎来增速 138%的飞跃,到 2016 年整个市场规模逼 近百

13、亿。这是2012 年各行业大数据的市场规模,政府、互联网、电信、金融的大数据市场规 模较大,4 个行业将占据一半的市场份额,由于各个企业都存在大数据应用需求,潜在市场 空间是非常巨大的,这里面包括政府、互联网、电信、流通、金融、医疗、制造、零售、教 育、能源等等各个方面的市场规模情况。冈財我们总结了大数据的 4v 特点,同时大数据在不同行业中也呈现出不同的特点,在银 行、保险、政府、零售、批发等应用中的数据特点是不一样的。比如在数据量方面,健康医 疗的数据量是失踪的,不是特别多,而在银行保险方面,数据量是非常大的;对于速度的要 求,比如银行、保险的速度也非常快,对批发这种行业来说,它的数据产生

14、速度就相对要小 很多;同时,各个行业没有利用的所谓“黑数据”也不一样。(二)相关概念与关系分析 从计算机发展来看,大数据经过架构化、数字化、网络化以及智慧化发展的流程。智慧 化反映的特点就是移动互联网、云计算、物联网和大数据。大数据不是独立存在的,它的产 生、处理以及利用一定要与我们所接触的一些概念相关联,相关概念包括云计算、物联网以 及与大数据之间的关系,这三者是相辅相成的。这是我在西安看到的一个出租车,出租车上面的广告牌同时出现“关爱社会、关爱自 然”,这就是所谓的云广告,这种视觉效果非常好,一般来说出租车广告牌我是不看的,但是 每辆出租车同时出现的字我就会关注,这是所谓云广告的具体应用。

15、马航失事的飞机叫 MH370 如果云计算应用于飞机的黑匣子,那么与我们现在用的黑匣 子技术相结合是非常圆满的一件事情,空中乘客可以上网,这种云匣子可以通过各种传感信 息、湿度、温度以谢谢观赏 谢谢观赏 及摄像等等数据及时地传到地面上,从技术角度来说已经不成任何问题,这对以后查找事故信息是非常方便的。另外,云计算过去对于维护、人员、培训、运维等等 方面会带来很大的好处,同时在安检的可靠性、水电、安保方面也有很大的优点。什么是云计算?云计算概念也是众说纷纭,没有统一的定义,现在很多定义尝试着从学 术架构、工程师、开发人员、管理人员等不同的角度去定义。这是维科百科的定义:云计算 是一种基于互联网的计

16、算方式,通过这种方式共享了软硬件资源和信息,可以按需提供给计 算机和其他设备。我们认为,云计算是指服务的交互和使用模式,用户通过网络以按需、易 扩展的方式获得所需的服务。因此,云计算不是概念,不是操作,不是口号,不是超级计算,也不是网格计算。云计算包括后续提出的海计算、框计算、风计算等等,它应该是一种新的 创新模式、商业模式、新的运营模式,是成本、效用、应用至上,是大众参与的一个舞台。云计算的实质,简单说就是计算虚拟化、存储虚拟化、网络虚拟化的结合,继而实现数据更 新的虚拟化过程。我把住房和云计算结合在一起,目的是说明云计算和这种概念一起接受的容易程度。从 住房角度来说,我国住房小康指数各个城

17、市的住房自有率是不同的,中国家庭金融调查报告 中国住房自有率是 89.68%,世界平均是 60%瑞士是 31%随后是瑞典和德国。住房自有率 最高的是亚美尼亚,1998 年达到最高值 96.3%。住房自有率高的国家几乎都是经济水平发展 比较低的转轨国家,而住房自有率低的国家则是经济发达的国家。由于发达国家人口流动性 强,为了减少住房买卖的麻烦,很多人宁愿租房而不是买房。相反,落后国家人口流动性差,拥有自有住房的家庭反而更可能居住在自己拥有的家庭中。因此,虽然云计算在我们国家风 起云涌,也用得比较好,其实在接受程度上应该说是和住房一样,还是有一定的难度。举例说明,比如北京北五环的房子一平方在 5

18、万以上,120 平方的房子需要 600 万以上 的钱去购买,假如我不买房,靠 600 万靠投资理财,假如每年有 5%到 10%勺收益,那一年可 以收 30-60 万的收益。考虑到物价的增长,我把这些钱放到一个地方进行理财,靠这些利息 完全可以在北京租房的价格下进行租房,比如每个月用租金一万,相比 120 平方的住房,无 需物业费、维修、维护、折旧的房产税等等,这就是租房和住房的概念。所谓租房的概念,就像云计算资源一样具有服务的意识和理念,买房和租房这种理念和云计算资源的租用其实 是一样的。另外,从住房的云计算做的比较,云计算安全是最重要的,那是不是云计算就一定安全?以住房为例说明云计算的安全问

19、题,这也是一个双刃剑。比如现在我可以不住房,可以租房 或者住宾馆。以住宾馆为例,假如一年用 30 万到 60 万住宾馆,其实我未必每天都住,我可 以想住就住,可以不住的时候可以住在朋友家或者父母家里面,客房的卫生、餐饮都不用管,这也都是云计算能提供的方便,同时我可以拎包入住,这就是云计算所说的 PaaS SaaS 的概念。安全是双刃剑,为什么?有的人说云计算是非常安全的,我不认可,有人说住在家 里非常安全我也不认可。宾馆安全还是家里安全?我们认为宾馆是安全的,因为宾馆有保安 我们家里没有保安,但是如果把钱放在宾馆里面,放在床上和放在家里,这时候安全度又是 不一样的。这就说明了宾馆里面可能还会存

20、在内鬼,那云计算也是如此,云计算的基础设施、安全设施是非常完备的,从总体来看是安全的,但是你的数据放在云里面,对这种云的管理 来说又是不安全的,因为它可能有内鬼。云计算的关键技术包括虚拟化、安全、可靠、绿色节能等等很多方面。云计算安全问题 是云计算得以应用发展的一个最大障碍,表现在几方面:第一,虚拟化技术带来新的安全威 胁;第二是数据集中存储引发的安全谢谢观赏 谢谢观赏 问题;第三是云服务和管理和调度产生的安全问题,以 及传统安全威胁的一些新特点,会引起新的问题。这是对云计算面临的问题进行的一个设计 图,从使用者角度来说,隐私数据保护和数据安全,运行环境的安全以及内容安全,都是他 所关心的。这

21、个安全问题主要是在这么几个方面:云计算安全问题主要在用户角度、运营商 角度、国家和第三方监管部门的角度都存在着安全,这个安全就像一个多米诺骨牌效应,一 旦这三方面有一方面倒塌,那整个安全就有很大的问题。在云计算方面主要存在的问题有哪些?简单的说,目前我国的形势是重设施、轻应用,行业地域特色要求云计算发展模式的差异化,但是花钱买服务和服务意识的加强还有待于提 高。另外,安全隐私是大问题,安全的意识、技术和立法方面还有所欠缺,以及云计算个性 化和标准化的矛盾也是目前存在的主要问题。我们还经常提到一些概念,比如智慧城市带动行业云的发展,智慧城市需要数据的融合。目前,各个城市、各个部门存在的大量信息孤

22、岛也存在了很多大数据,是智慧城市产生大数 据的一个源泉,同时也是大数据为智慧城市提供重要的一个基础。智慧城市要求物联网和云 计算的结合,云计算是物联网的基础,物联网则是一种应用,云手机、云电视是一种终端多 样化的体现,云服务器虚拟化是一种成本架构。有人经常会问我,我的单位是不是一定要有 云?是不是一定要把我的信息存到云里面?我说未必,这要根据情况来看,根据你的成本结 构,根据你的访问速度等等,进行综合化的考虑。另外大数据的收集、存储、管理、分析离 不开云计算,云是大数据的重要来源,也是归宿之一。这是一个简单的云计算、物联网和大数据的关系。云计算、物联网的核心是数据,数据 不能以单独形式存在,云

23、计算是一种计算和业务模式,物联网是一种应用模式,而大数据则 是财富、资产和隐性货币。这是三者之间关联的示意图,这是我在一本书上看到的,这里是 一个大脑,前面的视觉、触觉、听觉等等,就相当于物联网进行虚拟的听觉系统、虚拟的视 觉系统、虚拟的感觉系统、虚拟的运行系统,通过物联网进行音频、视频等内容的采集。后 面是传统的互联网介入,笔记本、台式机进入物联网也是获取数据,还有移动物联网通过手 机终端、IPAD 等等也可以获取一些数据。这些数据就是大数据的来源之一。这些大数据在我 们大脑里经过软件以及硬件的处理就可以提供一些决策信息,挖掘出有用的东西,这个大脑 就相当于云计算平台,是处理和获取大数据的一个平台,在这个平台基础上大数据进行存储、组织、管理,同时对大数据进行分析,这就是三者之间的关联示意。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 小学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁