《大数据如何启迪未来培训资料9981.docx》由会员分享,可在线阅读,更多相关《大数据如何启迪未来培训资料9981.docx(29页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、入木三分:“大数据”如何启迪未来也就是这一两年的光景,我们在朦胧之中仿佛已经进入了一个言必称“大数据”的时代。就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源头,而更多的改变正蓄势待发。大数据激发了一场思想风暴,导演了一场思维变革。大数据正以前所未有的速度颠覆人们探索世界的方法,引起社会、经济、学术、科研、国防、军事等领域的深刻变革。执迷于精确性已然成为信息缺乏时代、模拟时代的产物;允许不精确、宽容混杂性将不可竭力避免,而是被证明的标准途径。那些总是爱追因溯源、刨根问底的人们或许会被遗弃,因为大数据时代里,由果追因
2、已经是明日黄花的“伎俩”,只要“是什么”“不要问我为什么”成为了最佳答案。因为数据呈现的相关性已经可以满足大部分人的认知需求,而透过大数据现象挖掘事物本质,个中成本(时间、物质)也不是深谙博弈之道的人们所愿担负的。数据成为资产、产业垂直整合、泛互联网化是大数据时代的三大发展趋势。数据资产成为和土地、资本、人力并驾齐驱的关键生产要素。围绕数据资产,一幕幕跌宕起伏的产业大戏已经上演。本文就将带您去深入了解“大数据”概念,带领您去领略大数据时代的“造化”。为您送上一颗“子弹”,引发您的“头脑风暴”,覆灭您的保守之心,怠慢之气!大数据:引领人类数据生成方式步入高级阶段数据生成的的“自主时时代”人类历史
3、上上从未有有哪个时时代和今今天一样样产生如如此海量量的数据据。数据据的产生生已经完完全不受受时间、地地点的限限制。从从开始采采用数据据库作为为数据管管理的主主要方式式开始,人人类社会会的数据据产生方方式大致致经历了了三个阶段段,而正正是数据据产生方方式的巨巨大变化化才最终终导致大大数据的的产生。首先是运营营式系统统阶段。数数据库的的出现使使得数据据管理的的复杂度度大大降降低,实实际中数数据库大大都为运运营系统统所采用用,作为为运营系系统的数数据管理理子系统统。比如如超市的的销售记记录系统统,银行行的交易易记录系系统、医医院病人人的医疗疗记录等等。人类类社会数数据量第第一次大大的飞跃跃正是建建立
4、在运运营式系系统开始始广泛使使用数据据库开始始。这个个阶段最最主要特特点是数数据往往往伴随着着一定的的运营活活动而产产生并记记录在数数据库中中的,比比如超市市每销售售出一件件产品就就会在数数据库中中产生相相应的一一条销售售记录。这这种数据据的产生生方式是是被动的的。然后是用户户原创内内容阶段段。互联联网的诞诞生促使使人类社社会数据据量出现现第二次次大的飞飞跃。但但是真正正的数据据爆发产产生于WWeb 2.00 时代代,而WWeb 2.00 的最最重要标标志就是是用户原原创内容容(UGGC,UUserr Geenerrateed CConttentt)。这这类数据据近几年年一直呈呈现爆炸炸性的增
5、增长,主主要有两两个方面面的原因因。首先先是以博博客、微微博为代代表的新新型社交交网络的的出现和和快速发发展,使使得用户户产生数数据的意意愿更加加强烈。其其次就是是以智能能手机、平平板电脑脑为代表表的新型型移动设设备的出出现,这这些易携携带、全全天候接接入网络络的移动动设备使使得人们们在网上上发表自自己意见见的途径径更为便便捷。这这个阶段段数据的的产生方方式是主主动的。而今,我们们进入了了感知式式系统阶阶段。人人类社会会数据量量第三次次大的飞飞跃最终终导致了了大数据据的产生生,今天天我们正正处于这这个阶段段。这次次飞跃的的根本原原因在于于感知式式系统的的广泛使使用。随随着技术术的发展展,人们们
6、已经有有能力制制造极其其微小的的带有处处理功能能的传感感器,并并开始将将这些设设备广泛泛的布置置于社会会的各个个角落,通通过这些些设备来来对整个个社会的的运转进进行监控控。这些些设备会会源源不不断的产产生新数数据,这这种数据据的产生生方式是是自动的的。简单来说,数数据产生生经历了了被动、主主动和自自动三个个阶段。这这些被动动、主动动和自动动的数据据共同构构成了大大数据的的数据来来源,但但其中自自动式的的数据才才是大数数据产生生的最根根本原因因。正如Goooglee 的首首席经济济学家HHal Varriann 所说说,数据据是广泛泛可用的的,所缺缺乏的是是从中提提取出知知识的能能力。数数据收集
7、集的根本本目的是是根据需需求从数数据中提提取有用用的知识识,并将将其应用用到具体体的领域域之中。从“池塘捕捕鱼”到“大海捕捕鱼”“大数据时时代的预预言家”维克托托迈尔-舍恩伯伯格(VVikttor Mayyer-Schh nbbergger),在在其所著著的大大数据时时代一一书中就就阐释所所谓“大数据据”的含义义,即不仅仅人类生生产和生生活中“有意义义”的信息息海量产产生,相相比以往往呈几何何数级的的爆炸式式增长,“无意义”的数据的膨胀速度也同样惊人;而且,政府、企业已经具备了全面采集“大数据”并予以无遗漏分析的技术能力。大数据本身身是一个个比较抽抽象的概概念,单单从字面面来看,它它表示数数据
8、规模模的庞大大。但是是仅仅数数量上的的庞大显显然无法法看出大大数据这这一概念念和以往往的“海量数数据”(Maassiive Datta)、“超大规模数据”(Very Large Data)等概念之间有何区别。对于大数据尚未有一个公认的定义,不同的定义基本是从大数据的特征出发,通过这些特征的阐述和归纳,试图给出其定义。在这些定义中,比较有代表性的是3V 定义,即认为大数据需满足三个特点:规模性(Volume)、多样性(Variety)和高速性(Velocity)。除此之外,还有提出4V 定义的,即尝试在3V 的基础上增加一个新的特性。关于第四个V 的说法并不统一,IDC市场研究公司(Intern
9、ational Data Corporation全球领先之科技产业媒体、研究及活动公司)认为大数据还应当具有价值性(Value),大数据的价值往往呈现出稀疏性的特点。而IBM (International Business MachinesCorporation国际商业机器有限公司)认为大数据必然具有真实性(Veracity)。维基百科对大数据的定义则简单明了:大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。从数据库(Dattabaase, DBB)到大大数据(Bigg Daata, BDD),看看似只是是一个简简单的技技术演进进,但细细细考究究不难发发现两者者有
10、着本本质上的的差别。大大数据的的出现,必必将颠覆覆传统的的数据管管理方式式。在数数据来源源、数据据处理方方式和数数据思维维等方面面都会对对其带来来革命性性的变化化。如果果要用简简单的方方式来比比较传统统的数据据库和大大数据的的区别的的话,我我们认为为“池塘捕捕鱼”和“大海捕捕鱼”是个很很好的类类比。“池塘捕捕鱼”代表着着传统数数据库时时代的数数据管理理方式,而而“大海捕捕鱼”则对应应着大数数据时代代的数据据管理方方式,“鱼”是待处处理的数数据。“捕鱼”环境条条件的变变化导致致了“捕鱼”方式的的根本性性差异。这这些差异异主要体体现在如如下几个个方面:数据规模:“池塘”和“大海”最容易易发现的的区
11、别就就是规模模。“池塘”规模相相对较小小,即便便是先前前认为比比较大的的“池塘”,譬如如VLDDB(VVeryy Laargee Daatabbasee),和和“大海”XLDDB(EExtrremeely Larrge Dattabaase)相比仍仍旧偏小小。“池塘”的处理理对象通通常以MMB 为为基本单单位,而而“大海”则常常常以GBB,甚至至是TBB、PBB为基本本处理单单位。数据类型:过去的的“池塘”中,数数据的种种类单一一,往往往仅仅有有一种或或少数几几种,这这些数据据又以结结构化数数据为主主。而在在“大海”中,数数据的种种类繁多多,数以以千计,而而这些数数据又包包含着结结构化、半半结
12、构化化以及非非结构化化的数据据,并且且半结构构化和非非结构化化数据所所占份额额越来越越大。模式(Scchemma)和和数据的的关系:传统的的数据库库都是先先有模式式,然后后才会产产生数据据。这就就好比是是先选好好合适的的“池塘”,然后后才会向向其中投投放适合合在该“池塘”环境生生长的“鱼”。而大大数据时时代很多多情况下下难以预预先确定定模式,模模式只有有在数据据出现之之后才能能确定,且且模式随随着数据据量的增增长处于于不断的的演变之之中。这这就好比比先有少少量的鱼鱼类,随随着时间间推移,鱼鱼的种类类和数量量都在不不断的增增长。鱼鱼的变化化会使大大海的成成分和环环境处于于不断的的变化之之中。处理
13、对象:在“池塘”中捕鱼鱼,“鱼”仅仅是是其捕捞捞对象。而而在“大海”中,“鱼”除了是是捕捞对对象之外外,还可可以通过过某些“鱼”的存在在来判断断其他种种类的“鱼”是否存存在。也也就是说说传统数数据库中中数据仅仅作为处处理对象象。而在在大数据据时代,要要将数据据作为一一种资源源来辅助助解决其其他诸多多领域的的问题。处理工具:捕捞“池塘”中的“鱼”,一种种渔网或或少数几几种基本本就可以以应对,也也就是所所谓的OOne Sizze FFitss Alll。但但是在“大海”中,不不可能存存在一种种渔网能能够捕获获所有的的鱼类,也也就是说说No Sizze FFitss Alll。从“池塘”到“大海”,
14、不仅仅仅是规规模的变变大。传传统的数数据库代代表着数数据工程程(Daata Enggineeeriing)的处理理方式,大大数据时时代的数数据已不不仅仅只只是工程程处理的的对象,需需要采取取新的数数据思维维来应对对。图灵灵奖获得得者、著著名数据据库专家家Jimm Grray 博士观观察并总总结人类类自古以以来,在在科学研研究上,先先后历经经了实验验、理论论和计算算三种范范式。当当数据量量不断增增长和累累积到今今天,传传统的三三种范式式在科学学研究,特特别是一一些新的的研究领领域已经经无法很很好的发发挥作用用,需要要有一种种全新的的第四种种范式来来指导新新形势下下的科学学研究。基基于这种种考虑,
15、JJim Graay 提提出了一一种新的的数据探探索型研研究方式式,被他他自己称称之为科科学研究究的“第四种种范式”(Thhe FFourrth Parradiigm)。第四种范式式的实质质就是从从以计算算为中心心,转变变到以数数据处理理为中心心,也就就是我们们所说的的数据思思维。这这种方式式需要我我们从根根本上转转变思维维。正如如前面提提到的“捕鱼”,在大大数据时时代,数数据不再再仅仅是是“捕捞”的对象象,而应应当转变变成一种种基础资资源,用用数据这这种资源源来协同同解决其其他诸多多领域的的问题。计计算社会会科学(Commputtatiionaal SSociialSScieencee)基于
16、于特定社社会需求求,在特特定的社社会理论论指导下下,收集集、整理理和分析析数据足足迹(ddataapriint),以便便进行社社会解释释、监控控、预测测与规划划的过程程和活动动。计算算社会科科学是一一种典型型的需要要采用第第四种范范式来做做指导的的科学研研究领域域。Duuncaan JJ. WWattts 在在自然然杂志志上的文文章AAtweentyy-fiirstt ceentuury sciiencce也也指出借借助于社社交网络络和计算算机分析析技术,221 世世纪的社社会科学学有可能能实现定定量化的的研究,从从而成为为一门真真正的自自然科学学。从云计算到到大数据据如今,大数数据的重重要性
17、越越来越明明显,但但就和云云计算一一样,它它也不是是一个从从天而降降的新事事物,而而是在三三个主要要因素的的驱动下下,逐步步成长成成熟的。大数据的驱驱动力第一个驱动动力,就就是业界界常说的的大数据据的三个个V(VVoluume, Vaarieety, Veeloccityy),而而这三个个V可以以有多种种解读。首先来看看看第一个个V,巨巨大的数数据量与与数据完完整性。IIT业界界所指的的数据,诞诞生不过过60多多年。而而一直到到PC普普及到千千家万户户之前,由由于存储储、计算算和分析析工具的的技术和和成本限限制,许许多自然然界和人人类社会会值得记记录的信信号,并并未形成成数据几十十年前,气气象
18、、地地质、石石油物探探、出版版业、媒媒体业和和影视业业是大量量、持续续产出信信号的行行业,但但那时990%以以上采用用的是存存储模拟拟信号,难难以通过过计算设设备和软软件进行行直接分分析。那那些拥有有大量资资金和人人才的政政府和企企业,也也只能把把少量最最关键的的信号,进进行抽取取、转换换、装载载到数据据库中。 值得注意的的是,业业界对达达到怎样样的数量量级才算算是大数数据并无无定论,其其实在很很多行业业的应用用场景里里,数据据集本身身的大小小并不是是最重要要的,是是否完整整才最重重要。第二个V,在在海量、种种类繁多多的数据据间发现现其内在在关联。互互联网时时代,各各种设备备通过TTCP/IP
19、网网络连成成了一个个整体。进进入Weeb 22.0时时代,PPC用户户不单单单可以通通过网络络获取信信息,还还成为了了信息的的制造者者和传播播者。这这个阶段段,不仅仅是数据据量开始始了爆炸炸式增长长,数据据种类也也开始变变得繁多多从技技术角度度看,可可以称之之为结构构化数据据、半结结构化数数据、非非结构化化数据和和流式数数据。220055年,微微软亚洲洲研究院院一年一一度的“21世世纪的计计算”大会将将主题设设定为“Datta CCenttricc Coompuutinng”,也就就是“以数据据为中心心的计算算”,那时时业界就已已建立了了这样的的认知:价值来来自于数数据,或或者说,数数据一直直
20、都是有有价值的的商业资资产此前,人人们往往往过于重重视“计算和和存储性性能的提提升”;而从从那时起起,业界界就已更更关注“数据分分析和处处理的效效率”对海海量数据据进行分分析、处处理和集集成,找找出原本本看来毫毫无关系系的那些些数据的的“关联性性”,把似似乎没有有用的数数据变成成有用的的信息,以以支持我我们做出出的判断断。 第三个V,可可以理解解为更快快地满足足实时性性需求。如如今,通通过各种种有线和和无线电电网络,人人和人、人人和各种种机器、机机器和机机器之间间无处不不在的连连接,这这些连接接不可避避免地带带来数据据交换,而而数据交交换的关关键是降降低延迟迟要解解决数据据产生、传传输、处处理
21、、存存储、抽抽取、分分析、可可视化等等各个环环节带来来的延时时,以近近乎实时时(这意意味着小小于2550毫秒秒)的方方式呈献献给用户户。 如今,数据据的实时时化需求求越来越越清晰。用用户想驾驾车去吃吃饭,先先用地图图应用查查询餐厅厅的位置置、预计计行车路路线的拥拥堵情况况、停车车场信息息甚至是是其他用用户对餐餐厅的评评论。吃吃饭的过过程中,他他会用手手机拍摄摄食物的的照片,编编辑简短短的评论论,发布布到微博博上,还还可以用用LBSS应用查查找在同同一间餐餐厅吃饭饭的人,看看有没有有好友在在附近第二个驱动动力,是是云计算算的普及及和成为为主流。云计算和大数据到底有什么区别?前两年大家都在讲云计算
22、,现在怎么又变成大数据了?微软全球资深副总裁,微软(中国)有限公司董事长张亚勤对此解释说,其实,云计算和大数据是一个硬币的两面,云计算是大数据的IT基础,而大数据是云计算的一个杀手级应用。由于云计算的普及和成为主流,让上述三个V不再成为挑战,反而成为大数据成长的驱动力。另一方面由于数据越来越多、越来越复杂、越来越实时,这就更加需要云计算去处理,所以二者之间是相辅相成的。举例而言,30年前存储1TB数据的成本大约是16亿美元,如今存储到云上只需不到100美元;但存储下来的数据,如果不以云计算进行挖掘和分析,就只是僵死的数据,没有太大价值。 第三个驱动动力,是是人工智智能、机机器学习习和数据据挖掘
23、等等技术的的迅速发发展。在在这样的的背景下下,以微软为例例,它已已经可以以为用户户提供三三个层次次的端到到端大数数据解决决方案其一一是数据据管理,即即如何获获取、存存储和保保护数据据;其二二是数据据丰富,即即如何清清洗、发发现不同同数据间间的数据据相关性性;其三三是,数数据洞察察力,即即通过分分析、呈呈现与决决策工具具,获得得洞察力力,并最最终通过过付诸行行动,产产生价值值。 通俗的说,就就是将信信号转化化为数据据,将数数据分析析为信息息,将信信息提炼炼为知识识,以知知识促成成决策和和行动。归归根到底底,大数数据的最最终意义义在于获获得洞察察力和价价值,这这也正是是大数据据的第四四个V(VVa
24、luue),这这个V比比前面的的三个VV都更重重要。大数据塑造造科技、商业新态态势在科技、商商业领域域,大数数据具备备极大的的想象空空间。上上个世纪纪七十年年代,纽纽约的治治安状况况很糟糕糕。一位位名叫杰杰克迈普(JJackk Maaplee)的年年轻警察察根据个个人警务务经验,发发明了一一种名为为“未来图图表”(Chhartts oof tthe futturee)的犯犯罪预测测方法论论,可以以根据过过往抢劫劫案的记记录数据据来推测测新案件件可能发发生的时时间与地地点。这这种方法法真的有有效,119944年,新新上任的的纽约市市警察局局局长开开发了“未来图图表”的电子子版,将将之更名名为“C
25、ommpSttat”,推广广至全市市的警务务系统。CComppStaat的技技术核心心是犯罪罪测绘系系统(CCrimme MMapppingg Syysteem)和和数据库库采集系系统(DDataabasse CColllecttionn Syysteem),而而微软的的Miccrossoftt MaapPoointt、Acccesss、EExceel等产产品为两两个系统统提供了了坚实的的支撑基于于大量的的数据采采撷、挖挖掘和分分析工作作,纽约约警察局局尝试对对历史上上犯罪分分子的行行为规律律进行归归纳和总总结,并并有效地地改善了了城市的的治安。数数据显示示,在CComppStaat得到到推广
26、应应用后,119955年,纽纽约的凶凶杀案发发生率降降低了约约25%,车辆辆盗窃案案发生率率降低了了约244%,而而且这些些数字还还随着IIT软硬硬件技术术的持续续更新和和CommpSttat系系统的不不断完善善而逐年年下降。 未来,透过过技术手手段完全全遏制犯犯罪行为为,让每每一个城城市和地地区的居居民时时时刻刻都都安全无无虞这或许许不是梦梦想。220122年8月月,纽约约市长迈迈克尔布隆伯伯格(MMichhaell Blloommberrg)亲亲手揭开开了纽约约警察局局与微软软携手开开发的城城域感知知系统(DDAS,DDomaain Awaarennesss Syysteem)的的面纱。该
27、该系统将将覆盖整整个纽约约市的330000多个监监控摄像像头、226000多枚辐辐射探测测器、几几百个车车牌信息息读取装装置所收收集的信信息汇总总到警方方数据库库中,可可结合探探测数据据、实时时影像、9911报报警电话话和警方方积累的的罪案历历史档案案,帮助助警方更更准确地地侦测并并锁定即即将发生生的犯罪罪活动及及嫌疑人人。 对商业竞争争的参与与者们来来说,大大数据意意味着激激动人心心的业务务与服务务创新机机会。零零售连锁锁企业、电电商业巨巨头都已已在大数数据挖掘掘与营销销创新方方面有着着很多的的成功案案例,它它们都是是商业嗅嗅觉极其其敏锐、敢敢于投资资未来的的公司,也也因此获获得了丰丰厚的回
28、回报。 而对于那些些拥有行行业经验验,并熟熟练掌握握云计算算开发和和应用技技能的小小型企业业,尤其其是初创创企业来来说,则则更是意意义非凡凡。最近近几年,我我们看到到的一些些明星初初创公司司,比如如Clooudeera, Spplunnk, Kloout, TeellAAparrt等,人人员规模模只在数数十人,但但对某个个行业拥拥有深厚厚知识,并并能通过过云和大大数据的的技术手手段,快快速解决决该行业业的共性性需求和和痛点在未未来数年年,这样样的“小而精精”、“快而准准”企业会会越来越越多,并并做出有有可能改改变世界界的颠覆覆性产品品。很高高兴看到到,在北北京中关关村,在在微软的的云加速速器二
29、期期,也有有类似的的初创企企业加入入,和硅硅谷、海海法的创创业者们们一起,把把握住了了时代的的脉搏。大数据时代代的到来来大数据时代代的急先先锋纽约时报报把220122年定义义为“大数据据的十字字路口”。大数据据之所以以进入主主流大众众的视野野,源自自三种趋趋势的合合力:第一,许多多高端消消费品公公司加强强了对大大数据的的应用。社社交网络络巨擎 Facceboook 使用大大数据来来追踪用用户在其其网络的的行为,通通过识别别你在它它的网络络中的好好友,从从而给出出新的好好友推荐荐建议,用用户拥有有越多的的好友,他他们与 Facceboook之之间的黏黏度就越越高。更更多的好好友意味味着用户户会分
30、享享更多照照片、发发布更多多状态更更新、玩玩更多的的游戏。商商业网站站LinnkdIIn则使使用大数数据在求求职者和和招聘职职位之间间建立关关联。有有了LiinkddIn,猎头们们再也不不用向潜潜在的受受聘者打打陌生电电话来碰碰运气,而而可以通通过简单单的搜索索找出潜潜在受聘聘者并联联系他们们。与此此相似,求求职者也也可以通通过联系系网站上上其他人人,自然然而然地地将自己己推销给给潜在的的雇主。第二,以上上两家公公司都在在20112年早早些时候候陆续上上市。FFaceeboook 在在纳斯达达克上市市,LiinkeedInn 在纽纽约证券券交易所所上市。这这两家企企业和谷谷歌一样样,虽然然表面
31、上上是消费费品公司司,然而而其本质质是大数数据企业业。除去去这两家家,Spplunnk 也也在 220122 年完完成了上上市,它它是一家家帮助大大中型企企业提供供运营智智能的大大数据企企业。这这些企业业的公开开上市提提高了华华尔街对对于大数数据的兴兴趣。这这种兴趣趣带来了了空前的的盛况硅谷谷的风险险投资家家们开始始前仆后后继地投投资大数数据企业业。大数数据将引引发下一一波创业业大潮,而而这次浪浪潮有望望让硅谷谷在未来来几年取取代华尔尔街。第三,亚马马逊、FFaceeboook、LLinkkedIIn 和和其他以以数据为为核心消消费品的的活跃用用户们,开开始期待待自己在在工作中中也能获获得畅通
32、通无阻地地使用大大数据的的体验,而而不再仅仅仅限于于生活娱娱乐。用用户们此此前一直直想不通通,既然然互联网网零售商商亚马逊逊可以推推荐阅读读书目、推推荐电影影、推荐荐可供购购买的产产品,为为什么他他们所在在的企业业却做不不到类似似的事情情。比如如,既然然汽车租租赁公司司拥有客客户过去去租车的的信息和和现有可可用车辆辆库存的的信息,这这些公司司为何就就不能在在向不同同的租车车人提供供合适的的车辆方方面做得得更智能能一点?公司还还可以通通过新的的技术,将将公开信信息利用用起来比如如某个特特定市场场的状况况,会议议活动信信息,以以及其他他可能会会影响市市场需求求和供给给的事件件。通过过将内部部供应链
33、链数据和和外部市市场数据据结合在在一起,公公司就可可以更加加精确地地预测什什么车辆辆可用,以以及可用用时间。与与此类似似,零售售商应当当可以将将来自外外部的公公开数据据和内部部数据结结合在一一起,利利用这种种混合的的数据进进行产品品定价和和市场布布局。同同时还可可以同时时考虑影影响现货货供应能能力的多多种因素素以及消消费者购购物习惯惯,包括括哪两种种产品相相搭配会会卖得更更好,这这样零售售商就可可以提升升消费者者的平均均购买量量,从而而获得更更高的利利润。大数据时代代的急先先锋谷歌。谷歌的的体量和和规模,使使它拥有有比其他他大多数数企业更更多的应应用大数数据的途途径。谷谷歌的优优势之一一在于,
34、它它拥有一一支软件件工程师师部队,这这使得谷谷歌能够够从无到到有地建建立大数数据技术术。谷歌歌的另一一个优势势在于它它所拥有有的基础础设施。谷谷歌搜索索引擎本本身的设设计,就就旨在让让它能够够无缝链链接成千千上万的的服务器器。如果果出现更更多的处处理或存存储需要要,抑或或某台服服务器崩崩溃,谷谷歌的工工程师们们只要再再添加更更多的服服务器就就能轻松松搞定。谷歌软件技技术的设设计也秉秉持着同同样的基基础设施施理念。MMapRReduuce(谷歌开开发的编编程工具具,用于于大规模模数据集集的并行行运算。)和谷歌歌文件系系统(GGooggle Fille SSysttem)就是两两个典型型的例子子。
35、连连线杂杂志在 20112年初初夏曾报报道称,这这两个软软件系统统“重塑了了谷歌建建立搜索索索引的的方式”。为数众众多的企企业如今今开始使使用Haadooop, 它是MMapRReduuce和和谷歌文文件系统统的一种种开源衍衍生产品品。Haadooop允许许横跨多多台电脑脑,对庞庞大的数数据集合合进行分分布式处处理。在在其他企企业刚刚刚开始使使用Haadooop的时时候,谷谷歌早已已多年深深耕大数数据技术术,这让让它在行行业中获获得了巨巨大的领领先优势势。如今谷歌正正在进一一步开放放数据处处理领域域,将其其和更多多第三方方共享。谷谷歌最近近刚刚推推出weeb服务务BiggQueery。该该项服
36、务务允许使使用者对对超大量量数据集集进行交交互式分分析。按按照谷歌歌目前的的状况,“超大量”,意味着数十亿行数据。BigQuery 就是按指令在云端运行的数据分析。除此以外,谷谷歌还坐坐拥人们们在谷歌歌网站进进行搜索索及经过过其网络络时所产产生的大大量机器器数据。用用户所输输入的每每一个搜搜索请求求,都会会让谷歌歌知道他他在寻找找什么,所所有人类类行为都都会在互互联网上上留下痕痕迹路径径,而谷谷歌占领领了一个个绝佳的的点位来来捕捉和和分析该该路径。不不仅如此此,谷歌歌在搜索索之外还还有更多多获取数数据的途途径。企企业安装装“谷歌分分析(GGooggle Anaalytticss)”之类的的产品
37、来来追踪访访问者在在其站点点的足迹迹,而谷谷歌也可可获得这这些数据据。网站站还使用用“谷歌广广告联盟盟(Goooglle AAdseensee)”,将来来自谷歌歌广告客客户网的的广告展展示在其其站点,因因此,谷谷歌不仅仅可以洞洞察自己己网站上上广告的的展示效效果,同同样还可可以对其其他广告告发布站站点的展展示效果果一览无无余。将将所有这这些数据据集合在在一起所所带来的的结果是是:企业业不仅从从最好的的技术中中获益,同同样还可可以从最最好的信信息中获获益。在在信息技技术方面面,许多多企业可可谓耗资资巨大,然然而在信信息技术术的组成成部分之之一信息领领域,谷谷歌所进进行的庞庞大投入入和所获获得的巨
38、巨大成功功,却罕罕有企业业能望其其项背。大数据时代代的急先先锋亚马逊逊。谷歌并并不是惟惟一一个个推行大大数据的的大型技技术公司司。互联联网零售售商亚马马逊已经经采取了了一些激激进的举举动,令令其有可可能成为为谷歌的的最大威威胁。曾曾有分析析者预测测,亚马马逊20015年年营收将将超过110000亿美元元,它即即将赶超超沃尔玛玛成为世世界最大大的零售售商。如如同谷歌歌一样,亚亚马逊也也要处理理海量数数据,只只不过它它处理数数据带有有更强的的电商倾倾向。消消费者们们在亚马马逊的网网站上对对想看的的电视节节目或是是想买的的产品所所进行的的每一次次搜索,都都会让亚亚马逊对对该消费费者的了了解有所所增加
39、。基基于搜索索和产品品购买行行为,亚亚马逊就就可以知知道接下下来应该该推荐什什么产品品。而亚亚马逊的的聪明之之处还不不止于此此,它还还会在网网站上持持续不断断地测试试新的设设计方案案,从而而找出转转化率最最高的方方案。中国大数据据企业:领跑人人还是追追风者?阿里巴巴:大数据据=产业资资本近年来,中中国的大大数据企企业如雨雨后春笋笋般兴盛盛起来,百百度等大大数据巨巨头和各各专门大大数据公公司引领领“风骚”。而最最为可贵贵的是,在在如同阿阿里巴巴巴等企业业里,已已经实现现了数据据的资产产化,我们不得得不佩服服马云的的前瞻性性。20009年年9月,阿阿里巴巴巴集团就就投资设设立阿里里云计算算有限公公
40、司,在在杭州、北北京和硅硅谷等地地设有研研发中心心和运营营机构。阿阿里云的的目标是是要打造造互联网网数据分分享的第第一平台台,成为为以数据据为中心心的先进进的云计计算服务务公司。在20011年年,阿里里巴巴收收购了流流量统计计技术服服务提供供商CNNZZ,意意味着阿阿里巴巴巴在其电电子商务务产业链链整合布布局上又又完成关关键性一一步。CCNZZZ是由IIDG投投资的网网络技术术服务公公司,专专注于为为互联网网各类站站点提供供独立的的第三方方数据统统计分析析。同时时,CNNZZ拥拥有互联联网数据据采集、统统计和挖挖掘三大大技术,从从事互联联网数据据监测、统统计分析析的技术术研究、产产品开发发和应
41、用用。可以以说,在在大数据据时代,阿阿里巴巴巴下了一一盘很大大的棋。将大数据与与商业投投资紧密密结合,也也是阿里里巴巴的的强项所所在。例例如近期期成立小小微金融融集团,为为商家和和用户提提供支付付、小贷贷、担保保及保险险业务。其其中,最最为人传传道的是是被金融融界人士称称为“虚拟信信用卡”的“信用支支付”,它是是阿里巴巴巴面对对网上个个人买家家的个人人消费金金融信贷贷服务产产品,而而授信的的基础便便是庞大大的用户户交易数数据。支支付宝平平台将根根据用户户交易数数据,对对用户进进行授信信,信用用额度可可用于在在淘宝等等购物支支付,用用户需要要在还款款日之前前进行还还款,最最长可以以获得338天免
42、免息期这也也意味着着,支付付宝的“虚拟信信用卡”真的来来了。按照阿里金金融设计计的“信用支支付”商业模模式,通通过数据据来确定定买家信信用支付付额度,合合作银行行通过支支付宝来来授信,阿阿里巴巴巴成立的的商诚担担保公司司将为买买家的“信用支支付”做担保保,买家家在手机机支付时时可使用用自己的的“信用支支付”额度购购物,合合作银行行把钱支支付给卖卖家。支支付宝从从合作商商家那里里抽取11%的“信用支支付”服务费费。虚拟拟信用卡卡与大数数据的融融合,产产生了重重大的影影响。一一些银行行界人士士已经开开始担心心,由于于阿里巴巴巴集团团拥有的的庞大客客户群和和宝贵的的数据库库,阿里里“虚拟信信用卡”可
43、能构构成对银银行信用用卡的竞竞争,对对传统银银行造成成冲击。对此,笔者认为这是一个不可避免的趋势,唯一可以做的就是把它规范化、制度化。紫光股份:大数据据企业的的并购者者2013年年7月,启启迪控股股旗下的的紫光股股份发布布公告称称,公司司拟通过过向特定定对象非非公开发发行股份份及支付付现金方方式购买买能通科科技股份份有限公公司和深深圳市融融创天下下科技股股份有限限公司1100%股份,并并募集配配套资金金。紫光光股份此此次借助助资本市市场,一一举并购购两家相相关公司司,在云云计算、IIT运维维服务、移移动互联联网应用用和大数数据处理理方面将将取得先先发优势势。能通通科技股股份有限限公司致致力于重
44、重点行业业信息化化解决方方案和公共安安全信息息管理解解决方案案。公司发发展方向向涉及云云计算、智智慧城市市等领域域,业务务领域涵涵盖ITT运维及及IT基基础设施施服务及及智慧城城市等重重点行业业信息化化解决方方案、数数据中心心基础环环境建设设等相关关服务,是是国内领领先的IIT服务务提供商商。深圳市融创创天下科科技股份份有限公公司是国国内领先先的移动动互联网网平台服服务提供供商。以以国际领领先的核核心技术术、核心心技术产产品化和和移动互互联网运运营为突突出优势势,成为为提供移移动互联联网多媒媒体平台台应用服服务的领领先企业业,是国国家级高高新技术术企业。融融创天下下在20009年年入选号号称“
45、硅谷圣圣经”和“投资风风向标”Reed HHerrringg(红红鲱鱼)杂杂志最具具投资价价值企业业全球1100强强;在220088年NOOKIAA 组织织的全球球MOBBILEE RUULESS 大赛赛中,入入围全球球核心科科技类最最强十二二名,是是流媒体体领域唯唯一一名名,同时时为中国国区唯一一一名。公公司已形形成移动动多媒体体运营、移移动互联联网运营营平台能能力输出出、三网网融合硬硬件终端端产品研研发与销销售的三三大业务务体系。公公司6年年持续投投资超过过3亿在在移动互互联网底底层核心心技术的的研发上上,具有有国内及及国际技技术发明明专利上上百项,形形成了以以T3、TTIVCC和TMMC
46、M云云计算中中间件三三大核心心技术的的移动多多媒体技技术体系系,已成成为具备备技术优优势、平平台产品品优势和和运营优优势、商商业模式式创新优优势的综综合性新新锐企业业。紫光收购案案其实宣宣示了企企业发展展的一种种新走向向,大数数据不光光作为一一种产业业将大放放异彩,也也将成为为科技企企业的中中枢板块块。田溯溯宁(宽宽带资本本董事长长)说:“正像人人类几百百年前在在大航海海时代,发发现、征征服海洋洋,寻找找到新大大陆的机机遇一样样,我们们突然身身处过去去无法想想象的数数据海洋洋,通过过征服这这个数据据海洋,可可以抵达达人类知知识的新新边疆。”“未来企业将都会是数据驱动的企业,无论你处于什么行业,
47、企业规模大小”,王京文(用友软件股份有限公司董事长兼CEO)如是说。王明夫(和君咨询董事长)预测:“传统产业、各行各业,都面临在大数据和移动互联网时代如何彻底转型和再造问题。我喊了十几年的产业整合,也在大数据时代出现了全新的整合逻辑和实现契机。”大数据技术改变了信息的生产、传播、加工和组织方式,打破了传统的信息不对称和物理区域壁垒,对各业界的生存环境和方式带来了显著的影响。大数据专家赵国栋、易欢欢、糜万军、鄂维南在共同著述大数据时代的历史机遇-产业变革与数据科学一书中宣称:“缺少数据资源,无以为谈产业。缺少数据思维,无以言未来。数据的积累、挖掘、分析、归纳、整理,是一只优秀团队所必须具备的基本
48、素养,没有它,你永远是匹夫之勇。”因而数据思维与数据资产在未来的重要性不言而喻。“紫光10000”:全球首首台“云计算算机”2013年年12月月10日日,启迪迪控股旗旗下紫光光股份有有限公司司在京召召开“紫光股股份云服服务战略略暨紫光光云计算算机”发布会会。会上上,紫光光股份总总裁齐联联发布了了公司的的“云服务务”战略,率率先提出出“云计算算机”的概念念,同时时推出了了拥有自自主知识识产权的的全球首首台“紫光云云计算机机”。紫光股份将将“云计算算机”定义为为:采用用与个人人计算机机和超级级计算机机完全不不同的分分布式体体系架构构,借助助于云计计算的虚虚拟化技技术,由由多个成成本相对对较低的的计
49、算资资源融合合而成的的一台具具有强大大计算能能力的计计算机。它它可高效效支持大大数据处处理、高高吞吐率率和高安安全信息息服务等等多类应应用需求求,其计计算能力力和存储储能力可可动态伸伸缩并无无限扩展展。紫光云计算算机有着着广阔的的应用前前景,可可满足金金融、电电信、公公安、交交通、卫卫生、广广电等大大数据行行业用户户提出的的高性能能、低成成本、高高可靠性性和高可可扩展性性的要求求,也将将促进信信息技术术在物联联网、智智慧城市市、智能能电网、智智能交通通、智能能医疗、食食品安全全等大数数据应用用领域的的广泛应应用。例例如,按按“平安城城市”建设要要求,一一个中等等城市的的视频监监控数据据量为3300PPB/年年,用一一台紫光光云计算算机可在在保存三三个月监监控记录