《入木三分:“大数据”如何启迪未来2034087.docx》由会员分享,可在线阅读,更多相关《入木三分:“大数据”如何启迪未来2034087.docx(20页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、入木三分:“大数据”如何启迪未来也就是这一两年的光景,我们在朦胧之中仿佛已经进入了一个言必称“大数据”的时代。就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源头,而更多的改变正蓄势待发。大数据激发了一场思想风暴,导演了一场思维变革。大数据正以前所未有的速度颠覆人们探索世界的方法,引起社会、经济、学术、科研、国防、军事等领域的深刻变革。执迷于精确性已然成为信息缺乏时代、模拟时代的产物;允许不精确、宽容混杂性将不可竭力避免,而是被证明的标准途径。那些总是爱追因溯源、刨根问底的人们或许会被遗弃,因为大数据时代里,由果追因
2、已经是明日黄花的“伎俩”,只要“是什么”“不要问我为什么”成为了最佳答案。因为数据呈现的相关性已经可以满足大部分人的认知需求,而透过大数据现象挖掘事物本质,个中成本(时间、物质)也不是深谙博弈之道的人们所愿担负的。数据成为资产、产业垂直整合、泛互联网化是大数据时代的三大发展趋势。数据资产成为和土地、资本、人力并驾齐驱的关键生产要素。围绕数据资产,一幕幕跌宕起伏的产业大戏已经上演。本文就将带您去深入了解“大数据”概念,带领您去领略大数据时代的“造化”。为您送上一颗“子弹”,引发您的“头脑风暴”,覆灭您的保守之心,怠慢之气!大数据:引领人类数据生成方式步入高级阶段数据生成的“自主时代”人类历史上从
3、未有哪个时代和今天一样产生如此海量的数据。数据的产生已经完全不受时间、地点的限制。从开始采用数据库作为数据管理的主要方式开始,人类社会的数据产生方式大致经历了三个阶段,而正是数据产生方式的巨大变化才最终导致大数据的产生。首先是运营式系统阶段。数据库的出现使得数据管理的复杂度大大降低,实际中数据库大都为运营系统所采用,作为运营系统的数据管理子系统。比如超市的销售记录系统,银行的交易记录系统、医院病人的医疗记录等。人类社会数据量第一次大的飞跃正是建立在运营式系统开始广泛使用数据库开始。这个阶段最主要特点是数据往往伴随着一定的运营活动而产生并记录在数据库中的,比如超市每销售出一件产品就会在数据库中产
4、生相应的一条销售记录。这种数据的产生方式是被动的。然后是用户原创内容阶段。互联网的诞生促使人类社会数据量出现第二次大的飞跃。但是真正的数据爆发产生于Web 2.0 时代,而Web 2.0 的最重要标志就是用户原创内容(UGC,User Generated Content)。这类数据近几年一直呈现爆炸性的增长,主要有两个方面的原因。首先是以博客、微博为代表的新型社交网络的出现和快速发展,使得用户产生数据的意愿更加强烈。其次就是以智能手机、平板电脑为代表的新型移动设备的出现,这些易携带、全天候接入网络的移动设备使得人们在网上发表自己意见的途径更为便捷。这个阶段数据的产生方式是主动的。而今,我们进入
5、了感知式系统阶段。人类社会数据量第三次大的飞跃最终导致了大数据的产生,今天我们正处于这个阶段。这次飞跃的根本原因在于感知式系统的广泛使用。随着技术的发展,人们已经有能力制造极其微小的带有处理功能的传感器,并开始将这些设备广泛的布置于社会的各个角落,通过这些设备来对整个社会的运转进行监控。这些设备会源源不断的产生新数据,这种数据的产生方式是自动的。简单来说,数据产生经历了被动、主动和自动三个阶段。这些被动、主动和自动的数据共同构成了大数据的数据来源,但其中自动式的数据才是大数据产生的最根本原因。正如Google 的首席经济学家Hal Varian 所说,数据是广泛可用的,所缺乏的是从中提取出知识
6、的能力。数据收集的根本目的是根据需求从数据中提取有用的知识,并将其应用到具体的领域之中。从“池塘捕鱼”到“大海捕鱼” “大数据时代的预言家”维克托迈尔-舍恩伯格(Viktor Mayer-Sch nberger),在其所著的大数据时代一书中就阐释所谓“大数据”的含义,即不仅人类生产和生活中“有意义”的信息海量产生,相比以往呈几何数级的爆炸式增长,“无意义”的数据的膨胀速度也同样惊人;而且,政府、企业已经具备了全面采集“大数据”并予以无遗漏分析的技术能力。大数据本身是一个比较抽象的概念,单从字面来看,它表示数据规模的庞大。但是仅仅数量上的庞大显然无法看出大数据这一概念和以往的“海量数据”(Mas
7、sive Data)、“超大规模数据”(Very Large Data)等概念之间有何区别。对于大数据尚未有一个公认的定义,不同的定义基本是从大数据的特征出发,通过这些特征的阐述和归纳,试图给出其定义。在这些定义中,比较有代表性的是3V 定义,即认为大数据需满足三个特点:规模性(Volume)、多样性(Variety)和高速性(Velocity)。除此之外,还有提出4V 定义的,即尝试在3V 的基础上增加一个新的特性。关于第四个V 的说法并不统一,IDC市场研究公司(International Data Corporation全球领先之科技产业媒体、研究及活动公司)认为大数据还应当具有价值性(
8、Value),大数据的价值往往呈现出稀疏性的特点。而IBM (International Business Machines Corporation国际商业机器有限公司)认为大数据必然具有真实性(Veracity)。维基百科对大数据的定义则简单明了:大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。 从数据库(Database, DB)到大数据(Big Data, BD),看似只是一个简单的技术演进,但细细考究不难发现两者有着本质上的差别。大数据的出现,必将颠覆传统的数据管理方式。在数据来源、数据处理方式和数据思维等方面都会对其带来革命性的变化。如果要用简单的方式来
9、比较传统的数据库和大数据的区别的话,我们认为“池塘捕鱼”和“大海捕鱼”是个很好的类比。“池塘捕鱼”代表着传统数据库时代的数据管理方式,而“大海捕鱼”则对应着大数据时代的数据管理方式,“鱼”是待处理的数据。“捕鱼”环境条件的变化导致了“捕鱼”方式的根本性差异。这些差异主要体现在如下几个方面:数据规模:“池塘”和“大海”最容易发现的区别就是规模。“池塘”规模相对较小,即便是先前认为比较大的“池塘”,譬如VLDB(Very Large Database),和“大海”XLDB(Extremely Large Database)相比仍旧偏小。“池塘”的处理对象通常以MB 为基本单位,而“大海”则常常以G
10、B,甚至是TB、PB为基本处理单位。数据类型:过去的“池塘”中,数据的种类单一,往往仅仅有一种或少数几种,这些数据又以结构化数据为主。而在“大海”中,数据的种类繁多,数以千计,而这些数据又包含着结构化、半结构化以及非结构化的数据,并且半结构化和非结构化数据所占份额越来越大。模式(Schema)和数据的关系:传统的数据库都是先有模式,然后才会产生数据。这就好比是先选好合适的“池塘”,然后才会向其中投放适合在该“池塘”环境生长的“鱼”。而大数据时代很多情况下难以预先确定模式,模式只有在数据出现之后才能确定,且模式随着数据量的增长处于不断的演变之中。这就好比先有少量的鱼类,随着时间推移,鱼的种类和数
11、量都在不断的增长。鱼的变化会使大海的成分和环境处于不断的变化之中。处理对象:在“池塘”中捕鱼,“鱼”仅仅是其捕捞对象。而在“大海”中,“鱼”除了是捕捞对象之外,还可以通过某些“鱼”的存在来判断其他种类的“鱼”是否存在。也就是说传统数据库中数据仅作为处理对象。而在大数据时代,要将数据作为一种资源来辅助解决其他诸多领域的问题。处理工具:捕捞“池塘”中的“鱼”,一种渔网或少数几种基本就可以应对,也就是所谓的One Size Fits All。但是在“大海”中,不可能存在一种渔网能够捕获所有的鱼类,也就是说No Size Fits All。从“池塘”到“大海”,不仅仅是规模的变大。传统的数据库代表着数
12、据工程(Data Engineering)的处理方式,大数据时代的数据已不仅仅只是工程处理的对象,需要采取新的数据思维来应对。图灵奖获得者、著名数据库专家Jim Gray 博士观察并总结人类自古以来,在科学研究上,先后历经了实验、理论和计算三种范式。当数据量不断增长和累积到今天,传统的三种范式在科学研究,特别是一些新的研究领域已经无法很好的发挥作用,需要有一种全新的第四种范式来指导新形势下的科学研究。基于这种考虑,Jim Gray 提出了一种新的数据探索型研究方式,被他自己称之为科学研究的“第四种范式”(The Fourth Paradigm)。第四种范式的实质就是从以计算为中心,转变到以数据
13、处理为中心,也就是我们所说的数据思维。这种方式需要我们从根本上转变思维。正如前面提到的“捕鱼”,在大数据时代,数据不再仅仅是“捕捞”的对象,而应当转变成一种基础资源,用数据这种资源来协同解决其他诸多领域的问题。计算社会科学(Computational SocialScience)基于特定社会需求,在特定的社会理论指导下,收集、整理和分析数据足迹(dataprint),以便进行社会解释、监控、预测与规划的过程和活动。计算社会科学是一种典型的需要采用第四种范式来做指导的科学研究领域。Duncan J. Watts 在自然杂志上的文章Atwenty-first century science也指出借
14、助于社交网络和计算机分析技术,21 世纪的社会科学有可能实现定量化的研究,从而成为一门真正的自然科学。从云计算到大数据如今,大数据的重要性越来越明显,但就和云计算一样,它也不是一个从天而降的新事物,而是在三个主要因素的驱动下,逐步成长成熟的。大数据的驱动力 第一个驱动力,就是业界常说的大数据的三个V(Volume, Variety, Velocity),而这三个V可以有多种解读。首先来看看第一个V,巨大的数据量与数据完整性。IT业界所指的数据,诞生不过60多年。而一直到PC普及到千家万户之前,由于存储、计算和分析工具的技术和成本限制,许多自然界和人类社会值得记录的信号,并未形成数据几十年前,气
15、象、地质、石油物探、出版业、媒体业和影视业是大量、持续产出信号的行业,但那时90%以上采用的是存储模拟信号,难以通过计算设备和软件进行直接分析。那些拥有大量资金和人才的政府和企业,也只能把少量最关键的信号,进行抽取、转换、装载到数据库中。 值得注意的是,业界对达到怎样的数量级才算是大数据并无定论,其实在很多行业的应用场景里,数据集本身的大小并不是最重要的,是否完整才最重要。第二个V,在海量、种类繁多的数据间发现其内在关联。互联网时代,各种设备通过TCP/IP网络连成了一个整体。进入Web 2.0时代,PC用户不单单可以通过网络获取信息,还成为了信息的制造者和传播者。这个阶段,不仅是数据量开始了
16、爆炸式增长,数据种类也开始变得繁多从技术角度看,可以称之为结构化数据、半结构化数据、非结构化数据和流式数据。2005年,微软亚洲研究院一年一度的“21世纪的计算”大会将主题设定为“Data Centric Computing”,也就是“以数据为中心的计算”,那时业界就已建立了这样的认知:价值来自于数据,或者说,数据一直都是有价值的商业资产此前,人们往往过于重视“计算和存储性能的提升”;而从那时起,业界就已更关注“数据分析和处理的效率”对海量数据进行分析、处理和集成,找出原本看来毫无关系的那些数据的“关联性”,把似乎没有用的数据变成有用的信息,以支持我们做出的判断。 第三个V,可以理解为更快地满
17、足实时性需求。如今,通过各种有线和无线电网络,人和人、人和各种机器、机器和机器之间无处不在的连接,这些连接不可避免地带来数据交换,而数据交换的关键是降低延迟要解决数据产生、传输、处理、存储、抽取、分析、可视化等各个环节带来的延时,以近乎实时(这意味着小于250毫秒)的方式呈献给用户。 如今,数据的实时化需求越来越清晰。用户想驾车去吃饭,先用地图应用查询餐厅的位置、预计行车路线的拥堵情况、停车场信息甚至是其他用户对餐厅的评论。吃饭的过程中,他会用手机拍摄食物的照片,编辑简短的评论,发布到微博上,还可以用LBS应用查找在同一间餐厅吃饭的人,看有没有好友在附近 第二个驱动力,是云计算的普及和成为主流
18、。云计算和大数据到底有什么区别?前两年大家都在讲云计算,现在怎么又变成大数据了?微软全球资深副总裁,微软(中国)有限公司董事长张亚勤对此解释说,其实,云计算和大数据是一个硬币的两面,云计算是大数据的IT基础,而大数据是云计算的一个杀手级应用。由于云计算的普及和成为主流,让上述三个V不再成为挑战,反而成为大数据成长的驱动力。另一方面由于数据越来越多、越来越复杂、越来越实时,这就更加需要云计算去处理,所以二者之间是相辅相成的。举例而言,30年前存储1TB数据的成本大约是16亿美元,如今存储到云上只需不到100美元;但存储下来的数据,如果不以云计算进行挖掘和分析,就只是僵死的数据,没有太大价值。 第
19、三个驱动力,是人工智能、机器学习和数据挖掘等技术的迅速发展。在这样的背景下,以微软为例,它已经可以为用户提供三个层次的端到端大数据解决方案其一是数据管理,即如何获取、存储和保护数据;其二是数据丰富,即如何清洗、发现不同数据间的数据相关性;其三是,数据洞察力,即通过分析、呈现与决策工具,获得洞察力,并最终通过付诸行动,产生价值。 通俗的说,就是将信号转化为数据,将数据分析为信息,将信息提炼为知识,以知识促成决策和行动。归根到底,大数据的最终意义在于获得洞察力和价值,这也正是大数据的第四个V(Value),这个V比前面的三个V都更重要。大数据塑造科技、商业新态势在科技、商业领域,大数据具备极大的想
20、象空间。上个世纪七十年代,纽约的治安状况很糟糕。一位名叫杰克迈普(Jack Maple)的年轻警察根据个人警务经验,发明了一种名为“未来图表”(Charts of the future)的犯罪预测方法论,可以根据过往抢劫案的记录数据来推测新案件可能发生的时间与地点。这种方法真的有效,1994年,新上任的纽约市警察局局长开发了“未来图表”的电子版,将之更名为“CompStat”,推广至全市的警务系统。CompStat的技术核心是犯罪测绘系统(Crime Mapping System)和数据库采集系统(Database Collection System),而微软的Microsoft MapPoi
21、nt、Access、Excel等产品为两个系统提供了坚实的支撑基于大量的数据采撷、挖掘和分析工作,纽约警察局尝试对历史上犯罪分子的行为规律进行归纳和总结,并有效地改善了城市的治安。数据显示,在CompStat得到推广应用后,1995年,纽约的凶杀案发生率降低了约25%,车辆盗窃案发生率降低了约24%,而且这些数字还随着IT软硬件技术的持续更新和CompStat系统的不断完善而逐年下降。 未来,透过技术手段完全遏制犯罪行为,让每一个城市和地区的居民时时刻刻都安全无虞这或许不是梦想。2012年8月,纽约市长迈克尔布隆伯格(Michael Bloomberg)亲手揭开了纽约警察局与微软携手开发的城域
22、感知系统(DAS,Domain Awareness System)的面纱。该系统将覆盖整个纽约市的3000多个监控摄像头、2600多枚辐射探测器、几百个车牌信息读取装置所收集的信息汇总到警方数据库中,可结合探测数据、实时影像、911报警电话和警方积累的罪案历史档案,帮助警方更准确地侦测并锁定即将发生的犯罪活动及嫌疑人。 对商业竞争的参与者们来说,大数据意味着激动人心的业务与服务创新机会。零售连锁企业、电商业巨头都已在大数据挖掘与营销创新方面有着很多的成功案例,它们都是商业嗅觉极其敏锐、敢于投资未来的公司,也因此获得了丰厚的回报。 而对于那些拥有行业经验,并熟练掌握云计算开发和应用技能的小型企业
23、,尤其是初创企业来说,则更是意义非凡。最近几年,我们看到的一些明星初创公司,比如Cloudera, Splunk, Klout, TellApart等,人员规模只在数十人,但对某个行业拥有深厚知识,并能通过云和大数据的技术手段,快速解决该行业的共性需求和痛点在未来数年,这样的“小而精”、“快而准”企业会越来越多,并做出有可能改变世界的颠覆性产品。很高兴看到,在北京中关村,在微软的云加速器二期,也有类似的初创企业加入,和硅谷、海法的创业者们一起,把握住了时代的脉搏。大数据时代的到来大数据时代的急先锋纽约时报把2012年定义为“大数据的十字路口”。大数据之所以进入主流大众的视野,源自三种趋势的合力
24、:第一,许多高端消费品公司加强了对大数据的应用。社交网络巨擎 Facebook 使用大数据来追踪用户在其网络的行为,通过识别你在它的网络中的好友,从而给出新的好友推荐建议,用户拥有越多的好友,他们与 Facebook之间的黏度就越高。更多的好友意味着用户会分享更多照片、发布更多状态更新、玩更多的游戏。商业网站LinkdIn则使用大数据在求职者和招聘职位之间建立关联。有了LinkdIn,猎头们再也不用向潜在的受聘者打陌生电话来碰运气,而可以通过简单的搜索找出潜在受聘者并联系他们。与此相似,求职者也可以通过联系网站上其他人,自然而然地将自己推销给潜在的雇主。第二,以上两家公司都在2012年早些时候
25、陆续上市。Facebook 在纳斯达克上市,LinkedIn 在纽约证券交易所上市。这两家企业和谷歌一样,虽然表面上是消费品公司,然而其本质是大数据企业。除去这两家,Splunk 也在 2012 年完成了上市,它是一家帮助大中型企业提供运营智能的大数据企业。这些企业的公开上市提高了华尔街对于大数据的兴趣。这种兴趣带来了空前的盛况硅谷的风险投资家们开始前仆后继地投资大数据企业。大数据将引发下一波创业大潮,而这次浪潮有望让硅谷在未来几年取代华尔街。第三,亚马逊、Facebook、LinkedIn 和其他以数据为核心消费品的活跃用户们,开始期待自己在工作中也能获得畅通无阻地使用大数据的体验,而不再仅
26、仅限于生活娱乐。用户们此前一直想不通,既然互联网零售商亚马逊可以推荐阅读书目、推荐电影、推荐可供购买的产品,为什么他们所在的企业却做不到类似的事情。比如,既然汽车租赁公司拥有客户过去租车的信息和现有可用车辆库存的信息,这些公司为何就不能在向不同的租车人提供合适的车辆方面做得更智能一点?公司还可以通过新的技术,将公开信息利用起来比如某个特定市场的状况,会议活动信息,以及其他可能会影响市场需求和供给的事件。通过将内部供应链数据和外部市场数据结合在一起,公司就可以更加精确地预测什么车辆可用,以及可用时间。与此类似,零售商应当可以将来自外部的公开数据和内部数据结合在一起,利用这种混合的数据进行产品定价
27、和市场布局。同时还可以同时考虑影响现货供应能力的多种因素以及消费者购物习惯,包括哪两种产品相搭配会卖得更好,这样零售商就可以提升消费者的平均购买量,从而获得更高的利润。大数据时代的急先锋谷歌。谷歌的体量和规模,使它拥有比其他大多数企业更多的应用大数据的途径。谷歌的优势之一在于,它拥有一支软件工程师部队,这使得谷歌能够从无到有地建立大数据技术。谷歌的另一个优势在于它所拥有的基础设施。谷歌搜索引擎本身的设计,就旨在让它能够无缝链接成千上万的服务器。如果出现更多的处理或存储需要,抑或某台服务器崩溃,谷歌的工程师们只要再添加更多的服务器就能轻松搞定。谷歌软件技术的设计也秉持着同样的基础设施理念。Map
28、Reduce(谷歌开发的编程工具,用于大规模数据集的并行运算。)和谷歌文件系统(Google File System)就是两个典型的例子。连线杂志在 2012年初夏曾报道称,这两个软件系统“重塑了谷歌建立搜索索引的方式”。为数众多的企业如今开始使用Hadoop, 它是MapReduce和谷歌文件系统的一种开源衍生产品。Hadoop允许横跨多台电脑,对庞大的数据集合进行分布式处理。在其他企业刚刚开始使用Hadoop的时候,谷歌早已多年深耕大数据技术,这让它在行业中获得了巨大的领先优势。如今谷歌正在进一步开放数据处理领域,将其和更多第三方共享。谷歌最近刚刚推出web服务BigQuery。该项服务允
29、许使用者对超大量数据集进行交互式分析。按照谷歌目前的状况,“超大量”,意味着数十亿行数据。BigQuery 就是按指令在云端运行的数据分析。除此以外,谷歌还坐拥人们在谷歌网站进行搜索及经过其网络时所产生的大量机器数据。用户所输入的每一个搜索请求,都会让谷歌知道他在寻找什么,所有人类行为都会在互联网上留下痕迹路径,而谷歌占领了一个绝佳的点位来捕捉和分析该路径。不仅如此,谷歌在搜索之外还有更多获取数据的途径。企业安装“谷歌分析(Google Analytics)”之类的产品来追踪访问者在其站点的足迹,而谷歌也可获得这些数据。网站还使用“谷歌广告联盟(Google Adsense)”,将来自谷歌广告
30、客户网的广告展示在其站点,因此,谷歌不仅可以洞察自己网站上广告的展示效果,同样还可以对其他广告发布站点的展示效果一览无余。将所有这些数据集合在一起所带来的结果是:企业不仅从最好的技术中获益,同样还可以从最好的信息中获益。在信息技术方面,许多企业可谓耗资巨大,然而在信息技术的组成部分之一信息领域,谷歌所进行的庞大投入和所获得的巨大成功,却罕有企业能望其项背。大数据时代的急先锋亚马逊。谷歌并不是惟一一个推行大数据的大型技术公司。互联网零售商亚马逊已经采取了一些激进的举动,令其有可能成为谷歌的最大威胁。曾有分析者预测,亚马逊2015年营收将超过1000亿美元,它即将赶超沃尔玛成为世界最大的零售商。如
31、同谷歌一样,亚马逊也要处理海量数据,只不过它处理数据带有更强的电商倾向。消费者们在亚马逊的网站上对想看的电视节目或是想买的产品所进行的每一次搜索,都会让亚马逊对该消费者的了解有所增加。基于搜索和产品购买行为,亚马逊就可以知道接下来应该推荐什么产品。而亚马逊的聪明之处还不止于此,它还会在网站上持续不断地测试新的设计方案,从而找出转化率最高的方案。中国大数据企业:领跑人还是追风者?阿里巴巴:大数据=产业资本近年来,中国的大数据企业如雨后春笋般兴盛起来,百度等大数据巨头和各专门大数据公司引领“风骚”。而最为可贵的是,在如同阿里巴巴等企业里,已经实现了数据的资产化,我们不得不佩服马云的前瞻性。2009
32、年9月,阿里巴巴集团就投资设立阿里云计算有限公司,在杭州、北京和硅谷等地设有研发中心和运营机构。阿里云的目标是要打造互联网数据分享的第一平台,成为以数据为中心的先进的云计算服务公司。在2011年,阿里巴巴收购了流量统计技术服务提供商CNZZ,意味着阿里巴巴在其电子商务产业链整合布局上又完成关键性一步。CNZZ是由IDG投资的网络技术服务公司,专注于为互联网各类站点提供独立的第三方数据统计分析。同时,CNZZ拥有互联网数据采集、统计和挖掘三大技术,从事互联网数据监测、统计分析的技术研究、产品开发和应用。可以说,在大数据时代,阿里巴巴下了一盘很大的棋。将大数据与商业投资紧密结合,也是阿里巴巴的强项
33、所在。例如近期成立小微金融集团,为商家和用户提供支付、小贷、担保及保险业务。其中,最为人传道的是被金融界人士称为“虚拟信用卡”的“信用支付”,它是阿里巴巴面对网上个人买家的个人消费金融信贷服务产品,而授信的基础便是庞大的用户交易数据。支付宝平台将根据用户交易数据,对用户进行授信,信用额度可用于在淘宝等购物支付,用户需要在还款日之前进行还款,最长可以获得38天免息期这也意味着,支付宝的“虚拟信用卡”真的来了。 按照阿里金融设计的“信用支付”商业模式,通过数据来确定买家信用支付额度,合作银行通过支付宝来授信,阿里巴巴成立的商诚担保公司将为买家的“信用支付”做担保,买家在手机支付时可使用自己的“信用
34、支付”额度购物,合作银行把钱支付给卖家。支付宝从合作商家那里抽取1%的“信用支付”服务费。虚拟信用卡与大数据的融合,产生了重大的影响。一些银行界人士已经开始担心,由于阿里巴巴集团拥有的庞大客户群和宝贵的数据库,阿里“虚拟信用卡”可能构成对银行信用卡的竞争,对传统银行造成冲击。对此,笔者认为这是一个不可避免的趋势,唯一可以做的就是把它规范化、制度化。紫光股份:大数据企业的并购者2013年7月,启迪控股旗下的紫光股份发布公告称,公司拟通过向特定对象非公开发行股份及支付现金方式购买能通科技股份有限公司和深圳市融创天下科技股份有限公司100%股份,并募集配套资金。紫光股份此次借助资本市场,一举并购两家
35、相关公司,在云计算、IT运维服务、移动互联网应用和大数据处理方面将取得先发优势。能通科技股份有限公司致力于重点行业信息化解决方案和公共安全信息管理解决方案。公司发展方向涉及云计算、智慧城市等领域,业务领域涵盖IT运维及IT基础设施服务及智慧城市等重点行业信息化解决方案、数据中心基础环境建设等相关服务,是国内领先的IT服务提供商。深圳市融创天下科技股份有限公司是国内领先的移动互联网平台服务提供商。以国际领先的核心技术、核心技术产品化和移动互联网运营为突出优势,成为提供移动互联网多媒体平台应用服务的领先企业,是国家级高新技术企业。融创天下在2009年入选号称“硅谷圣经”和“投资风向标”Red He
36、rring(红鲱鱼)杂志最具投资价值企业全球100强;在2008年NOKIA 组织的全球MOBILE RULES 大赛中,入围全球核心科技类最强十二名,是流媒体领域唯一一名,同时为中国区唯一一名。公司已形成移动多媒体运营、移动互联网运营平台能力输出、三网融合硬件终端产品研发与销售的三大业务体系。公司6年持续投资超过3亿在移动互联网底层核心技术的研发上,具有国内及国际技术发明专利上百项,形成了以T3、TIVC和TMCM云计算中间件三大核心技术的移动多媒体技术体系,已成为具备技术优势、平台产品优势和运营优势、商业模式创新优势的综合性新锐企业。紫光收购案其实宣示了企业发展的一种新走向,大数据不光作为
37、一种产业将大放异彩,也将成为科技企业的中枢板块。 田溯宁(宽带资本董事长)说:“正像人类几百年前在大航海时代,发现、征服海洋,寻找到新大陆的机遇一样,我们突然身处过去无法想象的数据海洋,通过征服这个数据海洋,可以抵达人类知识的新边疆。”“未来企业将都会是数据驱动的企业,无论你处于什么行业,企业规模大小”,王京文(用友软件股份有限公司董事长兼CEO)如是说。王明夫(和君咨询董事长)预测:“传统产业、各行各业,都面临在大数据和移动互联网时代如何彻底转型和再造问题。我喊了十几年的产业整合,也在大数据时代出现了全新的整合逻辑和实现契机。”大数据技术改变了信息的生产、传播、加工和组织方式,打破了传统的信
38、息不对称和物理区域壁垒,对各业界的生存环境和方式带来了显著的影响。大数据专家赵国栋、易欢欢、糜万军、鄂维南在共同著述大数据时代的历史机遇-产业变革与数据科学一书中宣称:“缺少数据资源,无以为谈产业。缺少数据思维,无以言未来。 数据的积累、挖掘、分析、归纳、整理,是一只优秀团队所必须具备的基本素养,没有它,你永远是匹夫之勇。”因而数据思维与数据资产在未来的重要性不言而喻。“紫光1000”:全球首台“云计算机”2013年12月10日,启迪控股旗下紫光股份有限公司在京召开“紫光股份云服务战略暨紫光云计算机”发布会。会上,紫光股份总裁齐联发布了公司的“云服务”战略,率先提出“云计算机”的概念,同时推出
39、了拥有自主知识产权的全球首台“紫光云计算机”。紫光股份将“云计算机”定义为:采用与个人计算机和超级计算机完全不同的分布式体系架构,借助于云计算的虚拟化技术,由多个成本相对较低的计算资源融合而成的一台具有强大计算能力的计算机。它可高效支持大数据处理、高吞吐率和高安全信息服务等多类应用需求,其计算能力和存储能力可动态伸缩并无限扩展。紫光云计算机有着广阔的应用前景,可满足金融、电信、公安、交通、卫生、广电等大数据行业用户提出的高性能、低成本、高可靠性和高可扩展性的要求,也将促进信息技术在物联网、智慧城市、智能电网、智能交通、智能医疗、食品安全等大数据应用领域的广泛应用。例如,按“平安城市”建设要求,
40、一个中等城市的视频监控数据量为300PB/年,用一台紫光云计算机可在保存三个月监控记录的同时,对所有数据完成处理。紫光股份在云计算领域已具备了一定的技术和产业基础。2012年,在工信部的大力支持下,紫光股份与南京市秦淮区合作,联合实施“紫云工程”,在南京市中国云计算创新基地建立了云信息服务产业创新中心。中心是集云计算、大数据新技术研发、科技成果转化、培育新兴产业、人才培养为一体的产业化创新基地,将为区域内的智能电网、新兴通讯、智能交通、物联网、智慧城市、电子商务、移动互联提供云计算的SPI(SaaS、PaaS、IaaS)服务。目前“紫云工程”已取得阶段性重大成果,“紫云工程”被工信部命名为“新
41、秦淮模式”,标志着紫光股份在云计算及大数据产业创新方面已达到国际领先水平。紫光云计算机的研制成功,标志着紫光股份已在分布式计算、虚拟资源管理和快速部署等云计算核心技术领域取得重大突破,掌握并拥有自主可控的云计算技术体系和成套软硬件系统,使我国的云计算核心产业达到了国际先进水平,为云计算在我国信息化建设中发挥重要作用奠定了坚实的技术和产业化基础。同时,其开放式平台可以使国产CPU等核心硬件和基础软件有机会在大数据时代发挥出与国外同等产品相当的性能,从而带动我国信息产业国产化水平的大幅提高,为保障国家信息安全发挥重要作用。数据思维与数据资产大数据思维的重要性远远超过数据资产,具备大数据思维,才能够
42、积累数据资产;不具备大数据思维,则可能弃珍宝如敝履。公司最重要的是建立大数据思维,而非仅仅盯住数据资产。优秀的数据思维,必然反映在优质数据资产。人们难以定量评价一个人的数据思维,所以只好退而求其次,关心在数据思维的影响下,数据资产的优劣。依据大数据时代的历史机遇-产业变革与数据科学一书,数据资产的价值可以从五个维度来评估,分别是规模、活性、多维度、关联性、颗粒度。这五个维度,没有绝对的数值可以参考,而且具体到每个行业有所不同。数据资产的“五维”所谓颗粒度指标反映数据的精细化程度。那些宏观的数据,价值含量较低。相反那些细化到个人、单品的数据,才会带来前所未有的洞察力,这也是和精细化管理的思想紧密
43、相关的。颗粒度是反映数据资产质量的第一个维度。细化到个人、单品,个别网络、门派、零件,夸张的说一粒沙子,也要清清爽爽地记录下它的位置、大小、重量,甚至,因为风吹浪打漂流的痕迹。不要忘了“一沙一世界,一花一天堂”。多维度指标借用空间维度的概念,来指代数据来源的丰富性。每增加一个数据维度,会影响所有用原数据的分析和判断,甚至会带来颠覆性的证据。我们以美国的FICO信用评分机制(由美国个人消费信用评估公司开发出的一种个人信用评级法)为例,几乎每个美国人都有一个FICO信用评分,当人们申请信用卡、汽车贷款、住房贷款时,大多数的信贷机构会参考这一评分。但是,在其发展的初期,FICO模型中,仅仅依赖申请人
44、在现有住址住了多久、为现在的企业工作了多久、申请人账号开设了多久等数据。根据这个评估,几乎所有30岁以下的人,都会存在很大的风险。现在人们知道淘宝上的购买主力,恰恰是以年轻人为主。所以零售商们群起反对,这些条款限制了发卡人数,不利于刺激消费。当FICO增加了评估数据的维度后,譬如纳入教育水平、职业等指标,那些受到过良好教育、从事体面职业的人,也就获得了信用卡。事实证明,他们的违约率极低。在多维度指标中,人们尤其重视一类“先验”维度。比如,人们在买股票的时候,一定先观察一只股票的行情走势;人们在购商品的时候,一定会对比和询价。互联网有助于把这些数据收集起来,进行分析,从而预测未来人们是否会买入股
45、票或者商品。活性指标的命名,带有感性的色彩。其原意是指生物体内发生的生理过程或处于活动的状态或属性。数据的活性,指代数据被更新的频次。频次越高,活性越大。FACEBOOK公司2012年10月,庆祝月度活跃用户超过10亿个。这里的活跃用户和数据的活性紧密相关。股民对换手率指标非常熟悉,换手率标志股票交易是否活跃,成为判断股价走势非常重要的指标。新浪微博的数据,无疑是最具活性的数据之一,体现出实时的价值。利用微博数据,进行实时的精准营销,是许多公司孜孜以求的目标。规模指标最容易理解。没有“量”的积累,就没有“质”的突破。数据量的增长,即是数据规模的扩大。但是到底有多大规模,才能算是“大”数据,的确
46、是各行各业都很关心的问题。譬如互联网应用,如果没有1000万个A股账户,那绝对是呼风唤雨的“老大”。规模这个指标很重要,但不需要执着于此指标。不同行业,不同的业务,对规模的定义完全不同。数据思维要先于数据规模。关联度指标反映不同多维数据的内在联系。之所以把关联度拿出来单独讨论,主要原因就是同一企业内部存在大量的“孤岛”现象,不同部门之间积累的数据无法融合,形不成合力。关于数据思维与数据资产的运筹,大数据时代的历史机遇-产业变革与数据科学给出了建议:“(一)天下武功,唯快不破。越快地处理数据,越早地获取信息,就会越及时地做出商业选择。(二)更多的数据来源,比更多的数据量更重要。这也是为什么数据资
47、产评价模型中,要把关联性和多维度作为重要指标的原因。(三)数据量含多种信息,取决于观察视角。不要因为短期内没有用途,而随意丢弃。(四)面对数据量指数般的增长,要早作打算。(五)大数据不是核心问题,要聚焦于业务发展,善于从大数据中挖掘利于业务发展的信息。(六)分享,而非保密。数据在流动中增值。流水不腐,户枢不蠹。”数据科学家大数据作为资产,其搜寻、识别、筛选、组合等等工作的强烈专业性不言而喻,这就需要专业的大数据人才,特别是数据科学家。另外,大数据本身也给科学和教育事业发展提供了前所未有的机会。它将对现有的科研和教育体制、科学与产业之间的关系、科学与社会之间的关系带来大幅度的变革。用数据来研究科
48、学,科学地研究数据。数据科学的兴起和发展,将深刻改变人类探索世界的思维和方法。中国科学院院士、美国普林斯顿大学教授鄂维南强调:“数据科学将达到与自然科学分庭抗礼的地位。”数据科学主要包括两个方面:用数据的方法来研究科学和用科学的方法来研究数据。前者包括生物信息学、天体信息学、数字地球等领域。后者包括统计学、机器学习、数据挖掘、数据库等领域。这些学科都是数据科学的重要组成部分。但只有把他们有机地放在一起,才能形成整个数据科学的全貌。而我们需要的数据科学人才应该具备两方面的素质:一是概念性的,主要是对模型的理解和运用;二是实践性的,主要是处理实际数据的能力。培养这样的人才,需要数学、统计和计算机科
49、学等学科之间的密切合作,同时也需要和产业界或其他拥有数据的部门之间的合作。目前还没有任何一所高校具有这样的平台。大数据时代的中国梦取舍之道:大数据时代的域外空间不容忽视的是,人不仅是信息、数据的使用者,还是生产者。有关我们的信息,有些是我们自身愿意让他人了解、共享的,也有很多不乐意公之于众的隐私信息。但大数据体系本身,不考虑个体乃至群体是否愿意分享,而是自动自发的吸纳着所有可以吸纳的数据。一个人可以通过搜索引擎,查知心仪对象的底细,也将成为被搜索对象,用人单位人力资源专员很可能通过他(她)的微博获悉简历之外更为真实、暴露出更多缺点的一面,甚至会因为几张搞怪照片就认定他(她)是一个轻浮的人,而做出拒绝录用的决定。同样,而今的企业已经不能通过公关传播等包装手段,来塑造所谓的完美形象;只要有过违法记录、违反社会责任履行要求的