《2023年-入木三分:“大数据”如何启迪未来20.docx》由会员分享,可在线阅读,更多相关《2023年-入木三分:“大数据”如何启迪未来20.docx(19页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、入木三分:“大数据”如何启迪未来也就是这一两年的光景,我们在朦胧之中仿佛已经进入了一个言必称“大数 据”的时代。就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一 样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源 头,而更多的改变正蓄势待发。大数据激发了一场思想风暴,导演了一场思维变 革。大数据正以前所未有的速度颠覆人们探索世界的方法,引起社会、经济、学 术、科研、国防、军事等领域的深刻变革。执迷于精确性已然成为信息缺乏时代、 模拟时代的产物;允许不精确、宽容混杂性将不可竭力避免,而是被证明的标准 途径。那些总是爱追因溯源、刨根问底的人们或许会被遗弃,因为大数据时
2、代里, 由果追因已经是明日黄花的“伎俩”,只要“是什么”“不要问我为什么”成为了 最佳答案。因为数据呈现的相关性已经可以满足大部分人的认知需求,而透过大 数据现象挖掘事物本质,个中成本(时间、物质)也不是深谙博弈之道的人们所 愿担负的。数据成为资产、产业垂直整合、泛互联网化是大数据时代的三大发展 趋势。数据资产成为和土地、资本、人力并驾齐驱的关键生产要素。围绕数据资 产,一幕幕跌宕起伏的产业大戏已经上演。本文就将带您去深入了解“大数据” 概念,带领您去领略大数据时代的“造化”。为您送上一颗“子弹”,引发您的“头 脑风暴”,覆灭您的保守之心,怠慢之气!大数据:引领人类数据生成方式步入高级阶段数据
3、生成的“自主时代”人类历史上从未有哪个时代和今天一样产生如此海量的数据。数据的产生已 经完全不受时间、地点的限制。从开始采用数据库作为数据管理的主要方式开始, 人类社会的数据产生方式大致经历了三个阶段,而正是数据产生方式的巨大变化 才最终导致大数据的产生。首先是运营式系统阶段。数据库的出现使得数据管理的复杂度大大降低,实 际中数据库大都为运营系统所采用,作为运营系统的数据管理子系统。比如超市 的销售记录系统,银行的交易记录系统、医院病人的医疗记录等。人类社会数据按指令在云端运行的数据分析。除此以外,谷歌还坐拥人们在谷歌网站进行搜索及经过其网络时所产生的大 量机器数据。用户所输入的每一个搜索请求
4、,都会让谷歌知道他在寻找什么,所 有人类行为都会在互联网上留下痕迹路径,而谷歌占领了一个绝佳的点位来捕捉 和分析该路径。不仅如此,谷歌在搜索之外还有更多获取数据的途径。企业安装 “谷歌分析(GoogleAnalytics)”之类的产品来追踪访问者在其站点的足迹,而谷 歌也可获得这些数据。网站还使用“谷歌广告联盟(GoogleAdsense)”,将来自谷 歌广告客户网的广告展示在其站点,因此,谷歌不仅可以洞察自己网站上广告的 展示效果,同样还可以对其他广告发布站点的展示效果一览无余。将所有这些数 据集合在一起所带来的结果是:企业不仅从最好的技术中获益,同样还可以从最 好的信息中获益。在信息技术方
5、面,许多企业可谓耗资巨大,然而在信息技术的 组成部分之一一一信息领域,谷歌所进行的庞大投入和所获得的巨大成功,却罕 有企业能望其项背。大数据时代的急先锋亚马逊。谷歌并不是惟一一个推行大数据的大型技术公司。互联网零售商亚马逊已经采取了一些激进的举动,令其有可能成为谷歌 的最大威胁。曾有分析者预测,亚马逊2015年营收将超过1000亿美元,它即将 赶超沃尔玛成为世界最大的零售商。如同谷歌一样,亚马逊也要处理海量数据, 只不过它处理数据带有更强的电商倾向。消费者们在亚马逊的网站上对想看的电 视节目或是想买的产品所进行的每一次搜索,都会让亚马逊对该消费者的了解有 所增加。基于搜索和产品购买行为,亚马逊
6、就可以知道接下来应该推荐什么产品。 而亚马逊的聪明之处还不止于此,它还会在网站上持续不断地测试新的设计方 案,从而找出转化率最高的方案。中国大数据企业:领跑人还是追风者?阿里巴巴:大数据=产业资本近年来,中国的大数据企业如雨后春笋般兴盛起来,百度等大数据巨头和各 专门大数据公司引领“风骚”。而最为可贵的是,在如同阿里巴巴等企业里,已 经实现了数据的资产化,我们不得不佩服马云的前瞻性。2009年9月,阿里巴 巴集团就投资设立阿里云计算有限公司,在杭州、北京和硅谷等地设有研发中心 和运营机构。阿里云的目标是要打造互联网数据分享的第一平台,成为以数据为 中心的先进的云计算服务公司。在2011年,阿里
7、巴巴收购了流量统计技术服务提供商CNZZ,意味着阿里巴 巴在其电子商务产业链整合布局上又完成关键性一步。CNZZ是由IDG投资的网 络技术服务公司,专注于为互联网各类站点提供独立的第三方数据统计分析。同 时,CNZZ拥有互联网数据采集、统计和挖掘三大技术,从事互联网数据监测、 统计分析的技术研究、产品开发和应用。可以说,在大数据时代,阿里巴巴下了 一盘很大的棋。将大数据与商业投资紧密结合,也是阿里巴巴的强项所在。例如近期成立小 微金融集团,为商家和用户提供支付、小贷、担保及保险业务。其中,最为人传 道的是被金融界人士称为“虚拟信用卡”的“信用支付”,它是阿里巴巴面对网 上个人买家的个人消费金融
8、信贷服务产品,而授信的基础便是庞大的用户交易数 据。支付宝平台将根据用户交易数据,对用户进行授信,信用额度可用于在淘宝 等购物支付,用户需要在还款日之前进行还款,最长可以获得38天免息期一一 这也意味着,支付宝的“虚拟信用卡”真的来了。按照阿里金融设计的“信用支付”商业模式,通过数据来确定买家信用支付 额度,合作银行通过支付宝来授信,阿里巴巴成立的商诚担保公司将为买家的“信 用支付”做担保,买家在手机支付时可使用自己的“信用支付”额度购物,合作 银行把钱支付给卖家。支付宝从合作商家那里抽取1%的“信用支付”服务费。 虚拟信用卡与大数据的融合,产生了重大的影响。一些银行界人士已经开始担心, 由于
9、阿里巴巴集团拥有的庞大客户群和宝贵的数据库,阿里“虚拟信用卡”可能 构成对银行信用卡的竞争,对传统银行造成冲击。对此,笔者认为这是一个不可 避免的趋势,唯一可以做的就是把它规范化、制度化。紫光股份:大数据企业的并购者2013年7月,启迪控股旗下的紫光股份发布公告称,公司拟通过向特定对 象非公开发行股份及支付现金方式购买能通科技股份有限公司和深圳市融创天 下科技股份有限公司100%股份,并募集配套资金。紫光股份此次借助资本市场, 一举并购两家相关公司,在云计算、IT运维服务、移动互联网应用和大数据处 理方面将取得先发优势。能通科技股份有限公司致力于重点行业信息化解决方案 和公共安全信息管理解决方
10、案。公司发展方向涉及云计算、智慧城市等领域,业 务领域涵盖IT运维及IT基础设施服务及智慧城市等重点行业信息化解决方案、 数据中心基础环境建设等相关服务,是国内领先的IT服务提供商。深圳市融创天下科技股份有限公司是国内领先的移动互联网平台服务提供 商。以国际领先的核心技术、核心技术产品化和移动互联网运营为突出优势,成 为提供移动互联网多媒体平台应用服务的领先企业,是国家级高新技术企业。融 创天下在2009年入选号称“硅谷圣经”和“投资风向标”Red Herring(红鳞 鱼)杂志最具投资价值企业全球100强;在2008年NOKIA组织的全球MOBILE RULES大赛中,入围全球核心科技类最强
11、十二名,是流媒体领域唯一一名,同时 为中国区唯一一名。公司已形成移动多媒体运营、移动互联网运营平台能力输出、 三网融合硬件终端产品研发与销售的三大业务体系。公司6年持续投资超过3 亿在移动互联网底层核心技术的研发上,具有国内及国际技术发明专利上百项, 形成了以T3、TIVC和TMCM云计算中间件三大核心技术的移动多媒体技术体系, 已成为具备技术优势、平台产品优势和运营优势、商业模式创新优势的综合性新 锐企业。紫光收购案其实宣示了企业发展的一种新走向,大数据不光作为一种产业将 大放异彩,也将成为科技企业的中枢板块。田溯宁(宽带资本董事长)说:“正 像人类几百年前在大航海时代,发现、征服海洋,寻找
12、到新大陆的机遇一样,我 们突然身处过去无法想象的数据海洋,通过征服这个数据海洋,可以抵达人类知 识的新边疆。”“未来企业将都会是数据驱动的企业,无论你处于什么行业, 企业规模大小”,王京文(用友软件股份有限公司董事长兼CEO)如是说。王明 夫(和君咨询董事长)预测:“传统产业、各行各业,都面临在大数据和移动互 联网时代如何彻底转型和再造问题。我喊了十几年的产业整合,也在大数据时代 出现了全新的整合逻辑和实现契机大数据技术改变了信息的生产、传播、加 工和组织方式,打破了传统的信息不对称和物理区域壁垒,对各业界的生存环境 和方式带来了显著的影响。大数据专家赵国栋、易欢欢、糜万军、鄂维南在共同 著述
13、大数据时代的历史机遇-产业变革与数据科学一书中宣称:“缺少数据资 源,无以为谈产业。缺少数据思维,无以言未来。数据的积累、挖掘、分析、 归纳、整理,是一只优秀团队所必须具备的基本素养,没有它,你永远是匹夫之 勇。”因而数据思维与数据资产在未来的重要性不言而喻。“紫光1000”:全球首台“云计算机”2013年12月10 0,启迪控股旗下紫光股份有限公司在京召开“紫光股份 云服务战略暨紫光云计算机”发布会。会上,紫光股份总裁齐联发布了公司的“云 服务”战略,率先提出“云计算机”的概念,同时推出了拥有自主知识产权的全 球首台“紫光云计算机”。紫光股份将“云计算机”定义为:采用与个人计算机和超级计算机
14、完全不同 的分布式体系架构,借助于云计算的虚拟化技术,由多个成本相对较低的计算资 源融合而成的一台具有强大计算能力的计算机。它可高效支持大数据处理、高吞 吐率和高安全信息服务等多类应用需求,其计算能力和存储能力可动态伸缩并无 限扩展。紫光云计算机有着广阔的应用前景,可满足金融、电信、公安、交通、卫生、 广电等大数据行业用户提出的高性能、低成本、高可靠性和高可扩展性的要求, 也将促进信息技术在物联网、智慧城市、智能电网、智能交通、智能医疗、食品 安全等大数据应用领域的广泛应用。例如,按“平安城市”建设要求,一个中等 城市的视频监控数据量为300PB/年,用一台紫光云计算机可在保存三个月监控 记录
15、的同时,对所有数据完成处理。紫光股份在云计算领域已具备了一定的技术和产业基础。2012年,在工信 部的大力支持下,紫光股份与南京市秦淮区合作,联合实施“紫云工程”,在南 京市中国云计算创新基地建立了云信息服务产业创新中心。中心是集云计算、大 数据新技术研发、科技成果转化、培育新兴产业、人才培养为一体的产业化创新 基地,将为区域内的智能电网、新兴通讯、智能交通、物联网、智慧城市、电子 商务、移动互联提供云计算的SPI (SaaS、PaaS、laaS)服务。目前“紫云工程” 已取得阶段性重大成果,“紫云工程”被工信部命名为“新秦淮模式”,标志着紫 光股份在云计算及大数据产业创新方面已达到国际领先水
16、平。紫光云计算机的研制成功,标志着紫光股份已在分布式计算、虚拟资源管理 和快速部署等云计算核心技术领域取得重大突破,掌握并拥有自主可控的云计算 技术体系和成套软硬件系统,使我国的云计算核心产业达到了国际先进水平,为 云计算在我国信息化建设中发挥重要作用奠定了坚实的技术和产业化基础。同 时,其开放式平台可以使国产CPU等核心硬件和基础软件有机会在大数据时代 发挥出与国外同等产品相当的性能,从而带动我国信息产业国产化水平的大幅提 高,为保障国家信息安全发挥重要作用。数据思维与数据资产大数据思维的重要性远远超过数据资产,具备大数据思维,才能够积累数据 资产;不具备大数据思维,则可能弃珍宝如敝履。公司
17、最重要的是建立大数据思 维,而非仅仅盯住数据资产。优秀的数据思维,必然反映在优质数据资产。人们 难以定量评价一个人的数据思维,所以只好退而求其次,关心在数据思维的影响 下,数据资产的优劣。依据大数据时代的历史机遇-产业变革与数据科学一 书,数据资产的价值可以从五个维度来评估,分别是规模、活性、多维度、关联 性、颗粒度。这五个维度,没有绝对的数值可以参考,而且具体到每个行业有所 不同。数据资产的“五维”所谓颗粒度指标反映数据的精细化程度。那些宏观的数据,价值含量较低。 相反那些细化到个人、单品的数据,才会带来前所未有的洞察力,这也是和精细 化管理的思想紧密相关的。颗粒度是反映数据资产质量的第一个
18、维度。细化到个 人、单品,个别网络、门派、零件,夸张的说一粒沙子,也要清清爽爽地记录下 它的位置、大小、重量,甚至,因为风吹浪打漂流的痕迹。不要忘了 “一沙一世 界,一花一天堂”。多维度指标借用空间维度的概念,来指代数据来源的丰富性。每增加一个数 据维度,会影响所有用原数据的分析和判断,甚至会带来颠覆性的证据。我们以 美国的FICO信用评分机制(由美国个人消费信用评估公司开发出的一种个人信 用评级法)为例,几乎每个美国人都有一个FICO信用评分,当人们申请信用卡、 汽车贷款、住房贷款时,大多数的信贷机构会参考这一评分。但是,在其发展的 初期,FICO模型中,仅仅依赖申请人在现有住址住了多久、为
19、现在的企业工作 了多久、申请人账号开设了多久等数据。根据这个评估,几乎所有30岁以下的 人,都会存在很大的风险。现在人们知道淘宝上的购买主力,恰恰是以年轻人为 主。所以零售商们群起反对,这些条款限制了发卡人数,不利于刺激消费。当 FICO增加了评估数据的维度后,譬如纳入教育水平、职业等指标,那些受到过 良好教育、从事体面职业的人,也就获得了信用卡。事实证明,他们的违约率极 低。在多维度指标中,人们尤其重视一类“先验”维度。比如,人们在买股票的 时候,一定先观察一只股票的行情走势;人们在购商品的时候,一定会对比和询 价。互联网有助于把这些数据收集起来,进行分析,从而预测未来人们是否会买 入股票或
20、者商品。活性指标的命名,带有感性的色彩。其原意是指生物体内发生的生理过程或 处于活动的状态或属性。数据的活性,指代数据被更新的频次。频次越高,活性 越大。FACEBOOK公司2012年10月,庆祝月度活跃用户超过10亿个。这里的 活跃用户和数据的活性紧密相关。股民对换手率指标非常熟悉,换手率标志股票 交易是否活跃,成为判断股价走势非常重要的指标。新浪微博的数据,无疑是最 具活性的数据之一,体现出实时的价值。利用微博数据,进行实时的精准营销, 是许多公司孜孜以求的目标。规模指标最容易理解。没有“量”的积累,就没有“质”的突破。数据量的 增长,即是数据规模的扩大。但是到底有多大规模,才能算是“大”
21、数据,的确 是各行各业都很关心的问题。譬如互联网应用,如果没有1000万个A股账户, 那绝对是呼风唤雨的“老大”。规模这个指标很重要,但不需要执着于此指标。 不同行业,不同的业务,对规模的定义完全不同。数据思维要先于数据规模。关联度指标反映不同多维数据的内在联系。之所以把关联度拿出来单独讨 论,主要原因就是同一企业内部存在大量的“孤岛”现象,不同部门之间积累的 数据无法融合,形不成合力。关于数据思维与数据资产的运筹,大数据时代的历史机遇-产业变革与数据 科学给出了建议:“(一)天下武功,唯快不破越快地处理数据,越早地获 取信息,就会越及时地做出商业选择。(二)更多的数据来源,比更多的数据量 更
22、重要。这也是为什么数据资产评价模型中,要把关联性和多维度作为重要指标 的原因。(三)数据量含多种信息,取决于观察视角。不要因为短期内没有用途, 而随意丢弃。(四)面对数据量指数般的增长,要早作打算。(五)大数据不是核 心问题,要聚焦于业务发展,善于从大数据中挖掘利于业务发展的信息。(六) 分享,而非保密。数据在流动中增值。流水不腐,户枢不蠹。”数据科学家大数据作为资产,其搜寻、识别、筛选、组合等等工作的强烈专业性不言而 喻,这就需要专业的大数据人才,特别是数据科学家。另外,大数据本身也给科 学和教育事业发展提供了前所未有的机会。它将对现有的科研和教育体制、科学 与产业之间的关系、科学与社会之间
23、的关系带来大幅度的变革。用数据来研究科 学,科学地研究数据。数据科学的兴起和发展,将深刻改变人类探索世界的思维 和方法。中国科学院院士、美国普林斯顿大学教授鄂维南强调:“数据科学将达到与 自然科学分庭抗礼的地位。”数据科学主要包括两个方面:用数据的方法来研究 科学和用科学的方法来研究数据。前者包括生物信息学、天体信息学、数字地球 等领域。后者包括统计学、机器学习、数据挖掘、数据库等领域。这些学科都是 数据科学的重要组成部分。但只有把他们有机地放在一起,才能形成整个数据科 学的全貌。而我们需要的数据科学人才应该具备两方面的素质:一是概念性的,主要是 对模型的理解和运用;二是实践性的,主要是处理实
24、际数据的能力。培养这样的 人才,需要数学、统计和计算机科学等学科之间的密切合作,同时也需要和产业 界或其他拥有数据的部门之间的合作。目前还没有任何一所高校具有这样的平 台。大数据时代的中国梦取舍之道:大数据时代的域外空间不容忽视的是,人不仅是信息、数据的使用者,还是生产者。有关我们的信 息,有些是我们自身愿意让他人了解、共享的,也有很多不乐意公之于众的隐私 信息。但大数据体系本身,不考虑个体乃至群体是否愿意分享,而是自动自发的 吸纳着所有可以吸纳的数据。一个人可以通过搜索引擎,查知心仪对象的底细,也将成为被搜索对象,用 人单位人力资源专员很可能通过他(她)的微博获悉简历之外更为真实、暴露出 更
25、多缺点的一面,甚至会因为几张搞怪照片就认定他(她)是一个轻浮的人,而 做出拒绝录用的决定。同样,而今的企业已经不能通过公关传播等包装手段,来 塑造所谓的完美形象;只要有过违法记录、违反社会责任履行要求的记录,就将 持续付出形象代价。有趣的是,与大数据时代形成参照,揭示大数据时代带给人的负面影响 的另一本书删除:大数据取舍之道,也出自维克托迈尔-舍恩伯格之手。删 除:大数据取舍之道开篇即阐释了大数据时代带来的隐私非隐的问题,指出, “数字技术已经让社会丧失了遗忘的能力,取而代之的则是完善的记忆 Google对我们的了解比我们自己能够记住的还要多。”维克托迈尔-舍恩伯格提醒指出,人们之所以能够结成
26、群体和社会,是因 为接受一定范畴的共同信息,从而形成共享记忆和共同情感;如若而今及以后变 得不会遗忘、不会对信息作出范畴限制,共享记忆和共同情感及其提供的基础作 用就会消失。非但如此,大数据体系、数字化记忆还可能造成对公民的全景控制, 进一步强化社会等级,巩固并加深现有的不平等的信息权力分配。删除:大数据取舍之道书中提出了对大数据体系、数字化记忆负面性的 六种可能对策:数字化节制、保护信息隐私权、建设数字隐私权基础设施、调整 人类的现有认知、打造良性的信息生态、完全语境化。“数字化节制”指的是人作为信息社会的主体,要积极发挥能动性,在洞察 到放弃“遗忘”的潜在影响后,审慎控制过多的个人信息对外
27、发布。当然,这需 要就此作出一种艰难的权衡抉择。积极分享个人信息毫无疑问可以为我们带来诸 多便利,控制信息分享会减少部分便利。保护信息隐私权、建设数字隐私权基础设施、打造良性的信息生态,需要政 府及互联网行业、法学界等方面加强协商。信息隐私权最基本的形式是给予个人 选择是否共享信息的权利,严禁任何其他个人或组织在法律许可和信息所有者许 可之外,滥用个人信息。尽管对“信息隐私权”这个概念的界定,必然将引起较 大争议,但唯有通过广泛讨论,方能为共识的取得创造可能。在此基础上,政府 应建设数字隐私权基础设施,并推动相关的立法进程。郭贺桂还指出应尽快制定 信息公开法。“现在很多机构和企业拥有大量客户信
28、息。应当既鼓励面向群体、 服务社会的数据挖掘,又要防止侵犯个体隐私;既提倡数据共享,又要防止数据 被滥用。”他认为,需要界定数据挖掘、利用的权限和范围,防止信息被损坏、 篡改、泄露或被窃,保护公民的信息安全。所谓“调整人类的现有认知”、“完全语境化”,指向的是数字化、互联网时 代信息存储及形成记忆中容易被忽视的两大缺陷:无法被数字化存储的信息被忽 视,可以被数字化的信息(数据)在被提取利用时会脱离原有语境,形成新的数 字化偏见。大数据时代的“规律”与“规范”:市场规律与国家使命2013年9月30日上午,在中华人民共和国64周年国庆前夕,中共中央政 治局以实施创新驱动发展战略为题举行第九次集体学
29、习。这次中央政治局集体学 习走出中南海,把“课堂”搬到了中关村,采取调研、讲解、讨论相结合的形式 进行。期间,百度创始人兼CEO李彦宏作为创新企业代表向中央政治局讲解了信 息技术领域的前沿课题一一大数据的发展情况。“李彦宏的稿子,据说改了很多 次。”一位接近百度的人士说,“要在短短几分钟里讲清楚大数据,并不容易。” 李彦宏所讲的主题是“大数据”,这是百度和中关村管委会一起反复沟通多次才 决定的。在众多话题中,大数据能实现什么样的未来这个话题,吸引了中央高层 的目光。在讲解中,李彦宏认为大数据有两个重要价值,一是促进信息消费,加快经 济转型升级;二是关注社会民生,带动社会管理创新。我觉得这两点恰
30、好说到了 常委们的心上,经济社会发展是执政的不变要务,一家商业公司,不仅关注经济 发展中浮现的商业机会,还能把为社会创造价值放在与商业利益同等位置,十分 难得。当然,大数据还有一些其他很重要的价值,李彦宏并没有说,时间关系抓 住重点说说就行了,李彦宏主要想讲的,是后面的事情。互联网评论家葛甲指出:“数据开放在割据状态的互联网上靠企业的力量是 完不成的,只有从政府层面去进行推动。现在做大数据的公司这么多,其实多数 只有个壳子,没有实际内容。大数据的基础是巨量数据,不具备一定程度的数据 量,是做不成的。”当然,由BAT三家垄断去做大数据,也不太公平,小企业总 要有些出头机会的。于是,李彦宏提出了数
31、据开放这个概念。如果数据开放了,对大数据的发展当然是好事,各家企业把数据汇集在一起, 真正形成大数据后用以造福社会,但其中的商业利益如何保证,是个问题。让一 家或几家公司去掌握这个资源,显然不能服众,但是让百度和腾讯这些企业牵头 去做这件事,还是靠谱的。既然李彦宏提出了数据开放这个概念,百度本身就已 经做好了开放自身数据的准备,这是个积极姿态。未来有可能的发展模式,是由国家牵头设立大数据中心,由几家有能力的企 业各自派出技术力量,在高度保密性和公正性的基础上,对大数据的应用进行研 发。这种将数据化整为零的模式,有可能成为中国互联网摆脱落后局面的良机。 这里面的难处,在于配套的管理制度和法律法规
32、,政府的作用就是维护其公平性, 坚决维护小企业的商业利益,扮演好管理者和仲裁者的角色,不要让自身经济利 益牵涉其间。当然,让政府对大数据重视起来,并给出资源和政策加以扶持,还有很多难 以言说的好处。大数据开发出来总是要有人去用的,政府、企事业单位,经济实 体等,这有个用户教育和习惯培养的过程。有数据有技术还不够,还要有市场, 才能把大数据成果投放出去,利用市场运行过程对其进行不断完善,才能形成良 性循环的生态。未来中国互联网的一个大趋势是开放,固步自封,过度考虑一亩三分地的时 代即将过去了。在常委们此次走群众路线的集体学习活动中,李彦宏把这个意思 融合在了讲解过程里,常委们一定是听明白了。葛甲
33、认为,数据开放“这里面的难处,在于配套的管理制度和法律法规,政 府的作用就是维护其公平性,坚决维护小企业的商业利益,扮演好管理者和仲裁 者的角色,不要让自身经济利益牵涉其间”。信息产业专家、中国工程院院士郭 贺铿今年在一篇名为大数据时代的机遇与挑战的文章中也写道:“中国人口 居世界首位,将会成为产生数据量最多的国家,但我们对数据保存不够重视,对 存储数据的利用率也不高。此外,我国一些部门和机构拥有大量数据却不愿与其 他部门共享,导致信息不完整或重复投资。政府应通过体制机制改革打破数据割 量第一次大的飞跃正是建立在运营式系统开始广泛使用数据库开始。这个阶段最 主要特点是数据往往伴随着一定的运营活
34、动而产生并记录在数据库中的,比如超 市每销售出一件产品就会在数据库中产生相应的一条销售记录。这种数据的产生 方式是被动的。然后是用户原创内容阶段。互联网的诞生促使人类社会数据量出现第二次大 的飞跃。但是真正的数据爆发产生于Web 2.0时代,而Web 2.0的最重要标志 就是用户原创内容(UGC,User Generated Content)o这类数据近几年一直呈现爆炸 性的增长,主要有两个方面的原因。首先是以博客、微博为代表的新型社交网络 的出现和快速发展,使得用户产生数据的意愿更加强烈。其次就是以智能手机、 平板电脑为代表的新型移动设备的出现,这些易携带、全天候接入网络的移动设 备使得人们
35、在网上发表自己意见的途径更为便捷。这个阶段数据的产生方式是主 动的。而今,我们进入了感知式系统阶段。人类社会数据量第三次大的飞跃最终导 致了大数据的产生,今天我们正处于这个阶段。这次飞跃的根本原因在于感知式 系统的广泛使用。随着技术的发展,人们已经有能力制造极其微小的带有处理功 能的传感器,并开始将这些设备广泛的布置于社会的各个角落,通过这些设备来 对整个社会的运转进行监控。这些设备会源源不断的产生新数据,这种数据的产 生方式是自动的。简单来说,数据产生经历了被动、主动和自动三个阶段。这些被动、主动和 自动的数据共同构成了大数据的数据来源,但其中自动式的数据才是大数据产生 的最根本原因。正如G
36、oogle的首席经济学家Hal Varian所说,数据是广泛可用的,所缺乏 的是从中提取出知识的能力。数据收集的根本目的是根据需求从数据中提取有用 的知识,并将其应用到具体的领域之中。从“池塘捕鱼”到“大海捕鱼”“大数据时代的预言家”维克托迈尔-舍恩伯格(Viktor Mayer-Sch nberger),在其所著的大数据时代一书中就阐释所谓“大数据”的含义,即 不仅人类生产和生活中“有意义”的信息海量产生,相比以往呈几何数级的爆炸 据与封锁。”还有一位业界专家告诉记者,政府对大数据行业的扶持,除促进数 据公开外,应采用购买服务的方式,而非越俎代庖,设立不必要的政府项目。“(大 数据)标准和产
37、业格局尚未形成,是我国实现跨越式发展的宝贵机会。”郭贺专全 说,“要注意科学规划,切忌一哄而上。式增长,“无意义”的数据的膨胀速度也同样惊人;而且,政府、企业已经具备 了全面采集“大数据”并予以无遗漏分析的技术能力。大数据本身是一个比较抽象的概念,单从字面来看,它表示数据规模的庞大。 但是仅仅数量上的庞大显然无法看出大数据这一概念和以往的“海量数据” (Massive Data)、“超大规模数据“(Very Large Data)等概念之间有何区另I。对于大 数据尚未有一个公认的定义,不同的定义基本是从大数据的特征出发,通过这些 特征的阐述和归纳,试图给出其定义。在这些定义中,比较有代表性的是
38、3V定 义,即认为大数据需满足三个特点:规模性(Volume)、多样性(Variety)和高速性 (Velocity)o除此之外,还有提出4V定义的,即尝试在3V的基础上增加一个新 的特性。关于第四个V的说法并不统一,IDC市场研究公司(International Data Corporation全球领先之科技产业媒体、研究及活动公司)认为大数据还应当具有 价值性(Value),大数据的价值往往呈现出稀疏性的特点。而IBM (International Business Machines Corporation国际商业机器有限公司)认为大数据必然具有真实 性(Veracity)。维基百科对大数
39、据的定义则简单明了:大数据是指利用常用软件工 具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。从数据库(Database, DB)到大数据(Big Data, BD),看似只是一个简单的技术 演进,但细细考究不难发现两者有着本质上的差别。大数据的出现,必将颠覆传 统的数据管理方式。在数据来源、数据处理方式和数据思维等方面都会对其带来 革命性的变化。如果要用简单的方式来比较传统的数据库和大数据的区别的话, 我们认为“池塘捕鱼”和“大海捕鱼”是个很好的类比。“池塘捕鱼”代表着传 统数据库时代的数据管理方式,而“大海捕鱼”则对应着大数据时代的数据管理 方式,“鱼”是待处理的数据。“捕鱼”环境条
40、件的变化导致了 “捕鱼”方式的根 本性差异。这些差异主要体现在如下几个方面:数据规模:“池塘”和“大海”最容易发现的区别就是规模。“池塘”规模相 对较小,即便是先前认为比较大的“池塘”,譬如VLDB(Very Large Database), 和大海XLDB(Extremely Large Database)相比仍旧偏小。“池塘”的处理对象 通常以MB为基本单位,而“大海”则常常以GB,甚至是TB、PB为基本处理 单位。数据类型:过去的“池塘”中,数据的种类单一,往往仅仅有一种或少数几 种,这些数据又以结构化数据为主。而在“大海”中,数据的种类繁多,数以千 计,而这些数据又包含着结构化、半结构
41、化以及非结构化的数据,并且半结构化 和非结构化数据所占份额越来越大。模式(Schema)和数据的关系:传统的数据库都是先有模式,然后才会产生数 据。这就好比是先选好合适的“池塘”,然后才会向其中投放适合在该“池塘” 环境生长的“鱼而大数据时代很多情况下难以预先确定模式,模式只有在数 据出现之后才能确定,且模式随着数据量的增长处于不断的演变之中。这就好比 先有少量的鱼类,随着时间推移,鱼的种类和数量都在不断的增长。鱼的变化会 使大海的成分和环境处于不断的变化之中。处理对象:在“池塘”中捕鱼,“鱼”仅仅是其捕捞对象。而在“大海”中, “鱼”除了是捕捞对象之外,还可以通过某些“鱼”的存在来判断其他种
42、类的“鱼” 是否存在。也就是说传统数据库中数据仅作为处理对象。而在大数据时代,要将 数据作为一种资源来辅助解决其他诸多领域的问题。处理工具:捕捞“池塘”中的“鱼”,一种渔网或少数几种基本就可以应对, 也就是所谓的One Size Fits Allo但是在“大海”中,不可能存在一种渔网能够 捕获所有的鱼类,也就是说N。Size Fits All。从“池塘”到“大海”,不仅仅是规模的变大。传统的数据库代表着数据工 程(DataEngineering)的处理方式,大数据时代的数据已不仅仅只是工程处理的对 象,需要采取新的数据思维来应对。图灵奖获得者、著名数据库专家Jim Gray博 士观察并总结人类
43、自古以来,在科学研究上,先后历经了实验、理论和计算三种 范式。当数据量不断增长和累积到今天,传统的三种范式在科学研究,特别是一 些新的研究领域已经无法很好的发挥作用,需要有一种全新的第四种范式来指导 新形势下的科学研究。基于这种考虑,Jim Gray提出了一种新的数据探索型研 究方式,被他自己称之为科学研究的“第四种范式(The Fourth Paradigm)。第四种范式的实质就是从以计算为中心,转变到以数据处理为中心,也就是 我们所说的数据思维。这种方式需要我们从根本上转变思维。正如前面提到的“捕 鱼”,在大数据时代,数据不再仅仅是“捕捞”的对象,而应当转变成一种基础 资源,用数据这种资源
44、来协同解决其他诸多领域的问题。计算社会科学(Computational SocialScience)基于特定社会需求,在特定的社会理论指导下,收 集、整理和分析数据足迹(dataprint),以便进行社会解释、监控、预测与规划的 过程和活动。计算社会科学是一种典型的需要采用第四种范式来做指导的科学研 究领域。Duncan J. Watts在自然杂志上的文章Atwenty-first century science 也指出借助于社交网络和计算机分析技术,21世纪的社会科学有可能实现定量 化的研究,从而成为一门真正的自然科学。从云计算到大数据如今,大数据的重要性越来越明显,但就和云计算一样,它也不
45、是一个从天 而降的新事物,而是在三个主要因素的驱动下,逐步成长成熟的。大数据的驱动力第一个驱动力,就是业界常说的大数据的三个V(Vblume, Variety, Velocity), 而这三个V可以有多种解读。首先来看看第一个V,巨大的数据量与数据完整性。IT业界所指的数据, 诞生不过60多年。而一直到PC普及到千家万户之前,由于存储、计算和分析 工具的技术和成本限制,许多自然界和人类社会值得记录的信号,并未形成数据 几十年前,气象、地质、石油物探、出版业、媒体业和影视业是大量、持续 产出信号的行业,但那时90%以上采用的是存储模拟信号,难以通过计算设备和 软件进行直接分析。那些拥有大量资金和
46、人才的政府和企业,也只能把少量最关 键的信号,进行抽取、转换、装载到数据库中。值得注意的是,业界对达到怎样的数量级才算是大数据并无定论,其实在很 多行业的应用场景里,数据集本身的大小并不是最重要的,是否完整才最重要。第二个V,在海量、种类繁多的数据间发现其内在关联。互联网时代,各种 设备通过TCP/IP网络连成了一个整体。进入Web 2.0时代,PC用户不单单可以 通过网络获取信息,还成为了信息的制造者和传播者。这个阶段,不仅是数据量 开始了爆炸式增长,数据种类也开始变得繁多一一从技术角度看,可以称之为结 构化数据、半结构化数据、非结构化数据和流式数据。2005年,微软亚洲研究 院一年一度的“
47、21世纪的计算”大会将主题设定为“Data Centric Computing, 也就是“以数据为中心的计算”,那时业界就已建立了这样的认知:价值来自于 数据,或者说,数据一直都是有价值的商业资产一一此前,人们往往过于重视“计 算和存储性能的提升”;而从那时起,业界就已更关注“数据分析和处理的效率” 对海量数据进行分析、处理和集成,找出原本看来毫无关系的那些数据的“关 联性”,把似乎没有用的数据变成有用的信息,以支持我们做出的判断。第三个V,可以理解为更快地满足实时性需求。如今,通过各种有线和无线 电网络,人和人、人和各种机器、机器和机器之间无处不在的连接,这些连接不 可避免地带来数据交换,而
48、数据交换的关键是降低延迟一一要解决数据产生、传 输、处理、存储、抽取、分析、可视化等各个环节带来的延时,以近乎实时(这 意味着小于250毫秒)的方式呈献给用户。如今,数据的实时化需求越来越清晰。用户想驾车去吃饭,先用地图应用查 询餐厅的位置、预计行车路线的拥堵情况、停车场信息甚至是其他用户对餐厅的 评论。吃饭的过程中,他会用手机拍摄食物的照片,编辑简短的评论,发布到微 博上,还可以用LBS应用查找在同一间餐厅吃饭的人,看有没有好友在附近第二个驱动力,是云计算的普及和成为主流。云计算和大数据到底有什么区 别?前两年大家都在讲云计算,现在怎么又变成大数据了?微软全球资深副总 裁,微软(中国)有限公
49、司董事长张亚勤对此解释说,其实,云计算和大数据是 一个硬币的两面,云计算是大数据的IT基础,而大数据是云计算的一个杀手级 应用。由于云计算的普及和成为主流,让上述三个V不再成为挑战,反而成为 大数据成长的驱动力。另一方面由于数据越来越多、越来越复杂、越来越实时, 这就更加需要云计算去处理,所以二者之间是相辅相成的。举例而言,30年前 存储1TB数据的成本大约是16亿美元,如今存储到云上只需不到100美元;但 存储下来的数据,如果不以云计算进行挖掘和分析,就只是僵死的数据,没有太 大价值。第三个驱动力,是人工智能、机器学习和数据挖掘等技术的迅速发展。在 这样的背景下,以微软为例,它已经可以为用户提供三个层次的端到端大数据解 决方案一一其一是数据管理,即如何获取、存储和保护数据;其二是数据丰富, 即如何清洗、发现不同数据间的数据相关性;其三是,数据洞察