大数据与云计算(论文)2416159.docx

上传人:you****now 文档编号:68881542 上传时间:2022-12-30 格式:DOCX 页数:39 大小:1.03MB
返回 下载 相关 举报
大数据与云计算(论文)2416159.docx_第1页
第1页 / 共39页
大数据与云计算(论文)2416159.docx_第2页
第2页 / 共39页
点击查看更多>>
资源描述

《大数据与云计算(论文)2416159.docx》由会员分享,可在线阅读,更多相关《大数据与云计算(论文)2416159.docx(39页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、大数据与云计算摘要:近年来,大数据和云计算已经成为社会各界关注的热点话题。秉承“按需服务”理念的“云计算(Cloud computing)”正高速发展,“数据即资源”的“大数据(big data)”时代已经来临1。大数据利用对数据处理的实时性、有效性提出了更高要求,需要根据大数据特点对传统的常规数据处理技术进行技术变革,形成适用于大数据收集、存储、管理、处理、分析、共享和可视化的技术。如何更好地管理和利用大数据已经成为普遍关注的话题。大数据的规模效应给数据存储、管理以及数据分析带来了极大的挑战,数据管理方式上的变革正在酝酿和发生。本文所提到的大数据包含着云计算,因为云计算是支撑大数据的平台。关

2、键词: 大数据 云计算 数据分析 数据挖掘引言在学术界,大数数据这一概念念的提出相对对较早。20008 年 9 月,自自然杂志就就推出了名为为“大数据”( bigg dataa) 的专刊刊。20111 年5 月月,麦肯锡全全球研究院发发布了名为大大数据: 创创新、竞争和和生产力的下下一个前沿(Big ddata: The nnext ffrontiier foor innovvationn,comppetitiion,annd prooductiivity)的研究报告告,指出大数数据将成为企企业的核心资资产,对海量量数据的有效效利用将成为为企业在竞争争中取胜的最最有力武器。22012 年年,联

3、合国发发布大数据政政务白皮书,指指出大数据可可以使用极为为丰富的数据据资源来对社社会经济进行行前所未有的的实时分析,帮帮助政府更好好地响应社会会和经济运行行。20122 年 3 月 29日日,奥巴马政政府发布了大大数据研究与与发展计划倡倡议,宣布布启动对大数数据的研发计计划,标志着着美国把大数数据提高到国国家战略层面面,将“大数据研究究”上升为国家家意志,对未未来的科技与与经济发展必必将带来深远远影响。大数据应用正在在风靡全球,大大数据精准营营销成为企业业掌舵者的口口头禅,那么么大数据真的的是无懈可击击吗?答案显显然是否定的的。随着互联联网和移动设设备的普及,大大数据已经在在我们的生活活中无处

4、不在在,而有关大大数据与隐私私的问题也日日益受到关注注。毫无疑问问,未来可以以获得的个人人数据量越多多,其中的信信息量就越大大。只要拥有有了足够多的的数据,我们们甚至可能发发现有关于一一个人的未来来信息。另外外市场是变化化无常并且不不可预期的,决决策者的创造造性思维并不不能通过数据据得以体现,相相反,大数据在压制制创新。大数数据搜集到的的数据的真实实性也有待检检验。一个人人获得的数据据和事实越多多,预测就越越有意义,人人的判断也就就显得愈发重重要。人类、数数据集和算法法的协同进化化将最终决定定“大数据”究竟是会创创造新财富,还还是会摧毁旧旧价值。本文首先介绍了了云计算的相相关概念,云云计算为大

5、数数据的诞生创创造了物质基基础,从而引引出大数据的的相关概念。通通过大数据与与云计算之间间关系的比较较,使读者对对大数据与云云计算有一个个清晰的了解解。文章介绍绍了大数据特特征、作用以以及对大数据据分析的方法法理论,对大大数据的两种种处理模式、处处理流程以及及关键技术进进行了分析,提提出MapRReducee与关系数据据库融合技术术,为未来大大数据的工作作提供了一个个参考。1 云计算简介正如维克托教授授所说,大数数据的真实价价值就像漂浮浮在海洋中的的冰山,第一一眼只能看到到冰山的一角角,绝大部分分都隐藏在表表面之下。而而发掘数据价价值、征服数数据海洋的“动力”就是云计算算2。本章章首先对云计计

6、算进行相关关介绍。1.1 云计算算的概念由于云计算是由由不同的企业业和研究机构构同步推进的的技术,所以以关于云计算算的定义有很很多,至今并并没有一个公公认的定义和和标准。结合国际 200 位专家的的定义,Iaan Fosteer 定义云云计算为一个个由规模经济济驱动的大型型分布式计算算模型,在该该模型中,抽抽象的、虚拟拟化的、动态态可伸缩的并并可管理的计计算资源、存存储资源、平平台和服务构构成了一个资资源池。资源源池中的资源源通过互联网网,按需提供供给池外的用用户。文献3归纳纳的云计算定定义为:云是是由易于使用用的虚拟资源源构成的一个个巨大资源池池,包括硬件件资源、部署署平台以及相相应的服务。

7、根根据不同的负负载,这些资资源可以动态态地重新配置置,以达到一一个最理想的的资源使用状状态。资源池池中的资源是是按需付费的的,服务提供供商通过服务务等级协议(SServicce Levvel Aggreemeent,SLLA)保证用用户的服务质质量。综合其他资料,可以将云计算归纳为:云计算以虚拟化技术为核心,虚拟化技术将共享的硬件和软件资源抽象化成一个统一的资源池,通过互联网这个载体,向用户按需地提供所需的资源。其特点在于多用户共享、大数据处理与大数据存储8。云计算严格地来来说并不是一一种真正新的的技术,而是是并行计算(PParalllel Coomputiing,PCC)等计算模模式的进一步

8、步演进。由于于云计算的主主要标准和方方案是由企业业推进的,也也可以说云计计算是分布式式计算模型的的商业实现。1.2 云计算算部署及服务务模式根据云计算服务务对象范围的的不同,云计计算有四种部部署模式(如如图 1所示):私有有云、社区云云、公有云和和混合云110。私有云(Priivate clouud):云计计算出现之前前,对于数据据密集型或计计算密集型任任务,用户需需要建立数据据中心来提供供服务,以满满足其对数据据存储、计算算、通信能力力的要求。用用户需对数据据中心进行运运维和安全管管理,对服务务器上的数据据和应用具有有所有权和控控制权。云计计算出现后,这这种传统的用用户/服务提供者者模式逐渐

9、发发展成私有云云模式。私有有云是由一个个用户组织(例例如政府、军军队,企业)建建立运维的云云计算平台,专专供组织内部部人员使用,不不提供对外服服务。私有云云能够体现云云计算的部分分优势,例如如计算资源的的统一管理和和动态分配。但但是,私有云云仍要求组织织购买基础设设施,建立大大型数据中心心,投入人力力物力来维护护数据中心的的正常运转,由由此可见,私私有云系统提提高了组织的的IT成本,而而且使云的规规模受到了限限制。由于私私有云的开放放性不高,在在几种部署模模式中,私有有云的安全威威胁相对较少少。社区云(Commmunitty clloud):也称为机构构云,云基础础设施由多个个组织共同提提供,

10、平台由由多个组织共共同管理。社社区云被一些些组织共享,为为一个有共同同关注点(例例如,任务、安安全需求、策策略或政策准准则等)的社社区或大机构构提供服务。显显然,社区云云的规模要大大于私有云,多多个私有云可可通过VPNN连接到一起起组成社区云云,以满足多多个私有云组组织之间整合合和安全共享享的需求。公有云(Pubblic cloudd):公有云云的基础设施施由一个提供供云计算服务务的大型运营营组织建立和和运维,该运运营组织一般般是拥有大量量计算资源的的IT巨头,例例如Googgle、微软软、Amazzon、百度度等大型企业业。这些ITT公司将云计计算服务以“按需购买”的方式销售售给一般用户户或

11、中小企业业群体。用户户只需将请求求提交给云计计算系统,付付费租用所需需的资源和服服务。对用户户来说,不需需要再投入成成本建立数据据中心,不需需要进行系统统的维护,可可以专心开发发核心的应用用服务。目前前,亚马逊的的EC2、Googlle Appp Engiine、Windowws Azuure9、百度云等等都属于公有有云计算系统统。由于公有有云的开放性性较高,而用用户又失去了了对数据和计计算的控制权权,因此,与与私有云相比比,公有云的的数据安全威威胁更为突出出。 混合云(Hybbrid ccloud):云基础设设施是由两种种或两种以上上的云(私有有云、社区云云或公有云)组组成,每种云云仍然保持

12、独独立,但用标标准的或专用用的技术将它它们组合起来来,具有数据据和应用程序序的可移植性性,例如混合合云可以在云云之间通过负负载均衡技术术应付突发负负载。由于混混合云可以是是私有云和公公有云的组合合,某些用户户选择将敏感感数据和计算算外包到私有有云,而将非非敏感数据和和计算外包到到公有云中,这这种使用模式式下,服务在在不同云之间间的安全无缝缝连接较难实实现。图 1 云计算的的几种部署模模式计算就要有计算算环境,一般般计算环境都都有硬件的一一层,资源组组合调度的一一层(即操作作系统层),以以及计算任务务的应用业务务的软件层。云云计算与一般般计算环境的的三个层面类类似,云计算算提供的三种种服务模式就

13、对对应了计算环环境的三个层层面。这三种种服务模式分分别是基础设设施即服务IIaaS(IInfrasstructture aas a SServicce)、平台台即服务PaaaS(Pllatforrm as a Serrvice)以及软件即即服务SaaaS(Sofftwaree as aa Servvice)。云安全联盟CSSA给出了云云计算平台的的体系结构,涵涵盖了上述三三种服务模式式(如图 2所示)。图 2 云计算平平台的体系结结构IaaS将计算算、存储、通通信资源封装装为服务提供供给云用户,用用户相当于使使用裸机,能能够部署和运运行任意软件件。IaaSS提供计算资资源最常用的的方式是虚拟拟

14、机(Virrtual Machiine, VVM),典型型服务有Ammazon的EC2等。IaaSS提供存储资资源的服务能能够为用户提提供海量数据据存储和访问问服务,这种种存储服务也也被单独称为为DaaS(Data as a Serviice)。提提供存储资源源的典型服务务有Amazzon的S3,Googlle的GFS等。IaaSS可以提供高高速网络和通通信服务,这这种服务也被被称为CaaaS(Commmuniccationn as aa Servvice),提提供网络和通通信资源的典典型服务有OOpenFllow。PaaS是在基基础设施与应应用之间的重重要一层,PPaaS将基基础设施资源源进

15、行整合,为为用户提供基基于互联网的的应用开发环环境,包括应应用编程接口口和运行平台台等,方便了了应用与基础础设施之间的的交互。典型型的PaaSS平台有Gooogle的MapReeduce框框架,应用执执行环境Gooogle App Enginne,微软公公司的Miccrosofft Azuure Seervicees。SaaS即云应应用软件,为为用户提供直直接为其所用用的软件。SSaaS一般般面向终端用用户,特别是是“瘦终端”。终端用户户利用webb浏览器,通通过网络就可可以获得所需需的或定制的的云应用服务务。终端用户户不具有网络络、操作系统统、存储等底底层云基础设设施的控制权权,也不能控控制

16、应用的执执行过程,只只有非常有限限的与应用相相关的配置能能力。SaaaS使用户以以最小的开发发和管理开销销获得定制的的应用。典型型的SaaSS服务有Sallesforrce公司的的CRM系统,Gooogle DDocs等。1.3 云计算算的特点和优优势云计算作为分布布式计算的优优势:(1). 分布式系统的最最大优势就是是因为其具有有比集中式系系统更好的性性能价格比,用用户花少量的的钱就能获得得高效能计算算。由于“云”的特殊容错错措施可以采采用极其廉价价的节点来构构成云,“云”的自动化集集中式管理使使大量企业无无需负担日益益高昂的数据据中心管理成成本,“云”的通用性使使资源的利用用率较之传统统系

17、统大幅提提升,因此用用户可以充分分享受“云”的低成本优优势。(2). 多数应用本身就就是分布式的的。如工业企企业应用,管管理部门和现现场不在同一一个地方的应应用。(3). 虚拟化。云计算算支持用户在在任意位置、使使用各种终端端获取应用服服务。所请求求的资源来自自“云”,而不是固固定的有形的的实体。应用用在“云”中某处运行行,但实际上上用户无需了了解、也不用用担心应用运运行的具体位位置。只需要要一台笔记本本或者一个手手机,就可以以通过网络服服务来实现我我们需要的一一切,甚至包包括超级计算算这样的任务务。(4). 高可靠性。冗余余不仅是生物物进化的必要要条件,而且且也是信息技技术。现代分分布式系统

18、具具有高度容错错机制,控制制核反应堆主主要采用分布布式来实现高高可靠性。(5). 通用性。云计算算不针对特定定的应用,在在“云”的支撑下可可以构造出千千变万化的应应用,同一个个“云”可以同时支支撑不同的应应用运行。(6). 可扩展性。添置置一台性能更更高的大型机机,或者添置置一台性能相相同的大型机机的费用都比比添加几台 PC 的费费用高得多。(7). 高度灵活性。能能够兼容不同同硬件厂商的的产品,兼容容低配置机器器和外设而获获得高性能计计算。云计算在存储领领域的发展趋趋势和优势:(1). 用户不必为文件件存储硬件投投入任何前期期的费用。(2). 主机服务提供商商会维护用户户文件服务器器的安全和

19、更更新问题。(3). 方便的控制访问问权限和文件件资源管理。2 大数据概述云计算的蓬勃发发展,客观上上开起来大数数据时代的大大门。大数据据是云计算的的灵魂和升级级方向。云计计算为大数据据提供的存储储的空间和访访问的渠道。图 3 各地云计计划项目是大大数据诞生的的前提9微软公司全球资资深副总裁、亚亚太研发集团团主席张亚勤勤博士认为“云计算和大大数据是一个个硬币的两面面,云计算是大大数据的ITT基础,而大数据是是云计算的一一个杀手级应应用”4。随着物联网网、移动互联联网、社会化化网络的快速速发展,企业业数据的增长长迅速,半结结构化及非结结构化的数据据呈几何倍数数增长。数据据来源的渠道道也逐渐增多多

20、,这不光包包括了本地的的文档、音视视频,还包括括了网络内容容和社交媒体体。大数据的的时代已然来来临,并给各各行各业带来来了根本性变变革。2.1 何谓大大数据人、机、物三元元世界的高度度融合引发了了数据规模的的爆炸式增长长和数据模式式的高度复杂杂化,世界已已进入网络化化的大数据(BBigDatta)时代。以以数据为中心心的传统学科科(如基因组组学、蛋白组组学,天体物物理学和脑科科学等)的研研究产生了越越来越多的数数据。例如,用用电子显微镜镜重建大脑中中的突触网络络,1立方毫毫米大脑的图图像数据就超超过1PB。但但近年来大数数据的飙升主主要还是来自自日常生活,特特别是互联网网公司的服务务。据著名咨

21、咨询公司IDDC的统计,22011年全全球被创建和和复制的数据据总量为1.8ZB(110的21次次方),其中中75%来自自于个人(主主要是图片、视视频和音乐),远远远超过人类类有史以来所所有印刷材料料的数据总量量(200PPB)。Gooogle 公司通过大大规模集群和和MapReeduce 软件,每月月处理的数据据量超过4000PB;百百度每天大约约要处理几十十 PB 数数据;Faccebookk 注册用户户超过 100亿,每月上上传的照片超超过10亿张张,每天生成成300TBB 以上的日日志数据;淘淘宝网会员超超过3.7 亿,在线商商品超过 88.8 亿,每每天交易数千千万笔,产生生约20T

22、BB数据。传感感网和物联网网的蓬勃发展展是大数据的的又一推动力力,各个城市市的视频监控控每时每刻都都在采集巨量量的流媒体数数据。工业设设备的监控也也是大数据的的重要来源。例例如,劳斯莱莱斯公司对全全世界数以万万计的飞机引引擎进行实时时监控,每年年传送PB数数量级的数据据5。一般意义上,大大数据是指无无法在可容忍忍的时间内用用传统IT技技术和软硬件件工具对其进进行感知、获获取、管理、处处理和服务的的数据集合。大大数据的特点点可以总结为为4个V,即即Volumme(体量浩浩大)、Vaari-etty(模态繁繁多)、Veelocitty(生成快快速)和 VValue(价价值巨大但密密度很低)。首首先

23、,数据集集合的规模不不断扩大,已已从GB到TTB再到PBB级,甚至开开始以EB和和ZB 来计计数。IDCC 的研究报报告称,未来来 10 年年全球大数据据将增加500倍,管理数数据仓库的服服务器数量将将增加10倍倍。其次,大大数据类型繁繁多,包括结结构化数据、半半结构化数据据和非结构化化数据。现代代互联网应用用呈现出非结结构化数据大大幅增长的特特点,至20012 年末末,非结构化化数据占有比比例将达到整整个数据量的的75%以上上。同时,由由于数据显性性或隐性的网网络化存在,使使得数据之间间的复杂关联联无所不在。再再次,大数据据往往以数据据流的形式动动态、快速地地产生,具有有很强的时效效性,用户

24、只只有把握好对对数据流的掌掌控才能有效效利用这些数数据。另外,数数据自身的状状态与价值也也往往随时空空变化而发生生演变,数据据的涌现特征征明显。最后后,虽然数据据的价值巨大大,但是基于于传统思维与与技术,人们们在实际环境境中往往面临临信息泛滥而而知识匮乏的的窘态,大数数据的价值利利用密度低。维克托尔耶舍恩伯格明明确指出,大大数据时代最最大的转变就就是,放弃对对因果关系的的渴求,而取取而代之关注注相关关系。也也就是说只要要知道“是什么”,而不需要要知道“为什么”。这颠覆了了千百年来人人类的思维惯惯例,对人类类的认知和与与世界交流的的方式提出了了全新的挑战战。2.2 从数据据库(dattabase

25、e,DB)到到大数据(bbigdatta,BD) 从数据库到大数数据,看似只是一一个简单的技技术演进,但细细考究究不难发现两两者有着本质质上的差别。大数据的出出现必将颠覆覆传统的数据据管理方式。在数据来源源)数据处理理方式和数据据思维等方面面都会对其带带来革命性的的变化6。如果要用简单的的方式来比较较传统的数据据库和大数据据的区别,我们认为“池塘捕鱼”和“大海捕鱼”是个很好的的类比。“池塘捕鱼”代表着传统统数据库时代代的数据管理理方式,而“大海捕鱼”则对应着大大数据时代的的数据管理方方式,“鱼”是待处理的的数据。“捕鱼”环境条件的的变化导致了了“捕鱼”方式的根本本性差异。这些差异主主要体现在如

26、如下几个方面面:数据规模。“池池塘”和“大海”最容易发现现的区别就是是规模。“池塘”规模相对较较小,即便是先前前认为比较大大的“池塘”,譬如CLDBB(veryy largge dattabasee),和“大海”XLDB(eextremmely llarge databbase)相相比仍旧偏小小。“池塘”的处理对象象通常以MBB为基本单位位,而“大海”则常常GB,甚至是是TB,PB为基本处处理单位。数据类型。过去去的“池塘”中,数据的种类类单一,往往仅仅有有一种或少数数几种,这些数据又又以结构化数数据为主。而在“大海”中数据的种种类繁多“数以千计”而这些数据据又包含着结结构化、半结构化以以及非

27、结构化化的数据”并且半结构构化和非结构构化数据所占占份额越来越越大。模式(scheema)和数数据的关系。传统的数据据库都是先有有模式,然后才会产产生数据。这就好比是是先选好合适适的“池塘”,然后才会向向其中投放适适合在该“池塘”环境生长的的“鱼”。而大数据时时代很多情况况下难以预先先确定模式,模式只有在在数据出现之之后才能确定定,且模式随着着数据量的增增长处于不断断的演变之中中。这就好比先先有少量的鱼鱼类,随着时间推推移,鱼的种类和和数量都在不不断地增长。鱼的变化会会使大海的成成分和环境处处于不断的变变化之中。处理对象。在“池塘”中捕鱼,“鱼”仅仅是其捕捕捞对象。而在“大海”中,“鱼”除了是

28、捕捞捞对象之外,还可以通过过某些“鱼”的存在来判判断其他种类类的“鱼”是否存在。也就是说传传统数据库中中数据仅作为为处理对象。而在大数据据时代,要将数据作作为一种资源源来辅助解决决其他诸多领领域的问题。处理工具。捕捞捞“池塘”中的“鱼”,一种渔网或或少数几种基基本就可以应应对,也就是所谓谓的One size fits all。但但是在“大海”中,不可能存在在一种渔网能能够捕获所有有的鱼类,也就是说Noo sizee fitss all。从“池塘”到“大海”不仅仅是是规模的变大大。传统的数据据库代表着数数据工程(ddata eengineeeringg)的处理方方式,大数据时代代的数据已不不仅仅

29、只是工工程处理的对对象,需要采取新新的数据思维维来应对。图灵奖获得得者、著名数据库库专家Jimm Grayy博士观察并并总结人类自自古以来,在科学研究究上,先后历经了了实验、理论和计算算3种范式。当数据量不不断增长和累累积到今天,传统的3种范式在科科学研究,特别是一些些新的研究领领域已经无法法很好地发挥挥作用,需要有一种种全新的第44种范式来指指导新形势下下的科学研究究。基于这种考考虑,Jimm Grayy提出了一种种新的数据探探索型研究方方式,被他自己称称之为科学研研究的“第4种范式”(The Fourtth Parradigmm)。4种范式的比较较如表 1所示。第4种范式的实实质就是从以以

30、计算为中心心转变到以数数据处理为中中心,也就是我们们所说的数据据思维。这种方式需需要我们从根根本上转变思思维。正如前面提提到的“捕鱼”,在大数据时时代,数据不再仅仅仅是“捕捞”的对象,而应当转变变成一种基础础资源,用数据这种种资源来协同同解决其他诸诸多领域的问问题。计算社会科科学(commputattionall sociial scciencee)基于特定定社会需求,在特定的社社会理论指导导下,收集$整理理和分析数据据足迹(daata prrint),以便进行社会解释$监控$预测与规划的过程和活动。计算社会科学是一种典型的需要采用第4种范式来作指导的科学研究领域。Watts在Nature杂志

31、上的文章“A twenty-first century science”也指出,借助于社交网络和计算机分析技术,21世纪的社会科学有可能实现定量化的研究,从而成为一门真正的自然科学。表 1 科学发现现的4中范式式2.3 大数据据与云计算的的关系近几年来,云计计算受到学术术界和工业界界的热捧,随随后,大数据据横空出世,更更是炙手可热热。那么,大大数据和云计计算之间是什什么关系呢?从整体上看,大大数据与云计计算是相辅相相成的大数据着眼于“数据”,关注实际际业务,提供供数据采集分分析挖掘,看看重的是信息息积淀,即数数据存储能力力。云计算着着眼于“计算”,关注IIT解决方方案,提供IT基础础架构,看重

32、重的是计算能能力,即数据据处理能力。没有大数据的信信息积淀,则则云计算的计计算能力再强强大,也难以以找到用武之之地;没有云云计算的处理理能力,则大大数据的信息息积淀再丰富富,也终究只只是镜花水月月。从技术上看,大大数据根植于于云计算云计算关键技术术中的海量数数据存储技术术、海量数据据管理技术、MMapRedduce编程程模型,都是是大数据技术术的基础(如如图 4所示)。图 4 大数据的的关键技术大数据技术与云云计算有相同同,也有差异异(如图 5所示)。图 5 大数据与与云计算的异异同云计算与大数据据的不同之处处在于应用的的不同,主要要在两个方面面:第一,在概念上上两者有所不不同,云计算算改变了

33、 IIT,而大数数据则改变了了业务。然而而大数据必须须有云作为基基础架构,才才能得以顺畅畅运营。 第二,大数据和和云计算的目目标受众不同同,云计算是是卖给 CIIO 的技术术和产品,是是一个进阶的的 IT解决决方案。而大大数据是卖给给 CEO、卖卖给业务层的的产品,大数数据的决策者者是业务层。由由于他们能直直接感受到来来自市场竞争争的压力,必必须在业务上上以更有竞争争力的方式战战胜对手。大数据技术与云云计算相结合合会带来什么么?如图 6所示图 6 大数据与与云计算结合合3 大数据的特征、作作用及分析3.1 大数据据的特征一是数据体量巨巨大。百度资资料表明,其其新首页导航航每天需要提提供的数据超

34、超过1.5PPB(1PBB=10244TB),这这些数据如果果打印出来将将超过5千亿亿张A4纸。有有资料证实,到到目前为止,人人类生产的所所有印刷材料料的数据量仅仅为200PPB。二是数据类型多多样。现在的的数据类型不不仅是文本形形式,更多的的是图片、视视频、音频、地地理位置信息息等多类型的的数据,个性性化数据占绝绝对多数。三是处理速度快快。数据处理理遵循“1秒秒定律”,可可从各种类型型的数据中快快速获得高价价值的信息。四是价值密度低低。以视频为为例,一小时时的视频,在在不间断的监监控过程中,可可能有用的数数据仅仅只有有一两秒。3.2 大数据据的作用第一,对大数据据的处理分析析正成为新一一代信

35、息技术术融合应用的的结点。移动动互联网、物物联网、社交交网络、数字字家庭、电子子商务等是新新一代信息技技术的应用形形态,这些应应用不断产生生大数据。云云计算为这些些海量、多样样化的大数据据提供存储和和运算平台。通通过对不同来来源数据的管管理、处理、分分析与优化,将将结果反馈到到上述应用中中,将创造出出巨大的经济济和社会价值值。大数据具有催生生社会变革的的能量。但释释放这种能量量,需要严谨谨的数据治理理、富有洞见见的数据分析析和激发管理理创新的环境境(Ramaayya KKrishnnan,卡内内基梅隆大大学海因兹学学院院长)。第二,大数据是是信息产业持持续高速增长长的新引擎。面面向大数据市市场

36、的新技术术、新产品、新新服务、新业业态会不断涌涌现。在硬件件与集成设备备领域,大数数据将对芯片片、存储产业业产生重要影影响,还将催催生一体化数数据存储处理理服务器、内内存计算等市市场。在软件件与服务领域域,大数据将将引发数据快快速处理分析析、数据挖掘掘技术和软件件产品的发展展。第三,大数据利利用将成为提提高核心竞争争力的关键因因素。各行各各业的决策正正在从“业务驱动”转变“数据驱动”。对大数据据的分析可以以使零售商实实时掌握市场场动态并迅速速做出应对;可以为商家家制定更加精精准有效的营营销策略提供供决策支持;可以帮助企企业为消费者者提供更加及及时和个性化化的服务;在在医疗领域,可可提高诊断准准

37、确性和药物物有效性;在在公共事业领领域,大数据据也开始发挥挥促进经济发发展、维护社社会稳定等方方面的重要作作用。第四,大数据时时代科学研究究的方法手段段将发生重大大改变。例如如,抽样调查查是社会科学学的基本研究究方法。在大大数据时代,可可通过实时监监测、跟踪研研究对象在互互联网上产生生的海量行为为数据,进行行挖掘分析,揭揭示出规律性性的东西,提提出研究结论论和对策。3.3 大数据据的分析从所周知,大数数据已经不简简简单单是数数据大的事实实了,而最重重要的现实是是对大数据进进行分析,只只有通过分析析才能获取很很多智能的,深深入的,有价价值的信息。那那么越来越多多的应用涉及及到大数据,而而这些大数

38、据据的属性,包包括数量,速速度,多样性性等等都是呈呈现了大数据据不断增长的的复杂性,所所以大数据的的分析方法在在大数据领域域就显得尤为为重要,可以以说是决定最最终信息是否否有价值的决决定性因素。基基于如此的认认识,大数据据分析普遍存存在的方法理理论有哪些呢呢?1. 可视化分析。大大数据分析的的使用者有大大数据分析专专家,同时还还有普通用户户,但是他们们二者对于大大数据分析最最基本的要求求就是可视化化分析,因为为可视化分析析能够直观的的呈现大数据据特点,同时时能够非常容容易被读者所所接受,就如如同看图说话话一样简单明明了。2. 数据挖掘算法。大大数据分析的的理论核心就就是数据挖掘掘算法,各种种数

39、据挖掘的的算法基于不不同的数据类类型和格式才才能更加科学学的呈现出数数据本身具备备的特点,也也正是因为这这些被全世界界统计学家所所公认的各种种统计方法(可可以称之为真真理)才能深深入数据内部部,挖掘出公公认的价值。另另外一个方面面也是因为有有这些数据挖挖掘的算法才才能更快速的的处理大数据据,如果一个个算法得花上上好几年才能能得出结论,那那大数据的价价值也就无从从说起了。3. 预测性分析。大大数据分析最最终要的应用用领域之一就就是预测性分分析,从大数数据中挖掘出出特点,通过过科学的建立立模型,之后后便可以通过过模型带入新新的数据,从从而预测未来来的数据。4. 语义引擎。非结结构化数据的的多元化给

40、数数据分析带来来新的挑战,我我们需要一套套工具系统的的去分析,提提炼数据。语语义引擎需要要设计到有足足够的人工智智能以足以从从数据中主动动地提取信息息。5. 数据质量和数据据管理。大数数据分析离不不开数据质量量和数据管理理,高质量的的数据和有效效的数据管理理,无论是在在学术研究还还是在商业应应用领域,都都能够保证分分析结果的真真实和有价值值。大数据分析的基基础就是以上上五个方面,当当然更加深入入大数据分析析的话,还有有很多很多更更加有特点的的、更加深入入的、更加专专业的大数据据分析方法。4 大数据处理框架架4.1 大数据据处理模式大数据的应用类类型有很多,主要的处理理模式可以分分为流处理(ss

41、treamm proccess)和和批处理(bbatch proceessingg)两 种。批处理是先先存储后处理理(storre-theen-proocess),而流处理则是直接处理(straight-through processing)7。流处理流处理的基本理理念是数据的的价值会随着着时间的流逝逝而不断减少少,因此尽可能能快地对最新新的数据作出出分析并给出出结果是所有有流数据处理理模式的共同同目标。需要采用流流数据处理的的大数据应用用场景主要有有网页点击数数的实时统计计、传感器网络络、金融中的高高频交易等。流处理的处理模模式将数据视视为流,源源不断的的数据组成了了数据流。当新的数据据到来

42、时就立立刻处理并返返回所需的结结果。图 7是流处理中中基本的数据据流模型:图 7 基本的数数据流模型数据的实时处理理是一个很有有挑战性的工工作,数据流本身身具有持续达达到%速度快快且规模巨大大等特点,因此通常不不会对所有的的数据进行永永久化存储,而且数据环环境处在不断断的变化之中中,系统很难准准确掌握整个个数据的全貌貌。由于响应时间的的要求,流处理的过过程基本在内内存中完成,其处理方式式更多地依赖赖于在内存中中设计巧妙的的概要数据结结构,内存容量是是限制流处理理模型的一个个主要瓶颈。以PCM(相变变存储器)为代表的储储存级内存设设备的出现或或许可以使内内存未来不再再成为流处理理模型的制约约。数

43、据流的理论及及技术研究已已经有十几年年的历史,目前仍旧是是研究热点。与此同时很很多实际系统统也已开发和和得到广泛的的应用,比较代表性性的开源系统统如Twittter的Stormm、Yahooo的S4以以及Linkkedin的的Kafkaa等。批处理Google公公司在20004年提出的的MapReeduce编编程模型是最最具代表性的的批处理模式式。一个完整的MaapReduuce过程如如所示。图 8 MapRReducee执行流程图图MapReduuce模型首首先将用户的的原始数据源源进行分块,然然后分别交给给不同的Maap任务区处处理。Mapp任务从输入入中解析出链链/值(Keey/Vall

44、ue)对集集合。然后对对这些集合执执行用户自行行定义的Maap函数得到到中间结果,并并将该结果写写入本地硬盘盘。Reduuce任务从从硬盘上读取取数据之后会会根据Key值进行行排序,将具具有相同Key值的组组织在一起。最最后用户自定定义的Redduce函数数会作用于这这些排好序的的结果并输出出最终结果。4.2 大数据据处理的基本本流程大数据的数据来来源广泛!应应用需求和数数据类型都不不尽相同!但但是最基本的的处理流程一一致。海量WWeb数据的的处理是一类类非常典型的的大数据应用用,从中可以以归纳出大数数据处理的最最基本流程。图 9 大数据处处理基本流程程整个大数据的处处理流程可以以定义为在合合

45、适工具的辅辅助下,对广广泛异构的数数据源进行抽抽取和集成,结结果按照一定定的标准统一一存储。利用用合适的数据据分析技术对对存储的数据据进行分析,从从中提取有益益的知识并利利用恰当的方方式将结果展展现给终端用用户。具体来来说可以分为为数据抽取与与集成、数据据分析以及数数据解释。数据抽取与集成成大数据的一个重重要特点就是是多样性,这这就意味着数数据来源极其其广泛,数据据类型极为繁繁杂,这种复复杂的数据环环境给大数据据的处理带来来极大的挑战战。要想处理大大数据,首先先必须对所需需数据源的数数据进行抽取取和集成,从从中提取出关关系和实体,经经过关联和聚聚合之后采用用统一定义的的结构来存储储这些数据。在

46、数据集成成和提取时需需要对数据进进行清洗,保保证数据质量量及可信性。同时还要特特别注意前面面提及的大数数据时代模式式和数据的关关系,大数据据时代的数据据往往是先有有数据再有模模式,且模式式是在不断的的动态演化之之中的。数据抽取和集成成技术不是一一项全新的技技术,传统数数据库领域已已对此问题有有了比较成熟熟的研究。随随着新的数据据源的涌现数据集成方方法也在不断断的发展之中中。从数据集集成模型来看看,现有的数数据抽取与集集成方式可以以大致分为以以下4种类型型:基于物化化或ETL方方法的引擎、基基于联邦数据据库或中间件件方法的引擎擎、基于数据据流方法的引引擎、及基于搜索索引擎的方法法数据分析数据分析

47、是整个个大数据处理理流程的核心心,因为大数数据的价值产产生于分析过过程。从异构构数据源抽取取和集成的数数据构成了数数据分析的原原始数据。根根据不同应用用的需求可以以从这些数据据中选择全部部或部分进行行分析。传统统的分析技术术如数据挖掘掘、机器学习习、统计分析析等在大数据据时代需要作作出调整。大大数据分析已已被广泛应用用于诸多领域域,典型的有有推荐系统、商商业智能、决决策支持等。数据解释数据分析是大数数据处理的核核心,但是用用户往往更关关心结果的展展示。如果分析的的结果正确但但是没有采用用适当的解释释方法,则所所得到的结果果很可能让用用户难以理解解,极端情况况下甚至会误误导用户。数据解释的的方法

48、很多,比比较传统的就就是以文本形形式输出结果果或者直接在在电脑终端上上显示结果。这种方法在在面对小数据据量时是一种种很好的选择择。但是大数据据时代的数据据分析结果往往往也是海量量的,同时结结果之间的关关联关系极其其复杂,采用用传统的解释释方法基本不不可行。可以考虑引入入可视化技术术、让用户能能够在一定程程度上了解和和参与具体的的分析过程这这两个方面提提升数据解释释能力。4.3 关键技技术分析大数据价值的完完整体现需要要多种技术的的协同。文件件系统提供最最底层存储能能力的支持。为了便于数数据管理,需需要在文件系系统之上建立立数据库系统统。通过索引等等的构建,对对外提供高效效的数据查询询等常用功能能。最终通过数数据分析技术术从数据库中中的大数据提提取出有益的的知识。云计算:大数据据的基础平台台与支撑技术术如果将各种大数数据的应用比比作一辆辆“汽车”,支撑起这这些“汽车”运行的“高速公路”就是云计算算。正是云计算算技术在数据据存储、管理理与分析等方方面的支撑,才才使得大数据据有用武之地地。在所有的“高速速公路”中,Googgle无疑是是技术最为先先进的一个。需求推动创创新,面对

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 管理文献 > 电力管理

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁