中石化-IBM大数据方案介绍.ppt

上传人:wuy****n92 文档编号:60576193 上传时间:2022-11-16 格式:PPT 页数:44 大小:7.20MB
返回 下载 相关 举报
中石化-IBM大数据方案介绍.ppt_第1页
第1页 / 共44页
中石化-IBM大数据方案介绍.ppt_第2页
第2页 / 共44页
点击查看更多>>
资源描述

《中石化-IBM大数据方案介绍.ppt》由会员分享,可在线阅读,更多相关《中石化-IBM大数据方案介绍.ppt(44页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、 2012 IBM Corporation2014年5月29日星期四IBM大数据方案介大数据方案介绍曾翔曾翔IBM 信息管理信息管理 软件部件部 2012 IBM Corporation2议程程 应用用场景和启景和启发 IBM的大数据平台?TBs3何来大数据何来大数据每天20亿人浏览网页2011底 2012 IBM Corporation30 亿/天RFID标签数据(1.3B in 2005)46亿部智能电话25+TBs 日志数据/每天7千6百万智能电表in 2009200M by 201412+TBs 每天智能手表、穿戴式电脑每年新增数亿GPS设备 2012 IBM Corporation4

2、大数据的大数据的4维数据格式多数据格式多传输速度快速度快大数据量大数据量不确定性不确定性 2012 IBM Corporation5大数据大数据为什么是什么是现在?在?2012 IBM Corporation6大数据大数据带来什么来什么表现优秀的企业使用分析技术的数量比表现较差的企业高五倍(见图1)。调查来自100多个国家、30多个行业的近3,000高管、经理和分析员 2012 IBM Corporation7大数据大数据带来什么来什么消费意向duke/unc and take it to the courtshttp:/ at Mickeys Irish Pub Downtown(2063r

3、d St,Court Ave,Raleigh)w/2 othershttp:/ good!U shouldnt!Think about the important stuff,like ur 43rd birthday;)btw happy birthday Sylvia;)地址silliesylvia I 3 your leatherleggings!Its so katniss!年龄个人属性Sylvia Campbell,Female,In aRelationship32 years old,birthday on 7/17Lives near Raleigh,NCCollege grad

4、uate;Income of 80-120k喜爱和厌恶 Retweets BFs comments Interest in BBC shows:Downton Abbey,Sherlock,Fringe,(P&P?)Sherlock Holmes,Robert Downey,Jr.Hunger Games,Katniss/J.Lawrence兴趣/行为 Watch movies,tv shows Romance plots,“hero types”,strongwomenUses iPad 3,Redbox,HuluShopping,interest in sales/dealsDuke/UN

5、C basketball 2012 IBM Corporation兴趣bamagirl cant wait towatch sherlock with you!Oh,robert downey jr,I still loveyou but bbc is so amazing兴趣silliesylvia$10 dollars saysmatthew&mary get marriednext season:)#downtownabbeyOMG OMG.just droppedmy new ipad3 crappola!预测消费88态度John Carter Review Other than th

6、e crapcinematography and that it seems like alord of the flies in the thunderdome,itsstill disney and deserves at least atrilogy.Id be sad about the money,but Idid just pay to see American Reunion.dear redbox please have kingsspeech for my new tv colin firthmovie marathon360 度的客户视图消费意向Consumption分析的

7、第一步:大数据中的信息提取分析的第一步:大数据中的信息提取行为Maybe our politicians should take aplaybook out of the rivalry between9MarketingCampaignPerformanceInteractions3rd PartyNewsSourcesSocial MediaActivityConsumerSubs&DistributionWeb&MobileAppBehaviorresults in a roll-up view of millions ofaudience members将多个来源的数据将多个来源的数据

8、进行整合行整合CRMDemographic Data:age,gender,location,education,income,etcLifestage:maritalstatus,employment,family members,property ownership,etcProduct Affinity&Behaviors:Brands and product affinity,intent,andpurchases/ownershipMedia Affinity&Behaviors:Comprehensive view of contentpreferences and consump

9、tion-magazine,apps,TV,movies,music,games,etcLifestyle:hobbies,interests,activitiesAssociated Communities:Professional/educationalmemberships,social groups,and other associationsBrand Sentiment:Generalsentiment toward mediafranchises and competitivebrands,products 2012 IBM Corporation现在我在我们对客客户有了有了36

10、0度的全度的全视角角分析的第二步:信息的整合和挖掘分析的第二步:信息的整合和挖掘Analytics Complexity 2012 IBM Corporation1010Curated Panels Polling&ExtrapolationData Volume360-degree Profiles Micro-segmentation Predict BehaviorSocial Listening andMonitoring Sentiment Buzz Key influencersVolume-Growing volume of socialmedia or other media

11、source data Extract concepts from several 100Mmessages per day100M+active users per sourceVariety-Heterogeneous data Combine,correlate informationover 100s of sources(sites,forums,message boards,newswires)Velocity-Timely Decisionmaking Make decisions in near real-time over 10K+messages persecondinsi

12、ghtsunderstand jargon and acronyms,eliminatespam大数据量大数据量数据格式多数据格式多传输速度快速度快分析分析过程的挑程的挑战:Social Media Analytics:A Big Data Problem不确定性不确定性Veracity -From Noisy data to Trustworthy 2012 IBM Corporation11议程程 应用场景和启发 IBM的大数据平台的大数据平台12PureData for Analytics基亍基亍Netezza平台平台支持海量关系数据分析挖掘支持海量关系数据分析挖掘PureData fo

13、rTransactional Analytics基亍基亍DB2数据数据仓库支持海量数据的支持海量数据的实时分析分析InfoSphere Streams海量数据的海量数据的实时分析平台分析平台数据分析一体化平台数据分析一体化平台流流计算平台算平台信息集成平台信息集成平台InfoSphere InformationServer大数据量的数据集成与大数据量的数据集成与转换IBM 大数据平台大数据平台InfoSphere BigInsights基亍基亍Hadoop平台,低延平台,低延迟高性能分析平台高性能分析平台支持非支持非结构海量数据存构海量数据存储分析分析Hadoop平台平台PureData fo

14、r Hadoop基亍基亍IBM BigInsight支持海量非支持海量非结构化的数据分析构化的数据分析 2012 IBM Corporation 2012 IBM Corporation13IBM 大数据平台解决的大数据平台解决的问题分析各种格式的大数据分析各种格式的大数据(Variety)Novel analytics on a broad set of mixedinformation that could not be analyzedbefore分析分析实时的大数据的大数据(Velocity)Streaming data analysisLarge volume data bursts

15、 and ad-hoc analysis分析极其海量的数据分析极其海量的数据(Volume)Cost-efficiently process and analyze PBs of informationManage&analyze high volumes of structured,relationaldata分析和展分析和展现Ad-hoc analytics,data discovery andexperimentation管理管理(Veracity)Enforce data structure,integrity and control toensure consistency for

16、repeatable queries14PureData for Analytics基亍基亍Netezza平台平台支持海量关系数据分析挖掘支持海量关系数据分析挖掘PureData forTransactional Analytics基亍基亍DB2数据数据仓库支持海量数据的支持海量数据的实时分析分析InfoSphere Streams海量数据的海量数据的实时分析平台分析平台关系型数据关系型数据仓库平台平台流流计算平台算平台信息集成平台信息集成平台InfoSphere InformationServer大数据量的数据集成与大数据量的数据集成与转换IBM 大数据平台大数据平台InfoSphere B

17、igInsights&Explorer基亍基亍Hadoop平台,低延平台,低延迟高性能分析平台高性能分析平台支持非支持非结构海量数据存构海量数据存储分析分析Hadoop平台平台PureData for Hadoop基亍基亍IBM BigInsight支持海量非支持海量非结构化的数据分析构化的数据分析 2012 IBM Corporation 2012 IBM Corporation15IBM BigInsight 基亍基亍Hadoop的大数据分析平台的大数据分析平台 Hadoop 的计算模式 数据存在由便宜的计算机集群构成的分布式文件系统上 将应用功能分割在各个数据片上计算,然后汇总 可支持几

18、乎无限的节点扩展和PB级别的海量数据1.Map Phase(break job into small parts)2.Shuffle(transfer interim outputfor final processing)3.Reduce Phase(boil all output down toa single result set)Return a single result setResult Setpublic static class TokenizerMapperextends Mapper private final static IntWritableone=new IntWr

19、itable(1);private Text word=new Text();public void map(Object key,Text val,ContextStringTokenizer itr=new StringTokenizer(val.toString();while(itr.hasMoreTokens()word.set(itr.nextToken();context.write(word,one);public static class IntSumReducerextends ReducerText,IntWritable,Text,IntWritaprivate Int

20、Writable result=new IntWritable();public void reduce(Text key,Iterable val,Context context)int sum=0;for(IntWritable v:val)sum+=v.get();.MapReduce ApplicationDistribute maptasks to clusterShuffleHadoop Data Nodes 2012 IBM Corporation16InfoSphere BigInsights 有有别亍开源的亍开源的Hadoop 2012 IBM Corporation17GP

21、FS-SNC并行文件系并行文件系统 vs HDFS BigInsights底层存储GPFS-SNC基于GPFS发展而来,与HDFS相比,在性能、可靠性,易操作性方面具有巨大优势,是BigInsights强大的基石。2012 IBM Corporation18增增强的数据分析能力,企的数据分析能力,企业级管理和管理和处理能力的提升理能力的提升 SystemT文本分析器-基于Hadoop MapReduce文本分析,从非结构化的文本数据中抓取出结构化,半结构化的数据便于分析和处理。简单但是具有强大的扩展能力的JAQL语言。统计分析平台project R,以及机器智能学习systemML。可视化的工

22、具BigSheet用于展示和挖掘。提升MapReduce仸务的处理性能。解决Hadoop工作负载管理问题。2012 IBM Corporation19与与IBM数据分析数据分析软件深度集成件深度集成 通过DB2 Bridge to BigInsight提供统一的访问接口。与分析应用和分析模型进行端对端集成。可以继续利用客户现有的分析平台的投资,降低整体的拥有成本,包括企业级别的数据仓库集成能力(Netezza,DB2,InfoSphereWarehouse)。Import&Export Data Database&Files Web and Social Analyze and QueryPr

23、edictive AnalyticsText AnalyticsSQL/Hive,Jaql,Pig,HBase 2012 IBM CorporationBigInsight提供的提供的应用开用开发界面界面20 20 2012 IBM Corporation拖拽的方式拖拽的方式创建建应用用21 21 2012 IBM CorporationBigSheets 大数据的分析展大数据的分析展现工具工具Model“big data”collectedfrom various sources ascollections(tabularstructures)Filter and enrich conten

24、twith built-in functionsCombine data in differentcollectionsVisualize results throughspreadsheets,chartsExport data into commonSheetsformats(if desired)No programming knowledge needed!22 22 2012 IBM Corporation23 23BigSheets 大数据的分析展大数据的分析展现工具工具 2012 IBM Corporation24HDFS files:Hive-RC,text,delimited

25、,JSON,SEQUENCEHBase serversHBaseclient APIODBCClientJDBCClientSQL interface ServerSQL EngineParallel Execution EngineHive MetaStoreMetastoreHCatalogClient APIHive Storage HandlersHive-RCstorage driverDelstoragedriverTextstoragedriverJSONstoragedriverHBasestoragehandlerOther DataSources(RDBMS,Web,etc

26、.)IBM Big SQL通通过SQL访问所有大数据所有大数据利用利用MapReduce的并行机制的并行机制提供提供对各种数据源的接口各种数据源的接口 2012 IBM Corporation25Web ResultsRSS/LicenseFeedsSubscriptionsIBM Data Explorer 大数据搜索架构大数据搜索架构Search EngineContent,Document,Record Mgt.SystemsDatabasesRSS/LicenseFeedsCollaborationSystemsEmail andEmail ArchivesInternet(Web)C

27、RM Systems File SystemsKnowledge BaseThesauriAcronymsOntology SupportSemantic ProcessingFederatedSourcesContent IntegrationQuery transformation&federationClustering EngineUser ProfilesPublish SearchResultsDisplayTemplates,robust transformation,XML feed26PureData for Analytics基亍基亍Netezza平台平台支持海量关系数据分

28、析挖掘支持海量关系数据分析挖掘PureData forTransactional Analytics基亍基亍DB2数据数据仓库支持海量数据的支持海量数据的实时分析分析InfoSphere Streams海量数据的海量数据的实时分析平台分析平台关系型数据关系型数据仓库平台平台流流计算平台算平台信息集成平台信息集成平台InfoSphere InformationServer大数据量的数据集成与大数据量的数据集成与转换IBM 大数据平台大数据平台InfoSphere BigInsights基亍基亍Hadoop平台,低延平台,低延迟高性能分析平台高性能分析平台支持非支持非结构海量数据存构海量数据存储分

29、析分析Hadoop平台平台PureData for Hadoop基亍基亍IBM BigInsight支持海量非支持海量非结构化的数据分析构化的数据分析 2012 IBM CorporationStreams 如何工作?架构提供的服务协调多物理节点的协同工作,建立多节点的流连接转换标识 连续的数据获取 连续的分析过程过滤/取样关联分类将关联的数据进行碰撞匹配,减少通信延迟通过将应用进行分割和网格部署实现高性能和高扩展性应用可部署在由数据流连接的多个物理机器上RFID网网络包包traces数字数字语音音,视频和和图像数据像数据twitters 卫星数据星数据(GPS)交易数据交易数据ATM 交易交

30、易感感应器数据器数据Stream 定位亍定位亍处理高理高频率数据、海量多来源数据、率数据、海量多来源数据、分布式数据和事件来源分布式数据和事件来源广泛的数据和事件来源广泛的数据和事件来源非非结构化数据构化数据结构化数据构化数据 高可用密度数据高可用密度数据 简单分析分析 规范定范定义的数据的数据 高高频率率(百万比百万比/秒秒)极低延极低延迟 低可用密度数据低可用密度数据 复复杂分析分析 需要被需要被监测的事件的事件 高容量高容量(TB/秒秒)低延低延迟新新闻播播报天气天气预报方位数据方位数据web searchesStream产品 一套基础软件平台 基于x86处理器平台和RHEL 5u3 6

31、4-bit 从单个笔记本扩展到大型集群 Single-and/or multi-core 处理节点 首个原型基于IBM Blue Gene TD Financial Group 世界最快交易系统原型 处理5百万TAQ 事件/秒,平均延迟150 微妙 可为专门领域进行定制 Infrastructure selects analytic implementation appropriate to target GA 产品包括w/高度精简用于开发基于流计算的语言平台开发工具开发组件包与IBM 其它产品的整合,2010 IBM Corporation30InfoSphere Streams 平台运行环

32、境可扩展的Stream运行环境工具和技术集成数据源连接器数学和文本处理函数运算函数库开发环境Streams StudioEclipse IDE for SPL”)Supported on x86 hardware,RedHat Enterprise Linux 5.3 and 5.431PureData for Analytics基亍基亍Netezza平台平台支持海量关系数据分析挖掘支持海量关系数据分析挖掘PureData forTransactional Analytics基亍基亍DB2数据数据仓库支持海量数据的支持海量数据的实时分析分析PureData for Hadoop基亍基亍IBM

33、BigInsight支持海量非支持海量非结构化的数据分析构化的数据分析 2012 IBM CorporationInfoSphere Streams海量数据的海量数据的实时分析平台分析平台关系型数据关系型数据仓库平台平台流流计算平台算平台信息集成平台信息集成平台InfoSphere InformationServer大数据量的数据集成与大数据量的数据集成与转换IBM 大数据平台大数据平台InfoSphere BigInsights基亍基亍Hadoop平台,低延平台,低延迟高性能分析平台高性能分析平台支持非支持非结构海量数据存构海量数据存储分析分析Hadoop平台平台 2012 IBM Corp

34、oration32 与过去的 Netezza 技术相比,战术查询的并并发性和吞吐量提高性和吞吐量提高 了了20 倍倍PureData-Workload Optimized Data Service Experts 基于模式的数据数据库快速部署服快速部署服务 高可用、高性能高可用、高性能的OLTP数据服务System for Transactions 在一个系统上处理超超过一百个数据一百个数据库 比传统定制系统的速度快速度快 10-100 倍倍System for Analytics 持持续摄取取运营数据System for Operational 处理千余个并千余个并发运运营查询Analyti

35、cs 企业非非结构化的大数据构化的大数据服务System for Hadoop 易与传统的数据数据仓库集成集成 企业级的安全性安全性企企业级 2012 IBM Corporation3333-电子表格样式的工具-RDBMS、仓库连接性-管理工具、安全性-Eclipse 开发工具-企业集成功能的广度功能的广度基本版基本版免免费下下载-基于 Web 的管理控制台-Jaql-集成的安装ApacheHadoop从入从入门到企到企业部署:部署:InfoSphere BigInsights 将将 Hadoop 带给企企业PureData for Hadoop-面向企业的设备简单性企企业版版根据托管的根据托

36、管的 TB 数量数量进行行销售售-加速器-性能优化-可视化功能-预构建的应用程序-文本分析 2012 IBM Corporation343434IBM PureData System for Hadoop 的的优势 部署速度快部署速度快 8 倍倍与自定义构建的解决方案相比 内置的可内置的可视化化可以加快获得洞察的速度 内置的分析加速器内置的分析加速器与市场上的大数据设备不同 单一系一系统控制台控制台实现完整的系统管理 快速快速维护更新更新可自劢完成 不需要任何不需要任何组装,在几个小装,在几个小时内准内准备好加好加载数据数据 集成集成 Hadoop 系系统与内置与内置归档工具档工具 提供更提供

37、更强大的安全性大的安全性与开源软件相比 针对高可用性高可用性设计的架构的架构加快大数据实现价值的速度简化大数据的采用和使用实施企业级大数据35PureData for Analytics基亍基亍Netezza平台平台支持海量关系数据分析挖掘支持海量关系数据分析挖掘PureData forTransactional Analytics基亍基亍DB2数据数据仓库支持海量数据的支持海量数据的实时分析分析PureData for Hadoop基亍基亍IBM BigInsight支持海量非支持海量非结构化的数据分析构化的数据分析 2012 IBM CorporationInfoSphere Stream

38、s海量数据的海量数据的实时分析平台分析平台关系型数据关系型数据仓库平台平台流流计算平台算平台信息集成平台信息集成平台InfoSphere InformationServer大数据量的数据集成与大数据量的数据集成与转换IBM 大数据平台大数据平台InfoSphere BigInsights基亍基亍Hadoop平台,低延平台,低延迟高性能分析平台高性能分析平台支持非支持非结构海量数据存构海量数据存储分析分析Hadoop平台平台 2012 IBM Corporation36IBM Information Server 数据整合平台数据整合平台37易亍使用的易亍使用的图形化界面形化界面优点:1.2.3

39、.4.5.使开发、维护和调试变得容易只需要鼠标的点击即可完成数据整合基于组件的体系结构可重用性顺序开发,并行执行37 2012 IBM Corporation 2012 IBM Corporation38Datastage提供灵活的提供灵活的ETL任任务调度度针对ETL任务多系统间数据整合的管理调度问题图形化的工作流多种流程控制方式支持条件路径和错误处理支持EMAIL通知Server 非入侵、网络旁路的方式 数据库引擎之外部署 性能影响极小(2-3%)无需DBMS及应用的任何变更 跨DBMS类型及平台,支持大数据平台 对包括DBA本地访问在内的所有用户的数据库访问行为提供100%可见性39 仅

40、负责审计、监控,不与DBMS存在任何职责覆盖 不依赖任何DBMS的事务、审计日志,如上两种日志本身也极容易遭受攻击(如被攻击者删除、篡改)精细粒度的实时安全策略、审计能力 Who,what,when,how自动化合规及审计报表生成、升级、签报等(SOX,PCI,NIST,etc.)2012 IBM CorporationDB2IBM 大数据平台的数据安全大数据平台的数据安全SQL 2012 IBM Corporation40Guardium 对HDFS数据安全的数据安全的监控控Does this look familiar?Sample HDFS Commands cat Shows cont

41、ents of files vs.select which show thecontents of tables mkdir Create a directory to storefiles vs.create a table to storedata rm Deletes a file vs.(delete/drop)chmod/chgrp Change the permissions orgroup of a file vs.grantingprivileges to a table orrevoking privilegesCUSTOMERSORDERSORDERSDETAILS-CUS

42、TORDDETLCUSTORDDETLDETL 2012 IBM Corporation41ExtractFileTESTDB-QADBCUST-ORD-INSERT/UPDATELoadFilesLOAD转换/变形敏感数据从生从生产系系统数据源中抽取数据源中抽取具有相关性的数据子集具有相关性的数据子集 一致的抽取流程 可重复加载的数据文件 可访问/恢复的归档文件-CUSTOMERS-DETAILS-MaskedExtractFileNewDB-Create&Load归档文件集归档二级存储归档管理测试数据管理隐私数据保护管理选择性恢复性恢复归档后档后删除除IBM Optim 对大数据的治理大数

43、据的治理(归档、敏感信息屏蔽档、敏感信息屏蔽)42Traditional/RelationalData SourcesAnalytics onData at RestDataWarehouseAnalytics onStructured Data 2012 IBM CorporationRTAP:Analytics onData in MotionBigInsightsNon-Traditional/Non-RelationalNon-Traditional/Non-RelationalData FeedsData SourcesTraditional/RelationalData Sources大数据与大数据与传统分析平台的融合分析平台的融合Streams流数据流数据非非结构化数据构化数据传统关系型数据关系型数据 2012 IBM Corporation43IBM Information ServerIBM BigInsightIBM PureData for AnalyticsIBM Data ExplorerIBM SPSS大数据平台一大数据平台一览IBM Guardium,IBM OptimIBM StreamsIBM Cognos 2012 IBM Corporation2014年5月29日星期四44THINKhttps:/w3-

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁