《大数据应用融合解决方案(能源行业)讲义-PPT.ppt》由会员分享,可在线阅读,更多相关《大数据应用融合解决方案(能源行业)讲义-PPT.ppt(77页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、浪潮云海大数据一体机暨云计算及大数据应用融合解决方案 云计算及大数据产品部(Bruce Lee)职业生涯简介l Bruce Lee(中文名:李忠旭)博士学位,毕业于麻省理工学院和哈佛商学院,专修计算机科学和工商企业管理,致力理论联系实际,应用于日常的管理实践中。l Inspur Group 云计算&大数据总监 兼任 首席解决方案架构师 l Greenplum Corporation(EMC)首席技术执行官 CTO 兼任 首席解决方案架构师l Google Incorporated(Google)R&D 技术总监 兼任 GFS 首席架构师 l Goldengate Corporation(Ora
2、cle)R&D 技术总监2主持重大国内外项目经验l 美国纳斯达克数据分析应用及决策支持项目l 美国纽约证券交易所指数预测分析项目l 美国银行数据仓库及数据分析应用(商务智能)项目l 美国 T-Mobil 电信公司数据经分和信令系统分析项目l 美国谷歌公司 R&D 项目GFS基础架构总体设计l 中国建设银行新一代决策支持系统整体方案设计l 中国阿里巴巴集团企业级数据仓库(支付宝)项目l 中国华为技术有限公司财经体系数据分析 R&A 项目l 中国辽宁省公安厅科技信息总队大数据分析系统项目l 中国公安部交通管理科学研究所大数据分析研判系统项目 EMC 数据分析事业部(Pivotal Lab)产品研发
3、项目(Cloud Foundry,GemFire XD,GP DB,Pivotal HD)3 目 录132企业面临的挑战和分析需求云计算、移动计算、社交媒体和大数据分析云计算、移动计算、社交媒体和大数据分析推动产生新的计算模式。推动产生新的计算模式。该模式该模式进而引发业务转型进而引发业务转型以提升效率以提升效率,促进法规遵从促进法规遵从,提升提升整体业务可持续性整体业务可持续性以及以客户为中心以及以客户为中心。Gartner 发布的 2012 技术趋势互联网商业模式对传统行业的冲击数据处理的难题及大数据革命 收集、存储和分析数据的能力在信息技术带来的影响中始终占有重要一席。在这个数字化程度日
4、益提高的时代,您所做的每件事都会有一个电子记录。随着企业积聚的数据越来越多并达到数百TB,他们纷纷寻求更加尖端的软件工具对数据进行挖掘和分析,从而帮助企业更好地了解市场和客户,甚至是帮助企业对未来作出预测。您如何收集和存储数据?您如何收集和存储数据?您如何传输数据?您如何传输数据?您如何分析数据?您如何分析数据?您如何从数据获益?您如何从数据获益?大家有疑问的,可以询问和交流大家有疑问的,可以询问和交流可以互相讨论下,但要小声点可以互相讨论下,但要小声点可以互相讨论下,但要小声点可以互相讨论下,但要小声点大数据时代带来的思考 新时代需要一个全新的计算平台互联网平台时代,第三代 IT体系的代表互
5、联网公司采用的是PaaS,DevOps来实现创新虚虚拟拟化化运运维维自自动动化化PaaS 传统传统传统传统ITIT Startups时间时间期望期望值值Innovation GapCloudClient-Server互互互互联联联联网公司网公司网公司网公司 DevOps,CD/CI,Agile,MicroService大数据时代行业商机无处不在!大数据行业应用 社交媒体大数据行业应用 电商平台大数据行业应用 互联网平台大数据行业应用 风力涡轮发电系统管理监控以毫秒级捕获传感器数据(如:主轴传感器、齿轮箱传感器和定子传感器等),监控单台风力发电机运行状态以秒级捕获传感器数据,监控风机位置、彼此协
6、作情况,保证发电场以最优状态工作以分钟级捕获传感器数据,监控输电状态、效率大数据行业应用 工业互联网 资产管理资产管理资产管理资产管理零部件库存管理零部件库存管理资产管理资产管理供应链自动化供应链自动化工作范围的自动化工作范围的自动化场力优化场力优化监控和诊断监控和诊断状态检修状态检修停电管理停电管理资产生命周期管理资产生命周期管理 操作优化操作优化操作优化操作优化物流管理物流管理控制和工厂自动化控制和工厂自动化燃料消耗的优化燃料消耗的优化排放管理排放管理法规遵从法规遵从健康健康&安全保证安全保证运营管理与监测系统运营管理与监测系统网络吞吐量的优化网络吞吐量的优化终端客户信息服务终端客户信息服
7、务云计算改变IT,大数据应用重在创新工业互联网和工业大数据特点基于分布式内存计算技术的IOT逻辑架构云计算改变IT,大数据应用重在创新云计算侧重 资源管理,而大数据侧重 业务应用。云计算资源池化的管理模式是大数据应用的前提。云计算提供的存储和计算资源池可动态支撑大数据分析业务不断变化的需求。目 录132大数据分析应用的数据内容及实现技术应用平台提交请求访问的数据,包括结构化和非结构化两类在线存储周期超过数据生命周期规划的数据适合Hadoop分布式架构管理无法用二维表结构来逻辑表达的无结构性的数据。例如文本、音频数据等。适合Hadoop架构方便用数据库的二维表结构来逻辑表达实现的数据,数据结构字
8、段含义确定,清晰。例如:客户信息、用电记录等。是挖掘数据价值的主要对象。支持分析型应用,时效性较低支持前台交易系统查询需求,具有可靠性高、并发度大、采集频率短的特点适合分布式内存数据处理技术数据类别数据格式数据采集频度 大数据分析应用的数据内容及实现技术在线数据归档数据非结构化数据结构化数据准实时数据非实时数据面向贴源数据查询和主题数据整合。数据区,适合X86MPP数据库集群范式化模型数据面向分析类应用。对应ADW,适合MPP数据库集群维度模型数据数据模型大数据分析应用的关键核心技术大数据分析套件组合:(完善生态链)关系型数据库,NoSQL,流计算,SQL on Hadoop,OLAP on
9、Hadoop,OLTP on Hadoop,Cache 缓存,In-Memory DB,In-Memory Data Grid,非关系型数据库,等等。大数据分析应用的关键技术之一分布式内存数据库MPP 分布式数据库流式处理 Hadoop 分析框架体系大数据分析应用的关键技术之一PaaS 平台弹性运行时环境监控管理层物理资源层PaaS 服务层业务应用层IAAS InterfacePaaS 运行时环境运行时环境Services Interface PaaS Service应用中间件Hadoop消息中间件 SQL 数据库NoSQL 数据库安全管理资源管理配置管理服务目录服务管理性能监控资源监控存储设
10、备计算资源池存储资源池网络资源池计算机网络设备分析研判类应用预测预警类应用动态监控类应用信息处理类应用 IaaS服务层大数据时代平台产品的关键能力开放弹性开放弹性架构架构真正无共享的海量并行处理架构工业标准的X86平台服务器资源按需分配,按需搭建集群,按需缩放集群规模在线线性在线线性扩展扩展增加节点可线性增加存储、查询和加载性能支持在线扩容,扩容期间保证系统继续对外提供服务拥有成本拥有成本可控可控保证用户不被专有平台锁定企业初期投入和后续扩容的成本可控海量并行海量并行处理处理支持PB级的数据处理、存储和访问在数据加载、处理、访问等各个环节最大化并行处理能力优秀混合优秀混合负载负载按需分配资源(
11、CPU、内存、IO)动态调整资源平台持续平台持续可用可用数据镜像、硬件冗余等多种容错技术保证系统高可用故障切换和恢复,对用户透明扩容期间可持续对外服务易于管理易于管理维护维护直观的图形化界面,实时的状态监控最大限度降低管理员的日常管理和维护工作大数据时代催生 PaaS 平台的变革IaaS:硬件的自动化管理,人与机器的解耦合 获得效率/牺牲性能 PaaS:应用的自动化管理,应用与OS的解耦合 获得弹性/牺牲控制业务创新需要重新定义企业级 PaaS支持开放标准并与开源有效互动强调以数据为中心 兼顾各种数据类型处理充分关注新一代开发人员和新一代企业级应用的需求为有效进行实时大容量信息处理而设计同时兼
12、顾与传统应用的互操作性与传统技术的有效结合 云支撑平台数据支撑架构应用支撑架构创新:以数据支撑为中心创新:以数据支撑为中心未来大数据分析应用的 PaaS 平台发展方向New Data-fabricsInternet-of-thingsPervasive telemetryOpen Data PlatformOpen Data PlatformBig DataFast DataRapid Application Dev&Integration GemfirevFabric Cloud Abstraction&App Automation面向数据的企业级 PaaS平台快速应用开发在收集数量庞大的事
13、件数据的同时对特定事件进行实时反应与传统应用和基础架构有机配合配合不同云计算平台实现高效运维和水平扩展存储并且在非常大量的数据上进行分析行业大数据分析应用的数据架构设计大数据时代云计算及大数据融合架构全景图计算存储网络应用运行环境云平台管理云平台安全数据批处理(Hadoop)近实时分析(MPP DB)实时数据处理应用和数据集成应用开发接口资源和服务交付统一访问门户应用容器虚拟机服务器虚拟化存储虚拟化网络虚拟化公有云接口iVirtualvSphereNovaXenServerPowerVM分布式文件系统分布式块存储分布式对象存储SAN存储网关Open FlowvxLanvSwitchAWSACE
14、AzureGAE流处理内存数据库HbaseYarnMapReduceHive,Pig,MahoutSQLData DistributeQuery PlannerMPP ExecLoad Balancer分布式缓存消息中间件RDBMS云资源管理运维管理桌面管理业务流程管理资源计费网络安全容灾备份数据和应用访问权限管理安全审计vRoute大数据分析应用的 PaaS 平台产品组合实时的数据处理实时的数据处理Run-TimeApplications企业级数据仓库企业级数据仓库大规模数据存储大规模数据存储实时的数据实时的数据捕获和共享捕获和共享分析型数据集市分析型数据集市大数据分析应用的资源池拓扑图存储
15、系统备份系统存储系统备份系统K-HAK-HAK-HAK1-1K1-2K1-3K1-4K1-5K1-6TS860TS860TS860TS860核心交换机 虚拟化(非关键应用)资源池 物理(核心业务系统)资源池 物理(大数据分析应用)资源池大数据分析应用系统架构系统管理体系(日志审计、用户管理、运维监控)计算资源池存储资源池网络资源池平台层(PaaS)数据存储层数据准备层数据处理层数据服务层分布式文件系统MPP 数据库分析模型算法引擎挖掘工具应用层(SaaS)基础设施(IaaS)应用层(SaaS)分析研判类服务预测预警类服务动态监控类服务信息处理类服务大数据分析研判系统门户运营状态监控决策分析预警
16、安全保障体系(访问权限控制,防病毒、防入侵)内存计算RDBMS数据块ODS数据立方体数据立方体数据仓库数据仓库数据集市数据集市基础设施(IaaS)流式处理客户精准营销数据交换平台数据交换平台系统管理体系(日志审计、用户管理、运维监控)安全保障体系(访问权限控制,防病毒、防入侵)服务总线风险模式识别PaaS平台弹性运行时环境平台弹性运行时环境云数据中心管理平台云数据中心管理平台 目 录132大数据产品线规划和产业定位数据源数据收集数据存储数据处理分析及可视化应用数据拥有者数据分析技术提供商服务技术提供商最终用户数据采集技术提供商 数据采集者 数据分析者数据服务提供商基础硬件(服务器、存储、网络交
17、换)厂商大数据分析软件平台(数据库、数据仓库、分布式处理技术等)提供商大数据分析一体化产品提供商大数据产品线的保障体系1.1.需求分析需求分析2.2.解决方案解决方案3.3.维护服务维护服务l缩短开发周期l实现数据共享l降低管理风险l提高安全和质量l资深工程师提供在线指导服务l专家提供现场指导运维服务l评估业务需求l分析已有基础设施l风险评估l推荐合理方案大数据一体机产品定位及软硬一体化设计方案计算单元:采用Intel最新 Xeon E5 v3系列处理器,性能相比上一代产品提升 2倍FPGA 加速卡+CPU对比纯CPU性能那个提升 10+倍系统进行内存调度算法优化,增强 内存访问速度采用全文检
18、索、动态页面生成等技术提供 ms级查询响应存储单元:优化文件系统热点数据读取算法,整机磁盘I/O高达 500+MB/s小文件聚合技术,解决小文件快速写入问题SSD 加速缓存与传统磁盘比较读性能提升 20倍通信单元:节点间通信网络采用远程直接数据存取技术,能够支持 1000+节点 之间同时的大数据量传输节点间网络采用 40Gb/s 高速网络,网络延迟低至 us级MPP 数据库:DaaS 的计算引擎企业级数据仓库企业级数据仓库分析型数据集市分析型数据集市 Greenplum DB:Greenplum DB:DataData asas a a ServiceService的计算引擎的计算引擎Gart
19、ner 公司每年发布关于数据仓库管理系统业界地位的魔法象限研究报告公司每年发布关于数据仓库管理系统业界地位的魔法象限研究报告报告主要从数据仓库厂商的执行力和远景两个方面评估报告主要从数据仓库厂商的执行力和远景两个方面评估评估对象包括传统的企业级数据仓库和新一代的评估对象包括传统的企业级数据仓库和新一代的 MPP 并行数据库厂商并行数据库厂商支持各种规模、有大量并发用户、能管理混合工作负载的数据仓库具备较高的客户满意度和强有力的服务支持在数据仓库市场有长久的生命力风险最低、产品成熟度最高Gartner Gartner 对领导者象限的评价对领导者象限的评价采用前瞻性思维设计的数据仓库较小的市场领导
20、者,缺乏全球性发展缺少较大的本地客户,因此不易证明其产品的功能和价值在产品技术领域,某些特性具备前瞻性,但综合能力需要完善Gartner Gartner 对远见者象限的评价对远见者象限的评价 MPP 数据库:极速分析平台 并行处理架构并行处理架构MPP shared-nothing 架构,基于通用X86平台PB级以上海量存储,最大支持10000节点以上所有节点并发IO,实现超大IO吞吐,并行运行SQL 自动化并行自动化并行自动化并行计算,实现超大计算能力使用同传统DB一样,加载和运行SQL数据多节点分布及高可用性都由DB自身实现 极佳的横向扩展性极佳的横向扩展性在线横向扩展容量、加载和SQL查
21、询性能随节点线性增加专为专为BI及数据分析优化及数据分析优化深度整合统计数学模块(SAS,SOLR,MADLIB,R)高性能并行SQL执行器 MPP shared-nothing 架构架构构建在构建在X86开放平台上的并行处理架构开放平台上的并行处理架构 MPP 数据库:行业最快的数据加载技术 每个每个Rack(16节点)节点),每小时每小时16TB加载性能加载性能 Scatter-Gather Streaming提供性能线性扩张提供性能线性扩张 支持大批量数据加载和持续化的数据加载支持大批量数据加载和持续化的数据加载 Enable complex data transformations“i
22、n-flight”对对GBK/UTF8/ISO8859字符集的原生支持字符集的原生支持GreenplumOracleExadataNetezzaTeradataSINGLE RACK COMPARISONGreenplum load rates scale linearly with the number of racks,others do not.For example,two racks=32 TB/HLoadMPP 数据库:高可用性ClientRedundantInterconnectMPSegment ServersPrimaryMaster1 Sync&FailoverProces
23、ses Standby MasterPrimaryDataRAID 5 ProtectionA1B1C1A2B2C2A1B1C1A2B2C2MirrorData2345 提供了全量提供了全量备份和增量份和增量备份功能,保份功能,保证系系统级故障后的数据恢复故障后的数据恢复 对于任一于任一设备的故障,系的故障,系统数据不数据不丢失、提供持失、提供持续服服务 多个多个节点宕机后,系点宕机后,系统性能只降低性能只降低1/6MPP 数据库:负载管理技术查询层对运行的查询提供基本的优先级管理对CPU内存IO利用率进行定额分配控制单个查询并发度会话层每个用户能够分配一个资源队列管理工作允许控制查询和查询代
24、价数据库连接层控制多少用户可以连接。提供的池(允许大量)和(限制数量)MPP 数据库:Polymorphic Data Storage(多态存储-同时支持行存储及列存储)Table CustomerJan 09Feb 09Mar 09Apr 09May 09Jun 09Jul 09Aug 09Sept 09Oct 09Nov 09Column-OrientedArchival CompressionColumn-OrientedFast CompressionRow-Oriented 提供灵活存储技术 四种表类型:普通行表,AO表,列存储表,外部表 两种压缩技术:Gzip(levels 1-9
25、),QuickLZ 同一库内甚至同一个表中多种存储技术混合使用 灵活定义不同表分区存储结构 只需定义关键字orientation=row|column 允许用户根据不同应用场景,达到最优性能效果 MPP DB 与 HD 通过gNet无缝集成通过标准接口或编程语言,透明访问数据库和Hadoop内部存储的数据。大数据一体机 SDA 50000大数据分析系统软件:MPP 数据库 应用场景:数据仓库应用/OLAP 多维分析 大数据分析应用的关键技术之一 大数据分析套件组合:(完善生态链)关系型数据库,NoSQL,流计算,SQL on Hadoop,OLAP on Hadoop,OLTP on Hado
26、op,Cache 缓存,In-Memory DB,In-Memory Data Grid,非关系型数据库,等等。大数据分析应用的关键技术之一SQL on Hadoop 最初的设计定位:专为分析完整事务支持而优化的大规模并行SQL处理引擎。大数据分析应用的关键技术之一SQL on Hadoop 技术的重要特性和优点:l高度扩展和存储系统l业界领先的性能与动态流水线l弹性故障容错和事务支持l数据管理和分析工具包l真实的SQL功能 基于成本的世界一流查询优化、领先的边缘网络互连、功能丰富的SQL和分析界面、并配有事务性存储子系统的高性能执行运行时间,是唯一 能够提供此技术的 Hadoop 查询引擎。
27、大数据分析应用的关键技术之一 Hadoop 分析框架体系HDFSHBasePig,Hive,MahoutMap ReduceSqoopFlumeResource Management&WorkflowYarnZookeeperCommand CenterConfigure,Deploy,Monitor,ManageData LoaderHadoopEnterpriseSpringUnified Storage Service XtensionFrameworkCatalogServicesQueryOptimizerDynamic PipeliningANSI SQL+AnalyticsHad
28、oop Virtualization ExtensionDistrubuted In-memory StoreQuery TransactionsIngestion ProcessingHadoop Driver Parallel with CompactionANSI SQL+In-MemoryGemFire XD Real-Time Database ServicesMADlib AlgorithmsHAWQ Advanced Database Services大数据产品线 大数据一体机 SDA 60000SDA 60000 单柜满配备注管理节点2固定,HA计算交换机2固定管理交换机2固定
29、KVM1固定数据节点16配、半配、满配总内存2T总核数192C硬盘总数量192可用裸容量768TB建议使用容量(3副本)256TB大数据分析系统软件:Hadoop 系统 应用场景:海量数据离线批处理/查询分析大数据分析应用的关键技术之一 分布式内存数据库DatabasesOther Data Systems文件系统常用的数据存储高吞吐量低延时高伸缩性持续可用性可靠的事件通知连续查询并行执行广域网分布数据调用方数据持久性分布式内存数据库大数据一体机 SDA 80000大数据分析系统软件(分布式内存数据库):应用场景:海量数据高并发查询/实时事务处理 PaaS 平台的核心组件 Cloud Foun
30、dry 企业版Cloud Foundry 企业版的主要功能 跨云部署机制 PaaS 平台弹性运行时环境 Cloud Foundry 大数据一体机 SDA 90000计算单元分布式数据处理模块大数据存储模块加速器高速交换网络可视化管理 大数据分析处理 PaaS 平台 大数据分析 SaaS 应用预测预警类服务动态监控类服务信息处理类服务存储单元网络单元大数据分析 PaaS 平台(一体化集群部署方案)应用场景:海量数据 存储/分析/查询/开发弹性运行时环境模块数据服务总线API 接口分析研判类服务公安行业信息化特点公安行业面临的严峻形势和挑战公安行业大数据应用整体解决方案公安行业大数据分析平台建设内
31、容大数据分析平台分层模型大数据分析应用检索工具库大数据分析应用资源库建设之一 整合海量内外部异构数据资源,按要素、主题实现异构数据的集中管理,形成统一的大数据视图,为上层应用提供大数据资源服务。大数据分析应用资源库建设之一 以公安要素模型为基础,以人和案件为核心,对海量数据进行划分和组织,为上层分析模型服务,进而提供分析、预测、预警等大数据服务。大数据分析业务场景之一大数据分析应用场景 轨迹分析/关联比对 通过出行轨迹、车辆轨迹、住宿轨迹等动态轨迹信息综合研判,发现潜在线索与隐藏关系,为公安干警打击、预防犯罪提供支持。大数据分析 Hadoop/开发框架 应用场景大数据分析 专题库/数据资源 整
32、合应用场景大数据分析 业务专题/数据总线 应用场景大数据分析应用平台资源池拓扑图存储系统备份系统存储系统备份系统K-HAK-HAK-HAK1-1K1-2K1-3K1-4K1-5K1-6TS860TS860TS860TS860核心交换机 虚拟化(非关键应用)资源池 物理(核心业务系统)资源池 物理(大数据分析应用)资源池大数据分析应用平台系统架构安全保障、运维体系计算资源池存储资源池网络资源池平台层(PaaS)数据存储层数据准备层数据处理层数据服务层分布式文件系统MPP数据库分析模型算法引擎挖掘工具应用层(SaaS)基础设施(IaaS)应用层(SaaS)分析研判类服务预测预警类服务动态监控类服务
33、信息处理类服务大数据分析研判系统门户反恐维稳服务民生犯罪模式识别公安信息网安全保障体系(PKI/PMI,防病毒、防入侵)内存计算RDBMS数据块ODS数据立方体数据立方体数据仓库数据仓库数据集市数据集市基础设施(IaaS)流式处理路况预警数据交换平台数据交换平台系统管理平台(日志审计、用户管理、运维监控)公安信息网安全保障体系(PKI/PMI,防病毒、防入侵)服务总线热点地区识别PAAS平台弹性运行时环境平台弹性运行时环境云数据中心管理平台云数据中心管理平台公安交警大数据分析应用经典案例 2014年8月1日,浪潮集团与公安部交通管理科学研究所在济南举行战略合作签约仪式。浪潮电子信息产业股份有限公司与公安部交通管理科学研究所建成了“云计算和大数据应用联合实验室”,双方将共同致力于云计算技术、大数据分析技术在交通安全管理工作中的研发和应用,提升交通管理信息化水平。人有了知识,就会具备各种分析能力,明辨是非的能力。所以我们要勤恳读书,广泛阅读,古人说“书中自有黄金屋。”通过阅读科技书籍,我们能丰富知识,培养逻辑思维能力;通过阅读文学作品,我们能提高文学鉴赏水平,培养文学情趣;通过阅读报刊,我们能增长见识,扩大自己的知识面。有许多书籍还能培养我们的道德情操,给我们巨大的精神力量,鼓舞我们前进。