《Cloudera大数据解决方案.pptx》由会员分享,可在线阅读,更多相关《Cloudera大数据解决方案.pptx(44页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、Cloudera大数据从最先进的Hadoop平台到企业级数据中心Cloudera 公司背景创立创立2008,由几家世界顶级IT企业前雇员创立世界顶级技术支持世界顶级技术支持24x7 全球技术支持主动技术支持&预测性技术支持企业核心业务应用企业核心业务应用数千家企业客户,超过500名付费订阅企业客户超过60%为世界500强客户成功案例成功案例全球范围内数百项成功实施案例最大生态系统最大生态系统超过1300个合作伙伴培训培训全球超过5万人通过培训得到了Cloudera认证开源社区领导者开源社区领导者Cloudera是无可争议的Hadoop开源社区领导者和贡献者Cloudera首席架构师为Hadoo
2、p之父:DongCuttingCloudera应用成果Cloudera Confidential-Internal Use Only4行业成功案例行业成功案例Financial&Business ServicesTelecomTechnologyHealthcareLife SciencesMediaRetailConsumerEnergyPublic Sector应用行业62014 Cloudera,Inc.All rights reserved.客户客户360度分度分析析Enhanced customer experience&supportPersonalization,targeted
3、 offerings,loyalty programsSentiment analysis渠道优化渠道优化Campaign managementSelection process optimization供应链优化供应链优化Manufacturing process efficiencySupplier/merchant management风险管理风险管理Fraud detectionIntrusion detection&digital forensics审计审计Regulatory compliance(retention,privacy)Usage analysis and media
4、tione-Discovery市场资讯市场资讯Competitive analysisEconomic factor analysisCustomer segmentation数据服务数据服务Data as-a-productData enriched with insights/inferencesCloudera大数据应用案例种类7Cloudera中国2014 Cloudera,Inc.All rights reserved.8英特尔7.4亿美元投资到Cloudera英特尔与Cloudera通过开源驱动创新英特尔使得Hadoop在IA架构上运行达到最优性能Cloudera与英特尔协作建立广
5、泛的合作伙伴生态系统Cloudera在中国建立销售及技术服务团队,英特尔大数据团队2014年9月正式加入Intel与Cloudera大数据联盟2014 Cloudera,Inc.All rights reserved.9数据量决定数据使用方式2014 Cloudera,Inc.All rights reserved.10以前以前拷贝数据到计算节点现在现在拷贝计算程序到数据节点Relative size&complexity数据信息驱动数据信息驱动:Multi-structured,internal&external data of all typesComputeComputeCompute流
6、程流程驱动驱动:Structured data mainlyInternal data only“Important”data onlyComputeComputeComputeDataDataDataData传统数据分析:将数据带至计算平台2014 Cloudera,Inc.All rights reserved.11复杂的架构复杂的架构许多特殊用途的系统频繁的数据移动缺乏数据的整体认识高数据遗失率高数据遗失率许多资料数据未能被使用风险与合规高存储成本数据存取速度慢数据存取速度慢需要前期建模数据转换速度慢转换程序常遗失数据高数据分析的成本高数据分析的成本现有系统负荷量过大缺乏灵活性“商业智能
7、积压”4123服务器数据集市企业级数据仓库文件资料库存储系统搜索系统存档系统ERP、CRM、数据库、机器文件、图片、视频、日志、点击流外部数据源服务器数据集市企业级数据仓库文件资料库存储系统搜索系统 存档系统ERP、CRM、数据库、机器文件、图片、视频、日志、点击流外部数据源 2014 Cloudera,Inc.All rights reserved.多样化的分析平台多样化的分析平台将应用程序带至数据结合多样化的工作于常见的数据 (即SQL+搜索)真正的敏捷性分析真正的敏捷性分析41234大数据分析:将计算平台带至数据12主动合规存档主动合规存档全保真原始数据不定时间,任何来源成本最低的存储成
8、本最低的存储1保持保持Staging所有的分析使用单一数据源保持变换后的数据的状态更快更便宜更快更便宜2自动服务自动服务BI探索探索简单的搜索+BI工具“Schema on read”灵活性降低降低BI用户请求积压用户请求积压3Hadoop 改变游戏方式改变游戏方式Hadoop方式方式传统方式传统方式$30,000+per TBExpensive&Unattainable难以线性扩展网络成为瓶颈只能存储结构化数据难以扩展新的字段和数据类型Expensive,Special purpose,“Reliable”ServersExpensive Licensed SoftwareNetworkDa
9、ta Storage(SAN,NAS)Compute(RDBMS,EDW)$300-$1,000 per TBAffordable&Attainable无限性能扩展没有网络瓶颈方便聚合多种数据来源灵活的数据访问方式Commodity“Unreliable”ServersHybrid Open Source SoftwareCompute(CPU)MemoryStorage(Disk)zz14 Cloudera,Inc.All rights reserved.Cloudera Enterprise统一平台,全面的大数据解决方案15 Cloudera,Inc.All rights reserved
10、.统一平台,全面的大数据解决方案批处理,交互式处理和实时处理.兼具高性能和易用性的统一平台.端到端交互式分析海量数据聚合全面的数据处理框架广泛的第三方工具兼容 集群管理和数据管理批处理数据导入Sqoop,Flume转换MapReduce,Hive,Pig,Spark1数据发现分析数据库Impala搜索Solr 建模机器学习SAS,R,Spark,Mahout在线服务操作 数据库HBase流处理Spark Streaming无限分布式存储 HDFS,HBaseYARN,Cloudera ManagerCloudera Navigator16 Cloudera,Inc.All rights res
11、erved.Cloudera Impala业内领先的开源SQL数据库SQL兼容性最广泛兼容最广泛兼容SQL92/99/2003语法,用语法,用户可以使用熟悉的户可以使用熟悉的BI工具工具高并发度为多用户并发查询优化,特别适合为多用户并发查询优化,特别适合BI生产环境生产环境高性能海量数据海量数据SQL操作秒级响应,并能够操作秒级响应,并能够线性扩展线性扩展整合&安全与与Cloudera Enterprise各组件高度整各组件高度整合,全面支持各种安全规范,达到企合,全面支持各种安全规范,达到企业级标准业级标准Enterprise Data HubSecurity and Administrat
12、ionUnlimited StorageProcessDiscoverModelServe18 Cloudera,Inc.All rights reserved.SQL性能比较Single User,510 Users,11Single User,2510 Users,12010 Users,30210 Users,202Single User,37Single User,775.0 x10.6x7.4x27.4x15.4x18.3xIndependent validation by IBM Research SQL-on-Hadoop VLDB paper:“Impalas database
13、 architecture provides significant performance gains”19 Cloudera,Inc.All rights reserved.搜索Cloudera Search(Apache Solr)2014 Cloudera,Inc.All rights reserved.19易用易用交互式的全文检索与切面导航实时的数据检索多用户友好灵性灵性批处理,实时或者按需索引多类型、多格式支持原生与Hadoop执行引擎相结合丰富的API与完善的生态系统100%开源开源业界标准的搜索引擎成熟的代码基础,活跃的社区探索导航关联CDH是唯一一个提供企业级搜索解决方案的商
14、用Hadoop版本20 Cloudera,Inc.All rights reserved.Cloudera Search 框架介绍非结构化数据用户搜索界面(Hue)FlumeHDFSRaw,filtered,or annotated dataSolrCloud Cluster(s)Data to be indexedIndexed dataMapReduce Batch IndexingGoLive updatesHBase ClusterReplication Events to be indexed结构化数据Cloudera ManagerSearch queries$21 Clouder
15、a,Inc.All rights reserved.机器学习与流处理Apache Spark2014 Cloudera,Inc.All rights reserved.21开源的数据并行处理框架快速快速.充分利用内存,比MapReduce的数据处理快100倍,有效支持迭代式机器学习与分析开发友好开发友好.提供Java,Scala,Python等多语言丰富的API完整完整.集成于CDH,可通过Cloudera管理器管理;通过与Databricks公司的协作共同对Spark开发完善便捷的实时流处理简单简单.API有利于快速部署流处理应用程序容错容错.实现“Exactly-once”语意统一统一.基
16、于Spark平台共享数据与模型22 Cloudera,Inc.All rights reserved.第三方应用扩展性数百家和CDH互相认证兼容性的第三方合作伙伴为企业用户更方便整合Hadoop到现有业务系统Access,ingest,transform,and cleanse all data on Hadoop with a visual development environmentQuickly connect to Hadoop for ad-hoc visualizations of your data to find patterns and outliersRun leadin
17、g analytical systems natively on Hadoop to get insights from all dataDeliver R-powered advanced predictive analytics to Hadoop for better data modelingEnterprise Data HubSecurity and AdministrationUnlimited StorageProcessDiscoverModelServe23 Cloudera,Inc.All rights reserved.Cloudera Enterprise端到端大数据
18、平台管理24 Cloudera,Inc.All rights reserved.让Hadoop平台运维管理更容易Cloudera ManagerHadoop业内最完善,最全面的零宕机时间管理平台,管理整个大数据平台系统,而不仅是Hadoop集群本身独有特性:统一配置,管理和监控全部Hadoop模块在线向导式安装和升级一键寻求Cloudera支持强大的第三方扩展支持25 Cloudera,Inc.All rights reserved.一个工具搞定全部运维管理Hadoop运维管理的复杂性:+部署和配置部署和配置监控监控工作流工作流事件和警告事件和警告日志搜索日志搜索故障诊断故障诊断运维报表运维报
19、表集群活动监控集群活动监控DIY方式的运维管理方式的运维管理对比对比Cloudera“在第三方客户调查中显示,超过在第三方客户调查中显示,超过95%的客户希望使用统一的端到端管理工具对的客户希望使用统一的端到端管理工具对Hadoop集群进集群进行维护管理,而不是被迫学习多种开源工具用于不同类型的管理行维护管理,而不是被迫学习多种开源工具用于不同类型的管理”26 Cloudera,Inc.All rights reserved.简化的故障诊断流程Cloudera Manager最大程度提高故障诊断效率注意到系统任务失败,集群停止服务在TaskTracker界面中定位找到故障任务借助Ganglia
20、调查服务,主机,网络的各种监控指标,帮助查找故障原因尝试找到合适的HEAP MEMORY设置大小更新设置,分发到所有节点,暂时中断服务,重启整个集群故障原因:TaskTracker Heap Memeory设置过低1小时小时2小时小时1小时小时30分钟分钟收到CM警告:任务运行时间长于预期在CM中自动定位并高亮显示故障任务自动对TaskTracker节点做健康检查,找到故障原因用系统推荐的设置值更新集群重启单独的TaskTracker,集群服务不会中断故障原因:TaskTracker Heap Memeory设置过低5分钟分钟3分钟分钟2分钟分钟5分钟分钟通过通过CLOUDERA MANAGE
21、R4.5 小时小时15 分钟分钟非非Cloudera平台平台故障诊断故障诊断27 Cloudera,Inc.All rights reserved.Cloudera Manager 关键特性全面的灾备解决方案零宕机时间-滚动升级28 Cloudera,Inc.All rights reserved.Cloudera Manager 扩展接口API access provides programmatic access to cluster operations(such as configuration and restart)and monitoring information(such a
22、s health and metrics).The CM API is an HTTP REST API,using JSON serialization.The API is served on the same host and port as the CM web UI,and does not require an extra process or extra configuration.API users have the same privileges as they do in the web UI world.Exampleshttp:/cloudera.github.io/c
23、m_apiMetrics plug-inhttps:/ clientshttp:/ Cloudera,Inc.All rights reserved.Cloudera Enterprise企业级安全和审计功能30 Cloudera,Inc.All rights reserved.全面的企业级安全功能,满足企业合规性要求验证,授权,审计,合规验证验证Guarding access to the cluster itselfTechnical Concepts:验证网络隔离授授权Defining what users and applications can do with dataTechnic
24、al Concepts:权限许可Authorization加密加密Protecting data in the cluster from unauthorized visibilityTechnical Concepts:加密,密钥,数据遮罩审计Reporting on where data came from and how its being usedTechnical Concepts:审计LineageCloudera ManagerApache SentryCloudera NavigatorNavigator Encrypt&Key Trustee|Partners31 Cloud
25、era,Inc.All rights reserved.外围安全需求让用户自由选择需要的计算模块(例如 Impala,Spark)任何计算模块拥有统一的安全设置实现已有的安全标准:Active Directory 和Kerberos验证Guarding access to the cluster itselfInfoSec Concept:AuthenticationCloudera Manager32 Cloudera,Inc.All rights reserved.Cloudera Manager提供自动化用户验证支持支持AD Kerberos 单点登录单点登录Kerberos配置向导配置
26、向导支持配置多支持配置多KDC用户验证和监控信息用户验证和监控信息用户直接通过AD进行单点登录Hadoop所有服务统一接受AD Kerberos验证用户对Hadoop服务的访问权限由通过AD Groups控制通过向导自动为当前集群配置Kerberos,简化繁琐的手动操作,避免各种可能的错误流程自动配置和调整多KDC协调工作当Kerberos生效后,自动通过CM监控Kerberos验证状态33 Cloudera,Inc.All rights reserved.访问授权需求提供用户所需要的细粒度权限集中化管理所有服务的用户权限使用构建在AD上的基于角色控制的用户授权模型授授权Defining wh
27、at users and applications can do with dataInfoSec Concept:AuthorizationApache Sentry34 Cloudera,Inc.All rights reserved.可视化权限管理35 Cloudera,Inc.All rights reserved.数据审计视图需求帮助用户理解报表数据的血缘关系,并找到更多相似数据遵循企业在审计,数据分类和生命周期管理的统一策略集中化的审计平台,自动数据发现,自动血缘关系管理审计视图告诉用户数据从何而来以及如何被使用InfoSec Concept:审计Cloudera Navigato
28、r36 Cloudera,Inc.All rights reserved.为什么需要Cloudera Navigator36Cloudera企业版处理大量数据的需求企业版处理大量数据的需求数据规模大数据源种类复杂 结构化/非结构化数据数据敏感性级别多1多用户处理数据的需求多用户处理数据的需求管理员以及合规官员分析员以及数据科学家商务用户2数据有效控制与处理的需求数据有效控制与处理的需求对数据平台的可视化与管理数据发现与探索337 Cloudera,Inc.All rights reserved.Cloudera数据审计和生命周期管理平台Cloudera NavigatorHadoop平台上唯一
29、的端到端数据审计解决方案。最大程度降低安全风险,保证和企业安全审计策略兼容独有能力:数据审计数据血缘管理Hadoop元数据标记和发现数据生命周期38 Cloudera,Inc.All rights reserved.数据安全需求对重要数据进行额外安全保护加密敏感数据,完善的密钥管理服务,从源头防范数据泄露风险和企业已有的HSM整合,作为密钥管理基础架构的一部分数据保数据保护Protecting data in the cluster from unauthorized visibilityInfoSec Concept:合规性Navigator Encrypt&Key Trustee39 Cl
30、oudera,Inc.All rights reserved.在上层应用和文件系统中在上层应用和文件系统中实现透明加密层实现透明加密层合规性无限数据扩展超高性能:采用Intel硬件指令集优化可选重点内容加密Navigator管理服务器对密钥管理Cloudera数据透明加密Applications/ProcessesFile SystemProcess-Based ACLsFile-Level EncryptionBlocksStorageUsersKey Manager40 Cloudera,Inc.All rights reserved.Cloudera Enterprise强大而灵活的云部
31、署41 Cloudera,Inc.All rights reserved.部署的灵活性安全与管理无限分布式存储批处理数据发现建模在线服务部署灵活性On-PremisesAppliancesEngineered Systems公有云私有云混合云42 Cloudera,Inc.All rights reserved.Cloudera:将CDH带到云端可移植性可移植性:多种云端部多种云端部署选项署选项灵活性:定价和支持灵活性:定价和支持选择:快速增长的生选择:快速增长的生态系统态系统私有云:私有云:Physical公有云:公有云:通过标准Cloudera Support提供支持与云计算平台提供商合作,按使用量付费的定价模式 拥抱迅速增长的云计算生态系统*Scheduled for Roadmap43 Cloudera,Inc.All rights reserved.云端自动化部署Hadoop集群Cloudera Director业内第一个可移植,自服务型的部署和管理企业级Hadoop集群解决方案独有特性:动态集群生命周期管理云端整体视图多集群资源占用可视化监控用于按资源计费的使用量报告2014 Cloudera,Inc.All rights reserved.谢谢