《Hadoop大数据平台方案课件.pptx》由会员分享,可在线阅读,更多相关《Hadoop大数据平台方案课件.pptx(34页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、2Hadoop大数据大数据平台建设方案平台建设方案C时时代代24小小时时在在线线(Connected 24 hours Era)全方位网全方位网络络覆盖覆盖2C时时代代带带来数据的爆炸性增来数据的爆炸性增长长3通俗的描述通俗的描述:Big Data大数据大数据(Big Data)是大交易数据是大交易数据,大,大交交互数互数据据和大和大数数据据处处理理的的统统称。称。在在线线交交易易处处理理(OLTP)在在线线分析分析处处理理(OLAP)&数据数据仓库仓库设设备备社交社交媒体媒体数数据据其他其他交互交互数数据据科学科学、基因、基因机器机器/设备设备大交易数据大交易数据大交互数据大交互数据大数据大
2、数据处处理理大数据集成大数据集成详细详细呼叫呼叫记录记录、图图 像,点像,点击击流数据流数据4我我们们需要合理疏需要合理疏导导和利用大数据和利用大数据5各种各各种各样样的数据和的数据和标标准准S S服务资料库平面文件和文档交互数据行业标准XML最广范围的大数据定位定位名称名称 =值值/限定限定限定限定社交设备/传感器 科学生产力直观解析环境预定义转换Any DI/BI architecturePIGEDWMDM19hadoop dt-hadoop.jar My_Parser/input/*/input*.txt1.在 HParser 可视化工作室中定义解析器2.在 Hadoop 分布式文件系统
3、(HDFS)上部署解析器3.运行 HParser 提取数据,并在 Hadoop 产生表格格 式在在 Hadoop 上解析和准上解析和准备备数据数据工作原理是怎工作原理是怎样样的?的?20金融保险B2B 标准SWIFT MTDTCC-NSCCUNEDIFACTSWIFT MXACORD-AL3EDI-X12NACHAACORD XMLEDI ARRFIXEDI UCS+WINSTelekursEDI VICSFpMLRosettaNetBAI V2.0Lockbox医疗保健OAGICREST DEXIFXHL7TWISTHL7 V3其他UNIFI(ISO 20022)HIPAASEPANCPDP
4、IATA-PADISFIXMLCDISCPLMXMLMISMONEIM基于简单示例 的可视化增强 和编辑功能使用业务(行业)术语和定义做出的定义增强的验证功能所有版本的所有消息的现成转换 交 付的更新和新版 本工作效率:数据工作效率:数据转换转换工作台工作台21资资料料库库Map-ReduceHadoop创建/运行配置文件发现 Hadoop 数据属性 配置文件自动转换成 Hadoop 查询/代码(Hive,MapReduce 等)在在 Hadoop 上上本地本地执执行行通过到 Hadoop 的本地连接导入元数据(Hive、HDFS、Hbase 等)通过浏览器或 Eclipse 客户检 查和共享
5、结果单单一表格一表格/数数据据对对象象交叉表格交叉表格/数数据据对对象象数数据域据域发发现现HIVEHDFSHBase132发发现现 Hadoop 问题问题/异常异常22客客户户标标识识示示例例国家国家/地地区区代代码码示例示例3.追溯分追溯分析(析(Hadoop 数据)数据)2.值值和和 模式模式分析分析 Hadoop 数据数据1.探探查查统计统计数据:数据:最小最小值值/最大最大值值,空,空值值 推推导导的的数数据据类类型型等等邮邮政政编编码码示示例例追溯实际数据值来检 验整个数据集中的结 果,包括可能的重复值和模式频率与不一 致的/脏数据或意外模 式隔离Hadoop 数据探查结果 通过浏
6、览器接触企业中的 任何人员标识数据中的异常和 反常现象的统计数据Hadoop 数据探数据探查结查结果果23Hadoop 数据域数据域发现发现寻寻找找 Hadoop 数据的功能意数据的功能意义义1.利用 INFA 规则/mapplet 识别Hadoop 数据的功能意义敏感数据(例如 SSN、信用卡号 等)债债务务和合合规规性性风险风险?PHI:受保受保护护的的健健康康信息信息 PII:个个人人识识别别信息信息 可可扩扩展展到到查查找找/发发现现任任何何域域类类型型2.查看/共享 Hadoop 中包含 的数据域/敏感数据的报告。追溯了解可疑数据值的能力。2425保保护护敏感敏感数数据据数数据据脱密
7、脱密通过数据变换的方法去除数据中的敏感信息。可以在数据抽取中批量 完成,也可以在应用和 数据库之间做动态隔离。使企业信息资产得到保护,同时满足合规要求。Glen Carter654-45-26434739-1102-3517-8842342 54th StreetNew YorkJohn Smith 654-65-89454739-1146-8075-5716100 Cardinal wayRedwood city生生 产产 数数 据据 隔隔 离离敏敏感感信信息息屏屏蔽蔽数据节点SELECTT1.ORDERKEY1 AS ORDERKEY2,T1.li_count,orders.O_CUSTK
8、EY AS CUSTKEY,customer.C_NAME,customer.C_NATIONKEY,nation.N_NAME,nation.N_REGIONKEYFROM(SELECT TRANSFORM(L_Orderkey.id)USING CustomInfaTx FROM lineitemGROUP BY L_ORDERKEY)T1JOIN orders ON(customer.C_ORDERKEY=orders.O_ORDERKEY)JOIN customer ON(orders.O_CUSTKEY =customer.C_CUSTKEY)JOIN nation ON(custo
9、mer.C_NATIONKEY =nation.N_NATIONKEY)WHERE nation.N_NAME =UNITED STATES)T2INSERT OVERWRITE TABLE TARGET1 SELECT*INSERT OVERWRITE TABLE TARGET2 SELECT CUSTKEY,count(ORDERKEY2)GROUP BYCUSTKEY;Hive HQL 开发人员1.映射转换成优化的 Hive HQL2.HQL 调用 DTM 中的自定义 UDF 进行某些特殊的数据转换3.优化的 HQL 转换为 MapReduce4.在 Hadoop 上执行的 MapRed
10、uce 和 UDF数据节点数据节点数据节点UDFMapReduce数据数据转换库转换库数据集成和数据数据集成和数据质质量量Hadoop MapReduce 处处理理26重复使用和重复使用和导导入入 Hadoop 的的 PC 元数据元数据将现有 PC 开发 的产品导入到 Hadoop 开发环 境中在实际导入流程 之前验证导入逻 辑,确保兼容性27与往常一与往常一样设计样设计映映射射图形和元数据驱动环 境中的 Hadoop 设计 集成和质量逻辑配置应在何处运行集 成逻辑 Hadoop 或 本地28查查看生成看生成的的 HiveQL从 Hadoop 映射查 看完整生成和向下 推动的 Hive 或MR
11、 代码29混合工作流混合工作流编编排排Hadoop 和本地和本地环环境的境的单单一工作流运行任一工作流运行任务务30名称类型 默认值说明$User.LoadOptionPath整型 2根据 cmd 任务的输出加载工作流路径$User.DataSourceConnection字符串HiveSourceConnection源连接对象$User.ProfileResult整型 100从“探查”命令任务输出。监监控控 Hive 查询计查询计划划详详情情开发人员工具中同样可用的 hive 查询。31单个 M/R 作业的可跟 踪性。作业 跟踪器链接 URL查看 Hive查询详情作业跟踪器状态摘要监监控控
12、Hive 查询查询追追溯溯 M/R3233 大数据解决方案大数据解决方案节省25%的数据中 通过传感器、移心空间(100万美 动和地理空间数元),将延迟降低 据,改善货运业83%至340微秒,务并赋予业务将每天10亿交易的 Hadoop形式,节吞吐量提高580%,省了数百万美元将源自100多个国家的200多个品牌的业务数据从五个 数据和机器数据系统中转移到一个 中,实时从500个合理化应用程序 组合,并在6个月 内得到回报节省 了100万美金。将 用于服务监测和系统中 图案识别的大型 数据年龄降低87%通过数据源,将 客户、风险和投 诉等各种来源的 数据(数据仓库、遗留数据、30000数据集市
13、 和10M投诉)的访 问迅速提高了5 倍,而成本仅是 之前的1/3提供 分析洞见改善 业务流程提高效率&降低成本兼并收购&资产剥离获取及挽留 客户外包 非核心职能治理风险 合规提升合作伙伴 网络效率提高业务 灵活性业务业务需求需求大数据仓库&运营商业智能大数据服务大数据存档社交/大数据 同步大数据整合复杂事件处理通过地理空间和 视频追踪,将人 工检查转换为以系人提供云访问。秒数计的自动提醒,保证了航海安全为全球177多个 业务部门及53,000,000个联保持360应用程序与LinkedIn 和Twitter的更新每月插槽收入提 高4%,并在社交来源中将目标客 户段从40扩大到 160且还在持续提高Ultra messaging实时客户视图大数据收集及 汇总通过On-Boarding New Data Sources Faster 将进入 市场时间缩短 90%,并可支 持更多数据类 型34谢 谢!谢谢