《技术特点和应用分析.pptx》由会员分享,可在线阅读,更多相关《技术特点和应用分析.pptx(41页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、1背景介绍Hadoop和HDFS简介架构设计面临的问题和方案设计理念问题解决方案应用场景和成功案例内容摘要第1页/共42页Web Architectures1000+服务器和设备TB+数据Client/Server应用程序构建于几台服务器和客户机之上Virtualized Web10,000+服务器和设备大规模集群PB+数据NetworkServersStorage背景介绍数据规模剧增,期望降低IT成本VirtualizedNetworkVirtualizedStorageVirtualizedServers 分布式存储本地存储共享式存储第2页/共42页3Gartner 2009下一个五年企业
2、数据将增长650%其中80%是非结构化复杂数据324 三月 2023背景介绍数据趋势第3页/共42页5背景介绍Hadoop和HDFS简介架构设计面临的问题和解决方案设计理念问题解决方案应用场景和成功案例内容摘要第5页/共42页6Hadoop是用来处理并保存海量数据的云计算平台Apache顶级项目Hadoop构成:分布式文件系统(HDFS)MapReduce框架其他使用Java开发运行于Linux、Mac OS/X、Windows和Solaris主流商用服务器Hadoop和HDFS简介24 三月 2023第6页/共42页7Hadoop家族简介24 三月 2023第7页/共42页8背景介绍Hado
3、op和HDFS简介架构设计面临的问题和解决方案设计理念问题解决方案应用场景和成功案例内容摘要第8页/共42页9无为而治抓大放小性能至上高容错性设计理念24 三月 2023第9页/共42页10P2P or Master&Slaves?统一目录空间?架构设计的问题:节点关系第10页/共42页11HDFS架构解决方案1 Master+n Slave1124 三月 2023第11页/共42页12目录节点负责维护HDFS的文件目录空间目录节点在本地文件系统保存操作日志(Editlog)目录镜像(FsImage)管理Hadoop集群管理数据块备份管理HDFS架构解决方案目录节点24 三月 2023第12页
4、/共42页13元数据包含的信息文件名称文件与数据块的对应关系数据块和数据节点信息文件属性:如建立时间,备份数量关于目录空间的元数据会加载到目录节点的内存中HDFS架构解决方案元数据24 三月 2023第13页/共42页14数据节点是实际储存文件数据块的服务器在本地端的文件系统(例如ext3)中储存真正的文件资料记录关于数据块的元数据例如:CRC校验码、数据块和本地文件系统位置的对应关系等HDFS架构解决方案数据节点24 三月 2023第14页/共42页15架构设计的问题1524 三月 2023如何实现文件系统的基本功能(读写等)?HDFS提供何种使用接口?管理接口?第15页/共42页1616H
5、DFS架构解决方案读文件流程第16页/共42页17HDFS架构解决方案写文件流程24 三月 2023第17页/共42页18接 口描 述FileSystem(FS)Shell一个类Shell的命令行接口,可与HDFS进行数据交互DFSAdmin管理HDFS集群的命令集fsckHadoop命令集的子集,可用此命令集检查数据不一致性,例如数据块丢失等Name nodes and data nodes内置Web管理界面,可供管理员查看集群状态HDFS架构解决方案HDFS提供的接口24 三月 2023第18页/共42页19架构设计的问题:数据块构成1924三月2023数据块规模:大还是小?如何保证数据完
6、整性?第19页/共42页20HDFS架构解决方案大数据块+多个备份2024 三月 2023第20页/共42页21HDFS架构解决方案数据完整性:备份机制2124 三月 2023默认配置为三份备份可针对每个文件设定数据块大小和复制因子(replication factor)参考机架信息(rack-aware)进行放置最优化在同一机架的同一节点上放置第一备份在同一机架的不同节点上放置第二备份在远端机架上放置第三备份随机放置其他备份第21页/共42页22数据节点启动时,扫描本地文件系统,生成块信息报告发给目录节点块信息报告包含HDFS数据块和本地文件的对应关系HDFS架构解决方案数据完整性:块信息报
7、告24 三月 2023第22页/共42页23目录节点启动时进入安全模式,不发生数据块备份数据节点向目录节点发送心跳(Heartbeat)和块信息报告(Blockreport)块信息报告包含数据节点上的所有数据块目录节点综合评定数据块的备份数是否满足安全性要求,判断是否退出安全模式退出安全模式后进行数据块备份HDFS架构解决方案数据完整性:安全模式24 三月 2023第23页/共42页25架构设计的问题:健壮性2524 三月 2023如何应对数据块损坏,数据节点宕机,目录节点宕机?如何从检查点(Checkpoint)恢复?如何负载均衡?什么是快照?第25页/共42页26HDFS架构解决方案健壮性
8、:数据块损坏可能造成数据块损坏的原因:存储设备故障、网络故障或者软件缺陷使用校验码(Checksum)来验证数据块是否正确文件建立时客户端计算校验码保存在独立文件中数据节点储存该文件文件读取时客户端同时读取文件和校验码如验证失败,客户端尝试其他备份2624 三月 2023第26页/共42页27HDFS架构解决方案健壮性:数据节点宕机2724 三月 2023第27页/共42页28HDFS架构解决方案健壮性:目录节点宕机目录镜像和操作日志文件是支持HDFS工作的重要数据,一旦数据丢失可能造成HDFS无法工作目录节点可能成为单点故障:一旦目录节点崩溃,HDFS不支持自动重启故障修复,必须人工干预目录
9、节点 应配置为保存多份目录镜像和操作日志文件并同步更新检查点(Checkpoint)恢复读取目录镜像和操作日志文件,并将操作日志中所有操作实施于目录镜像,生成新的目录镜像2824 三月 2023第28页/共42页29HDFS架构解决方案健壮性:次目录节点24 三月 2023检查点节点(Checkpoint Node)备份节点(Backup node)第29页/共42页30HDFS架构解决方案健壮性:负载均衡平衡状态:设定某阀值,对于每个数据节点,如果其磁盘空间使用率与整个集群的磁盘空间使用率的差值不超过改阀值,则认为处于集群处于平衡状态Balancer工具不断地将备份从使用率高的数据节点移动到
10、使用率低的数据节点上同时保持数据的可用性。在选择一个备份的移动目标时,Balancer需要保证此次移动既不能降低备份数也不能降低机柜数3024 三月 2023第30页/共42页31HDFS架构解决方案健壮型:快照在软件升级期间,由于软件bug或者人为失误导致的系统崩溃概率会上升创建快照的目的是为了最小化系统升级期间对存储的数据的潜在威胁快照机制使得管理员可以将文件系统的当前状态进行持久化保存,这样如果升级导致数据损坏或丢失时,可以对升级进行回滚,使得HDFS回到快照创建时的目录空间和数据存储状态3124 三月 2023第31页/共42页37背景介绍Hadoop和HDFS简介架构设计面临的问题和
11、解决方案设计理念问题解决方案应用场景和成功案例内容摘要第37页/共42页关系型数据库:Hadoop:应用场景应用场景:大数据扫描,批量处理大量非结构性数据数据驱动的Web系统应用场景:交互式报表,实时查询复杂事务的应用对数据进行频繁新建、更新、删除的应用第38页/共42页39YahooHadoop部署于2万多台服务器上,CPU数量超过10万个。Google使用Hadoop在校园推广云计算相关的概念AmazonAmazon使用Hadoop建立产品搜索引擎的索引每天处理数百个分析档案IBMBlue CloudTrend Micro使用Hadoop来保存并区分病毒行为记录档案成功案例24 三月 20
12、23第39页/共42页40Hadoop Wiki,GFS WikiGFS:google file systemThe Hadoop Distributed File System.Konstantin Shvachko,Hairong Kuang etc.2010-10HDFS scalability:the limits to growth.Konstantin Shvachko,Hairong Kuang etc.2010-10An introduction to the Hadoop Distributed File System.J.Jeffery Hanson.2011-2HDFS白皮书:HDFS Architecture GuideHDFS白皮书:Users Guide参考资料24 三月 2023第40页/共42页谢谢!第41页/共42页