大数据平台简介讲课稿.pptx

上传人:豆**** 文档编号:66076257 上传时间:2022-12-12 格式:PPTX 页数:178 大小:5MB
返回 下载 相关 举报
大数据平台简介讲课稿.pptx_第1页
第1页 / 共178页
大数据平台简介讲课稿.pptx_第2页
第2页 / 共178页
点击查看更多>>
资源描述

《大数据平台简介讲课稿.pptx》由会员分享,可在线阅读,更多相关《大数据平台简介讲课稿.pptx(178页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、大数据平台(pngti)简介第一页,共178页。2目录目录(ml)(ml)1Hadoop生态系统2Hadoop主流(zhli)厂商3HDFS4MapReduce5Hive6Spark第二页,共178页。3Hadoop生态系统(shntixtn)第三页,共178页。4Hadoop1.0V2.0第四页,共178页。5Hadoop生态系统(shntixtn)Ambari(安装部署工具)Zookeeper(分布式协调服务)HBase(分布式协数据库)Oozie(作业流调度系统)HDFS(分布式存储系统)YARN(分布式计算框架)MapReduce(离线计算)Tez(DAG计算)Spark(内存计算)H

2、ivePigMahoutSqoop(数据库TEL工具)Flume(日志收集)第五页,共178页。6HDFSHadoopDistributedFileSystem第六页,共178页。7Yarn资源管理器第七页,共178页。8MapReduce分布式并行计算框架(kunji)“你数一号书架,我数二号书架。我们人数多,数书就更快。这就是(jish)map;最后我们到一起,把所有人的统计数加在一起,就是(jish)reduce。”第八页,共178页。9Spark新一代大数据处理计算(jsun)引擎You can run Spark using its standalone cluster mode,o

3、n EC2,on Hadoop YARN,or on Apache Mesos.Access data in HDFS,Cassandra,HBase,Hive,Tachyon,and any Hadoop data source.第九页,共178页。10HBaseNoSQL数据库第十页,共178页。11Hivehadoop的数据仓库第十一页,共178页。12Pig大规模数据分析平台(pngti)Pig是一个基于Hadoop的大规模数据分析平台,它提供(tgng)的SQL-LIKE语言叫PigLatin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。

4、Pig为复杂的海量数据并行计算提供(tgng)了一个简单的操作和编程接口。Apachepig是用来处理大规模数据的高级查询语言,配合Hadoop使用,可以在处理海量数据时达到事半功倍的效果,比使用Java,C+等语言编写大规模数据处理程序的难度要小N倍,实现同样(tngyng)的效果的代码量也小N倍。A=LOADa.txtAS(col1:chararray,col2:int,col3:int,col4:int,col5:double,col6:double);B=GROUPABY(col2,col3,col4);C=FOREACHBGENERATEgroup,AVG(A.col5),AVG(A

5、.col6);DUMPC;第十二页,共178页。13Mahout机器学习(xux)算法库Mahout是ApacheSoftwareFoundation(ASF)旗下的一个开源项目(xingm),提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。此外,通过使用ApacheHadoop库,Mahout可以有效地扩展到云中。第十三页,共178页。14Zookeeper分布式协调(xitio)服务第十四页,共178页。15SqoopHadoop与关系数据库间的数据同步(tngb)工具第十五页,共

6、178页。16Flume分布式日志(rzh)采集工具第十六页,共178页。17AmariHadoop集群安装部署监控(jinkn)工具第十七页,共178页。18Hadoop主流(zhli)厂商第十八页,共178页。19大数据(shj)领域的三驾马车ClouderaHortonworksMapR第十九页,共178页。20ClouderaDistributionHadoop(CDH)第二十页,共178页。21HortonworksDataPlatform(HDP)第二十一页,共178页。22MapRConvergedDataPlatform第二十二页,共178页。23Hadoop主流厂商(chng

7、shng)比较开源(kiyun)开源(kiyun)管理开源管理架构创新完全开源收取服务费工具不开源收取License费用重构了底层内核收取License费用第二十三页,共178页。24云服云服务(fw)(fw)集集团软件件(runjin)(runjin)集集团浪潮大数据平台(pngti)产品HDP云海InsightHDIndataHD第二十四页,共178页。25HDFS第二十五页,共178页。26相关背景(bijng)资料Hadoop:一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序(chngx)。充分利用集群的威力高速运算和存储。Dis

8、tributed:分布式计算是利用互联网上的计算机的CPU的共同(gngtng)处理能力来解决大型计算问题的一种计算科学。Filesystem:文件系统是操作系统用于明确磁盘或分区上的文件的方法和数据结构;即在磁盘上组织文件的方法。也指用于存储文件的磁盘或分区,或文件系统种类。第二十六页,共178页。27Hadoop和HDFS的关系(gunx)Hadoop是一个以一种可靠、高效(oxio)、可伸缩的方式进行处理的,能够对大量数据进行分布式处理的系统框架。HDFS是Hadoop兼容最好的标准级文件系统,因为Hadoop是一个综合性的文件系统抽象,所以HDFS不是Hadoop必需的。所以可以理解为

9、hadoop是一个框架,HDFS是hadoop中的一个部件。第二十七页,共178页。28HDFS背景(bijng)介绍随着数据量越来越大,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护(wih),迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。分布式文件系统:一种允许文件通过网络在多台主机上分享的文件系统,可以让多个机器上的多个用户分享文件和存储空间。第二十八页,共178页。29集群通透性:DFS让实际上是通过网络来访问文件的动作,由用户和程序看来(knli),就像访问本地的磁盘一般。分布式文件系统特点(tdin)Rootspl

10、itBlockBlock目录(ml)1目录2File节点节点节点第二十九页,共178页。30HDFS是什么(shnme)HDFS是HadoopDistributeFileSystem的简称,也就是Hadoop的一个分布式文件系统。HDFS被设计成适合运行在通用硬件(commodityhardware)上的分布式文件系统。HDFS是一个高度容错性的系统,适合部署在廉价的机器(jq)上HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用HDFS可以实现流的形式访问(streamingaccess)文件系统中的数据对外部客户机而言,HDFS就像一个传统的分级文件系统。可以创建、删除、移动或

11、重命名文件,等等。对于用户来说,可以直接看成是一个巨大的硬盘。第三十页,共178页。31HDFS特点(tdin)GB、TB、甚至PB级数据;百万规模以上的文件数量;10K+节点规模适合大数据处理HDFS使应用程序流式地访问它们的数据集。所以它重视数据吞吐量,而不是数据访问的反应速度。流式文件访问HDFS被设计成适合进行批量处理,而不是用户交互式处理;移动计算而非数据;数据位置暴露给计算框架适合批处理通过多副本提高可靠性;提供了容错和恢复机制可构建廉价机器上数据自动保存多个副本;副本丢失后,自动恢复高容错性一次性写入,多次读取;保证数据一致性简化一致性模型HDFS在设计的时候就考虑到平台的可移植

12、性。这种特性方便了HDFS作为大规模数据应用平台的推广可移植性第三十一页,共178页。32HDFS的局限性不支持多用户对同一文件进行操作,而且写操作只能在文件末尾完成,即追加操作。并发写入、文件随机修改由于HDFS是为高数据吞吐量应用而设计的,必然以高延迟为代价。不适合低延迟与高吞吐率的数据访问,比如毫秒级不适合低延迟数据访问HDFS中元数据(文件的基本信息)存储在namenode的内存中,而namenode为单点,小文件数量大到一定程度,namenode内存就吃不消了;寻道时间超过读取时间无法高效存储大量小文件第三十二页,共178页。33HDFS现在(xinzi)遇到的主要问题分布后的文件系

13、统有个无法回避的问题,因为文件不在一个磁盘导致读取访问操作的延时,这个(zhge)是HDFS现在遇到的主要问题HDFS 调优是使用时最调优是使用时最应该注意的。应该注意的。现阶段,HDFS的配置是按照高数据吞吐量优化的,可能会以高时间延时为代价。但万幸(wnxng)的是,HDFS是具有很高弹性,可以针对具体应用再优化。第三十三页,共178页。34总体(zngt)架构图HDFS采用master/slave架构。一个(y)HDFS集群是由一个(y)Namenode和一定数目的Datanode组成,他们以管理者-工作者模式工作。第三十四页,共178页。35总体(zngt)架构图-Client切分文件

14、;访问或通过命令行管理HDFS;与NameNode交互,获取文件位置(wizhi)信息;与DataNode交互,读取和写入数据。第三十五页,共178页。36HDFS的基本(jbn)结构之NameNodeNamenode是一个中心服务器,负责管理文件系统的命名空间协调客户端对文件的访问Namenode执行文件系统的命名空间操作,例如打开、关闭、重命名文件和目录(ml)记录每个文件数据块在各个Datanode上的位置和副本信息第三十六页,共178页。37HDFS元数据(shj)持久化NameNode存有HDFS的元数据:主要由FSImage和EditLog组成。FSImage是元数据镜像文件保存整

15、个文件系统的目录树数据块映射关系:文件与数据块映射关系,DataNode与数据块映射关系EditLog是元数据操作日志(rzh),记录每次保存fsimage之后到下次保存之间的所有hdfs操作NameNodeFileSystemImageEditLog命名空间操作记录,如打开、关闭(gunb)、创建、删除、重命名文件和目录第三十七页,共178页。38HDFS元数据(shj)持久化checkpoint:NameNode启动后,它会从磁盘中读取FsImage及EditLog,应用EditLog中所有的事务到存在于内存中的FsImage文件对象,然后将版本较新的这个FsImage文件写入磁盘,之后E

16、ditLog就可以被删除了。一个checkpoint只发生在NameNode启动的时候。Blockreport:当一个DataNode启动时,它会扫描本地文件系统,生成(shnchn)所有HDFS数据块的一个列表,然后向NameNode发送一个报告。第三十八页,共178页。39HDFS的基本(jbn)结构之DataNodeDatanode一般是一个节点一个,负责所在物理节点的存储管理,是文件系统中真正存储数据的地方一个文件被分成一个或多个数据块,这些(zhxi)块存储在一组Datanode上Datanode负责处理文件系统客户端的读写请求。在Namenode的指挥下进行block的创建、删除和

17、复制周期性的向Namenode汇报其存储的数据块信息第三十九页,共178页。40数据组织数据块(block):大文件会被分割成多个block进行存储,block大小默认为128MB。比磁盘块大很多,目的是减少寻址开销。并不是设置块越大越好。每一个block会在多个datanode上存储多份副本(fbn),默认是3份。与其他文件系统不一样,HDFS中每个小于块大小的文件不会占据整个块的空间。HDFS128MB128MB128MB128MB第四十页,共178页。41数据(shj)复制大文件在集群中跨机器存储每个文件存储成一系列的数据块,除了最后一个,所有的数据块都是同样大小的为了容错,文件的所有数

18、据块都会有副本。每个文件的数据块大小和副本系数(xsh)都是可配置的Namenode全权(qunqun)管理数据块的复制,它周期性地从集群中的每个Datanode接收心跳信号和块状态报告第四十一页,共178页。42副本(fbn)策略HDFS采用机架感知(rackawareness)的副本存放(cnfng)策略来提高数据的可靠性、可用性和网络带宽的利用率。将第一个副本放在本地节点,将第二个副本放到本地机架上的另外一个节点,而将第三个副本放到不同机架上的节点。文件的副本不是均匀地分布在机架当中,这种方式提高了写的性能,并且不影响数据的可靠性和读性能(选择读取最近的副本)Node大数据集群Rack1

19、Rack2第四十二页,共178页。43DataNodeDataNodeHDFS稳健性故障的类型(lixng):NameNode故障,DataNode故障和网络中断数据磁盘故障,心跳及重新复制pDataNode因为故障而不可用p拷贝过程失败pDataNode上的磁盘坏掉p副本数量会被增加NameNode启动block重新复制:NameNodeDataNodeDeadDataNodeDataNodeHeartBeats第四十三页,共178页。44HDFS稳健性数据完整性HDFS客户端应用实现了对文件内容的校验和。HDFS写入的时候计算出校验和,然后每次读的时候再计算校验和。元数据磁盘(cpn)故障

20、NameNode在HDFS集群中属于单点故障。没有namenode,文件系统会崩溃,文件系统上的所有文件将丢失(无法读出,因为无法定位元数据块的位置)HA高可用架构:NameNode热备第四十四页,共178页。45HA架构(jiu)解决的问题NameNode单点故障HDFS只有一个NameNode节点(jidin),当NameNode崩溃后,整个HDFS集群随之崩溃,直到Namenode重启或者其他Namenode接入HDFSHA:为了解决NameNode的单点故障,为NameNode保存一个热备,两个独立的机器作为NameNode:ActiveNamenode、StandbyNamenode

21、。任何时刻,只有一个Namenode处于Active状态,另一个处于standby状态(passive,备份);ActiveNamenode用于接收Client端请求,Standy节点(jidin)作为slave保持集群的状态数据以备快速failover.第四十五页,共178页。46HA架构图写入读出DataNodeDataNodeDataNode.NameNodeactiveNameNodestandbyQJM/NFSZookeeperFCZookeeperFC监控NN状态管理HA状态监控NN状态管理HA状态ZookeeperHeartbeatHeartbeat第四十六页,共178页。47H

22、A架构(jiu)-快速failoverDatanodes上需要同时配置这两个Namenode的地址,同时和它们都建立(jinl)心跳链接,并把block位置发送给它们,这样Standbynode持有集群中blocks的最新位置当ActiveNN失效时,StandbyNN切换成ActiveNNNameNodeactiveDataNodeDataNodeDataNodeDataNodeNameNodestandbyHeartBeats共享数据第四十七页,共178页。48两种HA方案(fngn)对比QJMvsNFS共同点都是热备方案都是一个activeNamenode(NN)和一个standbyNN

23、使用(shyng)Zookeeper(ZK)quorum和ZKFC来实现自动失效恢复。在失效恢复时都需要配置fencing方法来fenceactiveNN二者共享数据方式不同参与HA的不同角色HDFSwithNFSHDFSwithQJMNamenodeNamenodeHANFS(共享数据变更存储)JournalNodeZookeeperZookeeperZKFailoverControllerprocessZKFailoverControllerprocess第四十八页,共178页。49HA方案(fngn)-NFS实现机制activeNN和standbyNN需要共享一个存储目录。activeN

24、N会把数据变更日志保存在该目录内,standbyNN则监视更新,并保持数据同步。为了快速切换NN,DataNode(DN)需要知道两个NN的地址,并把块信息和心跳包发送给active和standby这两个NN。此外,为了保证activeNN挂了以后不再有新数据写入,Fencing逻辑在确认(qurn)activeNN挂了以后会切断所有与原activeNN的连接。HAwithNFS局限性目前只支持一个数据变更共享目录,导致HA能力受限于该目录为了防止共享目录的单点失效,对共享目录有额外的要求,比如冗余的硬盘、网络和电源等。NFS共享目录所在的设备要求是高可靠性。NFS方式部署更为复杂。第四十九页

25、,共178页。50HA方案(fngn)-QJMStandbyNode与ActiveNode保持同步这两个Node都与一组称为JNS的互相独立的进程保持通信(JournalNodes)。当ActiveNode上更新了namespace,它将记录修改日志发送给JNS的多数派。Standbynoes将会从JNS中读取这些edits,并持续关注它们(tmen)对日志的变更。StandbyNode将日志变更应用在自己的namespace中,即在failover发生之前,Standy持有namespace应该与Active保持完全同步。JournalNodeJournalNodeJournalNodeJo

26、urnalNodeNameNodeactiveNameNodestandby向JournalNodes写数据从JournalNodes读数据第五十页,共178页。51HA方案(fngn)-QJM硬件资源Namenode机器:两台配置对等的机器,它们分别运行Active和StandbyNodeJouralNode机器:运行JouralNodes的机器。JouralNode守护进程相当的轻量级,它们可以(ky)和hadoop的其他进程部署在一起,比如Namenodes、jobTracker、ResourceManager等。不过为了形成多数派(majority),至少需要3个JouralNodes

27、,因为edits操作必须在多数派上写入成功。当然JNS的个数可以(ky)3,且通常为奇数(3,5,7),这样可以(ky)更好的容错和形成多数派。如果你运行了N个JNS,那么它可以(ky)允许(N-1)/2个JNS进程失效并且不影响工作。第五十一页,共178页。52HDFS可访问(fngwn)性HDFS支持以文件和目录的形式组织用户数据。它提供了一个命令行接口(FSShell)让用户与HDFS中的数据进行交互(jioh)通过原生的FileSystemJavaAPI接口来访问浏览器的方式访问HDFS中的实例文件http:/nn_host:port/默认的http端口是50070第五十二页,共178

28、页。53读文件(wnjin)ClientJVMDataNodeDataNodeDataNodeNameNodeHDFSClientDistributedFileSystemFSDataInputStream1:open2:获取文件数据块所在的DataNode节点位置3:read7:complete6:close4:read5:read第五十三页,共178页。54写文件(wnjin)ClientJVMDataNodeDataNodeDataNodeNameNodeHDFSClientDistributedFileSystemFSDataInputStream1:creat3:write7:com

29、plete6:close5:ackpacket2:creat4:writepacket4545第五十四页,共178页。55回收(hushu)存储空间文件的删除与恢复HDFS会为每一个用户创建一个回收站目录:/user/用户名/.Trash/,每一个被用户通过Shell删除的文件/目录,它会先被重命名到目录/trash下的一个文件.只要被删除的文件还在/trash目录中,用户就可以还原它。目前默认策略是删除/trash中保留时间超过6小时的文件该功能只限于用户在客户端的脚本操作(cozu),当用户写程序调用HDFS的API时,NameNode并不会把删除的文件或目录放入回收站Trash中减少副本

30、系数当副本系数被降低时,NameNode会选择删除多余的副本第五十五页,共178页。56HDFS常用(chnyn)shellHDFS支持以文件和目录的形式组织用户数据(shj)。它在客户端提供了一个命令行接口(FSShell)让用户与HDFS中的数据(shj)进行交互调用文件系统(FS)Shell命令应使用bin/hadoopfs的形式。所有的的FSshell命令使用URI路径作为参数。URI格式是scheme:/authority/path。对HDFS文件系统,scheme是hdfs。其中scheme和authority参数都是可选的,如果未加指定,就会使用配置中指定的默认scheme。一个

31、HDFS文件或目录比如/parent/child可以表示成hdfs:/namenode:namenodeport/parent/child,或者更简单的/parent/child第五十六页,共178页。57ls使用方法:hadoopfs-ls查看目录下文件(wnjin)lsr使用方法:hadoopfs-lsr递归查看文件(wnjin)mkdir使用方法:hadoopfs-mkdir-p创建目录,-p参数是创建各级父目录touchz使用方法:hadoopfs-touchzURIURI创建一个0字节的空文件(wnjin)。HDFS常用(chnyn)shell第五十七页,共178页。58HDFS常用

32、(chnyn)shellput使用方法:hadoopfs-put.上传一个或多个本地文件到文件系统。如果HDFS中已经(yjing)存在该文件,那么直接上传会报错。如果第二个路径是个文件夹,那么会上传到文件夹中,如果文件不存在,那么会生成一个文件而非新建一个文件夹。copyFromLocal使用方法:hadoopfs-copyFromLocalURI上传一个或多个本地文件到文件系统。命令类似-putget使用方法:hadoopfs-get下载文件到本地文件系统。copyToLocal使用方法:hadoopfs-copyToLocalURI下载文件到本地文件系统。命令类似-get第五十八页,共1

33、78页。59HDFS常用(chnyn)shellappendToFile使用方法:hadoopfs-appendToFile.将本地(bnd)文件追加到hdfs文件末尾mv使用方法:hadoopfs-mvURIURI将文件从源路径移动到目标路径。这个命令允许有多个源路径,此时目标路径必须是一个目录。不允许在不同的文件系统间移动文件。text使用方法:hadoopfs-text将源文件输出为文本格式cat使用方法:hadoopfs-catURIURI将路径指定文件的内容输出到stdout第五十九页,共178页。60HDFS常用(chnyn)shellrm使用方法:hadoopfs-rmURIUR

34、I删除文件rmdir使用方法:hadoopfs-rmdirURIURI.删除空白文件夹rmr(不建议使用)使用方法:hadoopfs-rmrURIURI.递归删除。建议使用rmr替代该命令cp使用方法:hadoopfs-cpURIURI.将文件从源路径复制到目标(mbio)路径。这个命令允许有多个源路径,此时目标(mbio)路径必须是一个目录。第六十页,共178页。61HDFS常用(chnyn)shellchmod使用方法:hadoopfs-chmod-RURIURI改变文件的权限(qunxin)。使用-R将使改变在目录结构下递归进行。命令的使用者必须是文件的所有者或者超级用户。chown使用

35、方法:hadoopfs-chown-ROWNER:GROUPURIURI改变文件的拥有者。使用-R将使改变在目录结构下递归进行。命令的使用者必须是超级用户。chgrp使用方法:hadoopfs-chgrp-RGROUPURIURI改变文件所属的组。使用-R将使改变在目录结构下递归进行。命令的使用者必须是文件的所有者或者超级用户。第六十一页,共178页。62HDFS常用(chnyn)shellexpunge使用方法(fngf):hadoopfs-expunge清空回收站setrep使用方法(fngf):hadoopfs-setrep-R改变一个文件的副本系数。-R选项用于递归改变目录下所有文件的

36、副本系数。其他命令,通过hadoopfs-help可以获取所有的命令的详细帮助文件第六十二页,共178页。63hdfsfsck命令(mnglng)HDFS支持fsck命令(mnglng)用以检查各种不一致。fsck用以报告各种文件问题,如block丢失或缺少block等。查看文件的块的组成等信息。使用方法:hdfsfsck-files-blocks-locations第六十三页,共178页。64MapReduce第六十四页,共178页。65来源(liyun)2004.10Google发布(fb)了最初的MapReduce论文MapReduce:大型集群中简化的数据处理第六十五页,共178页。6

37、6MapReduce是什么(shnme)MapReduce是一个编程模型,也是一个处理和生成(shnchn)超大数据集的算法模型的相关实现(计算框架),用于简化分布式集群下的大数据计算。第六十六页,共178页。67MapReduce计算(jsun)框架这个框架在运行时只关心:如何分割输入数据在大量计算机组成的集群上的调度集群中计算机的错误处理管理(gunl)集群中计算机之间必要的通信。采用MapReduce架构可以使那些没有并行计算和分布式处理系统开发经验的程序员有效利用分布式系统的丰富资源。第六十七页,共178页。68MapReduce编程模型(mxng)编程模型:用户首先创建(chungj

38、in)一个Map函数处理一个基于key/valuepair的数据集合,输出中间的基于key/valuepair的数据集合;然后,再创建(chungjin)一个Reduce函数用来合并所有的具有相同中间key值的中间value值。第六十八页,共178页。69MapReduce-纸牌(zhpi)游戏MapReduce方法则是:给在座的所有玩家中分配这摞牌让每个玩家数自己手中的牌有几张是黑桃,然后把这个数目汇报给你你把所有玩家告诉你的数字加起来,得到最后(zuhu)的结论你想数出一摞牌中有多少张黑桃。直观方式是一张一张检查(jinch)并且数出有多少张是黑桃?MapReduce合并了两种经典函数:映

39、射(Mapping)对集合里的每个目标应用同一个操作。即:分开计算,输出各自结果。化简(Reducing)遍历集合中的元素来返回一个综合的结果。即:合并分开计算的各个结果,得到最终结果。第六十九页,共178页。70MapReduce-基本(jbn)思想如何对付大数据(shj)处理:分而治之对相互间不具有计算依赖关系的大数据(shj),实现并行最自然的办法就是采取分而治之的策略第七十页,共178页。71MapReduce-基本(jbn)思想上升(shngshng)到抽象模型:Mapper与ReducerMapReduce借鉴了Lisp函数式语言中的思想,用Map和Reduce两个函数提供了高层的

40、并行编程抽象模型上升到构架:统一计算框架,为程序员隐藏系统层细节为MapReduce设计并提供了统一的计算框架,为程序员隐藏了绝大多数系统层面的处理(chl)细节(存储、划分、分发、结果收集、错误恢复)第七十一页,共178页。72MapReduce-工作(gngzu)原理第七十二页,共178页。73MapReduce-工作(gngzu)原理1.整个系统主要有三部分(bfen)构成:userprogram(客户端)、master(主控程序)、worker(工作单元,部署在各个数据/计算节点上)2.客户端(userprogram)与master通信,提交mapreduce程序到master,3.M

41、aster监控集群中的空闲资源(每个worker向其汇报),收到客户端请求后,为该mapreduce程序分配多个map任务和reduce任务4.一个被分配了map任务的worker读取相关输入文件分片的内容。它从输入数据中分析出key/value对,然后把key/value对传递给用户自定义的map函数。由map函数产生的中间key/value对被缓存在内存中,缓存在内存中的key/value对被周期性的写入到本地磁盘上。5.reduceworker使用远程调用来从mapworker的磁盘上读取缓存的数据,然后通过排序使具有相同key的内容聚合在一起,它把key和聚合得value集传递给用户自

42、定义的reduce函数。reduce函数的输出被添加到这个reduce分割的最终的输出文件中。6.当所有的map和reduce任务都完成了,管理者唤醒用户程序。在这个时候,在用户程序里的MapReduce调用返回到用户代码。第七十三页,共178页。74MapReduce-适用(shyng)场景MapReduce主要(zhyo)面向对大规模数据的处理,适用于离线批处理场景由于每次操作需要遍历所有(suyu)数据,MapReduce并不适用于需要实时响应的系统。第七十四页,共178页。75MapReduce程序(chngx)wordcount第七十五页,共178页。76wordcount概述(is

43、h)输入(shr):执行程序:输出(shch):$bin/hadoopfs-cat/user/joe/wordcount/input/file01HelloWorldByeWorld$bin/hadoopfs-cat/user/joe/wordcount/input/file02HelloHadoopGoodbyeHadoop$bin/hadoopjarwc.jarWordCount/user/joe/wordcount/input/user/joe/wordcount/output$bin/hadoopfs-cat/user/joe/wordcount/output/part-r-00000

44、Bye1Goodbye1Hadoop2Hello2World2第七十六页,共178页。77MapReduce工作(gngzu)过程第七十七页,共178页。78InputMapper1、读取输入(shr)文件,并分片2、按block分片,每片一个map。Wordcount输入(shr)文件是2个小文件,默认block大小为64M或128M,所以每个文件就一片,两个文件共2片,2个map任务。3、每个map读取对应分片的文件内容,按行提取文件内容,转换成(key,value)。key是数据分片中字节偏移量,value值是行内容FileInputFormat.addInputPath(job,new

45、Path(args0);publicvoidmap(Objectkey,Textvalue,Contextcontext)第七十八页,共178页。79Mapper阶段(jidun)Map-1:Map-2:job.setMapperClass(TokenizerMapper.class);publicvoidmap(Objectkey,Textvalue,Contextcontext)throwsIOException,InterruptedExceptionStringTokenizeritr=newStringTokenizer(value.toString();while(itr.hasM

46、oreTokens()word.set(itr.nextToken();context.write(word,one);第七十九页,共178页。80Combine阶段(jidun)Map-1:Map-2:publicvoidreduce(Textkey,Iterablevalues,Contextcontext)throwsIOException,InterruptedExceptionintsum=0;for(IntWritableval:values)sum+=val.get();result.set(sum);context.write(key,result);job.setCombin

47、erClass(IntSumReducer.class);第八十页,共178页。81Reducer阶段(jidun)publicvoidreduce(Textkey,Iterablevalues,Contextcontext)throwsIOException,InterruptedExceptionintsum=0;for(IntWritableval:values)sum+=val.get();result.set(sum);context.write(key,result);job.setReducerClass(IntSumReducer.class);第八十一页,共178页。82Ha

48、doopMapReduce工作(gngzu)过程第八十二页,共178页。83Yarn第八十三页,共178页。84HadoopMapReduceV1架构(jiu)第八十四页,共178页。85HadoopMapReduceV1组成(zchn)1)Client客户端程序,与客户端程序,与JobTracker通信,提交通信,提交mapredce程序包程序包2)JobTrackerJobTracke相当于相当于Google MapReduce中的中的master,负责统一的资源监控和作业调度。,负责统一的资源监控和作业调度。3)TaskTrackerTaskTracker相当于相当于Google Map

49、Reduce中的中的worker,部署,部署(b sh)在各个数据在各个数据/计算节点上,计算节点上,向向JobTracker发送本节点的资源情况,接收发送本节点的资源情况,接收JobTracker的作业调度指令,创建任务或杀死任的作业调度指令,创建任务或杀死任务务4)TaskTask 分为分为Map Task 和和Reduce Task 两种,均由两种,均由TaskTracker 启动。启动。第八十五页,共178页。86HadoopMapReduceV1问题(wnt)1.JobTracker是Map-reduce的集中处理点,存在单点故障。2.JobTracker完成了太多的任务,造成了过多

50、的资源消耗,当map-reducejob非常多的时候,会造成很大的内存开销,增加了JobTrackerfail的风险。3.在TaskTracker端,以map/reducetask的数目作为资源的表示过于简单,没有考虑到cpu/内存的占用情况,如果两个大内存消耗的task被调度到了一块,很容易(rngy)出现OOM。4.在TaskTracker端,把资源强制划分为maptaskslot和reducetaskslot,如果当系统中只有maptask或者只有reducetask的时候,会造成资源的浪费。5.源代码层面分析的时候,会发现代码非常的难读,常常因为一个class做了太多的事情,代码量达3

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 小学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁