大数据技术原理与应用（第2版教材）-第2章-大数据处理架构Had.ppt-淘文阁

资源描述

《大数据技术原理与应用（第2版教材）-第2章-大数据处理架构Had.ppt》由会员分享，可在线阅读，更多相关《大数据技术原理与应用（第2版教材）-第2章-大数据处理架构Had.ppt（49页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、大数据技术原理与应用（第2版）厦门大学计算机科学系林子雨厦门大学计算机科学系 2017年2月版本林子雨林子雨厦门大学计算机科学系厦门大学计算机科学系E-mail:主页：主页：http:/ 大数据处理架构大数据处理架构Hadoop（PPT版本号：版本号：2017年年2月版本）月版本）http:/ 概述概述2.2 Hadoop项目结构项目结构2.3 Hadoop的安装与使用的安装与使用2.4 Hadoop集群的部署与使用集群的部署与使用欢迎访问大数据技术原理与应用教材官方网站：http:/ Hadoop是Apache软件基金会旗下的一个开源分布式计算平台，为用户提供了系统底层细节透明的分布式基础架

2、构Hadoop是基于Java语言开发的，具有很好的跨平台特性，并且可以部署在廉价的计算机集群中Hadoop的核心是分布式文件系统HDFS（HadoopDistributedFileSystem）和MapReduceHadoop被公认为行业大数据标准开源软件，在分布式环境下提供了海量数据的处理能力几乎所有主流厂商都围绕Hadoop提供开发工具、开源软件、商业化工具和技术服务，如谷歌、雅虎、微软、思科、淘宝等，都支持Hadoop大数据技术原理与应用（第2版）厦门大学计算机科学系林子雨2.1.2Hadoop发展简史 Hadoop最初是由ApacheLucene项目的创始人DougCutting开发的

3、文本搜索库。Hadoop源自始于2002年的ApacheNutch项目一个开源的网络搜索引擎并且也是Lucene项目的一部分在2004年，Nutch项目也模仿GFS开发了自己的分布式文件系统NDFS（NutchDistributedFileSystem），也就是HDFS的前身2004年，谷歌公司又发表了另一篇具有深远影响的论文，阐述了MapReduce分布式编程思想2005年，Nutch开源实现了谷歌的MapReduceHadoop的标志大数据技术原理与应用（第2版）厦门大学计算机科学系林子雨2.1.2Hadoop发展简史到了2006年2月，Nutch中的NDFS和MapReduce开始独立出

4、来，成为Lucene项目的一个子项目，称为Hadoop，同时，DougCutting加盟雅虎2008年1月，Hadoop正式成为Apache顶级项目，Hadoop也逐渐开始被雅虎之外的其他公司使用2008年4月，Hadoop打破世界纪录，成为最快排序1TB数据的系统，它采用一个由910个节点构成的集群进行运算，排序时间只用了209秒在2009年5月，Hadoop更是把1TB数据排序时间缩短到62秒。Hadoop从此名声大震，迅速发展成为大数据时代最具影响力的开源分布式开发平台，并成为事实上的大数据处理标准大数据技术原理与应用（第2版）厦门大学计算机科学系林子雨2.1.3Hadoop的特性 Ha

5、doop是一个能够对大量数据进行分布式处理的软件框架，并且是以一种可靠、高效、可伸缩的方式进行处理的，它具有以下几个方面的特性：高可靠性高效性高可扩展性高容错性成本低运行在Linux平台上支持多种编程语言大数据技术原理与应用（第2版）厦门大学计算机科学系林子雨2.1.3Hadoop的应用现状 Hadoop凭借其突出的优势，已经在各个领域得到了广泛的应用，而互联网领域是其应用的主阵地2007年，雅虎在Sunnyvale总部建立了M45一个包含了4000个处理器和1.5PB容量的Hadoop集群系统Facebook作为全球知名的社交网站，Hadoop是非常理想的选择，Facebook主要将Hado

6、op平台用于日志处理、推荐系统和数据仓库等方面国内采用Hadoop的公司主要有百度、淘宝、网易、华为、中国移动等，其中，淘宝的Hadoop集群比较大大数据技术原理与应用（第2版）厦门大学计算机科学系林子雨2.1.3Hadoop的应用现状Hadoop在企业中的应用架构大数据技术原理与应用（第2版）厦门大学计算机科学系林子雨2.1.4ApacheHadoop版本演变ApacheHadoop版本分为两代，我们将第一代Hadoop称为Hadoop1.0，第二代Hadoop称为Hadoop2.0第一代Hadoop包含三个大版本，分别是0.20.x，0.21.x和0.22.x，其中，0.20.x最后演化成

7、1.0.x，变成了稳定版，而0.21.x和0.22.x则增加了NameNodeHA等新的重大特性第二代Hadoop包含两个版本，分别是0.23.x和2.x，它们完全不同于Hadoop1.0，是一套全新的架构，均包含HDFSFederation和YARN两个系统，相比于0.23.x，2.x增加了NameNodeHA和Wire-compatibility两个重大特性大数据技术原理与应用（第2版）厦门大学计算机科学系林子雨2.1.4ApacheHadoop版本演变大数据技术原理与应用（第2版）厦门大学计算机科学系林子雨ApacheHadoopHortonworksCloudera（CDH：Cloud

8、eraDistributionHadoop）MapR2.1.5Hadoop各种版本选择Hadoop版本的考虑因素：是否开源（即是否免费）是否有稳定版是否经实践检验是否有强大的社区支持大数据技术原理与应用（第2版）厦门大学计算机科学系林子雨2.1.5Hadoop各种版本大数据技术原理与应用（第2版）厦门大学计算机科学系林子雨2.2Hadoop项目结构Hadoop的项目结构不断丰富发展，已经形成一个丰富的Hadoop生态系统大数据技术原理与应用（第2版）厦门大学计算机科学系林子雨2.2Hadoop项目结构组件组件功能功能HDFS分布式文件系统MapReduce分布式并行编程模型YARN资源管理和调

9、度器Tez运行在YARN之上的下一代Hadoop查询处理框架HiveHadoop上的数据仓库HBaseHadoop上的非关系型的分布式数据库Pig一个基于Hadoop的大规模数据分析平台，提供类似SQL的查询语言PigLatinSqoop用于在Hadoop与传统数据库之间进行数据传递OozieHadoop上的工作流管理系统Zookeeper提供分布式协调一致性服务Storm流计算框架Flume一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统AmbariHadoop快速部署工具，支持ApacheHadoop集群的供应、管理和监控Kafka一种高吞吐量的分布式发布订阅消息系统，可以处

10、理消费者规模的网站中的所有动作流数据Spark类似于HadoopMapReduce的通用并行框架大数据技术原理与应用（第2版）厦门大学计算机科学系林子雨2.3Hadoop的安装与使用详细安装教程请参考厦门大学数据实验室建设的中国高校大数据课程公共服详细安装教程请参考厦门大学数据实验室建设的中国高校大数据课程公共服务平台上的技术文章：务平台上的技术文章：大数据技术原理与应用大数据技术原理与应用第二章第二章大数据处理架构大数据处理架构Hadoop 学习指南学习指南，给出了每步安装命令和效果截图，给出了每步安装命令和效果截图访问地址：访问地址：http:/ useradd m hadoop s/

11、bin/bash上面这条命令创建了可以登陆的hadoop用户，并使用/bin/bash作为shell接着使用如下命令设置密码，可简单设置为hadoop，按提示输入两次密码：$sudo passwd hadoop可为hadoop用户增加管理员权限，方便部署，避免一些对新手来说比较棘手的权限问题：$sudo adduser hadoop sudo大数据技术原理与应用（第2版）厦门大学计算机科学系林子雨SSH登录权限设置配置配置SSH的原因的原因：Hadoop名称节点（NameNode）需要启动集群中所有机器的Hadoop守护进程，这个过程需要通过SSH登录来实现。Hadoop并没有提供SSH输入密

12、码登录的形式，因此，为了能够顺利登录每台机器，需要将所有机器配置为名称节点可以无密码登录它们SSH是什么？是什么？SSH为SecureShell的缩写，是建立在应用层和传输层基础上的安全协议。SSH是目前较可靠、专为远程登录会话和其他网络服务提供安全性的协议。利用SSH协议可以有效防止远程管理过程中的信息泄露问题。SSH最初是UNIX系统上的一个程序，后来又迅速扩展到其他操作平台。SSH是由客户端和服务端的软件组成，服务端是一个守护进程(daemon)，它在后台运行并响应来自客户端的连接请求，客户端包含ssh程序以及像scp（远程拷贝）、slogin（远程登陆）、sftp（安全文件传输）等其他

13、的应用程序大数据技术原理与应用（第2版）厦门大学计算机科学系林子雨安装Java环境Java环境可选择Oracle的JDK，或是OpenJDK可以在Ubuntu中直接通过命令安装OpenJDK7$sudo apt-get install openjdk-7-jre openjdk-7-jdk还需要配置一下JAVA_HOME环境变量具体请参考网络教程：http:/ tar-zxf/下载下载/hadoop-2.6.0.tar.gz-C/usr/local#解压到解压到/usr/local中中$cd/usr/local/$sudo mv./hadoop-2.6.0/./hadoop#将文件夹名改为将文

14、件夹名改为hadoop$sudo chown-R hadoop:hadoop./hadoop#修改文件权限修改文件权限Hadoop解压后即可使用。输入如下命令来检查Hadoop是否可用，成功则会显示Hadoop版本信息：$cd/usr/local/hadoop$./bin/hadoop versionHadoop默认模式为非分布式模式（本地模式），无需进行其他配置即可运行。大数据技术原理与应用（第2版）厦门大学计算机科学系林子雨伪分布式安装伪分布式安装配置配置Hadoop可以在单节点上以伪分布式的方式运行，Hadoop进程以分离的Java进程来运行，节点既作为NameNode也作为DataNo

15、de，同时，读取的是HDFS中的文件Hadoop的配置文件位于/usr/local/hadoop/etc/hadoop/中，伪分布式需要修改2个配置文件core-site.xml和hdfs-site.xmlHadoop的配置文件是xml格式，每个配置以声明property的name和value的方式来实现大数据技术原理与应用（第2版）厦门大学计算机科学系林子雨伪分布式安装伪分布式安装配置配置实验步骤：实验步骤：p修改配置文件：core-site.xml，hdfs-site.xml，mapred-site.xmlp初始化文件系统hadoopnamenode-formatp启动所有进程start-

16、all.shp访问web界面，查看Hadoop信息p运行实例大数据技术原理与应用（第2版）厦门大学计算机科学系林子雨伪分布式安装伪分布式安装配置配置修改配置文件core-site.xml hadoop.tmp.dir file:/usr/local/hadoop/tmp Abase for other temporary directories.fs.defaultFS hdfs:/localhost:9000 name为fs.defaultFS的值，表示hdfs路径的逻辑名称hadoop.tmp.dir表示存放临时数据的目录，即包括NameNode的数据，也包括DataNode的数据。该路径

17、任意指定，只要实际存在该文件夹即可大数据技术原理与应用（第2版）厦门大学计算机科学系林子雨伪分布式安装伪分布式安装配置配置修改配置文件hdfs-site.xml dfs.replication 1 dfs.namenode.name.dir file:/usr/local/hadoop/tmp/dfs/name dfs.datanode.data.dir file:/usr/local/hadoop/tmp/dfs/data dfs.replication表示副本的数量，伪分布式要设置为1dfs.namenode.name.dir表示本地磁盘目录，是存储fsimage文件的地方dfs.data

18、node.data.dir表示本地磁盘目录，HDFS数据存放block的地方大数据技术原理与应用（第2版）厦门大学计算机科学系林子雨伪分布式安装伪分布式安装配置配置关于三种Shell命令方式的区别：1.hadoopfs2.hadoopdfs3.hdfsdfshadoopfs适用于任何不同的文件系统，比如本地文件系统和HDFS文件系统hadoopdfs只能适用于HDFS文件系统hdfsdfs跟hadoopdfs的命令作用一样，也只能适用于HDFS文件系统大数据技术原理与应用（第2版）厦门大学计算机科学系林子雨2.4.1集群节点类型2.4.2集群规模2.4.3集群硬件配置2.4.4集群网络拓扑2.

19、4.5集群的建立与安装2.4.6集群基准测试2.4.7在云计算环境中使用Hadoop2.4Hadoop集群的部署与使用大数据技术原理与应用（第2版）厦门大学计算机科学系林子雨2.4.1Hadoop集群中有哪些节点类型Hadoop框架中最核心的设计是为海量数据提供存储的HDFS和对数据进行计算的MapReduceMapReduce的作业主要包括：（1）从磁盘或从网络读取数据，即IO密集工作；（2）计算数据，即CPU密集工作Hadoop集群的整体性能取决于CPU、内存、网络以及存储之间的性能平衡。因此运营团队在选择机器配置时要针对不同的工作节点选择合适硬件类型一个基本的Hadoop集群中的节点主要

20、有NameNode：负责协调集群中的数据存储DataNode：存储被拆分的数据块JobTracker：协调数据计算任务TaskTracker：负责执行由JobTracker指派的任务SecondaryNameNode：帮助NameNode收集文件系统运行的状态信息大数据技术原理与应用（第2版）厦门大学计算机科学系林子雨2.4.2集群硬件配置在集群中，大部分的机器设备是作为Datanode和TaskTracker工作的Datanode/TaskTracker的硬件规格可以采用以下方案：4个磁盘驱动器（单盘1-2T），支持JBOD(JustaBunchOfDisks，磁盘簇)2个4核CPU,至少2

21、-2.5GHz16-24GB内存千兆以太网NameNode提供整个HDFS文件系统的NameSpace(命名空间)管理、块管理等所有服务，因此需要更多的RAM，与集群中的数据块数量相对应，并且需要优化RAM的内存通道带宽，采用双通道或三通道以上内存。硬件规格可以采用以下方案：8-12个磁盘驱动器（单盘1-2T）2个4核/8核CPU16-72GB内存千兆/万兆以太网SecondaryNameNode在小型集群中可以和NameNode共用一台机器，较大的群集可以采用与NameNode相同的硬件大数据技术原理与应用（第2版）厦门大学计算机科学系林子雨2.4.3集群规模要多大Hadoop集群规模可大可

22、小，初始时，可以从一个较小规模的集群开始，比如包含10个节点，然后，规模随着存储器和计算需求的扩大而扩大如果数据每周增大1TB，并且有三个HDFS副本，然后每周需要一个额外的3TB作为原始数据存储。要允许一些中间文件和日志（假定30%）的空间，由此，可以算出每周大约需要增加一台新机器。存储两年数据的集群，大约需要100台机器对于一个小的集群，名称节点（NameNode）和JobTracker运行在单个节点上，通常是可以接受的。但是，随着集群和存储在HDFS中的文件数量的增加，名称节点需要更多的主存，这时，名称节点和JobTracker就需要运行在不同的节点上第二名称节点（SecondaryNa

23、meNode）会和名称节点可以运行在相同的机器上，但是，由于第二名称节点和名称节点几乎具有相同的主存需求，因此，二者最好运行在不同节点上大数据技术原理与应用（第2版）厦门大学计算机科学系林子雨2.4.4集群网络拓扑普通的Hadoop集群结构由一个两阶网络构成每个机架（Rack）有30-40个服务器，配置一个1GB的交换机，并向上传输到一个核心交换机或者路由器（1GB或以上）在相同的机架中的节点间的带宽的总和，要大于不同机架间的节点间的带宽总和大数据技术原理与应用（第2版）厦门大学计算机科学系林子雨2.4.5集群的建立与安装采购好相关的硬件设备后，就可以把硬件装入机架，安装并运行Hadoop安装

24、Hadoop有多种方法：（1）手动安装（2）自动化安装为了缓解安装和维护每个节点上相同的软件的负担，可以使用一个自动化方法实现完全自动化安装，比如RedHatLinuxKickstart、Debian或者Docker自动化安装部署工具，会通过记录在安装过程中对于各个选项的回答来完成自动化安装过程。大数据技术原理与应用（第2版）厦门大学计算机科学系林子雨2.4.6Hadoop集群基准测试如何判断一个Hadoop集群是否已经正确安装？可以运行基准测试Hadoop自带有一些基准测试程序，被打包在测试程序JAR文件中用TestDFSIO基准测试，来测试HDFS的IO性能用排序测试MapReduce：H

25、adoop自带一个部分排序的程序，这个测试过程的整个数据集都会通过洗牌（Shuffle）传输至Reducer，可以充分测试MapReduce的性能大数据技术原理与应用（第2版）厦门大学计算机科学系林子雨2.4.7在云计算环境中使用HadoopHadoop不仅可以运行在企业内部的集群中，也可以运行在云计算环境中可以在AmazonEC2中运行Hadoop。EC2是一个计算服务，允许客户租用计算机（实例），来运行自己的应用。客户可以按需运行或终止实例，并且按照实际使用情况来付费Hadoop自带有一套脚本，用于在EC2上面运行Hadoop在EC2上运行Hadoop尤其适用于一些工作流。例如，在Amaz

26、onS3中存储数据，在EC2上运行集群，在集群中运行MapReduce作业，读取存储在S3中的数据，最后，在关闭集群之前将输出写回S3中；如果长期使用集群，复制S3数据到运行在EC2上的HDFS中，则可以使得数据处理更加高效，因为，HDFS可以充分利用数据的位置，S3则做不到，因为，S3与EC2的存储不在同一个节点上大数据技术原理与应用（第2版）厦门大学计算机科学系林子雨本章小结Hadoop被视为事实上的大数据处理标准，本章介绍了Hadoop的发展历程，并阐述了Hadoop的高可靠性、高效性、高可扩展性、高容错性、成本低、运行在Linux平台上、支持多种编程语言等特性Hadoop目前已经在各个

27、领域得到了广泛的应用，雅虎、Facebook、百度、淘宝、网易等公司都建立了自己的Hadoop集群经过多年发展，Hadoop项目已经变得非常成熟和完善，包括Common、Avro、Zookeeper、HDFS、MapReduce、HBase、Hive、Chukwa、Pig等子项目，其中，HDFS和MapReduce是Hadoop的两大核心组件本章最后介绍了如何在Linux系统下完成Hadoop的安装和配置，这个部分是后续章节实践环节的基础大数据技术原理与应用（第2版）厦门大学计算机科学系林子雨附录：主讲教师林子雨简介单位：厦门大学计算机科学系E-mail:个人网页：http:/ of Computer Science,Xiamen University,2017

展开阅读全文