《Hadoop应用开发与案例实战(.ppt》由会员分享,可在线阅读,更多相关《Hadoop应用开发与案例实战(.ppt(371页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、本讲知识点本讲知识点uHadoopHadoop概述概述Hadoop简介Hadoop的背景Hadoop的发展历程Hadoop的特点uHadoopHadoop的核心组件的核心组件分布式文件系统-HDFS分布式计算框架-MapReduce集群资源管理器-YarnuHadoopHadoop生态系统及相关技术简介生态系统及相关技术简介uHadoopHadoop的应用场景的应用场景1HadoopHadoop概述概述 uHadoopHadoop简介简介 Apache HadoopApache Hadoop是一款由是一款由ApacheApache基金会开发的用于可靠的、可基金会开发的用于可靠的、可伸缩的分布式
2、计算的开源软件。伸缩的分布式计算的开源软件。 Apache HadoopApache Hadoop软件库是一个框架,它允许使用简单的编程模型软件库是一个框架,它允许使用简单的编程模型在跨计算机集群中对大规模数据集进行分布式处理。在跨计算机集群中对大规模数据集进行分布式处理。 设计目的从单一的服务器扩展到由成千上万台机器组成的集群,集群中的每台机器都提供本地计算和存储,并将存储的数据备份在多个节点,由此提升集群的可用性。在应用层检测和处理故障,而不是依赖硬件来提供高可用性。当一台机器宕机时,其他节点依然可以提供备份数据和计算服务,从而也可以实现在计算机集群之上提供高可用性服务2HadoopHad
3、oop概述概述 uHadoopHadoop简介简介 组成部分Hadoop1.0 由HDFS(Hadoop Distributed File System)和MapReduce(分布式计算框架)构成Hadoop2.0及之后的版本又引入了YARN(集群资源管理系统)3HadoopHadoop概述概述 uHadoopHadoop背景背景 Hadoop最早起源于开源的网络搜索引擎Apache Nutch项目,此项目也是Lucene项目的一部分,它的设计目标是构建一个大型的全网搜索引擎,创始人是Doug Cutting。 2003年开始谷歌陆续发表的三篇论文为该问题提供了可行的解决方案。分布式文件系统(
4、GFS),可用于处理海量网页的存储分布式计算框架MapReduce,可用于海量网页的索引计算问题BigTable数据库 Nutch的开发人员完成了相应的开源实现HDFS和MAPREDUCE,并从Nutch中剥离成为独立项目HADOOP,到2008年1月,HADOOP成为Apache顶级项目,迎来了它的快速发展期4HadoopHadoop概述概述uHadoopHadoop背景背景 名字起源Hadoop这个名字不是一个缩写,它是一个虚构的名字。该项目的创建者,Doug Cutting解释Hadoop的得名 :“这个名字是我孩子给一个棕黄色的大象玩具命名的。我的命名标准就是简短,容易发音和拼写,没有
5、太多的意义,并且不会被用于别处。小孩子恰恰是这方面的高手。” Hadoop logo:5HadoopHadoop概述概述u发展历程发展历程2017年12月份Apache Hadoop 3.0.0GA 版本正式发布,从此大家可以正式在线上使用Hadoop3.0.0。2013年2月,Wandisco推出了世界第一款可用于实际业务环境的Apache Hadoop 2 -WANdisco Distro(WDD)。2011年12月27日-1.0.0版本发布。标志着Hadoop已经初具生产规模。2009年4月- 赢得每分钟排序,59秒内排序500 GB(在1400个节点上)和173分钟内排序100 TB数
6、据(在3400个节点上)。2006年2月- Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展。2006年1月- Doug Cutting加入雅虎。2005年12月- Nutch移植到新的框架,Hadoop在20个节点上稳定运行。6HadoopHadoop概述概述 uHadoopHadoop的特点的特点 高可靠性Hadoop能够自动地维护数据的多份副本,集群部署在多台机器上,避免出现当一个节点机器宕机时整个集群损坏的现象。 高扩展性Hadoop是在可用的计算机集群间分配数据并完成计算任务的,而且在已运行的集群环境中可以方便的添加新节点,从而扩大集群规模。 高效性
7、Hadoop采用分布式存储和分布式处理两大核心技术,而且Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。7HadoopHadoop概述概述 uHadoopHadoop的特点的特点 高容错性Hadoop的分布式文件系统HDFS采用冗余数据存储方式,自动保存数据的多个副本,并且能够自动将失败的任务进行重新分配,从而提高了Hadoop的容错能力。 低成本Hadoop可以通过普通的机器搭建服务器集群,成本比较低,普通用户也很容易用自己的PC机搭建Hadoop运行环境。 运行在Linux平台上Hadoop是基于Java语言开发的,可以较好地运行在Linux平台上。
8、 支持多种编程语言Hadoop上的应用程序也可以使用其他语言编写,如C+。8本讲知识点本讲知识点uHadoopHadoop概述概述Hadoop简介Hadoop的背景Hadoop的发展历程Hadoop的特点uHadoopHadoop的核心组件的核心组件分布式文件系统-HDFS分布式计算框架-MapReduce集群资源管理器-YarnuHadoopHadoop生态系统及相关技术简介生态系统及相关技术简介uHadoopHadoop的应用场景的应用场景9HadoopHadoop的核心组件的核心组件 u分布式文件系统分布式文件系统HDFSHDFS HDFS是Hadoop Distribute File
9、System 的简称,即Hadoop分布式文件系统。它是Hadoop核心组件之一,作为最底层的分布式存储服务而存在。 HDFS采用主/从(Master/Slave)架构,一般一个HDFS集群由一个NameNode、一个Secondary NameNode和多个DataNode组成。NameNode是HDFS集群的主节点,是一个中心服务器,负责存储和管理文件系统的元数据(节点信息)Secondary NameNode辅助NameNode,分担其工作量,用于同步元数据信息DataNode是HDFS集群的从节点,存储实际的数据,汇报存储信息给NameNode10HadoopHadoop的核心组件的核
10、心组件 u分布式文件系统分布式文件系统HDFSHDFS 优点高容错性适合大数据处理流式数据访问 缺点不适合低延迟数据访问无法高效存储大量小文件不适合并发写入,不支持文件随机修改11HadoopHadoop的核心组件的核心组件 u分布式计算框架分布式计算框架MapReduceMapReduce MapReduce是Hadoop的一个分布式计算框架,也是一种大规模数据集并行运算的编程模型,主要用于处理海量数据的运算。 MapReduce主要包括Map(映射)和Reduce(规约)两部分。 MapReduce是Google公司的核心计算模型,它将运行于大规模集群上。12HadoopHadoop的核心
11、组件的核心组件 u分布式计算框架分布式计算框架MapReduceMapReduce 优势编程简单可扩展性强高容错性 缺点执行速度慢不适合流式计算不适合DGA(有向图)计算13HadoopHadoop的核心组件的核心组件 u集群资源管理器集群资源管理器YarnYarn Hadoop Yarn 是开源 Hadoop分布式处理框架中的资源管理和作业调度框架,它是 Apache Hadoop的核心组件之一。 Yarn 负责将系统资源分配给在 Hadoop 集群中运行的各种应用程序,并调度在不同集群节点上执行的任务。 Yarn管理资源采用的是Master/Slave架构,其基本思想是将资源管理和作业调度
12、/监视的功能分解为单独的 Daemon(守护进程),其拥有一个全局的ResourceManager 和每个应用程序的ApplicationMaster。 Yarn 主要由 RM、NM、AM 和 Container 等几个组件构成。14本讲知识点本讲知识点uHadoopHadoop概述概述Hadoop简介Hadoop的背景Hadoop的发展历程Hadoop的特点uHadoopHadoop的核心组件的核心组件分布式文件系统-HDFS分布式计算框架-MapReduce集群资源管理器-YarnuHadoopHadoop生态系统及相关技术简介生态系统及相关技术简介uHadoopHadoop的应用场景的应
13、用场景15HadoopHadoop生态系统及相关技术介绍生态系统及相关技术介绍 uHadoopHadoop生态系统生态系统 当今的Hadoop已经成长为一个庞大的生态体系,随着生态体系的成长,新出现的项目也越来越多,其中不乏一些非Apache主管的项目,这些项目对Hadoop做了更好的补充或者更高层的抽象。16HadoopHadoop生态系统及相关技术介绍生态系统及相关技术介绍 uHadoopHadoop生态系统图生态系统图17HadoopHadoop生态系统及相关技术介绍生态系统及相关技术介绍 uHadoopHadoop生态系统相关技术介绍生态系统相关技术介绍 HBaseHBase全称为Ha
14、doop Database,是一个分布式的、面向列的开源数据库,也是一款比较流行的NoSQL数据库。HBase在Hadoop之上提供了类似Bigtable的能力,主要解决非关系型数据库的数据存储问题。 HiveHive由Facebook开源,最初用于解决海量结构化的日志数据统计问题。它是构建于Hadoop集群之上的数据仓库,提供的一系列工具可存储、查询和分析存储在Hadoop中的大规模数据。18HadoopHadoop生态系统及相关技术介绍生态系统及相关技术介绍 uHadoopHadoop生态系统相关技术介绍生态系统相关技术介绍 SqoopSqoop是Sql-to-Hadoop的缩写,主要用于
15、传统数据库(MySQL、Oracle等)和Hadoop之间数据的传输。它可以将一个关系型数据库中的数据导入到Hadoop的HDFS中,也可以将HDFS中的数据导出到关系型数据库。 PigPig是一个基于Hadoop的大规模数据分析平台,定义了一种类似于SQL的数据流语言-Pig Latin,该语言提供了各种操作符,程序员可以利用它们开发自己的用于读取、写入和处理数据功能的程序。19HadoopHadoop生态系统及相关技术介绍生态系统及相关技术介绍 uHadoopHadoop生态系统相关技术介绍生态系统相关技术介绍 FlumeFlume是Cloudera提供的一个高可用的、高可靠的、分布式的海
16、量日志采集、聚合和传输的软件。Flume的核心是把数据从数据源(Source)收集过来,再将收集到的数据送到指定的目的地(Sink)。 OozieOozie是由Cloudera公司贡献给Apache的基于工作流引擎的开源框架,同时也是一个管理Apache Hadoop作业的工作流调度系统,具有可伸缩性、可靠性及可扩展性。20HadoopHadoop生态系统及相关技术介绍生态系统及相关技术介绍 uHadoopHadoop生态系统相关技术介绍生态系统相关技术介绍 ZooKeeperZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google Chubby的一个开源实现,也是H
17、adoop、HBase的重要组件。它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。 MahoutMahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序21HadoopHadoop生态系统及相关技术介绍生态系统及相关技术介绍 uHadoopHadoop生态系统相关技术介绍生态系统相关技术介绍 StormApache Storm是一个免费的开源分布式实时计算系统,也是一个流数据框架,具有
18、较高的摄取率。Apache Storm具有容错性、灵活性、可靠性并且支持任何编程语言,允许实时流处理。它是无状态的,通过ZooKeeper管理分布式环境和集群状态。 KafkaKafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java语言编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,可以处理消费者在网站中的所有动作,主要应用于日志收集系统和消息系统。22HadoopHadoop生态系统及相关技术介绍生态系统及相关技术介绍 uHadoopHadoop生态系统相关技术介绍生态系统相关技术介绍 SparkApache Spark是一个大规模数据处理的快速通用的计算
19、引擎,可用它来完成各种各样的运算。它还支持一组丰富的高级工具,包括Spark SQL、SQL和结构化数据处理、MLlib机器学习、GraphX图形处理、Spark流等。23本讲知识点本讲知识点uHadoopHadoop概述概述Hadoop简介Hadoop的背景Hadoop的发展历程Hadoop的特点uHadoopHadoop的核心组件的核心组件分布式文件系统-HDFS分布式计算框架-MapReduce集群资源管理器-YarnuHadoopHadoop生态系统及相关技术简介生态系统及相关技术简介uHadoopHadoop的应用场景的应用场景24HadoopHadoop的应用场景的应用场景 uHa
20、doopHadoop的应用场景的应用场景 在线旅游根据相关统计数据,Cloudera公司的Hadoop框架正在为全球80%左右的在线旅游网站提供服务,例如总部位于美国伊利诺伊州芝加哥市的一家全球性线上旅游公司Orbitz Worldwide,受益于Hadoop架构,他们极为轻松地实现了诸多的数据分析工作。 电子商务电子商务推荐系统已经在亚马逊、淘宝等知名电商网站中得到了成功的应用。2012年,淘宝Hadoop集群节点已经达到了2860个,实际使用容量了超过40PB大小,日均作业数高达15万,为淘宝网的日常运营做出了关键支撑。25HadoopHadoop的应用场景的应用场景 uHadoopHad
21、oop的应用场景的应用场景 移动数据Cloudera运营总监称,美国有70%的智能手机数据服务背后都是由Hadoop来支撑的,也就是说,包括数据的存储以及无线运营商的数据处理等,都是在利用Hadoop技术。 能源发现美国Chevron公司是全美第二大石油公司,他们的IT部门主管介绍了Chevron使用Hadoop的经验,他们利用Hadoop进行数据的收集和处理,其中的数据就是海洋的地震数据,以便于他们找到油矿的位置。26HadoopHadoop的应用场景的应用场景 uHadoopHadoop的应用场景的应用场景 能源节省与 Chevron目标截然相反,美国Opower公司使用Hadoop来提升
22、电力服务,尽量为用户节省在资源方面的投入。Opower前期管理的大约30TB的能源数据、气象与人口数据、历史信息、地理数据等都是通过超过20个MySQL数据库和一个Hadoop集群来存储和处理的。 图像处理美国创业型公司Skybox Imaging使用Hadoop来存储和处理来自卫星捕捉的高分辨率图像,并尝试将这些信息及图像与地理格局的变化相对应。此外,自2008年4月以来,日本的CbIR(Content-basedInformationRetrieval)公司在AmazonEC2上使用Hadoop来构建图像处理环境,用于图像产品推荐系统。27HadoopHadoop的应用场景的应用场景 uH
23、adoopHadoop的应用场景的应用场景 医疗保健医疗行业也会用到Hadoop,像IBM的Watson就使用Hadoop集群作为其服务的基础。医疗机构可以利用语义分析为患者提供医护人员,并协助医生更好地为患者进行诊断。 IT安全除企业IT基础机构的管理之外,Hadoop还可以用来处理机器生成数据以便甄别来自恶意软件或者网络中的攻击。国内奇虎360安全软件在应用方面也主要使用Hadoop HBase作为其搜索引擎的底层网页存储架构系统,缩短异常退出后的恢复时间等。28HadoopHadoop的应用场景的应用场景 uHadoopHadoop的应用场景的应用场景 诈骗检测在金融服务机构和情报机构中
24、,欺诈检测一直都是关注的重点。Hadoop分析可以帮助金融机构检测、预防和减小来自内部和外部的诈骗行为,同时降低相关成本。销售、授权、交易以及其他的数据分析也能够帮助银行识别和减少诈骗。 基础设施管理这是一个非常基础的应用场景,用户可以用 Hadoop从服务器、交换机以及其他的设备中收集并分析数据。在Cloudera发布会中,NetApp代表指出他们公司收集的海量PB级别的设备日志也是存储在Hadoop中。此外,Esty是美国一家专门从事国产与复古商品的电子商务网站,目前海量的用户、访问量以及页面浏览量等数据的存储和分析都是建立在以Hadoop为基础设施的前提下完成的。29本讲总结本讲总结uH
25、adoopHadoop概述概述Hadoop简介Hadoop的背景Hadoop的发展历程Hadoop的特点uHadoopHadoop的核心组件的核心组件分布式文件系统-HDFS分布式计算框架-MapReduce集群资源管理器-YarnuHadoopHadoop生态系统及相关技术简介生态系统及相关技术简介uHadoopHadoop的应用场景的应用场景30谢谢谢谢第第2 2章章 HadoopHadoop安装与配置安装与配置32知识点回顾知识点回顾 Hadoop的简介 Hadoop的背景 Hadoop发展历程 Hadoop的核心组件 Hadoop生态系统及相关技术 Hadoop应用场景33本讲知识点本
26、讲知识点Hadoop的安装方式伪分布式安装 安装前的准备工作 Hadoop安装与配置 启动与停止Hadoop 访问Hadoop完全分布式安装 Hadoop集群规划 安装前的准备工作 Hadoop安装与配置 集群启动与监控 集群节点的添加与删除34HadoopHadoop安装方式安装方式独立模式:本地运行模式 无需任何守护进程,所有的程序都运行在同一个JVM上; 该模式主要是在学习或者开发阶段调试使用;单机模式:伪分布式 Hadoop守护进程运行一台独立的服务器上,模拟一个小规模的集群,它是完全分布式集群的一个特例; 该模式常用于开发人员测试程序的执行。集群模式:完全分布式 Hadoop守护进程
27、运行在由多台主机搭建的集群上; 真正的生产环境;35本讲知识点本讲知识点Hadoop的安装方式伪分布式安装 安装前的准备工作 Hadoop安装与配置 启动与停止Hadoop 访问Hadoop完全分布式安装 Hadoop集群规划 安装前的准备工作 Hadoop安装与配置 集群启动与监控 集群节点的添加与删除36伪分布式安装伪分布式安装安装前的准备工作所需软件列表uVmware WorkstationuLinux OS(Centos 7)uJDK(1.8+)uHadoop(2.7.7+)uXftpuXshell37环境准备u在Vmware 虚拟机中安装CentOS-7-x86_64-Minimal
28、-1804.iso。u 安装详、 设置Vmware虚拟机的网络方式为NAT(网络地址转换)38伪分布式安装伪分布式安装安装前的准备工作 设置静态IP 关闭防火墙 修改主机名(HOSTNAME) 配置主机名与IP映射 设置SSH免密登录 安装Java运行环境39伪分布式安装伪分布式安装安装前的准备工作1.设置设置Linux系统静态系统静态IP地址地址因为虚拟机网络采用bridge桥接方式,客户机和宿主机在同一个局域网中,因此按如下方式设置客户操作系统的IP地址 客户操作系统的IP地址和主操作系统在同一网段 客户操作系统的网关和主操作系统一致 客户操作系统的DNS和主操作系统一致命令:vi /et
29、c/sysconfig/network-scripts/ifcfg-ens3340伪分布式安装伪分布式安装安装前的准备工作 1.设置设置Linux系统静态系统静态 IP地址地址 设置完毕执行命令: systemctl restart network.service重启Linux系统网络。验证:ip addr命令查看设置是否成功41伪分布式安装伪分布式安装安装前的准备工作 2.关闭防火墙关闭防火墙 查看Linux系统防火墙状态: 命令:firewall-cmd -state 关闭防火墙 命令:systemctl stop firewalld.service 关闭防火墙的自动运行 命令:syste
30、mctl disable firewalld.service42伪分布式安装伪分布式安装安装前的准备工作3.修改主机名修改主机名 修改虚拟机的主机名为master 命令:vi /etc/hostname 修改完主机名需要重启虚拟机43伪分布式安装伪分布式安装安装前的准备工作4.配置主机名与配置主机名与IP映射映射 修改完主机名后,需要将静态IP地址与主机名进行映射,即修改hosts文件。 命令:vi /etc/hosts IP地址与主机名的映射输入格式为:IP地址 主机名 其中IP地址即步骤1中设置的静态IP地址44伪分布式安装伪分布式安装安装前的准备工作5.设置设置SSH免密登录免密登录 执
31、行以下命令产生密钥,位于/.ssh目录 命令:ssh-keygen t rsa 将公钥(id_rsa.pub)拷贝到当前目录的 /authorized_keys列表 命令:cat id_rsa.pub authorized_keys或者:ssh-copy-id -i id_rsa.pub hadoop 修改authorized_keys的权限为0600 命令:chmod 600 authorized_keys 验证 45伪分布式安装伪分布式安装安装前的准备工作 6.安装安装JDK 通过xftp工具将安装包上传到虚拟机master的某个目录下 解压文件:tar -zxvf jdk-8u191-l
32、inux-x64.tar.gz 重命名解压后的文件夹:将解压后的文件夹重命名为jdk46伪分布式安装伪分布式安装安装前的准备工作 6.安装安装JDK 配置环境变量 命令:vi /etc/profile,编辑此文件增加2行内容 生效配置信息:source /etc/profile 验证47伪分布式安装伪分布式安装Hadoop的安装与配置 1.上传安装包至上传安装包至Linux服务器服务器 2.解压安装包并重命名解压安装包并重命名命令:tar -zxvf hadoop-2.7.7.tar.gz48伪分布式安装伪分布式安装Hadoop的安装与配置3.配置环境变量并立即生效配置环境变量并立即生效命令:
33、vi /etc/profile,编辑此文件增加2行内容export HADOOP_HOME=/usr/local/hadoopexport PATH=.:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH 生效配置文件 命令:source /etc/profile4.修改修改Hadoop核心配置文件核心配置文件 Hadoop的核心配置文件有多个:hadoop-env.sh、yarn-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml,其路径为:/usr/local/hadoop/etc/
34、hadoop49伪分布式安装伪分布式安装Hadoop的安装与配置 4.修改修改Hadoop核心配置文件核心配置文件1)修改hadoop-env.sh文件 修改JAVA_HOME的配置信息,将原来的值修改为Java运行环境的安装路径。 export JAVA_HOME=/usr/local/jdk(jdk实际安装路径) 2) 修改yarn-env.sh 文件 此文件是YARN框架运行环境的配置,同样需要修改JAVA_HOME的配置信息。 export JAVA_HOME=/usr/local/jdk(jdk实际安装路径)50伪分布式安装伪分布式安装Hadoop的安装与配置 4.修改修改Hadoo
35、p核心配置文件核心配置文件3)修改 core-site.xml,配置HDFS的地址和端口号以及临时数据的目录。 fs.defaultFS hdfs:/master:8020 hadoop.tmp.dir /usr/local/hadoop/tmp 51伪分布式安装伪分布式安装Hadoop的安装与配置 4.修改修改Hadoop核心配置文件核心配置文件4)修改hdfs-site.xml ,修改HDFS保存数据的副本数量以及存储NameNode和DataNode元数据的目录 dfs.replication 1 dfs.namenode.name.dir file:/usr/local/hadoop/
36、tmp/dfs/name dfs.datanode.data.dir file:/usr/local/hadoop/tmp/dfs/data 52伪分布式安装伪分布式安装Hadoop的安装与配置4.修改修改Hadoop核心配置文件核心配置文件5)修改修改mapred-site.xml,配置使用yarn框架 因Hadoop的此目录下无该文件,需先创建此文件 执行命令:cp mapred-site.xml.template mapred-site.xml 然后配置如下内容: mapreduce.framework.name yarn 53伪分布式安装伪分布式安装Hadoop的安装与配置 4.修改修
37、改Hadoop核心配置文件核心配置文件6)修改yarn-site.xml,配置yarn属性 配置内容如下: yarn.resourcemanager.hostname master yarn.nodemanager.aux-servicesmapreduce_shuffle54伪分布式安装伪分布式安装启动与停止HadoopHadoop伪分布式集群的启动,可以依次单独启动HDFS和YARN,也可以一次启动所有的节点,一般建议依次单独启动HDFS和YARN。uNameNode格式化格式化 在Hadoop的解压目录:/usr/local/hadoop/bin下执行 hdfs namenode -fo
38、rmat启动启动/停止停止HDFS在Hadoop的解压目录:/usr/local/hodoop/sbin下存放启动、停止的所有脚本文件 start-dfs.sh stop-dfs.sh启动启动/停止停止YARN start-yarn.sh stop-yarn.sh一次性同时启动一次性同时启动HDFS和和YARN(此种方式(此种方式不建议使用)不建议使用)start-all.sh stop-all.sh55伪分布式安装伪分布式安装访问Hadoop 验证Hadoop是否配置并启动成功查看启动进程方式执行命令jps查看启动的进程中是否启动了以下5个进程 NameNode,SecondaryNamen
39、ode,DataNode、 ResourceManager、NodeManager以上5个进程运行在主节点的有: NameNode,SecondaryNamenode ,ResourceManager运行在从节点的有: DataNode、NodeManager 浏览器访问方式 http:/192.168.199.133:50070/ http:/192.168.199.133:18088/56伪分布式安装伪分布式安装访问Hadoop 验证Hadoop是否配置并启动成功57伪分布式安装伪分布式安装本讲知识点本讲知识点Hadoop的安装方式伪分布式安装 安装前的准备工作 Hadoop安装与配置 启
40、动与停止Hadoop 访问Hadoop完全分布式安装 Hadoop集群规划 安装前的准备工作 Hadoop安装与配置 集群启动与监控 集群节点的添加与删除58集群概述 计算机集群是一种计算机系统,它通过一组松散集成的计算机软件和/或硬件连接起来高度紧密地协作完成计算工作。 集群系统中的单个计算机通常称为节点,通常通过局域网连接。集群技术的特点 通过多台计算机完成同一个工作。达到更高的效率 两机或多机内容、工作过程等完全一样。如果一台死机,另一台可以起作用。完全分布式 Hadoop的完全分布式安装是真正的分布式,至少由三个及以上的实体机或者虚拟机组成的集群。 一个Hadoop集群环境中,Name
41、Node、SecondaryName和DataNode是需要分配在不同的节点上,因此需要至少三台服务器。59完全分布式安装完全分布式安装Hadoop集群规划 Hadoop完全分布式集群是典型的主从架构,一般需要三台或三台以上的服务器共同组建,本书中的集群规划为三台服务器。如果搭建完全分布式集群环境,建议个人计算机的硬件最低配置为:内存至少8G,硬盘可用容量至少100G,CPU为Intel i3以上的处理器。60完全分布式安装完全分布式安装IPIP地址地址主机名主机名称称HDFSHDFSYarnYarn192.168.199.130masterNameNodeDataNodeResourceMa
42、nager NodeManager192.168.199.131slave1DataNodeNodeManagerSecondaryNameNode192.168.199.132slave2DataNodeNodeManager安装前的准备工作 在伪分布模式的基础上继续改进 设置静态IP 关闭防火墙 修改主机名(HOSTNAME) 配置主机名与IP映射 设置SSH免密登录 安装Java运行环境 配置时间同步服务61完全分布式安装完全分布式安装安装前的准备工作 1.设置三台服务器的静态设置三台服务器的静态 IP地址地址设置完毕执行命令: systemctl restart network.ser
43、vice重启Linux系统网络。验证:ip addr命令查看设置是否成功62完全分布式安装完全分布式安装安装前的准备工作2.关闭防火墙(三台服务器均需要关闭)关闭防火墙(三台服务器均需要关闭) 查看Linux系统防火墙状态: 命令:firewall-cmd -state 关闭防火墙 命令:systemctl stop firewalld.service 关闭防火墙的自动运行 命令:systemctl disable firewalld.service63完全分布式安装完全分布式安装安装前的准备工作3.修改主机名修改主机名 每台服务器的主机名需根据完全分布式集群拓扑图中的主机名进行设置。 命令:
44、vi /etc/hostname 三台服务器的主机名分别为: master slave1 slave2 修改完主机名需要重启虚拟机64完全分布式安装完全分布式安装安装前的准备工作4.配置主机名与配置主机名与IP映射映射 完全分布式集群中三台服务器的主机名与IP地址的映射信息均需修改。 命令:vi /etc/hosts IP地址与主机名的映射输入格式为:IP地址 主机名 其中IP地址即步骤1中设置的静态IP地址65完全分布式安装完全分布式安装安装前的准备工作5.设置设置SSH免密登录免密登录 三台服务器均需执行以下命令产生密钥,位于/.ssh目录 命令:ssh-keygen t rsa 每台机器
45、复制各自公钥(id_rsa.pub)到每台服务器ssh-copy-id -i /.ssh/id_rsa.pub masterssh-copy-id -i /.ssh/id_rsa.pub slave1ssh-copy-id -i /.ssh/id_rsa.pub slave2 验证三台服务器是否可以相互免密登录 ssh master ssh slave1 ssh slave2 66完全分布式安装完全分布式安装安装前的准备工作6.安装安装JDK 通过xftp工具将安装包上传到三台服务器的某个目录下 解压文件:tar -zxvf jdk-8u191-linux-x64.tar.gz 重命名解压后的
46、文件夹:将解压后的文件夹重命名为jdk67完全分布式安装完全分布式安装安装前的准备工作6.安装安装JDK 配置环境变量 命令:vi /etc/profile,编辑此文件增加2行内容 生效配置信息:source /etc/profile 验证68完全分布式安装完全分布式安装安装前的准备工作7.配置时间同步服务配置时间同步服务Hadoop完全分布式对时间的要求很高,主节点与各从节点的时间应该做到时间的同步,而配置时间同步服务也是为了解决集群各个节点之间的时间同步问题。 本地ntp服务器提供时间同步服务 外围的ntp服务器提供时间同步服务(采用)1.安装安装ntpdate 每台服务器在线安装:yum
47、 install ntpdate -y69完全分布式安装完全分布式安装安装前的准备工作7.配置时间同步服务配置时间同步服务 2.同步同步ntp服务器时间服务器时间 命令格式:ntpdate -u ip(ntp服务器ip)70完全分布式安装完全分布式安装服务器服务器IP命令命令中国国家授时中心210.72.145.44ntpdate -u 210.72.145.44NTP服务器(上海)ntp.api.bzntpdate -u ntp.api.bz美国time.nist.govntpdate -u time.nist.gov复旦ntpdate -u 微软公司授时主机(美国)ntpdate -u H
48、adoop的安装与配置1.上传安装包至三台服务器上传安装包至三台服务器2.解压安装包并重命名解压安装包并重命名命令:tar -zxvf hadoop-2.7.7.tar.gz71完全分布式安装完全分布式安装Hadoop的安装与配置3.配置环境变量并立即生效配置环境变量并立即生效命令:vi /etc/profile,编辑此文件增加2行内容export HADOOP_HOME=/usr/local/hadoopexport PATH=.:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH 生效配置文件 命令:source /etc/profile4.修改修改Hadoo
49、p核心配置文件(在其中一台主服务器配置即可)核心配置文件(在其中一台主服务器配置即可) Hadoop的核心配置文件有多个:hadoop-env.sh、yarn-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml,其路径为:/usr/local/hadoop/etc/hadoop72完全分布式安装完全分布式安装Hadoop的安装与配置4.修改修改Hadoop核心配置文件核心配置文件1)修改hadoop-env.sh文件(同伪分布式) 修改JAVA_HOME的配置信息,将原来的值修改为Java运行环境的安装路径。 exp
50、ort JAVA_HOME=/usr/local/jdk(jdk实际安装路径) 2) 修改yarn-env.sh 文件(同伪分布式) 此文件是YARN框架运行环境的配置,同样需要修改JAVA_HOME的配置信息。 export JAVA_HOME=/usr/local/jdk(jdk实际安装路径)73完全分布式安装完全分布式安装Hadoop的安装与配置4.修改修改Hadoop核心配置文件核心配置文件3)修改 core-site.xml,配置HDFS的地址和端口号以及临时数据的目录。(同伪分布式) fs.defaultFS hdfs:/master:8020 hadoop.tmp.dir /us