大数据基础编程、实验和案例教程-第3章-Hadoop的安装和使用.ppt-淘文阁

资源描述

《大数据基础编程、实验和案例教程-第3章-Hadoop的安装和使用.ppt》由会员分享，可在线阅读，更多相关《大数据基础编程、实验和案例教程-第3章-Hadoop的安装和使用.ppt（59页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、大数据基础编程、实验和案例教程（第2版）厦门大学计算机科学系林子雨厦门大学计算机科学系 2020版林子雨林子雨厦门大学计算机科学系厦门大学计算机科学系E-mail: 主页：主页：http:/ Hadoop的安装和使用的安装和使用（PPT版本号：版本号：2020年年12月版本）月版本）大数据基础编程、实验和案例教程（第大数据基础编程、实验和案例教程（第2版）版）教材官网： http:/ 厦门大学计算机科学系林子雨教材简介本书是与大数据技术原理与应用（第3版）教材配套的唯一指定实验指导书步步引导，循序渐进，详尽的安装指南为顺利搭建大数据实验环境铺平道路深入浅出，去粗取精，丰富的代码实例

2、帮助快速掌握大数据基础编程方法精心设计，巧妙融合，八套大数据实验题目促进理论与编程知识的消化和吸收结合理论，联系实际，大数据课程综合实验案例精彩呈现大数据分析全流程林子雨编著大数据基础编程、实验和案例教程（第2版）清华大学出版社 ISBN:978-7-302-55977-1 定价：69元，2020年10月第2版教材官网： http:/ 厦门大学计算机科学系林子雨提纲3.1 Hadoop简介简介3.2 安装安装Hadoop前的准备工作前的准备工作3.3 安装安装Hadoop百度搜索厦门大学数据库实验室网站访问平台大数据基础编程、实验和案例教程（第2版）厦门大学计算机科学系林子雨 3.1

3、Hadoop简介简介Hadoop是Apache软件基金会旗下的一个开源分布式计算平台，为用户提供了系统底层细节透明的分布式基础架构。Hadoop是基于Java语言开发的，具有很好的跨平台特性，并且可以部署在廉价的计算机集群中。Hadoop的核心是分布式文件系统（Hadoop Distributed File System，HDFS）和MapReduce。Apache Hadoop版本分为三代，分别是Hadoop 1.0、Hadoop 2.0和Hadoop3.0。除了免费开源的Apache Hadoop以外，还有一些商业公司推出Hadoop的发行版。2008年，Cloudera成为第一个Hado

4、op商业化公司，并在2009年推出第一个Hadoop发行版。此后，很多大公司也加入了做Hadoop产品化的行列，比如MapR、Hortonworks、星环等。2018年10月，Cloudera和Hortonworks宣布合并。一般而言，商业化公司推出的Hadoop发行版也是以Apache Hadoop为基础，但是前者比后者具有更好的易用性、更多的功能以及更高的性能。大数据基础编程、实验和案例教程（第2版）厦门大学计算机科学系林子雨 3.2 安装Hadoop前的准备工作3.2.1 创建hadoop用户3.2.2 更新APT3.2.3 安装SSH3.2.4 安装Java环境大数据基础编程、实验

5、和案例教程（第2版）厦门大学计算机科学系林子雨 3.2.1 创建hadoop用户本教程全部采用hadoop用户登录Linux系统，并为hadoop用户增加了管理员权限。在前面的“第2章 Linux系统的安装和使用”内容中，已经介绍了hadoop用户创建和增加权限的方法，请一定按照该方法创建hadoop用户，并且使用hadoop用户登录Linux系统，然后再开始下面的学习内容。本教程所有学习内容，都是采用hadoop用户登录Linux系统。大数据基础编程、实验和案例教程（第2版）厦门大学计算机科学系林子雨 3.2.2 更新APT本教程第2章介绍了APT软件作用和更新方法，为了确保Hado

6、op安装过程顺利进行，建议按照第2章介绍的方法，用hadoop用户登录Linux系统后打开一个终端，执行下面命令更新APT软件：$ sudo apt-get update大数据基础编程、实验和案例教程（第2版）厦门大学计算机科学系林子雨 3.2.3 安装SSHUbuntu默认已安装了SSH客户端，因此，这里还需要安装SSH服务端，请在Linux的终端中执行以下命令：$ sudo apt-get install openssh-server安装后，可以使用如下命令登录本机：$ ssh localhost执行该命令后会出现如图3-1所示的提示信息(SSH首次登录提示)，输入“yes”，然后按提

7、示输入密码hadoop，就登录到本机了。大数据基础编程、实验和案例教程（第2版）厦门大学计算机科学系林子雨 3.2.3 安装SSH首先，请输入命令“exit”退出刚才的SSH，就回到了原先的终端窗口；然后，可以利用ssh-keygen生成密钥，并将密钥加入到授权中，命令如下：$ cd /.ssh/ # 若没有该目录，请先执行一次ssh localhost$ ssh-keygen -t rsa # 会有提示，都按回车即可$ cat ./id_rsa.pub ./authorized_keys # 加入授权此时，再执行ssh localhost命令，无需输入密码就可以直接登录了，如图所示。大数

8、据基础编程、实验和案例教程（第2版）厦门大学计算机科学系林子雨 3.2.4 安装Java环境执行如下命令创建“/usr/lib/jvm”目录用来存放JDK文件：$cd /usr/lib$sudo mkdir jvm #创建/usr/lib/jvm目录用来存放JDK文件执行如下命令对安装文件进行解压缩：$cd #进入hadoop用户的主目录$cd Downloads$sudo tar -zxvf ./jdk-8u162-linux-x64.tar.gz -C /usr/lib/jvm大数据基础编程、实验和案例教程（第2版）厦门大学计算机科学系林子雨 3.2.4 安装Java环境下面继续执

9、行如下命令，设置环境变量：$vim /.bashrc上面命令使用vim编辑器打开了hadoop这个用户的环境变量配置文件，请在这个文件的开头位置，添加如下几行内容：export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_162export JRE_HOME=$JAVA_HOME/jreexport CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/libexport PATH=$JAVA_HOME/bin:$PATH大数据基础编程、实验和案例教程（第2版）厦门大学计算机科学系林子雨 3.2.4 安装Java环境保存.bashrc文件并退出vim

10、编辑器。然后，继续执行如下命令让.bashrc文件的配置立即生效：$source /.bashrc这时，可以使用如下命令查看是否安装成功：$java -version如果能够在屏幕上返回如下信息，则说明安装成功：java version 1.8.0_162Java(TM) SE Runtime Environment (build 1.8.0_162-b12)Java HotSpot(TM) 64-Bit Server VM (build 25.162-b12, mixed mode)大数据基础编程、实验和案例教程（第2版）厦门大学计算机科学系林子雨 3.3 安装HadoopHadoop包

11、括三种安装模式：单机模式：只在一台机器上运行，存储是采用本地文件系统，没有采用分布式文件系统HDFS；伪分布式模式：存储采用分布式文件系统HDFS，但是，HDFS的名称节点和数据节点都在同一台机器上；分布式模式：存储采用分布式文件系统HDFS，而且，HDFS的名称节点和数据节点位于不同机器上。大数据基础编程、实验和案例教程（第2版）厦门大学计算机科学系林子雨 3.3.1 下载安装文件本教程采用的Hadoop版本是3.1.3，可以到Hadoop官网下载安装文件（http:/ sudo tar -zxf /下载/hadoop-3.1.3.tar.gz -C /usr/local # 解压到/u

12、sr/local中$ cd /usr/local/$ sudo mv ./hadoop-3.1.3/ ./hadoop # 将文件夹名改为hadoop$ sudo chown -R hadoop ./hadoop # 修改文件权限Hadoop解压后即可使用，可以输入如下命令来检查 Hadoop是否可用，成功则会显示 Hadoop版本信息：$ cd /usr/local/hadoop$ ./bin/hadoop version大数据基础编程、实验和案例教程（第2版）厦门大学计算机科学系林子雨 3.3.2 单机模式配置Hadoop默认模式为非分布式模式（本地模式），无需进行其他配置即可运行。H

13、adoop附带了丰富的例子，运行如下命令可以查看所有例子：$ cd /usr/local/hadoop$ ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar大数据基础编程、实验和案例教程（第2版）厦门大学计算机科学系林子雨这里选择运行grep例子$ cd /usr/local/hadoop$ mkdir input$ cp ./etc/hadoop/*.xml ./input # 将配置文件复制到input目录下$ ./bin/hadoop jar ./share/hadoop/map

14、reduce/hadoop-mapreduce-examples-*.jar grep ./input ./output dfsa-z.+$ cat ./output/* # 查看运行结果大数据基础编程、实验和案例教程（第2版）厦门大学计算机科学系林子雨 3.3.3 伪分布式模式配置1. 修改配置文件修改配置文件修改以后，core-site.xml文件的内容如下： hadoop.tmp.dir file:/usr/local/hadoop/tmp Abase for other temporary directories. fs.defaultFS hdfs:/localhost:9000

15、大数据基础编程、实验和案例教程（第2版）厦门大学计算机科学系林子雨 3.3.3 伪分布式模式配置同样，需要修改配置文件hdfs-site.xml，修改后的内容如下： dfs.replication 1 dfs.namenode.name.dir file:/usr/local/hadoop/tmp/dfs/name dfs.datanode.data.dir file:/usr/local/hadoop/tmp/dfs/data 大数据基础编程、实验和案例教程（第2版）厦门大学计算机科学系林子雨 3.3.3 伪分布式模式配置2. 执行名称节点格式化执行名称节点格式化修改配置文件以后，

16、要执行名称节点的格式化，命令如下：$ cd /usr/local/hadoop$ ./bin/hdfs namenode -format如果格式化成功，会看到“successfully formatted”的提示信息大数据基础编程、实验和案例教程（第2版）厦门大学计算机科学系林子雨 3.3.3 伪分布式模式配置3. 启动启动Hadoop执行下面命令启动Hadoop：$ cd /usr/local/hadoop$ ./sbin/start-dfs.sh #start-dfs.sh是个完整的可执行文件，中间没有空格如果出现如图3-5所示的SSH提示，输入yes即可：大数据基础编程、实验和案例教

17、程（第2版）厦门大学计算机科学系林子雨 3.3.3 伪分布式模式配置5. 使用使用Web界面查看界面查看HDFS信息信息大数据基础编程、实验和案例教程（第2版）厦门大学计算机科学系林子雨 3.3.3 伪分布式模式配置6. 运行运行Hadoop伪分布式实例伪分布式实例要使用HDFS，首先需要在HDFS中创建用户目录（本教程全部统一采用hadoop用户名登录Linux系统），命令如下：$ cd /usr/local/hadoop$ ./bin/hdfs dfs -mkdir -p /user/hadoop接着需要把本地文件系统的“/usr/local/hadoop/etc/hadoop”目

18、录中的所有xml文件作为输入文件，复制到分布式文件系统HDFS中的“/user/hadoop/input”目录中，命令如下：$ cd /usr/local/hadoop$ ./bin/hdfs dfs -mkdir input #在HDFS中创建hadoop用户对应的input目录$ ./bin/hdfs dfs -put ./etc/hadoop/*.xml input #把本地文件复制到HDFS中大数据基础编程、实验和案例教程（第2版）厦门大学计算机科学系林子雨 3.3.3 伪分布式模式配置现在就可以运行Hadoop自带的grep程序，命令如下：$ ./bin/hadoop jar .

19、/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar grep input output dfsa-z.+运行结束后，可以通过如下命令查看HDFS中的output文件夹中的内容：$ ./bin/hdfs dfs -cat output/*执行结果如图所示大数据基础编程、实验和案例教程（第2版）厦门大学计算机科学系林子雨 3.3.3 伪分布式模式配置7. 关闭关闭Hadoop如果要关闭Hadoop，可以执行下面命令：$ cd /usr/local/hadoop$ ./sbin/stop-dfs.sh大数据基础编程、实验和案例教

20、程（第2版）厦门大学计算机科学系林子雨 3.3.3 伪分布式模式配置8. 配置配置PATH变量变量export PATH=$PATH:/usr/local/hadoop/sbin首先使用vim编辑器打开“/.bashrc”这个文件，然后，在这个文件的最前面位置加入如下单独一行：在后面的学习过程中，如果要继续把其他命令的路径也加入到PATH变量中，也需要继续修改“/.bashrc”这个文件。当后面要继续加入新的路径时，只要用英文冒号“:”隔开，把新的路径加到后面即可，比如，如果要继续把“/usr/local/hadoop/bin”路径增加到PATH中，只要继续追加到后面，如下所示：expor

21、t PATH=$PATH:/usr/local/hadoop/sbin:/usr/local/hadoop/bin添加后，执行命令“source /.bashrc”使设置生效。设置生效后，在任何目录下启动Hadoop，都只要直接输入start-dfs.sh命令即可，同理，停止Hadoop，也只需要在任何目录下输入stop-dfs.sh命令即可。大数据基础编程、实验和案例教程（第2版）厦门大学计算机科学系林子雨 3.3.4 分布式模式配置Hadoop 集群的安装配置大致包括以下步骤：步骤1：选定一台机器作为 Master；步骤2：在Master节点上创建hadoop用户、安装SSH服务端、安

22、装Java环境；步骤3：在Master节点上安装Hadoop，并完成配置；步骤4：在其他Slave节点上创建hadoop用户、安装SSH服务端、安装Java环境；步骤5：将Master节点上的“/usr/local/hadoop”目录复制到其他Slave节点上；步骤6：在Master节点上开启Hadoop；大数据基础编程、实验和案例教程（第2版）厦门大学计算机科学系林子雨 3.3.4 分布式模式配置1. 网络配置网络配置大数据基础编程、实验和案例教程（第2版）厦门大学计算机科学系林子雨 3.3.4 分布式模式配置在Ubuntu中，我们在 Master 节点上执行如下命令修改主机名：$

23、sudo vim /etc/hostname打开这个文件以后，里面就只有“dblab-VirtualBox”这一行内容，可以直接删除，并修改为“Master”（注意是区分大小写的），然后，保存退出vim编辑器，这样就完成了主机名的修改，需要重启Linux系统才能看到主机名的变化。执行如下命令打开并修改Master节点中的“/etc/hosts”文件：$ sudo vim /etc/hosts192.168.1.121 Master192.168.1.122 Slave1大数据基础编程、实验和案例教程（第2版）厦门大学计算机科学系林子雨 3.3.4 分布式模式配置大数据基础编程、实验和案例教

24、程（第2版）厦门大学计算机科学系林子雨 3.3.4 分布式模式配置把Slave节点上的“/etc/hostname”文件中的主机名修改为“Slave1”，同时，修改“/etc/hosts”的内容，在hosts文件中增加如下两条IP和主机名映射关系：192.168.1.121 Master192.168.1.122 Slave1修改完成以后，请重新启动Slave节点的Linux系统。大数据基础编程、实验和案例教程（第2版）厦门大学计算机科学系林子雨 3.3.4 分布式模式配置需要在各个节点上都执行如下命令，测试是否相互ping得通，如果ping不通，后面就无法顺利配置成功：$ ping

25、Master -c 3 # 只ping 3次就会停止，否则要按Ctrl+c中断ping命令$ ping Slave1 -c 3大数据基础编程、实验和案例教程（第2版）厦门大学计算机科学系林子雨 3.3.4 分布式模式配置2. SSH无密码登录节点无密码登录节点必须要让Master节点可以SSH无密码登录到各个Slave节点上。首先，生成Master节点的公匙，如果之前已经生成过公钥，必须要删除原来生成的公钥，重新生成一次，因为前面我们对主机名进行了修改。具体命令如下：$ cd /.ssh # 如果没有该目录，先执行一次ssh localhost$ rm ./id_rsa* # 删除之前生成

26、的公匙（如果已经存在）$ ssh-keygen -t rsa # 执行该命令后，遇到提示信息，一直按回车就可以为了让Master节点能够无密码SSH登录本机，需要在Master节点上执行如下命令：$ cat ./id_rsa.pub ./authorized_keys完成后可以执行命令“ssh Master”来验证一下，可能会遇到提示信息，只要输入yes即可，测试成功后，请执行“exit”命令返回原来的终端。大数据基础编程、实验和案例教程（第2版）厦门大学计算机科学系林子雨 3.3.4 分布式模式配置接下来，在Master节点将上公匙传输到Slave1节点：$ scp /.ssh/id_r

27、sa.pub hadoopSlave1:/home/hadoop/大数据基础编程、实验和案例教程（第2版）厦门大学计算机科学系林子雨 3.3.4 分布式模式配置接着在Slave1节点上，将SSH公匙加入授权：$ mkdir /.ssh # 如果不存在该文件夹需先创建，若已存在，则忽略本命令$ cat /id_rsa.pub /.ssh/authorized_keys$ rm /id_rsa.pub # 用完以后就可以删掉如果有其他Slave节点，也要执行将Master公匙传输到Slave节点以及在Slave节点上加入授权这两步操作。这样，在Master节点上就可以无密码SSH登录到各个Sl

28、ave节点了，可在Master节点上执行如下命令进行检验：$ ssh Slave1大数据基础编程、实验和案例教程（第2版）厦门大学计算机科学系林子雨 3.3.4 分布式模式配置3. 配置配置PATH变量变量首先执行命令“vim /.bashrc”，也就是使用vim编辑器打开“/.bashrc”文件，然后，在该文件最上面的位置加入下面一行内容：export PATH=$PATH:/usr/local/hadoop/bin:/usr/local/hadoop/sbin大数据基础编程、实验和案例教程（第2版）厦门大学计算机科学系林子雨 3.3.4 分布式模式配置4. 配置集群配置集群/分布式

29、环境分布式环境在配置集群/分布式模式时，需要修改“/usr/local/hadoop/etc/hadoop”目录下的配置文件，这里仅设置正常启动所必须的设置项，包括workers 、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml共5个（1）修改文件）修改文件workers本教程让Master节点仅作为名称节点使用，因此将workers文件中原来的localhost删除，只添加如下一行内容：Slave1大数据基础编程、实验和案例教程（第2版）厦门大学计算机科学系林子雨 3.3.4 分布式模式配置（2）修改文件）修改文件cor

30、e-site.xml 请把core-site.xml文件修改为如下内容： fs.defaultFS hdfs:/Master:9000 hadoop.tmp.dir file:/usr/local/hadoop/tmp Abase for other temporary directories. 大数据基础编程、实验和案例教程（第2版）厦门大学计算机科学系林子雨 3.3.4 分布式模式配置（3）修改文件）修改文件hdfs-site.xml dfs.namenode.secondary.http-address Master:50090 dfs.replication 1 dfs.namen

31、ode.name.dir file:/usr/local/hadoop/tmp/dfs/name dfs.datanode.data.dir file:/usr/local/hadoop/tmp/dfs/data 大数据基础编程、实验和案例教程（第2版）厦门大学计算机科学系林子雨 3.3.4 分布式模式配置（4）修改文件）修改文件mapred-site.xml mapreduce.framework.name yarn mapreduce.jobhistory.address Master:10020 mapreduce.jobhistory.webapp.address Master:1

32、9888 yarn.app.mapreduce.am.envHADOOP_MAPRED_HOME=/usr/local/hadoopmapreduce.map.envHADOOP_MAPRED_HOME=/usr/local/hadoopmapreduce.reduce.envHADOOP_MAPRED_HOME=/usr/local/hadoop 大数据基础编程、实验和案例教程（第2版）厦门大学计算机科学系林子雨 3.3.4 分布式模式配置（5）修改文件）修改文件 yarn-site.xml yarn.resourcemanager.hostname Master yarn.nodema

33、nager.aux-services mapreduce_shuffle 大数据基础编程、实验和案例教程（第2版）厦门大学计算机科学系林子雨 3.3.4 分布式模式配置首先在Master节点上执行如下命令：$ cd /usr/local$ sudo rm -r ./hadoop/tmp # 删除 Hadoop 临时文件$ sudo rm -r ./hadoop/logs/* # 删除日志文件$ tar -zcf /hadoop.master.tar.gz ./hadoop # 先压缩再复制$ cd $ scp ./hadoop.master.tar.gz Slave1:/home/hado

34、op然后在Slave1节点上执行如下命令：$ sudo rm -r /usr/local/hadoop # 删掉旧的（如果存在）$ sudo tar -zxf /hadoop.master.tar.gz -C /usr/local$ sudo chown -R hadoop /usr/local/hadoop大数据基础编程、实验和案例教程（第2版）厦门大学计算机科学系林子雨 3.3.4 分布式模式配置首次启动Hadoop集群时，需要先在Master节点执行名称节点的格式化（只需要执行这一次，后面再启动Hadoop时，不要再次格式化名称节点），命令如下：$ hdfs namenode -fo

35、rmat现在就可以启动Hadoop了，启动需要在Master节点上进行，执行如下命令：$ start-dfs.sh$ start-yarn.sh$ mr-jobhistory-daemon.sh start historyserver大数据基础编程、实验和案例教程（第2版）厦门大学计算机科学系林子雨 3.3.4 分布式模式配置大数据基础编程、实验和案例教程（第2版）厦门大学计算机科学系林子雨 3.3.4 分布式模式配置5. 执行分布式实例执行分布式实例执行分布式实例过程与伪分布式模式一样，首先创建HDFS上的用户目录，命令如下：$ hdfs dfs -mkdir -p /user/ha

36、doop然后，在HDFS中创建一个input目录，并把“/usr/local/hadoop/etc/hadoop”目录中的配置文件作为输入文件复制到input目录中，命令如下：$ hdfs dfs -mkdir input$ hdfs dfs -put /usr/local/hadoop/etc/hadoop/*.xml input接着就可以运行 MapReduce 作业了，命令如下：$ hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar grep input outpu

37、t dfsa-z.+大数据基础编程、实验和案例教程（第2版）厦门大学计算机科学系林子雨 3.3.4 分布式模式配置大数据基础编程、实验和案例教程（第2版）厦门大学计算机科学系林子雨 3.3.4 分布式模式配置最后，关闭Hadoop集群，需要在Master节点执行如下命令：$ stop-yarn.sh$ stop-dfs.sh$ mr-jobhistory-daemon.sh stop historyserver大数据基础编程、实验和案例教程（第2版）厦门大学计算机科学系林子雨 3.4 本章小结Hadoop是当前流行的分布式计算框架，在企业中得到了广泛的部署和应用。本章重点介绍如何安

38、装Hadoop，从而为后续章节开展HDFS和MapReduce编程实践奠定基础。Hadoop是基于Java开发的，需要运行在JVM中，因此，需要为Hadoop配置相应的Java环境。Hadoop包含三种安装模式，即单机模式、伪分布式模式和分布式模式。本章分别介绍了三种不同模式的安装配置方法。在初学阶段，建议采用伪分布式模式配置，这样可以快速构建起Hadoop实战环境，有效开展基础编程工作。大数据基础编程、实验和案例教程（第2版）厦门大学计算机科学系林子雨附录A：主讲教师林子雨简介单位：厦门大学计算机科学系E-mail: 个人网页：http:/ 厦门大学计算机科学系林子雨附录B：大数据

39、学习路线图大数据学习路线图访问地址：http:/ 厦门大学计算机科学系林子雨附录C：林子雨大数据系列教材了解全部教材信息：http:/ 厦门大学计算机科学系林子雨附录D：大数据导论（通识课版）教材本课程旨在实现以下几个培养目标：p引导学生步入大数据时代，积极投身大数据的变革浪潮之中p了解大数据概念，培养大数据思维，养成数据安全意识p认识大数据伦理，努力使自己的行为符合大数据伦理规范要求p熟悉大数据应用，探寻大数据与自己专业的应用结合点p激发学生基于大数据的创新创业热情教材官网：http:/ ISBN:978-7-04-053577-8 定价：32元大数据基础编程、实验和案例教程（第2版

40、）厦门大学计算机科学系林子雨附录E：大数据导论教材林子雨编著大数据导论人民邮电出版社，2020年9月第1版 ISBN:978-7-115-54446-9 定价：49.80元教材官网：http:/ 厦门大学计算机科学系林子雨附录F：大数据技术原理与应用教材欢迎访问大数据技术原理与应用概念、存储、处理、分析与应用教材官方网站：http:/ ISBN:978-7-115-44330-4 定价：49.80元全书共有15章，系统地论述了大数据的基本概念、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、云数据库、分布式并行编程模型MapRed

41、uce、Spark、流计算、图计算、数据可视化以及大数据在互联网、生物医学和物流等各个领域的应用。在Hadoop、HDFS、HBase和MapReduce等重要章节，安排了入门级的实践操作，让读者更好地学习和掌握大数据关键技术。本书可以作为高等院校计算机专业、信息管理等相关专业的大数据课程教材，也可供相关技术人员参考、学习、培训之用。大数据基础编程、实验和案例教程（第2版）厦门大学计算机科学系林子雨附录G：大数据基础编程、实验和案例教程（第2版）本书是与大数据技术原理与应用（第3版）教材配套的唯一指定实验指导书步步引导，循序渐进，详尽的安装指南为顺利搭建大数据实验环境铺平道路深入浅出，去

42、粗取精，丰富的代码实例帮助快速掌握大数据基础编程方法精心设计，巧妙融合，八套大数据实验题目促进理论与编程知识的消化和吸收结合理论，联系实际，大数据课程综合实验案例精彩呈现大数据分析全流程林子雨编著大数据基础编程、实验和案例教程（第2版）清华大学出版社 ISBN:978-7-302-55977-1 定价：69元 2020年10月第2版大数据基础编程、实验和案例教程（第2版）厦门大学计算机科学系林子雨附录H：Spark编程基础（Scala版）Spark编程基础（编程基础（Scala版）版）厦门大学林子雨，赖永炫，陶继平编著披荆斩棘，在大数据丛林中开辟学习捷径填沟削坎，为快速学习Spark

43、技术铺平道路深入浅出，有效降低Spark技术学习门槛资源全面，构建全方位一站式在线服务体系本书以Scala作为开发Spark应用程序的编程语言，系统介绍了Spark编程的基础知识。全书共8章，内容包括大数据技术概述、Scala语言基础、Spark的设计与运行原理、Spark环境搭建和使用方法、RDD编程、Spark SQL、Spark Streaming、Spark MLlib等。本书每个章节都安排了入门级的编程实践操作，以便读者更好地学习和掌握Spark编程方法。本书官网免费提供了全套的在线教学资源，包括讲义PPT、习题、源代码、软件、数据集、授课视频、上机实验指南等。人民邮电出版社出版发行

44、，人民邮电出版社出版发行，ISBN:978-7-115-48816-9教材官网：教材官网：http:/ 厦门大学计算机科学系林子雨附录I：Spark编程基础（Python版）Spark编程基础（编程基础（Python版）版）厦门大学林子雨，郑海山，赖永炫编著披荆斩棘，在大数据丛林中开辟学习捷径填沟削坎，为快速学习Spark技术铺平道路深入浅出，有效降低Spark技术学习门槛资源全面，构建全方位一站式在线服务体系本书以Python作为开发Spark应用程序的编程语言，系统介绍了Spark编程的基础知识。全书共8章，内容包括大数据技术概述、Spark的设计与运行原理、Spark环境搭建和使

45、用方法、RDD编程、Spark SQL、Spark Streaming、Structured Streaming、Spark MLlib等。本书每个章节都安排了入门级的编程实践操作，以便读者更好地学习和掌握Spark编程方法。本书官网免费提供了全套的在线教学资源，包括讲义PPT、习题、源代码、软件、数据集、上机实验指南等。人民邮电出版社出版发行，人民邮电出版社出版发行，ISBN:978-7-115-52439-3教材官网：教材官网： http:/ 厦门大学计算机科学系林子雨附录J：高校大数据课程公共服务平台扫一扫访问平台主页http:/ 厦门大学计算机科学系林子雨附录K：高校大数据实训课程系列案例教材扫一扫访问大数据实训课程系列案例教材主页为了更好满足高校开设大数据实训课程的教材需求，厦门大学数据库实验室林子雨老师团队联合企业共同开发了高校大数据实训课程系列案例，目前已经完成开发的系列案例包括：电影推荐系统（已经于2019年5月出版）电信用户行为分析（已经于2019年5月出版）实时日志流处理分析微博用户情感分析互联网广告预测分析网站日志处理分析系列案例教材将于2019年陆续出版发行，教材相关信息，敬请关注网页后续更新！http:/ 厦门大学计算机科学系林子雨 Department of Computer Science, Xiamen University, 2020

展开阅读全文