《Hadoop大数据开发基础 -教学大纲 、授课计划、习题答案(张军第2版)及 期末测试题.docx》由会员分享,可在线阅读,更多相关《Hadoop大数据开发基础 -教学大纲 、授课计划、习题答案(张军第2版)及 期末测试题.docx(25页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、Hadoop大数据开发基础(第2 版)教学大纲课程名称:Hadoop大数据开发基础课程类别:必修适用专业:大数据技术类相关专业总学时:64学时(其中理论28学时,实验36学时)总学分:4.0学分一、课程的性质随着时代的开展,大数据已经成为一个耳熟能详的词汇。与此同时,针对大数据处理的新 技术也在不断的开发和运用中,逐渐成为数据处理挖掘行业广泛使用的主流技术之一。Hadoop 分布式集群系统架构,具有高可用性、高容错性和高扩展性等优点,由于它提供了一个开放式 的平台,用户可以在不了解底层实现细节的情形下,开发适合自身应用的分布式程序。经过多 年的开展,目前Hadoop已经成长为一个全栈式的大数据
2、技术生态圈,包括了 Hive、HBase Spark等一系列组件,成为应用最广泛、最具有代表性的大数据技术之一。因此,学习Hadoop 技术是从事大数据行业工作所必不可少的一步。为了满足企业的大数据人才需求,帮助学者掌 握相关技术知识解决实际的业务需求,特开设Hadoop大数据开发基础课程。二、课程的任务通过本课程的学习,使学生掌握Hadoop、Hive和HBase集群的安装配置,能够根据具体 需求编写MapReduce程序解决实际业务问题,使用Hive、HBase进行数据存储、查询余分析, 最后详细拆解并学习电影网站用户影评分析案例,将理论与实践相结合,为将来从事数据分析 挖掘研究、工作奠定
3、基础。三、课程学时分配打造数据智能职业教育领军企业七、课程教学目的通过本课程的学习,使学生掌握Hadoop、Hive和HBase集群的安装配置,能够根据具 体需求编写MapReduce程序解决实际业务问题,使用Hive、HBase进行数据存储、查询余 分析,最后详细拆解并学习电影网站用户影评分析案例,将理论与实践相结合,为将来从事 数据分析挖掘研究、工作奠定基础。八、教学方法及手段本课程将采用理论与实践相结合的教学方法。在理论上,按照解决实际任务的工作流程 路线,通过任务引入,紧扣任务需求逐步展开介绍相关的理论知识点。在实践上,充分地利 用现有的硬件资源,发挥学生主观能动性,指导学生搭建Had
4、oop. Hive、HBase分布式集 群,掌握MapReduce编程与运行实现,并使用Hive、HBase进行数据存储、查询与分析, 着重于学生解决问题时思路的启发与解决方案制定。最后结合一个案例实战,引导学生将所 学知识与企业需求相结合,将知识活学活用。要求学生自己动手分析实例,学习基本理论和方法,结合已有的知识,适当组织一些讨 论,充分调动学生的主观能动性,以到达本课程的教学目的。九、课程考核方法突出学生解决实际问题的能力,加强过程性考核。课程考核的成绩构成=平时作业 (10%) +课堂参与(20%) +期末考核(70%),期末考试建议采用开卷形式,试题应包 括基本概念、组件安装流程、开
5、发环境搭建流程、M叩Reduce编程、Hive与HBase的数据 存储与查询操作、案例分析实现流程等局部,题型可采用选择题、判断题、简答题、应用题 等方式。打造数据智能职业敕育领军企业打造数据智能职业教育领军企业Hadoop大数据开发基础教学日历周次学时授课内容作业要求备注14第1章Hadoop介绍第2章Hadoop集群的搭建及配置(1)第1章课后习 题24第2章Hadoop集群的搭建及配置(2)第2章课后习 题34第2章Hadoop集群的搭建及配置(3) 第3章Hadoop基础操作(1)第2章实训44第3章Hadoop基础操作(2)第3章课后习题第3章实训54第4章MapReduce入门编程
6、(1)第4章课后习 题64第4章MapReduce入门编程(2)第4章实训74第5章MapReduce进阶编程(1)第5章课后习 题84第5章MapReduce进阶编程(2)第5章实训184第5章MapReduce进阶编程(3)第5章实训2104第6章Hive数据仓库(1)第6章课后习 题114第6章Hive数据仓库(2)第6章实训1124第6章Hive数据仓库(3)第7章HBase分布式数据库(1)第6章实训2134第7章HBase分布式数据库(2)第7章课后习 题144第7章HBase分布式数据库(3)第8章 工程案例:电影网站用户影评分析(1)第7章实训154第8章 工程案例:电影网站用
7、户影评分析(2)164第8章 工程案例:电影网站用户影评分析(3)注:教材:张军,张良均.Hadoop大数据开发基础(第2版)(微课版)M.北京: 人民邮电出版社.2021.打造数据智能职业敕育领军企业打造数据智能职业教育领军企业第一局部Hadoop大数据开发基础(第2 版)(微课版)习题答案给 * 第一早一、选择题1、B2、B3、C4、B5、A第二章一、选择题1、D2、B3、B4、C5、A6、A7、D8、A9、A10、A第三章一、选择题1、D2、B3、C4、A5、D打造数据智能职业敕育领军企业打造数据智能职业教育领军企业6、D7、A8、B第四章一、选择题1、D2、C3、D4、A5、A6、B7
8、、D8、C9、D10、B第五章一、选择题1、D2、A3、B4、A5、D6、C7、D8、D9、A10、D第六章1、选择题1、c打造数据智能职业敕育领军企业打造数据智能职业教育领军企业2、C3、D4、C5、A6、C7、A8、A9、B10、A第七章1、选择题1、A2、C3、B4、C5、C6、A7、D8、D9、C10、D打造数据智能职业敕育领军企业打造数据智能职业教育领军企业Hadoop大数据期末测试题01单项选择题 1、下面哪个程序负责HDFS数据存储?a)NameNodeb)Jobtrackerc)Datanoded)secondaryNameNodee)tasktracker答案 C datan
9、ode2、HDfS中的block默认保存几份?a)3份b)2份c)1份d)不确定答案A默认3份3、Hadoop 作者?a)Martin Fowlerb)Kent Beckc)Doug cutting答案 C Doug cutting打造数据智能职业敕育领军企业打造数据智能职业教育领军企业4、以下哪个程序通常与NameNode在一个节点启动?a)SecondaryNameNodeb)DataNodeb)DataNodec)TaskTrackerd)Jobtracker答案:D此题分析:hadoop的集群是基于master/slave模式,namenode和 jobtracker 属于 mast
10、er, datanode 和 tasktracker 属于 slave, master 只有一个,ffi slave 有多个 SecondaryNameNode 内存需求 和NameNode在一个数量级上,所以通常secondary , NameNode(运行在单独的物理机器上)和NameNode运行在不同的机器上。JobTracker 和 TaskTracker, JobTracker 对应于 NameNode, TaskTracker 对应于 DataNode, DataNode 和 NameNode 是针对数 据存放来而言的,JobTracker和TaskTracker是对于MapRed
11、uce 执行而言的,mapreduce中几个主要概念,mapreduce整体上可以 分为这么几条执行线索:obclient, JobTracker与Ta skTracker。JobClient会在用户端通过JobClient类将应用已经配置参数打包 成jar文件存储到h dfs,并把路径提交到Jobtracker,然后由 JobTracker 创立每一个 Task (即 Map Task 和 ReduceTask)并将 它们分发到各个TaskTracker服务中去执行。JobTra cker是一个打造数据智能职业敕育领军企业打造数据智能职业教育领军企业master服务,软件启动之后JobTra
12、cker接收Job,负责调度Job的 每一个子任务task运行于TaskTracker上,并监控它们,如果发现 有失败的task就重新运行它。一般情况应该把JobTracker部署在单 独的机器上。TaskTrac ker是运行在多个节点上的slaver服务。TaskTracker主动与JobTracker通信,接收作业,并负责直接执行 每一个任务。TaskTracker都需要运行在HDFS的DataNode上。5、以下哪项通常是集群的最主要瓶颈:a)CPUb)网络c)磁盘10d)内存答案:C磁盘此题解析:首先集群的目的是为了节省本钱,用廉价的pc机,取代小型机 及大型机。小型机和大型机有什么
13、特点?1 . cpu处理能力强.内存够大。所以集群的瓶颈不可能是a和d2 .网络是一种稀缺资源,但是并不是瓶颈。打造数据智能职业敕育领军企业打造数据智能职业教育领军企业4.由于大数据面临海量数据,读写数据都需要io,然后还要冗余 数据,hadoop一般备3份数据,所以10就会打折扣。6、HDFS 默认 Block Sizea)32MBb)64MBc)128MB答案:B7、关于SecondaryNameNode哪项是正确的?a)它是NameNode的热备b)它对内存没有要求c)它的目的是帮助NameNode合并编辑日志,减少NameNode 启动时间d)SecondaryNameNode 应与
14、NameNode 部署到一个节点。答案:C02多项选择题1、以下哪项可以作为集群的管理?a)Puppetb)Pdsh打造数据智能职业敕育领军企业打造数据智能职业教育领军企业c)Cloudera Managerd)Zookeeper答案:ABD2、配置机架感知的下面哪项正确:a)如果一个机架出问题,不会影响数据读写b)写入数据的时候会写到不同机架的DataNode中c)MapReduce会根据机架获取离自己比拟近的网络数据答案:ABC3、Client端上传文件的时候以下哪项正确?a)数据经过NameNode传递给DataNodeb)Client端将文件切分为Block,依次上传c)Client只
15、上传数据到一台DataNode,然后由NameNode负责Block复制工作答案:B此题分析:lient向NameNode发起文件写入的请求。NameNode根据文件大小和文件块配置情况,返回给Client它 所管理局部Data Node的信息。Client将文件划分为多个Block,根 据DataNode的地址信息,按顺序写入到每一个DataNode块中。4、以下哪个是Hadoop运行的模式:打造数据智能职业敕育领军企业序号教学内容理论学时实验学时其它1第1章Hadoop介绍202第2章Hadoop集群的搭建及配置263第3章Hadoop基础操作334第4章MapReduce入门编程445第
16、5章MapReduce进阶编程576第6章Hive数据仓库457第7章HBase分布式数据库458第8章工程案例:电影网站用户影评分析46总计2836四、教学内容及学时安排1.理论教学序 号章节名称主要内容教学目标学时1Hadoop介绍1. 什么是Hadoop2. 了解Hadoop的开展历史3. 了解Hadoop的特点4. 了解分布式文件系统HDFS5. 了触分布式计算框架MapReduce6. 了解集群资源管理器YARN7. 了解Hadoop生态系统8. 了解Hadoop应用场景1. 了解Hadoop框架及其 开展历史、特点。2. 了解Hadoop核心组 件。3. 了解Hadoop生态系 统
17、。4. 了解Hadoop应用场 景。2打造数据智能职业教育领军企业a)单机版 b)伪分布式c)分布式答案:ABC5、Cloudera提供哪几种安装CDH的方法?a)Cloudera managerb)Tarballc)Yumd)Rpm答案:ABCD03判断题1、Ganglia不仅可以进行监控,也可以进行告警。正确此题分析:此题的目的是考Ganglia的了解。严格意义上来讲是 正确。ganglia作为一款最常用的Linux环境中的监控软件,它擅长 的的是从节点中按照用户的需求以较低的代价采集数据。但是ganglia 在预警以及发生事件后通知用户上并不擅长。最新的ganglia已经有 了局部这方面
18、的功能。但是更擅长做警告的还有Nagios。N agios,就 是一款精于预警、通知的软件。通过将Ganglia和Nagios组合起打造数据智能职业敕育领军企业打造数据智能职业教育领军企业 来,把Ganglia采集的数据作为Nagios的数据源,然后利用Nagios 来发送预警通知,可以完美的实现一整套监控管理的系统。2、Block Size是不可以修改的。错误此题分析:它是可以被修改的Hadoop的基础配置文件是 hadoop-default.xml,默认建立一个Job的时候会建立Job的 Config, Config首先读入hadoop-default. xml的配置,然后再读入 hado
19、op-site.xml的配置(这个文件初始的时候配置为),hadoop- site.xml中主要配置需要覆盖的hadoop-default.xml的系统级配置。3、Nagios不可以监控Hadoop集群,因为它不提供Hadoop支 持。错误此题分析:Nagios是集群监控工具,而且是云计算三大利器之一4、如果NameNode意外终止,SecondaryNameNode会接替它 使集群继续工作。错误此题分析:SecondaryNameNode是帮助恢复,而不是替代,如 何恢复,可以查看5、Cloudera CDH是需要付费使用的。错误打造数据智能职业敕育领军企业打造数据智能职业教育领军企业此题分
20、析:第一套付费产品是Cloudera Enterpris, Cloudera Enterprise在美国加州举行的Hadoop大会(Hadoop Summit)上公 开,以假设干私有管理、监控、运作工具加强Hadoop的功能。收费采 取合约订购方式,价格随用的Hadoop熬集大小变动。6、Hadoop是Java开发的,所以MapReduce只支持Java语 言编写。错误此题分析:rhadoop是用R语言开发的,MapReduce是一个框 架,可以理解是一种思想,可以使用其他语言开发。7、Hadoop支持数据的随机读写。错误此题分析:lucene是支持随机读写的,而hdfs只支持随机读。 但是H
21、Base可以来补救。HBase提供随机读写,来解决Hadoop不 能处理的问题。HBase自底层设计开始即聚焦于各种可伸缩性问题: 表可以很“高”,有数十亿个数据行;也可以“宽”,有数百万个列;水平 分区并在上千个普通商用机节点上自动复制。表的模式是物理存储的 直接反映,使系统有可能提高高效的数据结构的序列化、存储和检 索。8、NameNode负责管理metadata, client端每次读写请求,它 都会从磁盘中读取或那么会写入metadata信息并反应client端。打造数据智能职业敕育领军企业打造数据智能职业教育领军企业错误 此题分析:NameNode不需要从磁盘读取metadata,所
22、有数据都在内存 中,硬盘上的只是序列化的结果,只有每次namenode启动的时候才 会读取。1)文件写入Client向NameNode发起文件写入的请求。NameNode根据文件大小和文件块配置情况,返回给Client它 所管理局部Data Node的信息。Client将文件划分为多个Block,根据DataNode的地址信息, 按顺序写入到每一个DataNode块中。2)文件读取Client向NameNode发起文件读取的请求。9、NameNode本地磁盘保存了 Block的位置信息。个人认为正确,欢迎提出其它意见此题分析:DataNode是文件存储的基本单元,它将Block存储在 本地文件
23、系统中,保存了 Block的Meta-data,同时周期性地将所有存 在的Block信息发送给NameN ode。NameNode返回文件存储的 DataNode的信息。Client读取文件信息。打造数据智能职业敕育领军企业打造数据智能职业教育领军企业10、DataNode通过长连接与NameNode保持通信。这个有分歧:具体正在找这方面的有利资料。下面提供资料可参 考。首先明确一下概念:(1)长连接Client方与Server方先建立通讯连接,连接建立后不断开,然后 再进行报文发送和接收。这种方式下由于通讯连接一直存在,此种方 式常用于点对点通讯。(2)短连接Client方与Server每进
24、行一次报文收发交易时才进行通讯连接, 交易完毕后立即断开连接。此种方式常用于一点对多点通讯,比方多 个 Client 连接一个 Server.11、Hadoop自身具有严格的权限管理和平安措施保障集群正常 运行。错误此题分析:hadoop只能阻止好人犯错,但是不能阻止坏人干坏 事。12、Slave节点要存储数据,所以它的磁盘越大越好。错误打造数据智能职业敕育领军企业打造数据智能职业教育领军企业此题分析:一旦Slave节点宕机,数据恢复是一个难题。13、hadoop dfsadmin -report 命令用于检测 HDFS 损坏块。错误14、Hadoop默认调度器策略为FIFO正确15、集群内每
25、个节点都应该配RAID,这样防止单磁盘损坏,影响 整个节点运行。错误此题分析:首先明白什么是RAID,可以参考百科磁盘阵列。这句 话错误的地方在于太绝对,具体情况具体分析。题目不是重点,知识 才是最重要的。因为hadoop本身就具有冗余能力,所以如果不是很 严格不需要都配备RAID。具体参考第二题。16、因为HDFS有多个副本,所以NameNode是不存在单点问 题的。错误17、每个map槽就是一个线程。错误此题分析:首先我们知道什么是map槽,map槽,map slotmap slot只是一个逻辑值打造数据智能职业敕育领军企业打造数据智能职业教育领军企业(ots),而不是对应着一个线程或者进
26、程。18、Mapreduce 的 input split 就是一个 block。错误19、NameNode 的 Web UI 端口是 50030,它通过 jetty 启动的 Web服务。错误20、Hadoop环境变量中的HADOOPJHEAPSIZE用于设置所有 Hadoop守护线程的内存。它默认是200 GB。错误此题分析:hadoop为各个守护进程(namenode, secondarynamenode, jobtracke r, datanode, tasktracker)统一分配的 内存在hadoop-env.sh中设置,参数为HAD OOPJHEAPSIZE,默认 为 1000Mo2
27、1、DataNode首次加入cluster的时候,如果log中报告不兼 容文件版本,那需要NameNode执行Hadoop namenode -format”操 作格式化磁盘。错误此题分析:首先明白介绍,什么ClusterlD。打造数据智能职业敕育领军企业打造数据智能职业教育领军企业ClusterlD添加了一个新的标识符ClusterlD用于标识集群中所有的节点。当 格式化一个Nam enode,需要提供这个标识符或者自动生成。这个ID 可以被用来格式化加入集群的其他Namenodeo打造数据智能职业敕育领军企业2Hadoop集群 的搭建及配 置1 .创立Linux虚拟机2 .设置固定IP地址
28、3 .远程连接虚拟机4 .配置本地YUM源及安装常用软件5 .在Linux下安装Java6 .修改配置文件7 .克隆虚拟机8 .配置SSH免密码登录9 .配置时间同步服务10 .启动和关闭Hadoop集群11 .监控Hadoop集群3Hadoop基础 操作1 .了解Hadoop平安模式2 .查看、解除与开启Hadoop平安模式3 .查询集群的存储系统信息4 .查询集群的计算资源信息5 . 了解 HDFS6 . HDFS的基本操作7 .了解Hadoop官方的例如程序包8 .提交MapReduce任务给集群运行9查询MapReduce任务10.中断MapReduce任务.掌握虚拟机的安装及 配置方
29、法。1 .掌握在Linux下JDK 的安装方法。2 .掌握Hadoop完全分布 式集群环境的搭建过程。3 .掌握Hadoop集群的监 控方法。1,了解Hadoop平安模 式。2 .掌握查看、解除与开启 Hadoop平安模式的操 作。3 .掌握查看Hadoop集群 存储系统和计算资源信 息的方法。4 .了解HDFS分布式文 件系统。5 .掌握HDFS的基本操 作。6 .掌握提交 MapReduce 任务的基本操作。7,掌握多个 MapReduce 任务的管理方法。4MapReduce 入门编程1 .在 Windows 下安装 Java2 .下载与安装IntelliJ IDEA3 .创立MapRe
30、duce工程4 .配置M叩Reduce环境5 . 了解MapReduce工作原理及核心组 成6 . 了解MapReduce实现词频统计的执 行流程7 .读懂官方提供的WordCount源码8 .分析思路与处理逻辑9 .编写核心模块代码10 .统计网站每日的访问次数1L分析思路与处理逻辑12 .编写核心模块代码13 .将网站每日访问次数根据访问次数 进行升序排序5MapReduce 进阶编程1 .设置M叩Reduce输入格式2 .设置MapReduce输出格式3 .筛选日志文件并生成序列化文件4 .使用FileSystem API管理文件夹5 .使用FileSystem API操作文件6 .使用
31、FileSystem API读/写数据7 .使用Hadoop Java API读取序列化文 件8 .自定义键值类型9 .初步探索Combiner10 .浅析 PartitionerH.自定义计数器12 .优化日志文件统计程序13 .传递参数14 .使用 Hadoop 辅助类 ToolRunner15 .自动打包并提交MapReduce任务16 .在IntelliJ IDEA 中打包并提交M叩Reduce程序.掌握在Windows下安 装 Java 和 IntelliJ IDEA 的方法。1 .掌握在 IntelliJ IDEA 中 创立MapReduce工程和 配置MapReduce环境的 方
32、法。2 .熟悉 MapReduce的工 作原理及执行流程。3 .了解Hadoop官方例如4中的WordCount源码。4 .了解 MapReduce 编程 的基本思路。5 .熟悉map()方法与 reduce()方法的处理逻 辑。6 .掌握编写基础的 MapReduce程序处理简 单任务的方法。1 .掌握 MapReduce输入 和输出格式的设置方法。2 .掌握 Hadoop Java API 的使用方法。3 .掌握自定义键值类型 的方法。4 . 了解Combiner的工作 原理。5 .掌握 Combiner、 Partitioner和自定义计数 器的使用方法。6 .熟悉MapReduce参数
33、 传递流程。7 .掌握使用 IntelliJ IDEA 自动打包并提交 MapReduce任务的方法。6Hive数据仓 库1 .什么是Hive2 .了解Hive与传统数据库的比照3 . 了解Hive系统架构4 . 了解Hive数据模型5,了解Hive执行流程6 .设置内嵌模式7 .设置直连数据库模式8 .设置远程模式9 . 了解Hive数据定义语言的基本语法10 .创立表基本操作11 .修改表基本操作12 .了解Hive数据操作语言的基本语法13 .向数据表中装载义件14 .查询数据15 .插入数据16 .删除表中数据17 .分析基本思路18 .掉话率Top20基站统计7HBase分布 式数据
34、库1 .什么是HBase2 . 了解HBase系统架构3 . 了解HBase数据模型4 . 了解HBase读/写流程5 . 了解并安装ZooKeeper6 .安装及配置HBase集群7 .修改与删除表8 .查询表数据9 .创立Java工程10 .实现表的创立11 .向表中插入数据12 .设计表并分析查询需求13 .查询分析通话记录数据. 了解Hive的概念及 Hive与传统数据库的对 比。1 . 了解Hive系统架构、 数据模型和执行流程。2 .熟悉3种访问Hive的 方式及配置过程。3 .掌握Hive中数据库与 表的创立、修改操作方 法。4 .掌握Hive表数据增删 查改的操作方法。1 .了
35、解分布式数据库 HBaseo.熟悉HBase的系统架 构、数据模型和读/写流 程。2 .了解 ZooKeeper 的概 念、集群角色及选举机 制。3 .掌握ZooKeeper集群 的安装部署方法。4 .掌握HBase的安装部 署方法。5 .掌握HBase常用的 Shell命令。6 .掌握 HBase Java API 的使用方法。8工程案例:电 影网站用户 影评分析1 .了解数据字段2 .统计分析需求描述3 .创立并配置工程工程4 .计算评分次数最多的10部电影及评 分次数并分析5 .计算不同性别评分最高的10部电影 及评分并分析6 .计算指定电影各年龄段的平均影评 并分析7 ,计算影评库中各
36、种类型电影中评分 最高的5部电影并分析1 .掌握根据业务场景设 计 map()方法和 reduce() 方法的计算逻辑。2 .掌握编写 MapReduce 程序解决常见的数据处 理问题。3 .掌握编写MapReduce 程序实现电影网站用户 影评分析的方法。4学时合计282 .实验教学序号实验工程名称实验要求学时1安装及配置虚 拟机1 .创立Linux虚拟机2 .设置固定IP地址3 .远程连接虚拟机4 .配置本地YUM源及安装常用软件32搭建Hadoop完 全分布式集群1 .在Linux下安装Java2 .修改配置文件3 .克隆虚拟机4 .配置SSH免密码登录5 .配置时间同步服务6 .启动和
37、关闭Hadoop集群7 .监控Hadoop集群33Hadoop基础操 作1 .查看、解除与开启Hadoop平安模式2 .查询集群的存储系统信息3 .查询集群的计算资源信息4 . HDFS的基本操作5 .提交MapReduce任务给集群运行6 .查询MapReduce任务8 .中断MapReduce任务34MapReduce 入 门编程1 .在 Windows 下安装 Java2 .下载与安装IntelliJ IDEA3 .创立MapReduce工程4 .配置M叩Reduce环境5 .编写核心模块代码6 .统计网站每日的访问次数7 .编写核心模块代码8 ,将网站每日访问次数根据访问次数进行升序排
38、序4五、考核方式5MapReduce 进 阶编程1 .筛选日志文件并生成序列化文件2 .使用FileSystem API管理文件夹3 .使用FileSystem API操作文件4,使用FileSystem API读/写数据5 .使用Hadoop Java API读取序列化文件6 .自定义键值类型7 .初步探索Combiner8 .浅析 Partitioner9 .自定义计数器10 .优化日志文件统计程序1L传递参数12 .使用 Hadoop 辅助类 ToolRunner13 .自动打包并提交MapReduce任务14 .在IntelliJ IDEA中打包并提交MapReduce程序76安装与配
39、置HiveL设置内嵌模式2 .设置直连数据库模式3 .设置远程模式27Hive的基础操 作1 .创立表基本操作2 .修改表基本操作3 .向数据表中装载文件4 .查询数据5 .插入数据6 .删除表中数据7 .掉话率Top20基站统计38安装与配置HBase集群1 ,了解并安装ZooKeeper2.安装及配置HBase集群29HBase的基础操 作1 .修改与删除表2 .查询表数据3 .创立Java工程4 .实现表的创立5 .向表中插入数据6 .查询分析通话记录数据310工程案例:电影 网站用户影评 分析L 了解数据字段2 .统计分析需求描述3 .创立并配置工程工程4 .计算评分次数最多的10部电
40、影及评分次数并分析5,计算不同性别评分最高的10部电影及评分并分析6 .计算指定电影各年龄段的平均影评并分析7,计算影评库中各种类型电影中评分最高的5部电影并 分析6学时合计36突出学生解决实际问题的能力,加强过程性考核。课程考核的成绩构成二平时作业(10%) +课堂参与(20%) +期末考核(70%),期末考试建议采用开卷形式,试题应包括基本概念、 组件安装流程、开发环境搭建流程、MapReduce编程、Hive与HBase的数据存储与查询操作、 案例分析实现流程等局部,题型可采用选择题、判断题、简答题、应用题等方式。六、教材与参考资料1.教材张军,张良均.Hadoop大数据开发基础(第2版)(微课版)M.北京:人民邮电出版 社.2021.2 .参考资料1余明辉,张良均.Hadoop大数据开发基础M.北京:人民邮电出版社.2018.2张良均,樊哲,位文超,刘名军.Hadoop与大数据挖掘M.北京:机械工业出版 社.2015.3张良均,樊哲,赵云龙,李成华.Hadoop大数据分析与挖掘实战M.北京:机械工 业出版社.2015.学院课程教学进度计划表(20 20 学年第二学期)课 程 名 称Hadoop大数据开发基础授课学时 64主讲(责任)教师参与教学教师授课班级/人数专业(教研室)填表时间专业(教研室)主任教务处编印年 月