《《Hadoop大数据原理与应用》教学大纲.docx》由会员分享,可在线阅读,更多相关《《Hadoop大数据原理与应用》教学大纲.docx(22页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、西京学院大数据技术原理及应用课程教学大纲课程基本信息(-)课程中文名称:大数据技术原理及应用代码:(二)课程英文名称:Principles and Applications of Big Data Technology(三)课程性质:专业必修课程(四)课程学分:3学分(理论2学分 实验1学分)(五)适用专业:数据科学与大数据技术,计算机科学与技术(六)开课单位:计算机学院二、课程教学目标(-)课程定位大数据技术原理及应用是学习大数据技术的入门课程,是计算机科学与 技术、数据科学与大数据技术等专业的一门学科基础与专业核心课程。该课程着 重讲述大数据技术的知识体系,阐明其基本原理,引导学生进行初级
2、实践和了解 相关应用,培养学生运用大数据平台搭建、数据采集与预处理、数据迁移、大数 据存储与管理、大数据处理与分析、数据可视化等方法和技术工具完成大数据应 用的能力,在整个大数据课程体系中起着承前启后重要作用。该课程由理论教学 和实验教学两个部分组成,其先修课程包括面向对象程序设计、Pylhon语言程序 设计、操作系统、数据库原理,后续课程包括数据采集与预处理、大数据存储与 管理技术、数据挖掘、大数据开发技术、大数据高级编程、数据可视化技术。(-)课程目标大数据技术原理及应用围绕“构建知识体系、阐明基本原理、引导初级 实践、了解相关应用”的指导思想,着重讲述大数据技术的基本原理、基本方法、 技
3、术工具和相关应用,帮助学生构建完整的大数据技术知识体系,使学生了解大 数据技术在行业领域中的最新发展趋势和前沿知识,熟悉大数据应用的整个生命 周期,能够熟练使用Hadoop等主流大数据平台及其生态系统中的技术工具完成 基本的大数据应用闭环操作,达到知行合一、以用促学的目的。知识目标:1.理解大数据基本概念,了解大数据与云计算、物联网、人工智能的关系, 了解当前大数据的岗位及需求、学习路线;重点难点:重点为理解HBase的数据模型、体系架构、运行机制,熟练掌握 HBase集群的部署、HBase Shell常用命令的使用:难点为熟练掌握HBase Shell 常见命令的使用,了解HBase常用Ja
4、va API的简单编程。学习要求:课前查阅资料,预习分布式数据库HBase;课后参照实验指导书, 自行实践HBase集群的部署、HBase Shell常见命令的使用。思考题(案例):当一台Region服务器意外终止时,Master如何发现这种意 外终止情况?为了恢复这台发生意外的Region服务器上的Region, Master应该 做出哪些处理?作业:(1)完成章节测试。(2)课后参照实验指导书,自行实践HBase集群的部署、HBaseShell常用 命令的使用。(3)课后查阅资料,预习数据仓库Hive。课程思政:(1)介绍数据库在大数据时代的创新机遇,鼓励学生勇于创新。 (2)由HBase
5、存储原理引入马克思主义哲学”整体与部分”,进而引入歌曲国 家“家是最小国,国是千万家”,推荐观看公益短篇家国天下,强调重视家 庭、注重家教、培育家风的重要性,使学生承担起对家庭和国家的使命与担当, 培养学生家国情怀。(3) HBaseShell命令实践时,缺少一个空格、一个引号等微 小问题就会导致结果不正确,引导学生遵守工程技术规范,养成认真严谨的治学 态度。第八章数据仓库Hive内容与目标:了解Hive的产生背景和设计目的;理解Hive的体系架构和执行流程;熟练 掌握Hive的部署和Hive的连接方式包括CLI、HiveServer2/beeline HWI;熟练 掌握Hive基本操作包括H
6、ive DDLHive DML的书写和Hive Shell命令的使用; 了解Hive的函数和优化策略。8.1 初识 Hive8.2 Hive体系架构和执行流程8.3 Hive数据存储模型8.4 Hive 函数8.5 部署 Hive8.6 实战 Hive8.6.1 HiveQL Z DDL8.6.2 HiveQL 之 DML8.6.3 Hive Shell8.6.4 Hive API8.7 Hive优化策略重点难点:重点为理解Hive的体系架构和执行流程,熟练掌握Hive表、分 区、分桶的定义、应用场景和使用方法,熟练掌握Hive的部署和连接方式,熟 练掌握Hive基本操作包括Hive Shel
7、l命令和HiveQL语句的使用;难点为Hive 函数,HiveQL语句,Hive API和优化策略。学习要求:课前查阅资料,预习数据仓库Hive;课后参照实验指导书,自行 实践Hive的部署、Hive Shell命令的使用、HiveQL语句的书写。思考题(案例):使用Hive完成用户访问量T0P5统计。数据字段格式为: url、session_id referer、ip、end_user_id city_id,分隔符为制表符。作业:(1)完成章节测试。(2)课后参照实验指导书,自行实践Hive集群的部署、Hive表的DDL和 DML操作、Hive内置函数的使用、Hive Shell命令的使用。
8、(3)课后查阅资料,预习数据迁移和采集。课程思政:由Hive数据仓库引入商业智能(BusinessIntelligence,简称:BI), 指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据 分析以实现商业价值。现代信息技术日新月异,引导学生实时关注大数据最新技 术和发展趋势,培养学生建立起终身学习的目标、勇攀高峰的科学精神。第九章数据采集和迁移内容与目标:了解Sqoop的产生背景;理解Sqoop的作用、架构、工作原理;掌握Sqoop 的部署;掌握使用Sqoop完成数据从关系型数据库到Hadoop生态系统的导入、 导出;理解Flume的作用、架构、工作原理;了解Flume的
9、部署类型;掌握Flume 的部署和简单使用;理解Kaflca的作用、架构、工作原理;掌握Kafka的部署和 简单使用。9.1 数据迁移框架Sqoop9.1.1 初识 Sqoop9.1.2 Sqoop架构与工作原理9.1.3 安装 Sqoop9.1.4 使用 Sqoop9.2 日志采集系统Flume9.2.1 初识 Flume9.2.2 Flume架构与工作原理9.2.3 安装 Flume9.2.4 Flume简单使用9.3 分布式发布/订阅消息系统Kafka9.3.1 初识 Kafka9.3.2 Kafka架构与工作原理9.3.3 部署Kafl Hive Web,熟练掌握 Hive 表的 DD
10、L、DML 操 作和Hive Shell命令的使用;难点为了解Hive Java API,进行简单的Hive编程。说明:注意用电安全。实验八安装和简单使用Sqoop、Flume、Kafka任务:安装Sqoop,练习Sqoop基本命令,使用Sqoop导入导出数据;安装 Flume和简单使用;安装Kafka和简单使用。场所:计算机实验室。内容:(1 )安装Sqoop,练习Sqoop基本命令的使用,使用Sqoop导入MySQL数 据至HDFS,使用Sqoop导出HDFS数据到MySQL。(2)安装Flume和简单使用。(3)部署Kafka集群和简单使用。教学方法:演示法,实验教学法,任务驱动法,小组
11、讨论。基本要求:(1)理解Sqoop的作用、架构、工作原理,掌握Sqoop的安装,掌握使用 Sqoop完成数据从关系型数据库到Hadoop生态系统的导入、导出。(2)理解Flume的作用、架构、工作原理,了解Flume的安装类型,掌握 Flume的安装和简单使用。(3)理解Kaflca的作用、架构、工作原理,掌握Kafka集群的部署和简单 使用。(4)理解Kettle的作用、架构、工作原理。重点难点:重点为掌握Sqoop的安装,掌握使用Sqoop完成数据从关系型数 据库到Hadoop生态系统的导入、导出,掌握Flume的安装和简单使用,掌握 Kaka集群的部署和简单使用;难点无。说明:注意用电
12、安全。四、教学内容学时分配课程教学学时分配表教学环节教学时数课程内容理论(学时)实验/上机(学时)小计(学时)第一章大数据概述202第二章初识Hadoop224第三章分布式文件系统HDFS428第四章 分布式计算框架MapReduce6410第五章 统一资源管理和调度框架YARN202第六章分布式协调框架ZooKeeper426第七章 分布式数据库HBase426第八章数据仓库Hive426第九章数据采集和迂移224第十章数据可视化202合计3216482 .认识大数据处理平台Hadoop,熟练掌握全分布模式Hadoop集群的部署 基本过程;3 .理解分布式文件系统HDFS的体系架构、文件存储
13、机制和数据读写过程, 熟练掌握HDFS Web UI的使用、HDFS Shell常用命令的使用和HDFS编程;4 .理解分布式计算框架MapReduce的编程思想和作业执行流程,掌握 MapReduce简单编程,了解当前其他主流的大数据计算框架如Spark Storm Flink 等;5 .理解YARN体系架构和工作原理,掌:握YARN Web UI、YARN Shell的基 本使用,了解ResourceManager高可用机制的原理与配置,了解HDFS NameNode 高可用机制、HDFS NameNode Federation HDFS Snapshots;6 .理解分布式协调框架Zoo
14、 Keeper的执行原理和应用场景,掌握ZooKeeper 集群的部署和ZooKeeper Shell常用命令的使用;7 .理解NoSQL数据库与关系数据库的区别,分布式数据库HBase的数据模 型、体系架构和运行机制,熟练掌握HBase集群的部署、HBase Shell常用命令 的使用;8 .理解Hive的体系架构和执行流程,掌握Hive的部署和连接方式,熟练 掌握Hive基本操作包括Hive DDLHive DML的书写和Hive Shell命令的使用;9 .理解数据迁移框架Sqoop、日志采集系统Flume、分布式发布/订阅消息系 统Kafka的作用、架构和工作原理,掌握Sqoop、Fl
15、ume、Kafka的部署和使用;10 .了解数据可视化的概念、作用和过程,理解常用的数据可视化图形,了 解当前主流的数据可视化工具。能力目标:培养学生学以致用,能够综合利用Hadoop大数据平台及其生态 中各个工具解决实际大数据应用方面的基本问题,提高学生阅读外文科技文献能 力,增强学生发现问题、分析问题、解决问题能力,与学科竞赛和项目紧密结合, 稳步培养和提高学生的动手实践能力、自主创新能力、团队协作能力、写作表达 能力。情感目标:通过对我国大数据技术、传统优秀文化的介绍,增强学生的民族 自豪感,提升学生的爱国主义精神,增强文化自信;将专业知识与服务社会相结 合,培养学生的社会责任感,树立正
16、确三观,使学生更为深刻的理解专业内涵, 提高学习内驱力,培养科学素养,内化为道德准则、科学思维和行为规范。五、教学参考资料教材:1徐鲁辉.Hadoop大数据原理与应用M.西安:西安电子科技大学出版社, 2020年3月.参考资料:2徐鲁辉.Hadoop大数据原理与应用实验教程M.西安:西安电子科技大 学出版社,2020年1月.3J林子雨.大数据技术原理与应用(第2版)M.北京:人民邮电出版社, 2017年1月.4吕林涛.大数据技术及其应用M.北京:科学出版社,2019年5月.5维克托迈尔舍恩伯格,肯尼思库克耶.盛杨燕等译.大数据时代:生活、 工作与思维的大变革M.杭州:浙江人民出版社,2013年
17、1月.6 Tom White. Hadoop: The Definitive Guide(4th Edition)M. OReilly Media, April 2015.7 m White,著.王海,译.Hadoop权威指南(第4版)M.北京:清华大学 出版社,2017年7月.8 Bill Chambers, Matci Zaharia. Spark: The Definitive GuidcM. OReilly Media, February 2018.9 Bill Chambers, Matei Zaharia,著.张岩峰,译.Spark 权威指南M.北京:中 国电力出版社,2020年4
18、月.10 Lars George. HBase: The Definitive GuideM. OReilly Media, September 2011.11 Lars George,著.代志远,译.HBase权威指南M.北京:人民邮电出版 社,2013.12 Edward Capriolo, Dean Wampler, Jason Rutherglen. Programming HiveM. OReilly Media, September 2012.13 Edward Capriolo, Dean Wampler, Jason Rutherglen,著.普坤,译.Hive 编程 指南M.
19、北京:人民邮电出版社,2013.14 蔡斌.Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计 与实现原理M.北京:机械工业出版社,2013年5月.15 董西成.Hadoop技术内幕:深入解析M叩Reduce架构设计与实现原理M.北京:机械工业出版社,2013年5月.16董西成Hadoop技术内幕:深入解析YARN架构设计与实现原理M. 北京:机械工业出版社,2014年1月.17 Apache Hadoop Project, .18 Apache Spark Project, .19 The Hadoop Ecosystem Table, 20 高校大数据课程公共服务平
20、台.21 林子雨.中国大学MOOC大数据技术原理与应用. .六、课程考核(一)考核方式:考试。(二)考核方案:平时考核30%,实验考核20%,期末考核50%。把握整个 教学过程的各个环节,从学生的出勤、课堂表现、章节测试、实验完成情况及完 成质量,对学生进行全方位的考核。考核项目考核主要内容及 其知识点考核方式考核时间所占权重平时考核到课率,参与态 度,作业完成情 况在线考勤,课堂 表现,章节测试第1-16教学周30%实脸考核实脸态度,各实 脸重要技术的掌 握情况实险报告第1-16教学周20%期末考核全部知识考点的掌握情况机试(选择题、填空题、上机操作题)第18-19教学周50%(三)考核标准
21、:期末考核采取半闭半开机试形式,考核标准按照试卷答案 及评分标准。教学大纲制定人:教学大纲审核人:制定日期:三、课程教学内容1 .理论教学第一章大数据概述内容与目标:理解大数据的内涵与特征;了解大数据的影响、应用、关键技术;了解大数 据与云计算、物联网、人工智能的关系;了解当前大数据的岗位及需求、学习路 线。1.1 大数据内涵与特征1.2 大数据影响1.4 大数据应用L5大数据关键技术1.6 大数据与云计算、物联网、人工智能的关系1.7 大数据岗位介绍1.8 大数据学习路线图重点难点:重点为理解大数据的内涵和特征。学习要求:课后借阅书籍大数据时代:生活、工作与思维的大变革。思考题(案例):大数
22、据对思维方式的影响。作业:(1)完成章节测试。(2)课后查阅资料,预习大数据处理平台Hadoop。课程思政:(1)新冠疫情对人们生产、生活造成很大的影响,疫情期间各部 门用大数据工具开展疫情筛查、轨迹分析、数据统计等一系列工作,大数据分析 在疫情态势研判、疫情防控部署等任务中发挥了重要的作用。可组织学生结合自 身感受和体验,讨论大数据在疫情控制中还能发挥哪些作用?还有哪些环节可以 做得更好?进而引申出问题,面对疫情应该怎么做?培养学生数据思维、辩证思 维、创新思维等能力,鼓励学生专业学习与服务社会相结合。(2)由大数据时代 引入中国古代大数据,推荐阅读王建编写的易经:中国古代的大数据,增强 学
23、生对我国古代灿烂文明的自豪感,坚定文化自信;另外,由三次信息化浪潮引 入数“数字中国”战略及取得成就,引导学生深刻认识数据资源蕴含的巨大能量, 为国家高质量发展贡献力量,培养学生爱国主义精神。(3)由大数据思维引入“我 为人人、人人为我”,引导学生培育助人为乐的精神、奉献社会的责任感,培养 学生践行社会主义核心价值观中的“和谐”。(4)由大数据安全引入社会主义核 心价值观“法治”,通过案例提高学生对信息安全的认知,培养学生的信息安全 意识和国家信息安全意识。第二章初识Hadoop内容与目标:了解大数据处理平台Hadoop的来源、发展史、应用、版本、生态系统;理 解Hadoop的体系架构、运行模
24、式;熟练掌握全分布模式Hadoop集群的部署基 本过程。2.1 Hadoop 概述2.2 Hadoop生态系统2.3 Hadoop体系架构2.4 Hadoop应用现状2.5 部署 Hadoop重点难点:重点为理解Hadoop的体系架构、运行模式;难点为熟练掌握全 分布模式Hadoop集群的部署。学习要求:课前查阅资料,预习大数据处理平台Hadoop;课后参照实验指 导书,自行实践部署Hadoopo思考题(案例):部署Hadoop单机模式、伪分布模式、全分布模式的异同点。作业:(1)完成章节测试。(2)课后参照实验指导书,自行实践部署Hadoop。(3)课后查阅资料,试读Google论文The
25、Google File System文 预习分布 式文件系统HDFS。课程思政:(1)介绍Hadoop发展史,学习前辈们刻苦钻研、攻坚克难的科 学素养。(2)将唯物辩证法中整体与局部思想融入Hadoop设计原理讲述中, Hadoop版本选择可以和“具体问题具体分析”思想融合。(3)部署Hadoop实验 部分则可以培养学生的自学能力和实践能力,将提高学生科学素养渗透到实验中。第三章分布式文件系统HDFS内容与目标:了解HDFS的来源、功能、优缺点;理解HDFS的体系架构、文件存储机制 和数据读写过程;熟练掌握HDFS Web UI、HDFS Shell常用命令的使用;掌握HDFS常用Java A
26、PI的编程。3.1 HDFS 简介3.2 HDFS体系架构3.3 HDFS文件存储机制3.4 HDFS数据读写过程3.5 实战 HDFS3.5.1 HDFS Web UI3.5.2 HDFS Shell3.5.3 HDFS Java API 编程3.6 HDFS高可靠机制重点难点:重点为理解HDFS的体系架构、文件存储机制和数据读写过程, 熟练掌握HDFS Web UI、HDFS Shell常用命令的使用,掌握HDFS常用Java API 的编程;难点为理解HDFS的文件存储机制,掌握HDFS常用Java API的编程。学习要求:课前查阅资料,预习Hadoop分布式文件系统HDFS;课后参照
27、实验指导书,自行实践HDFS Web UI的基本使用,HDFS Shell常用命令的使用, HDFS常用Java API的编程。思考题(案例):分布式文件系统的设计需求和设计目标。作业:(1)完成章节测试。(2)课后参照实验指导书,自行实践HDFS Web UI、HDFS Shell、HDFS Java APE(3)课后杳阅资料,试读 Google 论文MapReduce: Simplified Data Processing on Large Clusters,预习分相式计算框架MapReduceo课程思政:(1)由HDFS的优缺点引入唯物辩证法中“矛盾是对立统一的”, 因引入中国优秀传统文
28、化吕氏春秋用众:“物固莫不有长;莫不有短;人亦 然。故善学者假人之长补其短。”培养学生要树立终身学习的意识,取长补短, 不断完善自我、超越自我。(2)由HDFS单点故障问题引入“主次矛盾思维一一 瓶颈法”,培养学生的科学素养。第四章 分布式计算框架MapReduce内容与目标:了解MapReduce的来源;理解MapReduce计算框架思想、MapReduce 1.()体 系架构;深刻理解MapReduce作业的执行流程;理解M叩Reduce的数据类型; T解 MapReduce Web UI、MapReduce Shell 的基本使用;掌握 MapReduce 简单 编程;了解当前其他主流的
29、大数据计算框架如内存计算框架Spark的生态系统、 体系架构、部署方式,以及如流计算框架Slorm、Flink等的设计思想、体系架构 等。4.1 MapReduce 简介4.2 第一个 MapReduce 案例:WordCount4.3 MapReduce作业执行流程4.4 MapReduce数据类型与格式4.5 Shuffle 机制4.6 在MapReduce中自定义组件4.7 实战 MapReduce4.7.1 MapReduce Web UI4.7.2 MapReduce Shell4.7.3 MapReduce Java API 编程4.8 MapReduce 调优4.9 其它主流计算
30、框架重点难点:重点为理解MapReduce计算框架思想、MapReduce 1.0体系架构, 深刻理解MapReduce作业的执行流程,掌握M叩Reduce基本编程;难点为深刻 理解MapReduce作业的执行流程,掌握MapReduce基本编程。学习要求:课前查阅资料,预习Hadoop分布式计算框架MapReduce;课后 参照实验指导书,自行实践MapReduce Web UI、MapReduce Shell的基本使用, MapReduce基本编程。思考题(案例):M叩Reduce可用于对数据进行排序,一种想法是利用 M叩Reduce的自动排序功能,即默认情况下,Reduce的输出结果是有
31、序的,则 可以只使用一个Reducer来对数据进行处理、输出,则结果就是有序的了。但这 样的排序过程无法充分利用M叩Reduce的分布式优点。试设计一个基于 MapReduce的排序算法,假设数据均位于1,100, Reducer数量为4,升序输出 或降序输出均可。作业:(1)完成章节测试。(2)课后参照实验指导书,H行实践MapReduce Web UI. MapReduce Shell, 并尝试简单的MapReduce编程。(3)课后查阅资料,预习Hadoop新特性,包括YARN新特性和HDFS新 特性。课程思政:由M叩Reduce设计思想“分而治之”,引入秦始皇实施的郡县制, 并引入孙子兵法的兵势篇“治众如治寡,分数是也”,让学生感受中国 璀璨历史,增强民族自信心和自豪感,培养学生践行社会主义核心价值观中的“爱 国”。第五章 统一资源管理和调度框架YARN内容与目标:了解MapReduce 1.0存在的问题及YARN产生背景;理解YARN体系架构 和工作流程;掌握 YARN Web Uk YARN Shell 的基本使用;J ResourceManager Restarts ResourceManagerHA YARN Federalion 的原理与配置;了解其他统一资 源管理调度框架。5.1 初