Spark大数据技术与应用课程教学大纲.docx

上传人:太** 文档编号:46513876 上传时间:2022-09-26 格式:DOCX 页数:18 大小:36.55KB
返回 下载 相关 举报
Spark大数据技术与应用课程教学大纲.docx_第1页
第1页 / 共18页
Spark大数据技术与应用课程教学大纲.docx_第2页
第2页 / 共18页
点击查看更多>>
资源描述

《Spark大数据技术与应用课程教学大纲.docx》由会员分享,可在线阅读,更多相关《Spark大数据技术与应用课程教学大纲.docx(18页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、课程教学 大纲编号:课程教学大纲课程名称:Spark大数据技术与应用课程学分:执笔人:审订人:修(制)订日期:4Spark SQL 实验4设计性5SparkStreaming WordCount 实验2设计性6基于MLlib电影推荐系统实验4设计性7出租车数据聚类分析实验4设计性8基于GraphFrames的网贝排名实验4设计性三、实验说明课程总学分实验学时数32实验项目数课程性质通识基础口学科基础口专业选修集中实践环节口实验类别课程内实验口独立设课实验集中综合实验口考核方式日常考核操作技能考核卷面考核口提交实验结果面试口适用专业与年级:大数据科学与技术,计算机科学与技术,软件工程实验教材及参

2、考书:注:实践教学类型一般分为演示性、验证性、综合性、设计性、研究创新性6种。七、课程实施计划序 号教学 方式教学内容(标注重点,难点)作业 要求教学目标1课堂 讲课第1章Spark简介与运行原理1.1 Spark是什么1.1.1 Spark的版本发展历程A 1.1.2 Spark与Hadoop的区别与联系A 1.1.3 Spark的应用场景1.2 Spark的生态系统1.2.1 Spark Core1.2.2 Spark Streaming1.2.3 Spark SQL 与 DataFrame1.2.4 GraphX1.3 Spark的构架与原理A 1.3.1 Spark架构设计A 1.3.

3、2 Spark作业运行流程 1.3.3 Spark核心原理1.4 Spark 2.X 新特性1.4.1 精简的API1.4.2 Spark作为编译器1.4.3 智能化程度1.5 小结课后了解 Spark 在 行业中的 应用有哪 些了 解 Spark 的发展历 程,了解 Spark生态 系统以及 架构原理, 了解Spark2.x 版本与之 前版本的 区别。2课堂 讲课第2章Spark的环境搭建2.1 环境搭建前的准备2.2 Spark相关配置2.2.1 安装 SSH2.2.2 SSH免密码登录2.2.3 修改访问权限A 2.2.4 修改 profile 文件修改Spark配置文件2.3 Spar

4、k集群启动与关闭2.4 Spark应用提交到集群 2.5 Spark web监控页面2.6小结在电脑中 安装部署 伪分布式 Spark 集 群了解Spark集群 环境搭建 的整个过 程c3课堂 讲课第3章 使用Python开发Spark应用3.1 Python编程语言3.1.1 Python语言的特点3.1.2 Python与人工智能 3.1.3 PySpark 是什么3.2 PySpark启动与日志设置3.2.1 PySpark的启动方式3.2.2 日志输出内容控制3.3 PySpark开发包的安装使用pip命令安装使用离线包安装3.4 PyCharm 编写 Spark 应用 3.4.1 P

5、yCharm安装与基本配置3.4.2 Spark应用编写3.5 小结了解Python 编 程语言的 特点和基 本语法,配 置 Spark 的 Python 编程环境熟悉使用 Python 开 发 Spark 的环境搭 建。4课堂 讲课第 4 章 Spark RDD4.1 弹性分布式数据集RDDA4.1.1 RDD的定义 4.1.2 RDD的特点A4.1.3 RDD 的仓II建4.1.4 RDD的操作4.2 transform 算子4.2.1 map 转换4.2.2 flatMap 转换4.2.3 filter 转换4.2.4 union 转换4.2.5 intersection 转换4.2.6

6、 distinct 转换4.2.7 sortBy 转换4.2.8 mapPartitions 转换4.2.9 mapPartitionsWithlndex 转换4.2.10 partitionBy 转换4.3 action 算子4.3.1 reduce 动作课后在官 网中了解 RDD的其 他算子, 并对常见 的算子进 行练习。了解Spark 中 RDD的定 义、特点。 熟悉RDD 常见算子 的使用以 及依赖关 系和持久 化。4.3.2 collect。动作4.3.3 count。动作4.3.4 take( num)动作4.3.5 first。动作4.3.6 top(num)动作4.3.7 sa

7、veAsTextFile 动作4.3.8 foreach( f)动作4.3.9 foreachPartition(f)动作4.4 RDD Key-value 转换算子4.4.1 mapValues(f)操作4.4.2 flatMapValues(f)操作4.4.3 reduceByKey 操作4.4.4 groupByKey 操作4.4.5 sortByKey 操作4.4.6 keys。操作4.4.7 values。操作4.4.8 join 操作4.4.9 leftOuterJoin 操作4.4.10 rightOuterJoin 操作4.5 RDD key-value 动作运算4.5.1 c

8、ollectAsMapO 操作4.5.2 countByKey。操作4.6共享变量4.6.1 累加器 accumulator4.6.2 广播变量 Broadcast4.7依赖关系4.7.1 血统 Lineage4.7.2 宽依赖与窄依赖4.7.3 shuffle4.7.4 DAG的生成4.8 Spark RDD的持久化持久化使用方法持久化存储等级4.8.3 检查点 checkpoint4.9小节5课堂 讲课第 5 章 Data Frame & Spark SQL5.1 DataFrame5.1.1 DataFrame 介绍A 5.1.2 DataFrame 创建5.2 Spark SQL5.2

9、.1 Spark SQL 介绍A 5.2.2 Spark SQL的执行原理A 5.2.3 Spark SQL 的仓1J建A 5.3 Spark SQL、DataFrame 的常用操作5.3.1 字段计算5.3.2 条件查询5.3.3 数据排序5.3.4 数据去重5.3.5 数据分组统计5.3.6 数据连接5.3.7 数据绘图5.4小结了解如何 连接Mysql 数 据库进行 查询统 计。熟 悉 SparkSQL SparkData frame 使 用,了解 SparkSQL 与 SparkData Frame 的 区别与联 系。6课堂 讲课第 6 章 Spark Streaming6.1 Spa

10、rk Streaming 介绍6.1.1 SparkStreaming 是什么 6.1.2 SparkStreaming 工作原理A 6.2流数据加载6.2.1 初始化 StreamingContext6.2.2 Discretized Streams 离散化流6.2.3 SparkStreaming 数据源 6.3 DStreams输出操作A 6.4 DStream转换操作6.4.1 map 转换6.4.2 flatMap 转换6.4.3 filter 转换6.4.4 reduceByKey 转换6.4.5 count 转换6.4.6 updateStateByKey 转换了解socket

11、、 TCP/IP 、 UDP协议, 查询流计 算使用的 场景。熟悉SparkStre aming的定 义,数据的 加载、转换 输出等操 作的使用。其他转换6.5 DataFrame 与 SQL 操作A 6.6 实时 WordCount 实验6.7小结7课堂 讲课第7章Spark机器学习库7.1 Spark机器学习库机器学习简介 7.1.2 Spark机器学习库的构成7.2 准备数据7.2.1 获取数据7.2.2 数据预处理723数据探索7.3 使用MLib机器学习库7.3.1 搭建环境7.3.2 加载数据7.3.3 探索数据7.3.4 预测婴儿生存机会7.4 使用ML机器学习库7.4.1 转换

12、器、评估器和管道7.4.2 预测婴儿生存机会7.5 小结了解机器 学习的应 用领域有 哪些,尝 试使用MLlib 实 现对出租 车数据进 行 k-means 聚类。了解机器 学习的定 义以及机 器学习的 一般流程, 熟悉SparkMLli b的使用。了解SparkMLLi b和ML包 之间的区 别与联系。8课堂 讲课第8章 GraphFrames图计算A 8.1 图8.1.1 度(degree)8.1.2 路径(path)和环(cycle)8.1.3 二分图(bipartite graph)8.1.4 多重图(multigraph)和伪图 pseudograph)8.2 GraphFrames

13、 介绍8.2.1 应用背景8.2.2 GraphFrames 库8.2.3 使用 GraphFrames 库8.3 GraphFrame 编程模型8.3.1 GraphFrame 实例了解图的 定义、类 型,了解 图在各个 领域的应 用。了解图的 定义和分 类,熟悉 GraphFram es的编程 模型,并可 以利用 GraphFram es实现常 见图算法 应用。8.3.2 视图和图操作8.3.3 模式发现(Modiffinding)8.3.4 图加载和保存8.4 GraphFrames实现的算法8.4.1 广度优先搜索(BFS,Breadthfirst search)8.4.2 最短路径(

14、Shortest Path)8.4.3 三角形计数(Triangle Counting)8.4.4 连通分量(Connected Components)8.4.5 标签传播算法(LPAJabel propagation algorithm)8.4.6 PageRank 算法 8.5 基于GraphFrames的网页排名8.5.1 准备数据集8.5.2 创建 GraphFrame8.5.3 使用PageRank进行网页排名8.6小结9课堂 讲课第9章出租车数据分析9.1 数据处理9.2 数据分析9.2.1 创建 DataFrameA 9.2.2 KMeans聚类分析9.3 百度地图可视化9.3.

15、1 申请地图key9.3.2 聚类结果可视化9.4 小结申请百度 地图API。通过出租 车数据分 析让学生 了解整个 大数据分 析的流程 和利用 Spark 解 决实际问 题。10课堂 讲课第10章图书推荐系统10.1 Django 简介10.1.1 Django 是什么10.1.2 Django 的安装10.1.3 0RM 模型10.1.4 Template 模板10.1.5 View 视图了解Django 框 架,数据 库基本知 识,了解 web前端 知识。通过图书 推荐系统 让学生了 解利用 Spark 解 决实际问 题的方法, 了解Spark 与 实际项目10.2. Django项目搭

16、建10.2.1 创建项目10.2.2 创建应用10.2.3 创建模型 10.3.推荐引擎设计1.1.1 1导入数据1.1.2 2训练模型1.1.3 3图书推荐10.4 .系统设计与实现10.4.1 Bootstrap介绍与使用10.4.2 Redis数据库安装与使用1043视图与路由设计10.5 小结整合的过 程。一、课程的性质、地位与任务该课程是专业基础课,其目标是培养学生掌握Spark大数据计算框架的基本原理和使用, 培养学生大数据思维与动手能力。二、课程的教学目标与基本要求Spark大数据技术与应用介绍了大数据处理框架Spark的使用,为大数据分析与应 用提供了强有力的工具。通过该课程可

17、以了解大数据项目开发中大数据计算框架发挥的重要 作用。本课程以理论指导实践,以实践加深理论的理解,循序渐进通过对Spark的讲解与实 操,对大数据分析与应用产生更直观的认识。三、课程内容(各章节主要知识点见课程实施计划)第1章Spark简介与运行原理1.1 Spark是什么Spark的版本发展历程1.1.1 Spark与Hadoop的区别与联系Spark的应用场景1.2 Spark的生态系统Spark Core1.2.1 Spark StreamingSpark SQL 与 DataFrame1.2.2 GraphX1.3 Spark的构架与原理Spark架构设计1.3.1 Spark作业运行

18、流程Spark核心原理1.4 Spark 2.X 新特性精简的API1.4.1 Spark作为编译器智能化程度1.5 小结第2章Spark的环境搭建2.1 环境搭建前的准备2.2 Spark相关配置安装 SSH2.2.1 SSH免密码登录修改访问权限2.2.2 修改profile文件修改Spark配置文件2.3 Spark集群启动与关闭2.4 Spark应用提交到集群2.5 Spark web监控页面2.6 小结第3章 使用Python开发Spark应用3.1 Python编程语言Python语言的特点3.1.1 Python与人工智能PySpark 是什么3.2 PySpark启动与日志设置

19、PySpark的启动方式3.2.1 日志输出内容控制3.3 PySpark开发包的安装使用pip命令安装3.3.1 使用离线包安装3.4 PyCharm 编写 Spark 应用PyCharm安装与基本配置3.4.1 Spark应用编写3.5 小结第 4 章 Spark RDD4.1 弹性分布式数据集RDDRDD的定义4.1.1 RDD的特点RDD的创建4.1.2 RDD的操作4.2 transform 算子map 转换4.2.1 flatMap 转换filter 转换4.2.2 union 转换intersection 转换4.2.3 distinct 转换sortBy 转换4.2.4 map

20、Partitions 转换mapPartitionsWithlndex 转换4.2.5 partitionBy 转换4.3 action 算子reduce(f)动作4.3.1 collect)动作count。动作4.3.2 take( num)动作first()动作4.3.3 top(num)动作saveAsTextFile 动作4.3.4 foreachf f)动作fbreachPartition(f)动作4.4 RDD Key-value 转换算子mapValues(f)操作4.4.1 flatMapValues操作reduceByKey 操作4.4.2 groupByKey 操作sort

21、ByKey 操作4.4.3 keys。操作values。操作4.4.4 join 操作leftOuterJoin 操作4.4.5 rightOuterJoin 操作4.5 RDD key-value 动作运算collectAsMap()操作4.5.1 countByKey()操作4.6 共享变量累加器 accumulator4.6.1 广播变量 Broadcast4.7 依赖关系血统 Lineage4.7.1 宽依赖与窄依赖shuffle4.7.2 DAG的生成4.8 Spark RDD的持久化持久化使用方法4.8.1 持久化存储等级检查点 checkpoint4.9 小节第 5 章 Data

22、Frame & Spark SQL5.1 DataFrameDataFrame 介绍5.1.1 DataFrame 创建5.2 Spark SQLSpark SQL 介绍5.2.1 Spark SQL的执行原理Spark SQL 的创建5.3 Spark SQL、DataFrame 的常用操作字段计算5.3.1 条件查询数据排序5.3.2 数据去重数据分组统计5.3.3 数据连接数据绘图5.4 小结第 6 章 Spark Streaming6.1 Spark Streaming 介绍SparkStreaming 是什么6.1.1 SparkStreaming 工作原理6.2 流数据加载初始化

23、StreamingContext6.2.1 Discretized Streams 离散化流SparkStreaming 数据源6.3 DStreams输出操作6.4 DStream转换操作map 转换6.4.1 flatMap 转换filter 转换6.4.2 reduceByKey 转换count 转换6.4.3 updateStateByKey 转换其他转换6.5 DataFrame 与 SQL 操作6.6 实时WordCount实验6.7 小结第7章Spark机器学习库7.1 Spark机器学习库机器学习简介7.1.1 Spark机器学习库的构成7.2 准备数据获取数据7.2.1 数据

24、预处理数据探索7.3 使用MLib机器学习库搭建环境7.3.1 加载数据探索数据7.3.2 预测婴儿生存机会使用ML机器学习库7.3.3 转换器、评估器和管道预测婴儿生存机会7.4 小结第8章 GraphFrames图计算8.1 图度(degree)8.1.1 路径(path)和环(cycle)二分图(bipartitegraph)8.1.2 多重图(multigraph)和伪图(pseudograph)8.2 GraphFrames 介绍应用背景8.2.1 GraphFrames 库使用 GraphFrames 库8.3 GraphFrame 编程模型GraphFrame 实例8.3.1 视

25、图和图操作模式发现(Modiffinding)8.3.2 图加载和保存8.4 GraphFrames实现的算法广度优先搜索(BFS,Breadth-first search)8.4.1 最短路径(Shortest Path)三角形计数(Triangle Counting)8.4.2 连通分量(Connected Components)标签传播算法(LPA,Label propagation algorithm)8.4.3 PageRank 算法8.5 基于GraphFrames的网页排名准备数据集8.5.1 仓U建 GraphFrame使用PageRank进行网页排名8.6 小结第9章出租车数

26、据分析9.1 数据处理9.2 数据分析创建 DataFrame9.2.1 KMeans聚类分析9.3 百度地图可视化申请地图key9.3.1 聚类结果可视化9.4 小结第10章图书推荐系统10.1. Django 简介Django 是什么10.1.1 Django 的安装ORM 模型10.1.2 Template 模板View 视图10.2. Django项目搭建创建项目10.2.1 创建应用创建模型10.3. 推荐引擎设计导入数据10.3.1 训练模型图书推荐10.4. 系统设计与实现Bootstrap介绍与使用10.4.1 Redis数据库安装与使用1043视图与路由设计10.5. 结四、

27、时间分配课 程 分 段 标 识序 号教学内容教学环节(学时)讲课习 题实 验上机课 外小 计1第1章Spark简介与运行原理(1. P 1.4)22第2章Spark的环境搭建(2. r2. 5)23第3章 使用Python开发Spark应用( 3. 3. 4)24第 4 章 Spark RDD ( 4. T 4. 7)45第 5 章 Spark SQL & DataFrame ( 5. 1 5. 4)46第 6 章 Spark Streaming ( 6.1 6. 6)47第7章Spark机器学习库(7. r7. 6)48第8章GraphFrames图计算( 8.1 8. 5)49第9章出租车

28、数据分析( 9. 9. 3)210第10章 图书推荐系统( 10. T 10. 5)4总 计32五、课程说明课程英文名称Big data technology and Application with Spark主要先修课程Spark大数据技术与应用适用专业类别计算机科学与技术专业,信息管理与信息工程、软件工程主要教材Spark大数据技术与应用白皮书考核方式考试课程简介该课程是专业基础课,其目标是培养学生掌握Spark大数据计算框架 的基本原理和使用,培养学生具备大数据思维与动手能力。必 开 实 验 项 目序号项目名称实验内容提要学时1Spark伪分布式集群搭建基于实验讲授Spark集群的搭建

29、2基于RDD的Word Count实验基于实验讲授RDD的使用3Spark DataFrame 实验基于实验讲授Spark DataFrame的使 用4Spark SQL 实验基于实验讲授Spark SQL的使用5SparkStrearning WordCount 实 验基于实验讲授Spark Streaming的使 用6基于MLlib电影推荐系统实验基于实验讲授Spark MLlib的使用7出租车数据聚类分析实验基于实验讲授Spark MLlib的使用8基于GraphFrames的网页排名 实验基于实验讲授Spark图计算的原理和 使用六 实践教学大纲课程名称Spark大数据技术与应用课程编码一、本课程实践教学目的与要求:通过实验加深对Spark各个组件的认识,提司解决实际工程 问题的能力。二、本次实践教学项目和主要内容序号项目名称学时主要内容类型1Spark伪分布式集群拾建4设计性2基于RDD的Word Count实验2设计性3Spark DataFrame 实验2设计性

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 解决方案

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁