Spark大数据技术与应用-教案 第1--9章 Spark概述---项目案例:广告流量作弊识别.docx

上传人:太** 文档编号:72736393 上传时间:2023-02-13 格式:DOCX 页数:34 大小:52.86KB
返回 下载 相关 举报
Spark大数据技术与应用-教案 第1--9章 Spark概述---项目案例:广告流量作弊识别.docx_第1页
第1页 / 共34页
Spark大数据技术与应用-教案 第1--9章 Spark概述---项目案例:广告流量作弊识别.docx_第2页
第2页 / 共34页
点击查看更多>>
资源描述

《Spark大数据技术与应用-教案 第1--9章 Spark概述---项目案例:广告流量作弊识别.docx》由会员分享,可在线阅读,更多相关《Spark大数据技术与应用-教案 第1--9章 Spark概述---项目案例:广告流量作弊识别.docx(34页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第1章Spark概述教案课程名称:Spark大数据技术与应用课程类别:必修适用专业:大数据技术类相关专业总学时:64学时(其中理论40学时,实验24学时)总学分:4.0学分本章学时:4学时一、材料清单(1)Spark大数据技术与应用教材。(2)配套 PPT。(3)引导性提问。(4)探究性问题。(5)拓展性问题。二、教学目标与基本要求.教学目标主要介绍Spark的开展历史,Spark的特点、Spark的生态圈和Spark的应用场景以及介 绍Spark的环境配置,包括搭建单机版环境、单机伪分布式环境和完全分布式环境。最后重 点介绍Spark的架构,Spark作业的运行流程和Spark的核心数据集R

2、DD。1 .基本要求(1)了解Spark的开展历史及特点。16.基本要求(7)掌握如何创立RDD。(8)掌握Spark基本转换操作。(9)掌握Spark基本动作操作。(10) 了解如何读取不同格式文件数据。(11)了解如何存储数据为不同格式文件。一、问题17 .引导性提问引导性提问需要教师根据教材内容和学生实际水平,提出问题,启发引导学生去解决问 题,提问,从而到达理解、掌握知识,开展各种能力和提高思想觉悟的目的。(9) 一般期末考试的成绩是如何保存的?(10) Spark适用于什么类型的计算?(11) Spark计算有什么特点?(12)是否了解过Spark中的RDD是一个什么样的类型?18

3、.探究性问题探究性问题需要教师深入钻研教材的基础上精心设计,提问的角度或者在引导性提问的 基础上,从重点、难点问题切入,进行插入式提问。或者是对引导式提问中尚未涉及但在课 文中又是重要的问题加以设问。(14) RDD是一个什么样的集合?(15)有哪些创立RDD的方法?(16) RDD的转换操作和行动操作有什么区别?(17)什么是键值对RDD,有哪些特点?(18)针对普通RDD的常用操作有哪些,针对键值对RDD的操作有哪些?(19)文本文件的存储和读取通过什么方法?19 .拓展性问题拓展性问题需要教师深刻理解教材的意义,学生的学习动态后,根据学生学习层次,提 出切实可行的关乎实际的可操作问题。亦

4、可以提供拓展资料供学生研习探讨,完成拓展性问 题。(5) CSV文件通过读取文本文件的方法读取和通过CSV读取器读取有区别吗?如果 有,有什么区别?(6)你还知道哪些Spark读取和存储文件的方法?二、主要知识点、重点与难点20 .主要知识点(12)从内存中已有数据创立RDD。(13)从外部存储创立RDD。(14) RDD转化操作和行动操作方法。(15) RDD键值对操作。(16)文件读取与存储。21 .重点RDD 创立。(7) RDD转化操作和行动操作。(9)键值对RDD的基本操作。22 .难点(6)如何创立键值对类型的RDDo(7)操作键值对类型RDD的方法。三、教学过程设计23 .理论教

5、学过程(7)从内存中已有数据创立RDD。(8)从外部存储创立RDD。(9) RDD转化操作和行动操作。(10) RDD键值对操作。(11)文件读取与存储。24 .实验教学过程(1)以学生成绩数据创立RDD。(2)查询学生成绩表中的前5名。(3)输出单科成绩为100分的学生IDo(4)输出每位学生所有科目的总成绩。(5)输出每位学生的平均成绩。(6)将汇总后的学生成绩存储为文本文件。(7)统计文本中性别为“男”用户数。(8)单词计数。四、教材与参考资料25 .教材肖芳,张良均.Spark大数据技术与应用(第2版)(微课版)M.北京:人民邮电出 版社.2022.26.参考资料1肖芳,张良均.Spa

6、rk大数据技术与应用M.北京:人民邮电出版社.2018.2王哲,张良均.Hadoop与大数据挖掘(第2版)M.北京:机械工业出版社.2022.3张军,张良均.Hadoop大数据开发基础(第2版)(微课版)M.北京:人民邮电出版社.2021.第4章Spark编程进阶教案课程名称:Spark大数据技术与应用课程类别:必修适用专业:大数据技术类相关专业总学时:64学时(其中理论40学时,实验24学时)总学分:4.0学分本章学时:6学时五、材料清单Spark大数据技术与应用教材。(17)配套 PPT。(18)引导性提问。(19)探究性问题。(20)拓展性问题。六、教学目标与基本要求.教学目标主要介绍如

7、何使用IntelliJ IDEA搭建Spark开发环境,以及如何在开发环境中编程和运 行程序。运行程序主要介绍两种方法:一种是在IntelliJ IDEA中设置master URL运行,一 种是打包程序在集群中运行。对spark-submit提交集群运行的方法着重描述,并且分析常用 的参数设置。为了提高运行效率,介绍数据持久化以及数据分区方法。最后再以竞赛网站用 户访问任务为例,对所学知识进行实践操作。27 .基本要求(12)掌握配置Spark开发环境。(13)掌握如何新建工程和运行工程。(14)掌握运行Spark程序的方法。(15) 了解数据分区与持久化的方法。七、问题28 .引导性提问引导

8、性提问需要教师根据教材内容和学生实际水平,提出问题,启发引导学生去解决问 题,提问,从而到达理解、掌握知识,开展各种能力和提高思想觉悟的目的。(13)之前的编程都是在spark-shell中,过程中有没有遇到什么问题?(14)如果要写入一个类,用spark-shell环境你觉得会遇到哪些问题?(15) RDD是一个分区数据集合,是否了解过查看分区的方法?(16)有没有遇到过需要自己定义RDD分区的情况?(16) 了解过持久化的概念吗?30 .探究性问题探究性问题需要教师深入钻研教材的基础上精心设计,提问的角度或者在引导性提问的 基础上,从重点、难点问题切入,进行插入式提问。或者是对引导式提问中

9、尚未涉及但在课 文中又是重要的问题加以设问。(20)在IDEA中搭建Spark编程环境有哪些需要配置的内容?(21) 如何在IDEA中编写Spark程序?(22)如何打包程序并提交到Spark集群中运行?(23)持久化RDD的方法有哪些?(24)自定义数据分区方式需要继承哪个类,实现哪些方法?(25)程序运行时有哪些集群参数可以优化?31 .拓展性问题拓展性问题需要教师深刻理解教材的意义,学生的学习动态后,根据学生学习层次,提 出切实可行的关乎实际的可操作问题。亦可以提供拓展资料供学生研习探讨,完成拓展性问 题。(7) repartition分区与自定义分区之间有什么异同点?(8)在一个spa

10、rk程序类中,通过SparkConf设置了叩pName,如果在使用spark- submit提交任务到集群中时再次设置appName,那么按照参数的优先级,最终使用了哪一个 appName?八、主要知识点、重点与难点32 .主要知识点下载与安装 IntelliJ IDEAo(17) Scala插件安装与使用。(19)配置Spark运行环境的方法。(20)运行Spark程序的方法。(21)持久化方法。(22)数据分区方法。33 .重点(10)配置Spark运行环境。(11)运行Spark程序的方式。(12)持久化(缓存)实现。(13)数据分区。34 .难点(8)自定义数据分区。(9)打包Spar

11、k工程并运行。(10) Spark-submit提交程序的命令及参数设置。九、教学过程设计35 .理论教学过程(12)搭建IDEA开发环境。(13)配置Spark运行环境。(14)运行Spark程序的方式。(15)持久化(缓存)实现。(16)数据分区。36 .实验教学过程(1)搭建开发环境。(2)自定义分区。(3)竞赛网站访问日志分析。十、教材与参考资料37 .教材肖芳,张良均.Spark大数据技术与应用(第2版)(微课版)M.北京:人民邮电出 版社.2022.38 .参考资料1肖芳,张良均.Spark大数据技术与应用M.北京:人民邮电出版社.2018.2王哲,张良均.Hadoop与大数据挖掘

12、(第2版)M.北京:机械工业出版社.2022.3张军,张良均.Hadoop大数据开发基础(第2版)(微课版)M.北京:人民邮 电出版社.2021.第5章Spark SQL:结构化数据文件处理教案课程名称:Spark大数据技术与应用课程类别:必修适用专业:大数据技术类相关专业总学时:64学时(其中理论40学时,实验24学时)总学分:4.0学分本章学时:6学时十一、材料清单(21)Spark大数据技术与应用教材。(22)配套 PPT。(23)引导性提问。(24)探究性问题。(25)拓展性问题。十二、教学目标与基本要求.教学目标主要介绍Spark四大组件之一 Spark SQL,首先对Spark S

13、QL的基本概念进行简要概述, 并且讲解如何配置Spark SQL以及Spark SQL与Shell交互,接着详细介绍Spark SQL的核 心抽象编程模型DataFrame,包括创立DataFrame对象、DataFrame上的Action操作、 DataFrame对象上的查询操作以及DataFrame对象上的输出操作,最后使用Spark SQL对法 律服务网站数据进行探索分析。39 .基本要求(16) 了解Spark SQL的基本概念。(17)掌握 Spark SQL 与 Shell 交互。(18)掌握创立DataFrame对象的方法。(19)掌握DataFrame查看数据的方法。(20)掌

14、握DataFrame的查询及输出操作。十三、问题40 .引导性提问引导性提问需要教师根据教材内容和学生实际水平,提出问题,启发引导学生去解决问 题,提问,从而到达理解、掌握知识,开展各种能力和提高思想觉悟的目的。(18)你学过MySQL吗?是否了解MySQL的基本语法?(19)你了解Spark SQL的基本概念吗?(20)是否接触过DataFrame类型?是否了解DataFrame类型的基本操作方法?(21)对于Spark SQL的使用方式,你知道有哪些?41 .探究性问题探究性问题需要教师深入钻研教材的基础上精心设计,提问的角度或者在引导性提问的 基础上,从重点、难点问题切入,进行插入式提问

15、。或者是对引导式提问中尚未涉及但在课 文中又是重要的问题加以设问。(26) Spark SQL可以访问哪些数据库?(27) Spark SQL如何读取json格式的数据?(28) Spark DataFrame 与 RDD 有何区别?(29) Spark SQL查询一个DataFrame中的某个字段有哪些方法?(30) Spark SQL如何注册一个临时表?43 .拓展性问题拓展性问题需要教师深刻理解教材的意义,学生的学习动态后,根据学生学习层次,提 出切实可行的关乎实际的可操作问题。亦可以提供拓展资料供学生研习探讨,完成拓展性问 题。(9) RDD是一个数据存放在多个分区的集合,DataFr

16、ame是否也是相同的存储方式?(10) Spark SQL支持自定义函数吗?(11)你认为Spark SQL能否完全取代Hive技术?十四、主要知识点、重点与难点44 .主要知识点Spark SQL 简介。(23) Spark SQL 配置。(24) Spark SQL 与 Shell 交互实现。(25) DataFrame基础操作方法。45.重点Spark SQL 与 Shell 交互实现。(15)仓II建DataFrame对象的方法。(16) DataFrame查看数据的方法。(17) DataFrame的查询及输出操作。46.难点(2)学会搭建Spark环境。(1) 了解Spark的运行

17、架构与原理。三、问题1 .引导性提问引导性提问需要教师根据教材内容和学生实际水平,提出问题,启发引导学生去解决问 题,提问,从而到达理解、掌握知识,开展各种能力和提高思想觉悟的目的。(1)你了解Spark的开展历史及特点吗?(2)你了解Spark的应用场景吗?(3)你自己搭建过Spark环境吗?(4)你使用过Spark吗?2、探究性问题探究性问题需要教师深入钻研教材的基础上精心设计,提问的角度或者在引导性提问的 基础上,从重点、难点问题切入,进行插入式提问。或者是对引导式提问中尚未涉及但在课 文中又是重要的问题加以设问。(1)为什么需要Spark?(2) Spark有哪些特点?(3) Spar

18、k生态圈包含哪些环境?(4) Spark有哪些部署模式,有什么区别?(5) “RDD”是怎样的数据集?(6) Spark的运行流程是怎么样的?2 .拓展性问题拓展性问题需要教师深刻理解教材的意义,学生的学习动态后,根据学生学习层次,提 出切实可行的关乎实际的可操作问题。亦可以提供拓展资料供学生研习探讨,完成拓展性问 题。(11) 创立DataFrame对象的方法。(12)将DataFrame进行存储。(13) DataFrame查询数据操作。十五、教学过程设计47 .理论教学过程(17)认识 Spark SQL。(18) Spark SQL 酉己置。(19) Spark SQL 与 Shell

19、 交互实现。(20) DataFrame基础操作方法48.实验教学过程(1)酉己置 Spark SQLo(2)掌握DataFrame基础操作。(3)探索分析房屋售价数据。(4)统计分析顾客对某城市餐饮店的点评数据。十六、教材与参考资料49 .教材肖芳,张良均.Spark大数据技术与应用(第2版)(微课版)M.北京:人民邮电出 版社.2022.50 .参考资料1肖芳,张良均.Spark大数据技术与应用M.北京:人民邮电出版社.2018.2王哲,张良均.Hadoop与大数据挖掘(第2版)M.北京:机械工业出版社.2022.3张军,张良均.Hadoop大数据开发基础(第2版)(微课版)M.北京:人民

20、邮 电出版社.2021.第6章Spark Streaming:实时计算框架教案课程名称:Spark大数据技术与应用课程类别:必修适用专业:大数据技术类相关专业总学时:64学时(其中理论40学时,实验24学时)总学分:4.0学分本章学时:6学时十七、材料清单Spark大数据技术与应用教材。(27)配套 PPT。(28)引导性提问。(29)探究性问题。(30)拓展性问题。十八、教学目标与基本要求.教学目标首先介绍Spark Streaming的基本概念及运行原理,然后初步讲解Spark Streaming的用 法,为后面的编程打下基础。接着介绍DStream编程模型,重点讲解DStream转换操作

21、、窗 口操作及输出操作。最后以实时更新热门博文的案例加深对Spark Streaming的理解及使用。51 .基本要求了解Spark Streaming的基本概念及运行原理。(21) 了解Dstream的转换操作。(22) 了解Dstream的窗口操作。(23) 了解Dstream的输出操作。十九、问题52 .引导性提问引导性提问需要教师根据教材内容和学生实际水平,提出问题,启发引导学生去解决问 题,提问,从而到达理解、掌握知识,开展各种能力和提高大数据技能的目的。(22)你是否有注意到,很多售书网站都有热门排行榜这一栏?(23)你有了解过这种类型排行榜的实时更新原理吗?(24)如果让你自己来

22、设计,你能否完成类似于排行榜的实时更新功能?(25)你了解过Spark Streaming的基本概念及运行原理吗?(26)对于Spark Streaming,你觉得它能完成热门排行榜的哪些功能?53 .探究性问题探究性问题需要教师深入钻研教材的基础上精心设计,提问的角度或者在引导性提问的 基础上,从重点、难点问题切入,进行插入式提问。或者是对引导式提问中尚未涉及但在课 文中又是重要的问题加以设问。(31)如何描述Spark Streaming实时计算框架?(32)如何解释DStream编程模型?(33) 如何操作 Spark Streaming?55.拓展性问题拓展性问题需要教师深刻理解教材的

23、意义,学生的学习动态后,根据学生学习层次,提 出切实可行的关乎实际的可操作问题。亦可以提供拓展资料供学生研习探讨,完成拓展性问 题。(34) Spark Streaming 可以与 Spark SQL 一起使用吗?(35) RDD的转换操作在运行行动操作的时候才会被真正触发,DStream的转换操作 是不是同样如此,DStream的行动操作有哪些?(36) Spark Streaming 如何与 Kafka 结合?二十、主要知识点、重点与难点56 .主要知识点Spark Streaming 运行原理。(27) Spark Streaming 使用方法。(28) DStream编程模型基本方法。

24、57 .重点Spark Streaming的基本概念及运行原理。(18) DStream的转换操作。(19) DStream 的窗口操作。(20) DStream的输出操作。58 .难点DStream的转换操作。(14) DStream 的窗口操作。(15) DStream的输出操作。二十一、教学过程设计59 .理论教学过程初探 Spark Streaming。(21) DStream编程模型。60 .实验教学过程Spark Streaming实时计算书籍热度。(1) Spark Streaming实时更新客户点餐费用。二十二、教材与参考资料61 .教材肖芳,张良均.Spark大数据技术与应用

25、(第2版)(微课版)M.北京:人民邮电出 版社.2022.62 .参考资料1肖芳,张良均.Spark大数据技术与应用M.北京:人民邮电出版社.2018.2王哲,张良均.Hadoop与大数据挖掘(第2版)M.北京:机械工业出版社.2022.3张军,张良均.Hadoop大数据开发基础(第2版)(微课版)M.北京:人民邮 电出版社.2021.第7章Spark GraphX:图计算框架教案课程名称:Spark大数据技术与应用课程类别:必修适用专业:大数据技术类相关专业总学时:64学时(其中理论40学时,实验24学时)总学分:4.0学分本章学时:6学时二十三、材料清单(31)Spark大数据技术与应用教

26、材。(32)配套 PPT。(33)引导性提问。(34)探究性问题。(35)拓展性问题。二十四、教学目标与基本要求.教学目标主要介绍图计算的应用,从图的概念讲起,结合任务需要,了解SparkGraphX的概念、 开展、基本操作命令等,学习SparkGraphX的基本使用,最后通过一个来源于企业工程的 实践任务的实现过程,加深对Spark GraphX的基本使用及对应用GraphX解决实际问题有 了更加深入的理解。63 .基本要求了解图与图计算的基本概念。(26)掌握GraphX图的创立方法。(27)掌握GraphX的基本操作。(28)掌握以GraphX进行关联聚合操作。二十五、问题64 .引导性

27、提问引导性提问需要教师根据教材内容和学生实际水平,提出问题,启发引导学生去解决问 题,提问,从而到达理解、掌握知识,开展各种能力和提高思想觉悟的目的。(27)图是一种什么数据结构?(28)你知道的图类型有哪些?(29)你知道图计算都有哪些吗?65 .探究性问题探究性问题需要教师深入钻研教材的基础上精心设计,提问的角度或者在引导性提问的 基础上,从重点、难点问题切入,进行插入式提问。或者是对引导式提问中尚未涉及但在课 文中又是重要的问题加以设问。(34) GraphX的作用是什么?(35)创立图的方法有哪些,分别有什么不同?(36)图的缓存和释放缓存方法有哪些,有什么区别?(37)图的操作大体分

28、成几种类型?(38)怎么查看图的视图?(39)对图操作后返回值还是图结构的方法有哪些?66 .拓展性问题拓展性问题需要教师深刻理解教材的意义,学生的学习动态后,根据学生学习层次,提 出切实可行的关乎实际的可操作问题。亦可以提供拓展资料供学生研习探讨,完成拓展性问 题。(15)创立图的方法中,哪一种方法允许与其他任何顶点都没有相连的边的独立顶点 存在?(16)通过关联操作将外部顶点与图结构连接的时候,如果存在图中没有的外部顶点,结果会如何?二十六、主要知识点、重点与难点67 .主要知识点(30)图的基本概念。(31)图计算的应用。(32) GraphX的基础概念。(33)图的创立与存储。(34)

29、数据查询与数据转换。(35)结构转换与关联聚合。68 .重点(22)图的创立与缓存。(23) GraphX 常用 API 方法。70 .难点(17)图的创立。(18)图的关联操作。(19)图的聚合操作。二十七、教学过程设计71 .理论教学过程(23)图的基本概念。(24)图计算的应用。(25) GraphX的基础概念。26 6) GraphX 的开展。27 7) GraphX 常用 APL(28)图的创立与存储。(29)数据查询与数据转换。(30)结构转换与关联聚合。72 .实验教学过程(1)构建信任网络并找出目标用户。(2)使用PageRank算法完成网页排名。(3)使用GraphX技术分析

30、金庸武侠小说人物关系。二十八、教材与参考资料73 .教材肖芳,张良均.Spark大数据技术与应用(第2版)(微课版)M.北京:人民邮电出 版社.2022.74 .参考资料1肖芳,张良均.Spark大数据技术与应用M.北京:人民邮电出版社.2018.2王哲,张良均.Hadoop与大数据挖掘(第2版)M.北京:机械工业出版社.2022.3张军,张良均.Hadoop大数据开发基础(第2版)(微课版)M.北京:人民邮 电出版社.2021.第8章Spark MLlib:功能强大的算法库教案课程名称:Spark大数据技术与应用课程类别:必修适用专业:大数据技术类相关专业总学时:64学时(其中理论40学时,

31、实验24学时)总学分:4.0学分本章学时:6学时二十九、材料清单6) Spark大数据技术与应用教材。(37)配套 PPT。(38)引导性提问。(39)探究性问题。(40)拓展性问题。三十、教学目标与基本要求.教学目标从机器学习的简单概念入手,先讲述机器学习的概念以及机器学习的常用算法。接着根 据常用算法引向Spark MLlib算法库,简单了解Spark MLlib及Spark ML库基本情况,然后 对MLlib中的算法以及算法包都做了基本介绍。最后通过实现网络攻击类型分析任务强化 学生对算法的理解,对算法所需要的数据类型、算法的调用、算法的模型建立以及算法的评 估都做了一个详细的分析。75

32、 .基本要求了解机器学习的基本概念。(29) 了解MLlib的概念以及算法。(31)掌握MLlib算法的基本调用。(32)掌握MLlib实现逻辑回归算法。(33)掌握MLlib模型评价方法。根据Spark的安装配置过程,如果想要为Spark集群多加一个子节点,需要进行哪些操 作?四、主要知识点、重点与难点1 .主要知识点Spark基本概念。(1) Spark开展和应用。(2) Spark环境配置方法。(3) Spark架构及原理。2 .重点(1)如何搭建Spark环境。(2) Spark完全分布式集群特点。(3) 了解Spark运行架构与原理。3.难点(1)搭建Spark完全分布式集群。(2)

33、 Spark的原理。五、教学过程设计1 .理论教学过程Spark 简介。(2)搭建Spark环境。(3) 了解Spark运行架构与原理。三十一、问题77 .引导性提问引导性提问需要教师根据教材内容和学生实际水平,提出问题,启发引导学生去解决问 题,提问,从而到达理解、掌握知识,开展各种能力和提高思想觉悟的目的。(30)你了解过机器学习吗?(31)机器学习算法有哪些?(32)什么是监督学习,什么是非监督学习吗?(33)分类算法与聚类算法的区别是什么?(34)使用MLlib提供的算法包有什么好处?78 .探究性问题探究性问题需要教师深入钻研教材的基础上精心设计,提问的角度或者在引导性提问的 基础上

34、,从重点、难点问题切入,进行插入式提问。或者是对引导式提问中尚未涉及但在课 文中又是重要的问题加以设问。(40)常用的机器学习算法有哪些?(41)分类算法的特点是什么,有哪些常用的分类算法?(42) MLlib输入算法的数据类型通常有哪些?(43)通过MLlib调用算法时,分类算法的输入数据要求哪种类型,聚类、推荐算法 呢?(44)调用逻辑回归算法时,需要导入哪些包,如何建模?79 .拓展性问题拓展性问题需要教师深刻理解教材的意义,学生的学习动态后,根据学生学习层次,提 出切实可行的关乎实际的可操作问题。亦可以提供拓展资料供学生研习探讨,完成拓展性问 题。(17) MLlib是基于RDD的算法

35、库,ML是基于DataFrame的算法库,结合第五章的内容,分析一下这两个库的优点?(18) MLlib可以调用模型的save方法将模型保存,查看模型保存的信息,列举出模型具体保存了哪些信息?三十二、主要知识点、重点与难点80 .主要知识点(36)机器学习。(37) MLlib 介绍。(38) MLlib算法包介绍与应用。(39)逻辑回归算法实现。81 .重点MLlib算法包介绍与调用。(2)逻辑回归算法实现网络攻击类型识别。82 .难点(20)聚类算法的调用。(21)分类算法调用。(22)推荐类型算法调用。三十三、教学过程设计83 .理论教学过程(31)机器学习简介。(32) MLlib 介

36、绍。(33) MLlib算法包介绍与调用。84.实验教学过程(1)以Logistic回归实现用户分类。(2)以决策树模型实现网络攻击类型识别。(3)通过KMeans划分电影热度等级。三十四、教材与参考资料85.教材肖芳,张良均.Spark大数据技术与应用(第2版)(微课版)M.北京:人民邮电出 版社.2022.86.参考资料1肖芳,张良均.Spark大数据技术与应用M.北京:人民邮电出版社.2018.2王哲,张良均.Hadoop与大数据挖掘(第2版)M.北京:机械工业出版社.2022.3张军,张良均.Hadoop大数据开发基础(第2版)(微课版)M.北京:人民邮 电出版社.2021.第9章工程

37、案例:广告检测的流量作弊识别教案课程名称:Spark大数据技术与应用课程类别:必修适用专业:大数据技术类相关专业总学时:64学时(其中理论40学时,实验24学时)总学分:4.0学分本章学时:12学时三十五、材料清单(41)Spark大数据技术与应用教材。(42)配套 PPT。(43)引导性提问。(44)探究性问题。(45)拓展性问题。三十六、教学目标与基本要求.教学目标主要介绍广告检测的流量作弊识别案例,从案例背景、实现目标、系统整体架构及流程 设计等展开,分步骤较完整地实现系统。同时: 针对系统实现的各个过程,包括前期的方案 设计、数据探索、数据预处理,到后期的建模、模型寻优、模型评价及作弊

38、流量识别等,都 提供了相关的分析思路与参考代码,以便于读者实际操作,期望通过工程中每个环节的实现 过程,让读者实实在在领会Spark在真实工作环境中发挥的作用。87 .基本要求了解广告检测需求分析。(34) 了解常用的建模算法。(36)掌握用Spark编程实现逻辑回归算法建立模型。(37)掌握用Spark编程实现随机森林算法建立模型。(38)掌握应用推荐模型进行作弊流量识别。三十七、问题88 .引导性提问引导性提问需要教师根据教材内容和学生实际水平,提出问题,启发引导学生去解决问 题,提问,从而到达理解、掌握知识,开展各种能力和提高思想觉悟的目的。(35)你了解过推荐算法吗?(36)你知道的推

39、荐算法有哪些?(37)你知道什么是协同过滤算法,什么是ALS算法?(38)你知道不同的推荐算法之间的区别吗?89 .探究性问题探究性问题需要教师深入钻研教材的基础上精心设计,提问的角度或者在引导性提问的 基础上,从重点、难点问题切入,进行插入式提问。或者是对引导式提问中尚未涉及但在课 文中又是重要的问题加以设问。(45)常用的推荐算法有哪些?(46)协同过滤算法的特点是什么,有哪些常用的协同过滤?(47) Spark提供的算法包ALS与ALS算法有什么差异?(48) Spark的ALS输入算法的数据通常有哪些?(49)推荐模型怎么进行评测?90 .拓展性问题拓展性问题需要教师深刻理解教材的意义

40、,学生的学习动态后,根据学生学习层次,提 出切实可行的关乎实际的可操作问题。亦可以提供拓展资料供学生研习探讨,完成拓展性问 题。Spark ALS算法包中,数据使用的是Rating类型,它的特点及要求?三十八、主要知识点、重点与难点91 .主要知识点(34)工程需求分析。(35)常用建模算法。(36)异常、缺失及冗余数据处理方法。(37)数据变换方法。(38)建立模型及模型评估。92 .重点(1)逻辑回归与随机森林算法的实现。(2) Spark ALS算法包介绍与调用。94 .难点(23)应用逻辑回归算法实现建模。(24)应用随机森林算法实现建模。(25)算法的评估。三十九、教学过程设计95

41、.理论教学过程(39)工程需求分析。(40)数据预处理。(41)建立推荐模型与评测。(42)进行作弊流量识别。96 .实验教学过程(1)探索工程数据。(2)清洗缺失、异常及冗余数据。(3)探索作弊流量的数据特征。(4)实现基于逻辑回归和随机森林的算法。(5)评价模型。(6)使用模型进行广告作弊流量识别。四十、教材与参考资料97 .教材肖芳,张良均.Spark大数据技术与应用(第2版)(微课版)M.北京:人民邮电出 版社.2022.98 .参考资料1肖芳,张良均.Spark大数据技术与应用M.北京:人民邮电出版社.2018.12王哲,张良均.Hadoop与大数据挖掘(第2版)M.北京:机械工业出

42、版社.2022.引张军,张良均.Hadoop大数据开发基础(第2版)(微课版)M.北京:人民邮 电出版社.2021.2.实验教学过程搭建Spark伪分布式与完全分布式集群。六、教材与参考资料1 .教材肖芳,张良均.Spark大数据技术与应用(第2版)(微课版)M.北京:人民邮电出 版社.2022.2 .参考资料1肖芳,张良均.Spark大数据技术与应用M.北京:人民邮电出版社.2018.2王哲,张良均.Hadoop与大数据挖掘(第2版)M.北京:机械工业出版社.2022.3张军,张良均.Hadoop大数据开发基础(第2版)(微课版)M.北京:人民邮电出版社.2021.第2章Spark基础教案课

43、程名称:Spark大数据技术与应用课程类别:必修适用专业:大数据技术类相关专业总学时:64学时(其中理论40学时,实验24学时)总学分:4.0学分本章学时:8学时七、材料清单(6)Spark大数据技术与应用教材。(7)配套 PPT。(8)引导性提问。(9)探究性问题。(10)拓展性问题。八、教学目标与基本要求.教学目标Scala语言是Spark平台常用的一种语言,为了学习Spark,需要先学习Scala。首先介 绍了 Scala的特性及安装,接着介绍的是Scala的函数、表达式、循环、数据结构和类。通 过本章的学习,可以体会到Scala函数式编程的便捷、简单。3 .基本要求了解Scala基本特

44、性并学会安装Scalao(2)掌握定义Scala的常量、变量及函数的方法。(3)掌握Scala的if判断和for循环。(4)掌握 Scala 的 Collections (集合)操作。(5)掌握Scala的样例类与模式匹配。(6) 了解Scala类及读取文件。九、问题5 .引导性提问引导性提问需要教师根据教材内容和学生实际水平,提出问题,启发引导学生去解决问 题,提问,从而到达理解、掌握知识,开展各种能力和提高思想觉悟的目的。(5) Scala是一门函数式编程语言,你了解什么是函数式编程吗?(6)结合Spark的特点,你觉得Scala可能具备哪些特性?(7)你了解Scala编程的常量,变量及函

45、数吗?(8)你了解Scala的循环与判断吗?6 .探究性问题探究性问题需要教师深入钻研教材的基础上精心设计,提问的角度或者在引导性提问的 基础上,从重点、难点问题切入,进行插入式提问。或者是对引导式提问中尚未涉及但在课 文中又是重要的问题加以设问。(7)为什么使用Scala编写了 Spark?(8) Scala具有哪些特性?(9) Scala原始类型有哪些?(10) Scala的循环可以有哪些表现形式?(11) Scala各种数据类型的应用?(12)你能通过不同的方式读取文件吗?(13)什么是函数式编程?7 .拓展性问题拓展性问题需要教师深刻理解教材的意义,学生的学习动态后,根据学生学习层次,提 出切实可行的关乎实际的可操作问题。亦可以提供拓展资料供学生研习探讨,完成拓展性问 题。(1)如果你学习过Java语言,你认为Scala与Java相比有哪些比拟大的不同之处?(2) Scala变量能否使用自增或自减?(3) Scala有没有可变数组?如果有,可变数组与不可变数组的区别是什么?(4) Scala的列表与数组有何区别?十、主要知识点、重点与难点8.主要知识点Scala 简介。(5) Scala 特性。(6) Scala的环境设置及安装方法。(7) Scala类的定义和运行方法。(8) Scala数据类型、函数、表达式的应用。(9) Scala if判断和for

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 解决方案

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁