《Spark大数据技术与应用教案(人邮) 第8、9章 SparkMLlib:功能强大的算法库、 项目案例:广告流量作弊识别.docx》由会员分享,可在线阅读,更多相关《Spark大数据技术与应用教案(人邮) 第8、9章 SparkMLlib:功能强大的算法库、 项目案例:广告流量作弊识别.docx(8页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第8章Spark MLlib:功能强大的算法库教案课程名称:Spark大数据技术与应用课程类别:必修适用专业:大数据技术类相关专业总学时:64学时(其中理论40学时,实验24学时)总学分:4.0学分本章学时:6学时一、材料清单(1)Spark大数据技术与应用教材。(2)配套 PPT。(3)引导性提问。(4)探究性问题。(5)拓展性问题。二、教学目标与基本要求.教学目标从机器学习的简单概念入手,先讲述机器学习的概念以及机器学习的常用算法。接着根 据常用算法引向Spark MLlib算法库,简单了解Spark MLlib及Spark ML库基本情况,然后 对MLlib中的算法以及算法包都做了基本介
2、绍。最后通过实现网络攻击类型分析任务强化 学生对算法的理解,对算法所需要的数据类型、算法的调用、算法的模型建立以及算法的评 估都做了一个详细的分析。1 .基本要求了解机器学习的基本概念。(1) 了解MLlib的概念以及算法。(3)掌握MLlib算法的基本调用。(4)掌握MLlib实现逻辑回归算法。(5)掌握MLlib模型评价方法。问题1.引导性提问引导性提问需要教师根据教材内容和学生实际水平,提出问题,启发引导学生去解决问 题,提问,从而到达理解、掌握知识,开展各种能力和提高思想觉悟的目的。(1)你了解过机器学习吗?(2)机器学习算法有哪些?(3)什么是监督学习,什么是非监督学习吗?(4)分类
3、算法与聚类算法的区别是什么?(5)使用MLlib提供的算法包有什么好处?2 .探究性问题探究性问题需要教师深入钻研教材的基础上精心设计,提问的角度或者在引导性提问的 基础上,从重点、难点问题切入,进行插入式提问。或者是对引导式提问中尚未涉及但在课 文中又是重要的问题加以设问。(1)常用的机器学习算法有哪些?(2)分类算法的特点是什么,有哪些常用的分类算法?(2) MLlib输入算法的数据类型通常有哪些?(4)通过MLlib调用算法时,分类算法的输入数据要求哪种类型,聚类、推荐算法呢?(5)调用逻辑回归算法时,需要导入哪些包,如何建模?2 .拓展性问题拓展性问题需要教师深刻理解教材的意义,学生的
4、学习动态后,根据学生学习层次,提 出切实可行的关乎实际的可操作问题。亦可以提供拓展资料供学生研习探讨,完成拓展性问 题。(1) MLlib是基于RDD的算法库,ML是基于DataFrame的算法库,结合第五章的 内容,分析一下这两个库的优点?(2) MLlib可以调用模型的save方法将模型保存,查看模型保存的信息,列举出模型 具体保存了哪些信息?U!主要知识点、重点与难点1.主要知识点(1)(1)机器学习。(2)MLlib介绍。(3)MLlib算法包介绍与应用。(4)逻辑回归算法实现。2.重点(1) MLlib算法包介绍与调用。(2)逻辑回归算法实现网络攻击类型识别。3.难点(1)聚类算法的
5、调用。(2)分类算法调用。(3)推荐类型算法调用。五、教学过程设计(1) 论教学过程(1)机器学习简介。(2) MLlib 介绍。(3) MLlib算法包介绍与调用。2.实验教学过程(1)以Logistic回归实现用户分类。(2)以决策树模型实现网络攻击类型识别。(3)通过KMeans划分电影热度等级。六、教材与参考资料1 .教材肖芳,张良均.Spark大数据技术与应用(第2版)(微课版)M.北京:人民邮电出 版社.2022.2 .参考资料1肖芳,张良均.Spark大数据技术与应用M.北京:人民邮电出版社.2018.2王哲,张良均.Hadoop与大数据挖掘(第2版)M.北京:机械工业出版社.2
6、022.3张军,张良均.Hadoop大数据开发基础(第2版)(微课版)M.北京:人民邮电出版社.2021.第9章工程案例:广告检测的流量作弊识别教案课程名称:Spark大数据技术与应用课程类别:必修适用专业:大数据技术类相关专业总学时:64学时(其中理论40学时,实验24学时)总学分:4.0学分本章学时:12学时一、材料清单(1)Spark大数据技术与应用教材。(2)配套 PPT。(3)引导性提问。(4)探究性问题。(5)拓展性问题。二、教学目标与基本要求.教学目标主要介绍广告检测的流量作弊识别案例,从案例背景、实现目标、系统整体架构及流程 设计等展开,分步骤较完整地实现系统。同时,针对系统实
7、现的各个过程,包括前期的方案 设计、数据探索、数据预处理,到后期的建模、模型寻优、模型评价及作弊流量识别等,都 提供了相关的分析思路与参考代码,以便于读者实际操作,期望通过工程中每个环节的实现 过程,让读者实实在在领会Spark在真实工作环境中发挥的作用。3 .基本要求了解广告检测需求分析。(1) 了解常用的建模算法。(3)掌握用Spark编程实现逻辑回归算法建立模型。(4)掌握用Spark编程实现随机森林算法建立模型。(5)掌握应用推荐模型进行作弊流量识别。三、问题4 .引导性提问引导性提问需要教师根据教材内容和学生实际水平,提出问题,启发引导学生去解决问 题,提问,从而到达理解、掌握知识,
8、开展各种能力和提高思想觉悟的目的。(1)你了解过推荐算法吗?(2)你知道的推荐算法有哪些?(3)你知道什么是协同过滤算法,什么是ALS算法?(4)你知道不同的推荐算法之间的区别吗?5 .探究性问题探究性问题需要教师深入钻研教材的基础上精心设计,提问的角度或者在引导性提问的 基础上,从重点、难点问题切入,进行插入式提问。或者是对引导式提问中尚未涉及但在课 文中又是重要的问题加以设问。(1)常用的推荐算法有哪些?(2)协同过滤算法的特点是什么,有哪些常用的协同过滤?(3) Spark提供的算法包ALS与ALS算法有什么差异?(4) Spark的ALS输入算法的数据通常有哪些?(5)推荐模型怎么进行
9、评测?6 .拓展性问题拓展性问题需要教师深刻理解教材的意义,学生的学习动态后,根据学生学习层次,提 出切实可行的关乎实际的可操作问题。亦可以提供拓展资料供学生研习探讨,完成拓展性问 题。Spark ALS算法包中,数据使用的是Rating类型,它的特点及要求?四、主要知识点、重点与难点7 .主要知识点(1)工程需求分析。(2)常用建模算法。(3)异常、缺失及冗余数据处理方法。(4)数据变换方法。(5)建立模型及模型评估。8 .重点(1)逻辑回归与随机森林算法的实现。(2) Spark ALS算法包介绍与调用。10 .难点(1)应用逻辑回归算法实现建模。(2)应用随机森林算法实现建模。(3)算法
10、的评估。五、教学过程设计1L理论教学过程(6)工程需求分析。(7)数据预处理。(8)建立推荐模型与评测。(9)进行作弊流量识别。12 .实验教学过程(1)探索工程数据。(2)清洗缺失、异常及冗余数据。(3)探索作弊流量的数据特征。(4)实现基于逻辑回归和随机森林的算法。(5)评价模型。(6)使用模型进行广告作弊流量识别。六、教材与参考资料13 .教材肖芳,张良均.Spark大数据技术与应用(第2版)(微课版)M.北京:人民邮电出 版社.2022.14 .参考资料1肖芳,张良均.Spark大数据技术与应用M.北京:人民邮电出版社.2018.2王哲,张良均.Hadoop与大数据挖掘(第2版)M.北京:机械工业出版社.2022.3张军,张良均.Hadoop大数据开发基础(第2版)(微课版)M.北京:人民邮电出版社.2021.