《《大数据技术综合实训2》课程教学大纲.docx》由会员分享,可在线阅读,更多相关《《大数据技术综合实训2》课程教学大纲.docx(9页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、大数据技术综合实训2教学大纲一、课程基本信息课程名称大数据技术综合实训Comprehensive Actual Training Of Big Data Technology课程编码SCC320811030开课院部理学院课程团队数据科学团队学分3.0课内学时 3周|讲授|0实聆0上机0|实践3周课外学时0适用专业数据科学与大数据技术授课语言中文先修课程Python语言与实训、大数据技术基础实训课程简介 (必修)大数据技术综合实训是数据科学与大数据技术专业的一门必修课,通过本课程的实机操作,使学生掌握在本机与多台机器集群执 行Spark应用程序,并运用MLlih机器学习演算法进行数据处理、训练、
2、建立模型、训练验证模型、预测结果。另外.以大数据实际案例 示范使用Spark ML Pipeline机器学习流程进行二元分类、多元分类、回归分析,将机器学习的每一个步骤建立成Pipel ine流程.通过 对Spark MLlib机器学习算法和应用案例的研究,进一步锻炼学生的动手能力.培养学生处理大数据问题的能力。The Comprehensive Training of Big Data Technology is a compulsory course for the major of Data Science and Big Data Technology. Through the rea
3、l-time operation of this course, students can master how to execute Spark application program with multiple machine clusters on their own, and use MLlib machine learning algorithm to process data, train, build mode 1s, train validation mode 1s and predict results. In addition, we use Spark MI. Pipel
4、ine machine learning process to carry out binary classification, multiple classification and regression analysis with large data examples, and build every step of machine learning into Pipeline process. Through the study of Spark MLlib machine learning algorithm and application cases, the students p
5、ractical ability is further trained and their ability to deal with big data problems is trained.负责人大纲执笔人审核人二 课程目标序号代号课程目标0BE毕业要月R指标点任务自选1Ml目标1 :掌握在本机与多台机器集群执行Spark应用程序.系统掌握大数据技术的实验方法,培养学 生实践实验技能是3.22M2目标2 :运用Spark YLlib和Spark ML Pipel ine机器学习流程进行二元分类、多元分类、回归分 析,能够量化分析问题,具备分析和建立大数据模型的能力是3.2, 4.23M3目标
6、3:通过对Spark迎lib机器学习算法和应用案例的研究,进一步锻炼学生的团队协作能力,培 养创新精神.训练创新思维,培育创新创业实践能力、科学研究能力和技术开发能力是7. 2, 8. 1, 8.24Ml目标4 :能保障课程正常秩序(政治层面、课堂保障层面.非学生能力层面)否三、il程内容序号章节号标题课程内容/重难点支撑课 程目标课内 学时教学方式课外学时课外环节1第1章第1章Spark的 介绍与安装本章重点难点:不同模式下运行spark程序/21. 11. 1 Spark的介绍 与安装Spark的介绍与安装Ml0. 25 天讲授、讨 论/31.21. 2运行spark程 序与 Spark
7、WebUI界面本地运行spark程序、在Hadoop YARN运行spark、构建Spark Standalone Cluster 运行环境、在 Spark Standalone 运行 spark x Spark leb UI 界面Ml0. 25 天讲授、讨 论/4实验1实验1 : Spark的生态环境与安装实 验Spark的生态环境与安装实验Ml0.5 天实验、上 机/5第2章第 2 章 Spark RDD本章重点难点:RDD “转换”运算、RDD “动作”运算、 Broadcast 广播变量、accumulator 累加器、RDD Persistence 持久化/62. 12.1 “转换”
8、运算基本RDD “转换”运算、多个RDD “转换”运算、RDD Key-Value 基本“转换”运算、多个RDD KeyTalue “转换”运算Ml0. 25 天讲授、讨 论/72.22.2 “动作”运算基本“动作”运算、Key-Value “动作”运算Ml0. 25 天讲授、讨 论/82.32.3 RDD相关概念Broadcast 广播变量、accumulator 累加器、RDD Persistence 持久化Ml0. 25 天讲授、讨 论/92.72.4使用Spark创建 lordCount使用 Spark 创建 WordCountMl0. 25 天讲授、讨 论/10实验2实哙 2 : S
9、parkRDD实验Spark RDD 实验Ml1天实脸、上 机/11第3章第3章Spark的 集成开发环境本章重点难点:PyDev和SCALA编程、不同模式下运行Spark 程序/ /123.13. IPyDev 项目PyDev设置Spark Python链接库、PyDev设置环境变事、 WordCount.py程序、测试文件并上传至HDFS目录、在Hadoop YARK-cl ienl 上运行 KordCount 程序、在 Spark Standalone Cluster上运行Ml0. 25 天讲授、讨 论/133.23. 2 SCAU 编程SCALA实现WordCount. py程序、测试
10、文件并上传至HDFS目 录、在 Hadoop YARN cl ient 上运行 WordCount 程序Ml0. 25 天讲授、讨 论/14实蛤3实验3 : Spark的集成开发环境实验Spark的集成开发环境实验Ml0.5 天实验、上 机/15第4章第 1 章.SparkMU ib决策树分类本章堂点难点:Spark MLlib运行决策树二元分类、SparkVLlib决策树多元分类/164. 14.1 Spark MLlib 决策树分类Spark MUib决策树分类Ml, M20. 25天讲授、讨 论/174.24.2*StumbleUpon Evergreen M 大数 据问遨数据搜集、数据
11、准备、训练模型、模型预测、模型准确率评估Ml, M20.5 天讲授、讨 论/184.34.3 森林覆盖植被“大数据问题数据搜集、数据准备、训练模型、模型预测、模型准确率评估Ml, M20.5 天讲授、讨 论/19实骐4实验 4 : PythonSpark MLlib决策树分类实训Python Spark MLlib决策树分类实训M2, M33天实验、上 机/20第5章第 5 章 Spark MLPipeline机器学 习流程分类本章重点难点:采用Spark Ml. Pipeline实现随机森林RandomForestClassier 分类/215.15.1机器学习pipeline流程的组件建立
12、机器学习pipeline流程、使用pipeline进行数据处理与 训练、使用pipelineModel进行预测、评估模型的准确率Ml, M20. 25天讲授、讨 论/225.25. 2使用随机森林 RandomForestClas sier分类器使用随机森林RandomForestClassier分类器Ml, M20.5 天讲授、讨 论/235.35.3大数据问题Spark MLPipeline 实训对于大数据问题,可由教师和学生自行选择Ml, M20.5 天讲授、讨 论/24实骐5实验 5 : Spark MI. Pipeline机器学 习流程二元分类SCALA实现Spark ML Pipe
13、line机器学习流程二元分类M2, M33天实验、上 机/25第6章第6章SparkSQL、 DaiaFramc、RDD数据统计与可 视化本章重点难点:DulHFrame、RDD数据统计与可视化/i/266. 16. 1 RDD、DataFrame、 Spark SQL数据整理与统 计RDD、DataFrame、Spark SQL数据、显示字段与增加计算字 段、筛选数据、字段数据排序、分组统计数据、Join联接数据Ml0. 25 天讲授、讨 论/276.26. 2大数据问题数 据统计与可视化实 训对于大数据问题,可由教师和学生自行选择M2, M30. 25 天讲授、讨 论/28实验6实验6:数
14、据统计 与可视化实训数据统计与可视化实训M2, M32天实验、上 机/四 考核方式序号考核环节操作细节总评占比1实脸1 .本课程3周实验.共六次实验。2 .成绩采用百分制,根据实脸完成情况评分“3 .考核学生实机操作能力,使学生掌握在本机与多台机器集群执行Spark应用程序,并运用MLlib机器学习演算法进行 数据处理、训练、建立模型、训练验证模型、预测结果.60%2考勤随机点名、刷卡点名等5%3课堂表现随机检查学生上课精神状态、回答问题情况5%4大作业1 .本课程要求利用Python语言工具建立研究对象的模型,两到三人一组,以竞赛组队模式完成一道大数据竞赛题目, 并提交论文并答辩。2 .根据
15、模型建立情况、论文方案的准确慢和个人在大作业的贡献率评分。30%五、可吩细则序号课程目标考核环节大致占比评分等级1Ml实脸60%A-按时提交实脸报告,数据分析符合规范,结论无误。B按时提交实验报告,数据分析基本规范,结论基 本正确.C-数据分析过程存在问题.D-未提交实验报告或实验报告存在严重抄袭现象.2Ml大作业30%,k按时提交大作业论文,数据分析符合规范,结论无误.课程答辩讲解清楚,回答问题正确:B-按时提交 大作业论文,数据分析基本规范,结论基本正确.课程答辩讲解较清楚.回答问题基本正确.c数据分析 过程存在问题,课程答辩讲解不清,回答问题有错误 D-未提交大作业论文或大作业论文存在严
16、重抄袭现 象,未参加课程答辩。3Ml课堂表现10%A-精神状态饱满,回答问题准确。卜精神状态良好.问题回答较好.C精神状态一般,问题回答一般, D- 很少参加课堂讨论,精神状态较差,回答问题有误。4M2实脸60%A-按时提交实验报告,数据分析符合规范,结论无误。B按时提交实验报告,数据分析基本规范.结论基 本正确.C-数据分析过程存在问题,D-未提交实验报告或实验报告存在严重抄袭现象.5M2大作业40%A-按时提交大作业论文,数据分析符合规范,结论无误,课程答辩讲解清楚,回答问题正确,B-按时提交 大作业论文.数据分析基本规范,结论基本正确.课程答辩讲解较清楚.回答问题基本正确:o数据分析 过
17、程存在问遨.课程答辩讲解不清,回答问题有错误.D-未提交大作业论文或大作业论文存在严重抄袭现 象,未参加课程答辩。6M3实验50%A-按时提交实验报告,数据分析符合规范,结论无误。B-按时提交实脸报告,数据分析基本规范,结论基 本正确 C-数据分析过程存在问题.D未提交实验报告或实验报告存在严重抄袭现象.7M3大作业50%A-按时提交大作业论文,数据分析符合规范,结论无误,课程答辩讲解清楚,回答问题正确:B-按时提交 大作业论文.数据分析基本规范,结论基本正确.课程答辩讲解较清楚.回答问题基本正确。数据分析 过程存在问题,课程答辩讲解不清,回答问题有错误,D-未提交大作业论文或大作业论文存在严重抄袭现 象,未参加课程答箱。8M4考勤100%A-全勤,B-缺勤1次。G缺勤2-3次。D缺勤3次及以上。评分等 A. B,(级说明:,D, E=90-100, 80-89, 70-79,60-69,0-59 : A. B. C, D=90-100,75-89,60-74,0-59 : A, B, C=90-100,75-89,60-74,0-59; A. B=80-100,0-79六 教材与参考资料序号教学参考资料明细1图书Python+Spark2.0-adoop机蒲学习与大数据实战,林大贵,清华大学出版社,2017.2图书机器学习,周志华.清华大学出版社,2016.