《数据采集与预处理教学大纲.docx》由会员分享,可在线阅读,更多相关《数据采集与预处理教学大纲.docx(4页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、数据采集与预处理课程标准课程名称:数据采集与预处理课程代码:课程类型:专业核心课程学 分:4计划学时:64实践课时比例:50%主要授课方式:理实一体化考核方式:上机操作适用专业:大数据技术与应用专业,云计算技术与应用专业,软件技术专业1.概述1.1课程地性质本课程是大数据技术与应用专业,云计算技术与应用专业,软件技术专业地专业核心课程,是校 企融合系列化课程,该课程学习内容以任务驱动为主线,围绕企业级应用进行工程任务设计。1.2 课程设计理念本课程遵循应用型本科与高等职业教育规律,以大数据技术与应用实际工作岗位需求为导向选 取课程内容,完成了数据采集与预处理平台搭建,网络爬虫实践,日志数据采集
2、实践与数据预处理实践 等完整地数据采集与预处理应用案例,课程目地是培养学生具备大数据分析应用工程所需数据采 集与预处理地综合职业能力;坚持开放性设计原那么,吸收企业专家参与,构建以工作任务为载体地 工程化课程结构;课程教学实施教,学,做一体,坚持理论为实践服务地教学原那么,通过模拟企业大数 据采集与预处理应用业务进行组织,锻炼学生地实践操作能力。1.3 课程开发思路通过岗位技能地工程化以及大数据采集与预处理任务地序列化,对内容体系结构进行了适当调 整与重构,以适应教学课程安排。以工程案例及其任务实现为驱动,凭借翔实地操作步骤与准确地说 明,帮助学生迅速掌握大数据采集与预处理地有关知识与技能,并
3、且充分考虑学习操作时可能发生地 问题,并提供了详细地解决方案,突出岗位技能训练。2. 课程目地本课程地培养目地是使学生以大数据分析岗位需求为依托,以实际工作任务为导向,理清大数据 采集与预处理中常用工具地作用及应用,培养学生大数据采集与预处理地实际操作技能。3. 1知识目地本课程本书以任务驱动为主线,围绕企业级应用进行工程任务设计,完成了数据采集与预处理平 台搭建,网络爬虫实践,日志数据采集实践与数据预处理实践等完整地数据采集与预处理应用案例,要 求学生系统掌握 scrapy,Flume,pig,kettle,Pandas,openrefine 与 urllib,selenium 基本库与 B
4、eautifulSoup 解 析库等地有关技术知识,熟悉企业典型应用案例,熟悉数据采集与预处理地常用与典型操作。4. 2素质目地(I)培养学生动手能力,自主学习新知识地能力(2)培养学生团队协作精神5. 3能力目地通过该课程地学习,学生能利用所学地有关技术,能根据企业具体大数据分析业务,结合采集地海量数据,针对性地进行数据地预处理,学会数据采集与预处理地常用与典型操作。6. 课程内容与要求根据专业核心课程目地与涵盖地工作任务要求,确定课程内容与要求,说明学生应获得地知识, 技能与态度。学习情境工作任务知识要求技能要求学时安排数据采集 与预处理 概述认识数据采集技术,熟 悉数据采集平台熟悉数据采
5、集地来源与 采集地方法。学会数据采集平台地 搭建。6认识数据预处理技术了解原始数据存在地主 要问题;熟悉数据预处 理地作用与工作任务。学会数据处理工具平 台地搭建。6网络爬虫 实践使用urllib爬取北京公交线路信息熟悉urllib基本库与BeautifulSoup 解析库地 使用方法使用urllib基本库与 BeautifulSoup 解析库, 学会北京公交线路有 关信息地爬取。4使用selenium爬取淘 宝网站信息熟悉Selenium基本库与 pyquery解析库地使用 方法使用Selenium基本库 与pyquery解析库,学 会淘宝网站信息地爬 取。4使用scrapy爬取北京 公交信
6、息熟悉Scrapy地使用学会使用Scrapy爬取 北京公交信息4创新与拓展熟悉urllib基本库与BeautifulSoup 解析库地 使用方法使用urllib基本库与 BeautifulSoup 解析库, 学会起点中文网中有 关信息地爬取4日志数据 采集实践Flume地安装与配置熟悉Flume地有关基础 知识学会Flume地安装与 不同应用场景下地配 置4Flume采集数据上传到 集群熟悉Flume地有关基础 知识学会将采集地日志数 据转存到HDFS地方 法;学会将采集地日 志数据转存到HBase 地方法4创新与拓展熟悉Flume日志信息地 采集过程;熟悉Nginx地 安装与基础语法。学会使
7、用Flume搭建 日志采集系统,并学会 日志采集;学会使用 Nginx 与 Flume 搭建 日志采集系统,并完成 日志采集;学会使用 Kettle采集Excel表格 中地数据;学会使用 Kettle进行多复合来 源数据地采集与关联4数据预处 理实践用Pig进行数据预处理熟悉Pig地有关基础知 识使用Pig完成北京公 交线路信息”数据地4预处理用kettle进行数据预 处理熟悉Kettle地有关基础 知识使用Kettle完成”北京 公交线路信息”数据 地预处理4用Pandas进行数据预 处理熟悉Pandas地有关基础 知识使用Pandas完成”北 京公交线路信息”数 据地预处理4用openre
8、fine进行数 据预处理熟悉OpenReBne地有关 基础知识使用OpenReEne完成 ”北京公交线路信息” 数据地预处理4使用FlumeInterceptor对日志信 息进行数据预处理熟悉 Flume Interceptor 地有关基础知识使用FlumeInterceptor完成”北京 公交线路信息”数据 地预处理4创新与拓展熟悉大数据预处理工具Kettle地应用学会Flume+Nginx+Pig 数 据采集预处理应用4合计644 .课程实施与建议4.1课程地重点,难点及解决方法课程重点在于培养学生能够利用所学地有关技术知识,结合实际大数据分析应用业务,利用数据 采集与预处理常用系统与手段
9、,实现数据采集,数据清洗,数据转换与数据存储操作等;难点在于针对 基础不同,兴趣不一地学生采用不同地方法进行有关能力地培养。7. 2教学方法与教学手段4. 2. 1教学方法:工程引领,任务驱动:每个工程都是多个任务地结合体。每个工程都按规范地流程进行组织,通 过案例引导:将大数据企业中大数据技术与应用岗位有关地工程引入课堂,演绎为工作中地各种操作 任务案例,培养学生利用各种数据采集与预处理地工具与手段,结合大数据具体应用业务,进行大数 据采集与预处理操作。4. 2. 2教学手段多媒体教学,上机演示教学等4. 3教学评价该课程地考核改变单一地终结性评价方法,采用过程考核与结果考核相结合,理论考试
10、与实践考 核相结合地方法。理论局部考核学生对工程所涉及地知识点综合掌握情况,实践局部考核基于大数据 具体应用业务,充分利用数据采集与预处理地工具与手段,完成数据采集,数据清洗,数据转换与数据 存储操作。灵活多样地考核方式可以全面考核学生地学习效果。说明:每个教学工程模块地考核主要考察学生地出勤情况,实际动手能力,理论知识地运用与掌 握情况,完成作业地准确度,完整度,规范度等,分析问题,解决问题地能力,合作沟通能力,学习态度, 总结报告(报告地内容,态度,写作水平等)等评定工程进行考核。4.4选用数据采集与预处理米洪,张鹑主编,2019。4. 5课程资源地开发与利用1 .教辅材料:要力求接近实践
11、,最好是来源于实践地案例与情境,并开发课程地习题,参考文献等 内容,向学生开放,以利于学生自主学习。2 .实训指导书:格式正确,内容全面,且能具体写明对学生地各项要求。3 .软件环境:不断完善大数据分析综合实训室地软件环境,引进与采购管理软件用于教学,为学 生提供更好地采购软件模拟条件。4 .硬件环境:希望能够完善硬件建设,同时,通过各种渠道加大对校外实训基地地建设,为学生地 校外实践提供环境条件。5 .信息技术:充分地利用各种信息技术,例如网络,多媒体课件等,为学生提供学习地便利条件。 例如加大课程地网络资源建设,把与课程有关地文献资料,课程标准,电子初中九年级数学初中九年 级数学教案,教学课件,教学视频,有关前沿信息,与职业资格考试有关地资料,学生与教师地互动等 都放到网上,充分地为学生地自主学习提供环境条件。