《《大数据采集、预处理与可视化》-教学大纲(不包括习题).docx》由会员分享,可在线阅读,更多相关《《大数据采集、预处理与可视化》-教学大纲(不包括习题).docx(12页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、大数据采集、预处理与可视化(Big Data Collection, Preprocessing and Visualization)课程教学大纲一、课程说明课程名称大数据采集、预处理与可视化课程英文Big Data Collection, Preprocessing and Visualization课程编号课程类别公共基础课先修课程程序设计语言后续课程课程设计,专业课程总计学时56/48课程学分3.5/3讲授学时38/32实践学时18/16考核方式考试修习类型必修适用专业理工科和管理学教学层次四年制本科生开课时间二年级开课院系注:本课程可设置56学时或48学时。如果已经系统学习过Pytho
2、n程序设计语 言,可以设置48学时,不讲授第2章Python程序设计的相关内容。二 教学目标和任务大数据采集、预处理与可视化是为大学本科各个专业开设的一门专业基 础课,它是大学入门大数据分析及应用的重要课程。本课程从大数据采集、预处 理与可视化的基础理论、主要技术和基本实现方法入手,结合课程案例和上机实 验,系统地介绍大数据采集、预处理与可视化的主要功能和实现技术,为大数据 分析及实际应用奠定基础。1、教学目标通过本课程的学习,使学生能够熟练掌握大数据的基本概念和相关技术,理 解数据预处理的相关技术方法,熟练掌握数据采集、数据清洗等相关技术,熟练 掌握数据预处理和数据可视化工具及软件的使用。并
3、且培养学生分析问题、设计 算法、编程解决专业数据处理问题的能力。提高学生的程序设计水平和计算机应 用能力。使学生具备数据获取能力、数据分析与应用能力、信息表达能力等。为 进一步的课程学习奠定良好的基础。1 Pyecharts简介2、Pyecharts应用3、Pyecharts数据可视化综合实例Ui、实践教学内容与安排要求1、学时数:182、目的与要求:使学生掌握应用Python. Excel等进行数据预处理的相关 理论及方法,能够开发网络爬虫程序实现对网络数据的采集,能够实现数据预处 理及数据可视化,增强学生在数据采集、预处理及可视化领域的实践技能,达到 学以致用的目的,提升学生解决实际问题的
4、能力。3、教学内容:Python基本操作及文件读写,数据采集及抽取,数据预处理 技术实现,Excel数据预处理常用方法实现,Excel数据获取及预处理综合实例, 文本数据分析,Python数据预处理综合实例,Python数据可视化方法实现, Pyecharts数据可视化方法实现。4、实验条件:具有接入互联网功能的计算机,能够接入互联网,能够实现 常用软件的安装及运行。5、组织:根据实践教学目的,组织学生上机练习,授课老师随堂指导,并 对学生实验过程中出现的问题进行分析和讲解。6、作业:学生完成相关实验,并提交实验报告。7、实验项目及类型实验项目类型学时实验内容实验1: Python基本操作验证
5、性21、Python shell 操作;2、IDLE 操作; 3、运算符操作;4、字符串操作;5、 列表操作;6、元组操作;7、字典操 作;8、函数与模块;9、文件操作实验2:大数据采集技术验证性21、网络爬虫技术;2、数据抽取技术;3、各类数据采集技术的综合应用实验3:大数据预处理常用技术验证性21、数据清洗;2、数据集成;3、数据变换;4、数据归约;5、数据脱敏实验4:大数据预处理综 合应用设计性2采用预处理技术实现汽车行驶工况数据的预处理实验5: Excel数据获取与 预处理综合应用设计性21、数据获取;2、数据清洗与转换;3、 数据抽取与合并;4、Excel数据预处 理函数的综合应用实
6、验6: Python数据预处 理技术验证性21、数据的分组、分割、合并和变形;2、数据缺失值、异常值和重复值的处 理;3、时间序列数据处理;4、文本 数据分析实验7: Python数据预处 理综合应用设计性2采用Python数据预处理技术,实现IMDB5000电影数据的预处理实验8: Python数据可视 化方法实现综合性21、使用Matplotlib绘制基础图表;2、 使用Seaborn绘制统计图表;3、 WorldCloud绘制词云图;4、使用 Networkx绘制网络图;5、Python数 据可视化方法的综合应用实验9: Pyecharts数据可 视化方法实现综合性2使用Pyechart
7、s数据可视化方法实现 2020年东京奥运会奖牌看板的综合 展示五、教学内容学时分配序号主要内容(写章目)总学 时理论 学时实践 学时备注1大数据概述442Python程序设计6423大数据采集技术8624大数据预处理技术10645Excel数据狄取与预处理6426Python数据预处理10647数据可视化技术1284合计563818六、推荐教材及学习参考资源1、推荐教材葛继科 等编著,大数据采集、预处理与可视化,人民邮电出版社,2023年2、主要参考资源1黄源等编著,数据清洗,机械工业出版社,2020年2林子雨编著,大数据采集与预处理,人民邮电出版社,2022年3、网络学习资源:1中国大学MO
8、OC:用Python玩转数据163 .org/learn/NJU-1001571005?tid=1468267474#/leam/content2 Echarts 官网:七、考核方式(一)考核类型:考试(二)考核形式:机试+笔试(三)成绩评定方式:课程成绩=平时成绩(40%) +期末成绩(60%)。撰写人:审核人:批准人:执行时间:年 月曰2、主要教学内容通过课程学习,学生应当了解和掌握以下教学内容:大数据基本概念、Python 程序设计(为应用Python进行数据采集及优化奠定基础)、大数据采集与抽取、 大数据预处理技术、使用Excel进行数据获取与预处理、使用Python进行数据 预处理、
9、数据可视化技术等。3、教学方法遵循简单易学的原则,应用部分力求解决实际问题。教学过程中通过“案例 -模仿-改进-创新”的学习方法,使学生快速掌握大数据采集、预处理与可视化的 相关理论、方法和技能。帮助学生利用所学知识,解决专业领域具体的数据处理 和应用问题。在教学中,鼓励学生利用网络资源和积极动手实践来解决实际问题, 达到学以致用的目的。三、教学内容和要求第一章大数据概述教学要求:使学生了解大数据时代的特点,理解大数据的概念、特征及作用,熟悉大数 据系统,具备大数据思维能力,了解大数据伦理及安全。重点与难点:1、重点:大数据相关概念及特征、大数据思维2、难点:大数据系统教学内容:第一节大数据相
10、关概念及特征1、大数据时代2、大数据的定义3、大数据的发展历程4、大数据的特征5、大数据的应用领域6、大数据关键技术第二节大数据系统简介1、Hadoop生态系统简介2、Spark生态系统简介第三节大数据思维1、传统思维方式2、大数据思维方式第四节大数据伦理及安全1、大数据伦理的由来2、大数据的伦理问题3、大数据的伦理原则4、大数据安全防护技术第二章Python程序设计教学要求:使学生掌握Python的安装,熟练掌握数据类型与运算符,熟悉程序控制结构, 熟练掌握函数与模块的应用,掌握文件读写操作方法,为应用Python程序设计语 言进行数据采集、预处理及可视化奠定基础。重点与难点:1、重点:数据
11、类型与运算符、程序控制结构2、难点:函数与模块、文件教学内容:第一节Python的安装与运行1、Python的特点2、Python的下载与安装3、Python程序的运行4、第三方软件包的安装5、Python编程规范第二节数据类型与运算符1、数字和字符串2、列表和元组3、字典和集合4、运算符第三节程序控制结构1、程序流程图2、顺序结构3、选择结构4、循环结构第四节函数与模块1、函数的使用2、函数的参数传递3、全局变量与局部变量4、模块第五节文件1、文件的打开与关闭2、文件的读取与写入3、文件的定位第三章大数据采集技术教学要求:使学生了解大数据采集的相关概念,了解大数据采集的数据源及相关的大数 据
12、采集平台,熟悉常用的网络爬虫方法,熟练掌握网页数据采集的实现方法,能 够应用多种数据采集技术实现不同类型数据的采集。重点与难点:1、重点:网络爬虫技术2、难点:大数据采集平台教学内容:第一节大数据采集概述1、大数据采集的概念2、大数据采集的数据源3、大数据采集方法4、大数据采集平台第二节网络爬虫技术1、网络爬虫概述2、常用网络爬虫方法3、网页数据采集的实现4、常用网络爬虫工具第三节数据抽取技术1、数据抽取概述2、文本数据抽取3、网页数据抽取第四节数据采集实例1、数据采集目标的确定2、利用网络爬虫技术采集数据3、采集数据的信息抽取第4章大数据预处理技术教学要求:使学生了解数据质量、大数据预处理的
13、相关概念及作用,熟练掌握数据清洗、 数据集成、数据变换、数据归约以及数据脱敏的实现方法,能够应用多种数据预 处理技术实现原始数据的预处理。重点与难点:1、重点:数据清洗、数据集成2、难点:数据归约、数据脱敏教学内容:第一节数据预处理概述1、数据质量2、数据预处理的主要任务第二节数据清洗1、缺失值处理方法2、噪声数据处理方法3、冗余数据处理方法4、数据格式与内容处理方法第三节数据集成1、数据集成中的实体识别2、数据集成中的冗余问题解决3、数据值冲突的检测与处理第四节数据变换1、数据规范化处理2、数据变换方法第五节数据归约1、过滤法2、包装法3、嵌入法第六节数据脱敏1、数据脱敏类型2、数据脱敏方法
14、第七节数据预处理综合实例1、背景分析2、数据描述3、数据预处理方法综合应用第5章Excel数据获取与预处理教学要求:使学生熟练掌握使用Excel进行数据获取的方法,熟练掌握使用Excel进行数 据清洗与转换、数据抽取与合并的各种方法,能够应用Excel中的多种数据处理 函数,完成复杂的数据预处理任务。重点与难点:1、重点:数据获取、数据清洗与转换2、难点:数据抽取与合并教学内容:第一节Excel数据获取1、获取文本数据2、获取网站数据3、获取数据库中的数据第二节Excel数据清洗与转换1、常用数据分析函数2、删除重复行3、文本查找与替换4、字符串截取5、数据的转置6、数据的查询和引用7、字母与
15、数字的转换第三节数据抽取与合并1、值的抽取2、数据合并3、字段合并第四节Excel数据获取与预处理综合实例1、数据获取2、数据清洗与转换3、数据抽取4、数据展示第6章Python数据预处理教学要求:使学生掌握科学计算库NumPy、数据分析库Pandas的功能及调用方法,熟练 掌握使用Python进行数据的分组、分割、合并和变形,熟练掌握缺失值、异常值 和重复值的处理方法,掌握常用的时间序列数据处理方法和文本数据分析方法,能够应用Python进行多种类型数据的预处理。重点与难点:1、重点:数据的分组、分割、合并和变形,缺失值、异常值和重复值处理2、难点:文本数据分析教学内容:第一节Python数
16、据预处理基础1、科学计算库NumPy2、数据分析库Pandas第二节 数据的分组、分割、合并和变形1、数据分组2、数据分割3、数据合并4、数据变形第三节缺失值、异常值和重复值处理1、缺失值处理2、异常值处理3、重复值处理第四节时间序列数据处理1、时间序列数据的基本操作2、固定频率的时间序列数据处理3、时间周期及其计算第五节文本数据分析1、字符串处理方法2、文本数据分析工具3、正则表达式4、文本预处理第六节Python数据预处理综合实例1、实例背景分析2、数据描述3、各种数据预处理方法综合应用第7章数据可视化技术教学要求:使学生了解数据可视化的概念和发展历程,理解数据可视化的作用,熟悉数 据可视
17、化的流程,理解数据可视化的设计原则,掌握数据可视化的常用工具,熟 练掌握Python数据可视化方法,熟练掌握Pyecharts数据可视化方法。根据不同需 求,能够应用多种数据可视化方法完成数据可视化任务。重点与难点:1、重点:Python数据可视化方法2、难点:Pyecharts数据可视化方法教学内容:第一节数据可视化概述1、数据可视化的定义2、数据可视化的发展历程3、数据可视化的作用第二节数据可视化的理论基础1、数据可视化的流程2、数据可视化的设计要素3、数据可视化的基础图表4、数据可视化的常见工具第三节Python数据可视化方法1、Matplotlib绘制基础图表2、Seaborn绘制统计图表3、WorldCloud绘制词云图4、Networkx绘制网络图5、Python数据可视化综合实例第四节Pyecharts数据可视化方法