《《大数据技术基础(第2版)》792-4(覃事刚)教案 第6课数据采集与预处理(二).docx》由会员分享,可在线阅读,更多相关《《大数据技术基础(第2版)》792-4(覃事刚)教案 第6课数据采集与预处理(二).docx(6页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、课题数据采集与预处理(二)课时2 课时(90 min )教学目标知识技能目标:(1 )了解数据预处理的概念和基本过程。(2 ) 了解数据脱敏的概念、原则和方法。思政育人目标:感受我国在运用大数据保障和改善民生方面的改革创新举措,如重要产品追溯体系 建设、农业农村数据采集体系建设等,不断拓宽知识视野,提升专业能力和社主K任感, 立志让大数据在强化民生服务、弥补民生短板上发挥更大作用。教学重难点教学重点:数据预处理的概念和基本过程,数据脱敏的概念和原则 教学难点:数据脱敏的方法教学方法案例分析法、问答法、讨论法、讲授法教学用具电脑、投影仪、多媒体课件、教材教学设计第11课:考勤(2 min )一问
2、题导入(5mm)一传授新知(23 min )一课堂封论(15 min )第2节课:问题导入(5 min )一传授新知(20 min )一课堂互动(15 min )一课堂小 结(3 min )一作业布置(2 min )教学过程主要教学内容及步骤设计意日第一节课考勤(2 min) 【教师】使用文旌课堂APP 【学生】按照老师要求签到培养学生的组 织纪律性,掌握学 生的出勤情况问题导入(5 min ) 【教师】提出问题:数据预处理是数据分析前必不可少的阶段,那么数据预处理分 为几个阶段呢? 【学生】聆听、思考、举手回答通过问题导入, 引导学生主动思 考,激发学生的学 习兴趣传授新知(23 min )
3、 【教师】通过学生的回答引入新的知识,介绍数据预处理知 识一、数据审查通过讲授,提 问,讨论等教学方 式,让学生了解数 据预处理知识使用专门的大数据采集方法采集到的数据,可能很大一部分是 不完整的,结构不一致,甚至很多是没有价值的脏数据。这样的 数据不能直接用于数据的分析挖掘,因为高质量的决策必须依赖于 高质量的数据,对这样的数据进行分析挖掘,会由于脏数据的大 量存在而严重影响效率,错过最佳的决策时间。(详见教材)【教师】提出以下问题:什么是数据审查?【学生】思考、举手回答【教师】对学生的回答进行总结数据审查是指检查数据的数量(记录数)是否满足分析的最 低要求、变量值的内容是否与研究目的要求一
4、致、是否全面等, 具体包括检查变量的数据类型,变量值的大小范围,以及数据数 量、缺失值、异常值或空值情况等。小【教师】提出以下问题:如何判别异常值?讣【学生】思考、举手回答【教师】对学生的回答进行总结可以根据变量的合理取值范围和相互关系,检查数据是否合 乎要求,如是否超出正常范围、逻辑上是否合理或相互矛盾等。二、数据清洗【教师】利用多媒体详细讲解数据清洗:数据清洗是指采用适当的方法对在数据审查过程中发现的错误 值、缺失值、异常值、可疑数据等进行清洗,让数据变得规范、 有效,以确保后续的数据分析得出可靠结论。此外,数据清洗还包 括删除重复记录等。数据清洗是去除那些没有价值,无关紧要,以及一些甚至
5、完全 错误的数据的过程。它需要对源数据进行过滤、去噪,从中提取出 有效的数据。例如,对于缺失值,可以采用全局常量、属性均值、可 能值填充或直接忽略该数据等方法进行处理。(详见教材)三、数据转换针对不同的应用场景,对数据进行分析的工具或系统不同,我 们还需要对数据进行转换操作,将其转换成不同的数据格式。简单地讲,数据转换就是将数据进行转换或归并,从而构成一个适合数 据处理的形式。【教师】提出学习任务:自主阅读课本数据转换部分,学习数据转换要完成的工作是什 么【学生】自主学习,完成学习任务具体来说,数据转换要完成格式修正、字段解码、计算值和导 出值、单字段分离、信息合并、特征集合转化、计量单位转化
6、、日期 /时间转化、汇总、键的重新构造等工作。(详见教材)四、数据验证*【教师】利用多媒体详细讲解数据验证为了判断数据是否满足分析的需要,从而决定是否增加或减少 数据量,需要进行数据验证。(详见教材)五、数据脱敏+【教师】提出以下问题:如何判别异常值?【学生】思考、举手回答 【教师】对学生的回答进行总结数据脱敏就是在涉及客户安全数据或者一些商业性敏感数据的 情况下,在不违反系统规则的条件下,对真实数据进行改造以供开 发、测试等使用。例如,身份证号、手机号、银行卡号、客户号等个 人信息,都需要进行数据脱敏。 【学生】聆听、记录、思考通过课堂讨论, 使学生熟悉数据 预处理知识 【教师】组织学生以小
7、组为单位讨论以下问题:课堂讨论(15 min )你认为数据预处理中最重要的步骤是什么?为什么? 【学生】聆听、思考、小组讨论,由小组代表上台发表讨论结果 【教师】与学生一起评价各组的讨论结果第二节课实战演练(20 min ) 【教师】演示使用八爪鱼工具采集并预处理房源数据的操作,并组织学生上机操作卜面,我们使用八爪鱼,具米集百姓网上济南市历卜区的日 租/短租房源数据,并进行简单预处理后将其导出到Excel文件。(1 )通过官网卜载八爪鱼米集器并完成安装,然后根据提小 注册一个账号并用其进行登录。(2 )在首页的编辑框中输入目标网址,然后单击开始米集 按钮。(详见教材) 【学生】观看、聆听、思考
8、、上机操作 【教师】巡堂指导,及时解决学生遇到的问题通过实战演 练,帮助学生掌 握网络爬虫工 具的实际应用小组互助(20 min) 【教师】组织学生以小组为单位,使用八爪鱼工具采集并预处理关于2022年北京东奥会参赛运动员获奖数据 【学生】观看、聆听、思考、上机操作,由先完成的小组成员帮助其他成员完成操作 【教师】巡堂指导,及时解决学生遇到的问题通过小组互 助,由先进学生 带动其他学生, 熟练掌握使用 网络爬虫工具 搜集数据的方 法课堂小结 (3 min) 【教师】简要总结本节课的要点本书课学习了数据预处理的相关知识,以及使用网络爬虫工 具采集并预处理数据的时机操作;希望大家在课下多加练习,熟
9、练 掌握常用网络爬虫工具的使用 【学生】总结回顾知识点总结知识点, 巩固学生对大 数据技术相关 知识的印象作业布置 (2 min ) 【教师】布置课后作业(1 )使用任意网络爬虫工具采集并预处理关于北京2021年 企业岗位需求数量和求职人员数量的数据(2 )完成本章节课后相关习题 【学生】完成课后任务通过课后作 业复习巩固学 到的知识教学反思本节课效果不错。实践表明,学生的学习兴趣是自主学习的原动力。教学中,教 师应积极地为学生创设一种情趣盎然的学习句氛,使学生受到陶冶、感染和激励,从 而主动学习。在课堂上教师应大胆地让学生进行自由讨论、交流,赞扬学生一些独特 看法,让学生真切地感受到学习是快乐的。这样自主学习的劲头就更足了