《《大数据技术基础(第2版)》792-4(覃事刚)教案 第5课数据采集与预处理(一).docx》由会员分享,可在线阅读,更多相关《《大数据技术基础(第2版)》792-4(覃事刚)教案 第5课数据采集与预处理(一).docx(5页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、及案例,使学生了 解数据的来源和 数据的采集方法一、数据的主要来源【教师】通过多媒体展示数据的来源教学内容日常生活中方方面面的数据都是大数据的来源,可大致分为内 部数据和外部数据。其中,内部数据来源于企业(或机构)的内部, 由内部运作经营而产生;外部数据则来源于企业(或机构)的外部, 如通过交换、购买等方式获取的数据等。(详见教材)小【教师】提出以下问题:阅读提示部分,说一说生活中你知道的数据来源?+【学生】思考、举手回答*【教师】提炼、总结学生的回答大数据的来源极其广泛,随着物联网、互联网及移动通信网络 的飞速发展,数据的格式和种类也在不断地变化和发展。具体来说, 这些数据主要来自以下4个方
2、面。(1 ) Web数据。Web数据的采集通常借助于网络爬虫来完成。 网络爬虫是一种按照一定规则自动地抓取Web数据的程序或脚本。 网络爬虫获取数据时,首先抓取互联网的网页,然后从抓取的网页 中解析有用的结构化信息。也就是说,它可以将非结构化数据从网 页中提取出来,存储为统一的本地数据文件,并以结构化的方式存 储。网络爬虫支持图片、音频、视频等文件或附件的采集,附件与正 文可以自动关联。(详见教材)*【教师】通过多媒体讲授数据源的分类根据获取的直接程度,数据源又可分为第一方数据、第二方数 据和第三方数据。(1)第一方数据:指己方单位自己和消费者、用户、目标客户 群交互产生的数据,具有高质量、高
3、价值等特性,但易局限于既有 顾客数据,如企业搜集的顾客交易数据、用户在App上的浏览行为 数据等,拥有者可弹性地使用于分析研究、营销推广等。(详见教材)【学生】思考、举手回答【教师】提出以下学习任务:阅读高手点拨部分,和同学之间互相交流,说一说生活中除 了书中提到的公开数据网站外,还有哪些公开数据网站?小【学生】小组讨论、交流、分享二、常用的数据采集方法小【教师】提出以下学习任务:阅读常用的数据采集方法部分,自主学习数据采集方法相 关知识,将不懂的知识点重点标注,并提问【学生】阅读、学习、理解、标注、提问小【教师】巡视、个别指导【教师】利用多媒体详细讲解数据采集方法:根据应用环境和采集对象的不
4、同,可将常用的数据米集方法 分为以下几种。1 .网络数据米集网络数据米集是指通过网络爬虫或调用网站公开API等方式从 网站上获取数据的过程。该方法可以将非结构化数据和半结构化数 据从网页中提取出来,以结构化的方式统一存储为本地数据文件, 支持图片、音频、视频等文件的采集,文件与正文可以自动关联。2 .系统日志采集3 . ETL工具采集4 .分布式消息订阅分发(详见教材)【学生】聆听、记录、理解课堂讨论(10 min) 【教师】组织学生阅读“数字乡村和改善民生”中的案例(详见教材),然后组织学生以小组为单位讨论以下问题:从这两个案例中,你发现政务领域数据的来源是什么?数据是 如何采集的? 【学生
5、】聆听、思考、小组讨论,由小组代表上台发表讨论结果 【教师】与学生一起评价各组的讨论结果通过课堂讨论, 加深学生对数据 来源与数据采集 的认识第二节课问题导入(5 min ) 【教师】提出问题:互联网的数据杂乱无章,你知道如何高效收集网络数据吗? 【学生】聆听、思考、举手回答通过问题导 入,引导学生主 动思考,激发学 生的学习兴趣【教师】通过学生的回答引入新的知识,介绍网络爬虫技术一、什么是网络爬虫由于大数据超大规模的体量,以及众多用户的频繁操作访问,使 得仅使用传统的数据采集方法难以满足业务需求,因此需要通过专门 的采集方法对大数据进行采集。采集形式主要有网络数据采集(如提 取网页中的图片、
6、文本等)、系统日志采集(业务平台每天都会产生 大量的日志数据)、数据库数据采集(如关系型数据库的接入)等, 常用的工具有网络爬虫工具、Flume. Kafka. Sqoop等。(详见教材)A【教师】提出以下问题:根据网络爬虫基本原理流程图,请大家用自己的话说一说网络爬 虫的工作流程呢?【学生】思考、举手回答A【教师】对学生的回答进行总结通过讲授,提 问,讨论等教学 方式,让学生了 解网络爬虫技术(1)预先设定一个或若干初始网页的URL ,将初始URL加入 待爬取的URL列表。传授新知(20 min)(2 )从待爬取的URL列表中逐个读取URL ,并将URL加入已 爬取的URL列表中,然后下载网
7、页。(3 )解析已下载的网页,提取所需的数据和新的URL ,并存储 提取的数据。(4 )将新的URL与已提取的URL列表进行比对,检查该网页 是否已爬取,如果网页没有被爬取,则将新的URL放入待爬取URL 列表的末尾,等待读取。(5 )如此往复,直到待爬取URL列表为空或者满足设定的停止 条件,最后达到遍历网页的目的。、网络爬虫的分类和应用+【教师】利用多媒体详细讲解网络爬虫的分类:网络爬虫按照系统结构和工作原理的不同,大致可以分为4 类:通用网络爬虫、聚焦网络爬虫、增量式网络爬虫和深层网络爬 虫。(1 )通用网络爬虫。通用网络爬虫又称全网爬虫,是根据网络 爬虫的基本原理实现的,它所爬取的目标
8、会从初始设定的URL扩充 到全网。通用网络爬虫主要应用于门户网站、搜索引擎和大型网络服 务提供商的数据采集。(详见教材) 【教师】提出学习任务:阅读课本网络爬虫的应用部分,对应网络爬虫的分类,结合生活 实际思考理解网络爬虫的应用范围 【学生】自主学习,总结每个独立的搜索引擎都有自己的爬虫程序爬虫程序每天连续地 爬取相关网站,提取信息保存到搜索引擎中,如谷歌爬虫Googlebot、 白度爬虫Baiduspider、必应爬虫Bingbot等。止匕外,有些搜索引擎对 应不同的业务还有不同的爬虫,如百度图片爬虫Baiduspider-imagex 百度新闻爬虫Baiduspider-news等。搜索引
9、擎在用户输入搜索信息后 并不是直接搜索整个互联网而是对预先建立好的索引数据库进行检 索。 【学生】聆听、思考、举手回答合作学习(15 min) 【教师】组织学生以小组为单位学习常用的网络爬虫工具及网络爬虫工具的工作流程,然后讨论以下问题:网络爬虫工具的主要功能是什么?常用网络爬虫工具的优缺点 是什么? 【学生】搜索软件信息,小组讨论,由小组代表上台发表讨论结果 【教师】与学生一起评价各组的讨论结果通过合作学 习,使学生熟悉 网络爬虫工具课堂小结 (3 min) 【教师】简要总结本节课的要点本节课学习了数据的来源,数据采集工具,以及网络爬虫技术和 常用的网络爬虫工具;希望大家在课下多复习,巩固所学知识 【学生】总结回顾知识点总结知识点, 巩固学生对数据 采集相关知识的 印象作业布置 (2 min) 【教师】布置课后作业完成本章节课后相关习题 【学生】完成课后任务通过课后作业 复习巩固学到的 知识教学反思本节课对学困生的困难点抓得不够准,也不够全面,导致他们在考试的过程中 对有些做过的类型题仍束手无策。应该要抓准每一个学困生的困难点,制定出科学合理的辅导计划。用足够的爱心和耐心树立学困生学习的自信和兴趣,从根本上解 决问题