《Python网络爬虫技术(第2版)(微课版)》教学大纲.docx

上传人:太** 文档编号:97997690 上传时间:2024-07-08 格式:DOCX 页数:6 大小:22.33KB
返回 下载 相关 举报
《Python网络爬虫技术(第2版)(微课版)》教学大纲.docx_第1页
第1页 / 共6页
《Python网络爬虫技术(第2版)(微课版)》教学大纲.docx_第2页
第2页 / 共6页
点击查看更多>>
资源描述

《《Python网络爬虫技术(第2版)(微课版)》教学大纲.docx》由会员分享,可在线阅读,更多相关《《Python网络爬虫技术(第2版)(微课版)》教学大纲.docx(6页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、Python网络爬虫技术教学大纲课程名称:Python网络爬虫技术课程类别:必修适用专业:大数据技术类相关专业总学时:64学时(其中理论24学时,实验40学时)总学分:4.0学分一、课程的性质数字经济时代,数字资源已经成为互联网竞争和经营的生产要素和核心竞争力,而如何 获取数据资源并基于此产出有价值的数据,已成为重要的资源配置。数据企业能够收集、获 取的数据越多,越可能在行业竞争中具有优势地位。行业的发展带动岗位的需求,越来越多 的爬虫工程师岗位涌现,工作中对爬虫技术的需求也越来越多。网络爬虫技术是数据分析、 数据挖掘、人工智能等技术的数据基础,是从互联网上批量获取数据的重要技术之一,特开 设

2、Python网络爬虫技术课程。二、课程的任务通过本课程的学习,掌握使用Python基本语法完成爬虫任务编写,使用Requests库向 指定网址发送请求,Xpath或Beautiful Soup库对静态网页进行解析,Selenium库爬取动态 页面;使用JSON文件、MySQL数据库、MongoDB数据库对爬取下来的数据进行存储;使 用表单登录方法、Cookie登录方法实现模拟登录;使用HTTP Analyzer和Fiddler工具抓包, 并分析终端协议;使用Scrapy框架进行网页内容爬取,理论结合实践,每个章节中都配有 多个案例,为学生将来从事数据采集、数据爬取的工作、研究奠定基础。三、课程

3、学时分配序号教学内容理论学时实验学时其它1第1章了解爬虫与Python爬虫环境222第2章爬虫基础知识准备243第3章 简单静态网页爬取一一获取某企业官网基本信息6104第4章爬取动态网页一获取图书基本信息685第5章模拟登录一一登录某企业官网246第6章终端协议分析一一获取某音乐PC客户端和APP数据267第7章使用Scrapy爬虫爬取某企业官网新闻动态46总计2440四、教学内容及学时安排1.理论教学序 号章节名称主要内容教学目标学时1了解爬虫与 Python爬虫环 境1 .爬虫的概念2 .爬虫的分类3 .爬虫的合法性与robots协议4 .网站反爬虫的目的与手段5 .爬取策略制定6 .爬

4、虫需要用到的编程环境、工具介 绍1 .掌握爬虫的概念 和分类2 ,了解爬虫的法律 问题3 .掌握爬虫robots协 议以及该协议的常 见字段4 .了解反爬虫的目 的和常用手段5 .掌握制定爬虫策 略的方法6 .了解爬虫相关库 及环境配置的方法22爬虫基础知识 准备1 . 了解网页开发技术2 . 了解网页的结构3 . 了解网页的分类4 . 了解网页的数据结构5 .熟悉HTTP请求方法与过程6 .熟悉常见HTTP状态码7 .熟悉HTTP头部信息8 .熟悉 Cookie1 . 了解常用的网页 开发技术2 .掌握网页的结构 和常用的标签,并能 完成简单的网页创 建3 . 了解不同类型网 页的区别,并能

5、加以 区分4 ,掌握网页中常用 的数据结构5 .掌握HTTP请求 方法和过程,并能分 析HTTP协议中的 头部信息23简单静态网页 爬取获取 某企业官网基 本信息1 ,使用Chrome浏览器查看网页2 .使用urllib3库实现HTTP请求3 .使用Requests库实现HTTP请求4 .使用Xpath解析网页5 .使用Beautiful Soup库解析网页6 ,使用正则表达式解析网页7 .将数据存储为JSON文件8 .将数据存储到MySQL数据库1 .掌握Chrome浏览 器开发者工具的使 用方法2 .掌握使用urllib 3 和Requests库实现 HTTP请求的流程3 .掌握Xpath

6、的基 本语法和常用函数4,掌握创建 Beautiful Soup 对象 的方法5 ,掌握正则表达式 解析网页的常用方 法6 .掌握使用JSON 模块和PyMySQL库 存储数据的方法64爬取动态网页获取图书 基本信息1 .逆向分析判断网页类型2 ,逆向分析获取动态网页信息3 .使用Selenium库打开浏览器对象 并访问页面4 . Selenium库进行元素选取、交互、 页面操作、等待5 . MongoDB数据库和MySQL数据 库的区别6 .将数据存储到MongoDB数据库1 ,掌握逆向分析定 位动态数据所在网 址的方法2 .掌握 Selenium 库 的安装和配置方法3 .掌握 Selen

7、ium 库 的常用函数4 .了解 MongoDB 数 据库和MySQL数据 库的区别5 .掌握MongoDB存 储数据的基本方法65模拟登录登录某企业官 网1 .查找提交入口2 .查找并获取需要提交的表单数据3 .使用POST请求方法登录4 .使用浏览器Cookie登录5 .基于表单登录的Cookie登录1.掌握表单登录和 Cookie登录的流程 2.掌握使用Chrome 开发者工具查找登 录入口的方法3 .掌握发送POST 请求的方法4 .掌握保存和加载 Cookie实现登录的 方法26终端协议分析获取某音 乐PC客户端和APP数据1 ,了解 HTTP Analyzer 工具2 .爬取酷我音

8、乐PC客户端数据3 . 了解 Fiddler 工具4 .分析酷我音乐APP数据1 . T 解 HTTP Analyzer工具的基 础知识2 .掌握酷我音乐PC 客户端数据的爬取 流程3 .了解 Fiddler 工具 的基础知识4,掌 握 HTTP Analyzer 和 Fiddler 工具的抓包和数据 分析方法5 .掌握酷我音乐 App客户端的数据 分析方法27使用Scrapy爬 虫爬取某 企业官网新闻 动态1 .了解Scrapy爬虫框架2 .熟悉Scrapy常用命令3 .创建Scrapy爬虫项目4 .修改 items/pipelines 脚本5 .编写spider脚本6 .修改setting

9、s脚本7 .定制下载中间件8定制Spider中间件1 .了解Scrapy框架 各组件的作用以及 数据流向2,熟悉Scrapy的常 用命令及其作用3 .掌握Scrapy爬取 文本信息的方法4 .掌握下载器中间 件、Spider中间件的 定制方法4学时合计242 .实验教学序号实验项目名称实验要求学时1Python网络爬 虫环境搭建1.在 Windows/Linux 系统上安装 Python PyCharm MySQL、MongoDB 数据库22 .使用PyCharm进行代码编写、运行、安装卸载第三方 库操作3 .学会MySQL、MongoDB数据库配置操作2爬虫基础知识 准备1 .使用html标

10、签和CSS样式创建网页2 .分析HTTP请求的过程3 .使用浏览器查看HTTP报文并分析报文的头部信息4 .从浏览器中查看报文中Cookie信息的方法43简单静态网页 爬取获取 某企业官网基 本信息1 .使用Chrome浏览器查看网页源码,并定位节点2 .使用urllib3和Requests实现HTTP请求发送和接收 响应结果3 .使用Xpath、Beautiful Soup或者正则表达式对响应的 内容进行解析4 .将数据存储到JSON文件中5,将数据存储到MySQL数据库中104爬取动态网页 获取图书 基本信息1 .判断网页类型2 .使用逆向分析的方法获取网页信息3 . Selenium库及

11、浏览器驱动安装4,使用Selenium库爬取动态网页5 .网页元素选取6 .网页元素交互7 .网页页面操作8 .网页页面等待9 .将数据存储到MongoDB数据库中85模拟登录一一 登录某企业官 网1 .查找提交的入口2 .查找并获取需要提交的表单数据3 .使用POST方法发送登录请求实现模拟登录4 .从浏览器中查找Cookie5 .使用Cookie模拟登录46终端协议分析 一一获取某音 乐PC客户端和 APP数据1.安装HTTP Analyzer工具,并掌握基本用法2,使用HTTP Analyzer爬取酷我音乐PC端数据3 .安装Fiddler工具,并掌握基本用法4 .使用Fiddler分析

12、酷我音乐APP,并获取数据67使用Scrapy爬 虫爬取某 企业官网新闻 动态1 .使用Scrapy常用命令2 .通过Scrapy爬取网页信息3 .修改 items/pipelines 脚本4 .编写spider脚本5 .修改settings脚本6 .根据需求定制下载器中间件7 .根据需求定制Spider中间件6学时合计40五、考核方式突出学生解决实际问题的能力,加强过程性考核。课程考核的成绩构成二平时作业 (10%) +课堂参与(20%) +期末考核(70%),期末考试建议采用开卷形式,试题应包括 发送HTTP请求、解析静态网页内容、解析动态网页内容、数据存储为JSON文件、数据存 储至U MySQL数据库、数据存储到MongoDB数据库、使用表单和Cookie模拟登录、使用 HTTP Analyzer获取PC端数据、使用Fiddler获取APP端数据、Scrapy框架使用等部分,题 型可采用判断题、选择、简答、编程题等方式。六、教材与参考资料1 .教材池瑞楠.Python网络爬虫技术(第2版)(微课版)M.人民邮电出版社.2023.2 .参考资料1江吉彬.Python网络爬虫技术M.人民邮电出版社.2019.2黄瑞军.Python爬虫项目教程(微课版)M.人民邮电出版社.2021.3黑马程序员.Python网络爬虫基础教程M.人民邮电出版社.2022.

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 解决方案

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁