《Python网络爬虫技术（第2版）（微课版）》教学大纲.docx-淘文阁

资源描述

《《Python网络爬虫技术（第2版）（微课版）》教学大纲.docx》由会员分享，可在线阅读，更多相关《《Python网络爬虫技术（第2版）（微课版）》教学大纲.docx（6页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、Python网络爬虫技术教学大纲课程名称：Python网络爬虫技术课程类别：必修适用专业：大数据技术类相关专业总学时：64学时（其中理论24学时，实验40学时）总学分：4.0学分一、课程的性质数字经济时代，数字资源已经成为互联网竞争和经营的生产要素和核心竞争力，而如何获取数据资源并基于此产出有价值的数据，已成为重要的资源配置。数据企业能够收集、获取的数据越多，越可能在行业竞争中具有优势地位。行业的发展带动岗位的需求，越来越多的爬虫工程师岗位涌现，工作中对爬虫技术的需求也越来越多。网络爬虫技术是数据分析、数据挖掘、人工智能等技术的数据基础，是从互联网上批量获取数据的重要技术之一，特开设

2、Python网络爬虫技术课程。二、课程的任务通过本课程的学习，掌握使用Python基本语法完成爬虫任务编写，使用Requests库向指定网址发送请求，Xpath或Beautiful Soup库对静态网页进行解析，Selenium库爬取动态页面；使用JSON文件、MySQL数据库、MongoDB数据库对爬取下来的数据进行存储；使用表单登录方法、Cookie登录方法实现模拟登录；使用HTTP Analyzer和Fiddler工具抓包，并分析终端协议；使用Scrapy框架进行网页内容爬取，理论结合实践，每个章节中都配有多个案例，为学生将来从事数据采集、数据爬取的工作、研究奠定基础。三、课程

3、学时分配序号教学内容理论学时实验学时其它1第1章了解爬虫与Python爬虫环境222第2章爬虫基础知识准备243第3章简单静态网页爬取一一获取某企业官网基本信息6104第4章爬取动态网页一获取图书基本信息685第5章模拟登录一一登录某企业官网246第6章终端协议分析一一获取某音乐PC客户端和APP数据267第7章使用Scrapy爬虫爬取某企业官网新闻动态46总计2440四、教学内容及学时安排1.理论教学序号章节名称主要内容教学目标学时1了解爬虫与 Python爬虫环境1 .爬虫的概念2 .爬虫的分类3 .爬虫的合法性与robots协议4 .网站反爬虫的目的与手段5 .爬取策略制定6 .爬

4、虫需要用到的编程环境、工具介绍1 .掌握爬虫的概念和分类2 ,了解爬虫的法律问题3 .掌握爬虫robots协议以及该协议的常见字段4 .了解反爬虫的目的和常用手段5 .掌握制定爬虫策略的方法6 .了解爬虫相关库及环境配置的方法22爬虫基础知识准备1 . 了解网页开发技术2 . 了解网页的结构3 . 了解网页的分类4 . 了解网页的数据结构5 .熟悉HTTP请求方法与过程6 .熟悉常见HTTP状态码7 .熟悉HTTP头部信息8 .熟悉 Cookie1 . 了解常用的网页开发技术2 .掌握网页的结构和常用的标签，并能完成简单的网页创建3 . 了解不同类型网页的区别，并能

5、加以区分4 ,掌握网页中常用的数据结构5 .掌握HTTP请求方法和过程，并能分析HTTP协议中的头部信息23简单静态网页爬取获取某企业官网基本信息1 ,使用Chrome浏览器查看网页2 .使用urllib3库实现HTTP请求3 .使用Requests库实现HTTP请求4 .使用Xpath解析网页5 .使用Beautiful Soup库解析网页6 ,使用正则表达式解析网页7 .将数据存储为JSON文件8 .将数据存储到MySQL数据库1 .掌握Chrome浏览器开发者工具的使用方法2 .掌握使用urllib 3 和Requests库实现 HTTP请求的流程3 .掌握Xpath

6、的基本语法和常用函数4,掌握创建 Beautiful Soup 对象的方法5 ,掌握正则表达式解析网页的常用方法6 .掌握使用JSON 模块和PyMySQL库存储数据的方法64爬取动态网页获取图书基本信息1 .逆向分析判断网页类型2 ,逆向分析获取动态网页信息3 .使用Selenium库打开浏览器对象并访问页面4 . Selenium库进行元素选取、交互、页面操作、等待5 . MongoDB数据库和MySQL数据库的区别6 .将数据存储到MongoDB数据库1 ,掌握逆向分析定位动态数据所在网址的方法2 .掌握 Selenium 库的安装和配置方法3 .掌握 Selen

7、ium 库的常用函数4 .了解 MongoDB 数据库和MySQL数据库的区别5 .掌握MongoDB存储数据的基本方法65模拟登录登录某企业官网1 .查找提交入口2 .查找并获取需要提交的表单数据3 .使用POST请求方法登录4 .使用浏览器Cookie登录5 .基于表单登录的Cookie登录1.掌握表单登录和 Cookie登录的流程 2.掌握使用Chrome 开发者工具查找登录入口的方法3 .掌握发送POST 请求的方法4 .掌握保存和加载 Cookie实现登录的方法26终端协议分析获取某音乐PC客户端和APP数据1 ,了解 HTTP Analyzer 工具2 .爬取酷我音

8、乐PC客户端数据3 . 了解 Fiddler 工具4 .分析酷我音乐APP数据1 . T 解 HTTP Analyzer工具的基础知识2 .掌握酷我音乐PC 客户端数据的爬取流程3 .了解 Fiddler 工具的基础知识4,掌握 HTTP Analyzer 和 Fiddler 工具的抓包和数据分析方法5 .掌握酷我音乐 App客户端的数据分析方法27使用Scrapy爬虫爬取某企业官网新闻动态1 .了解Scrapy爬虫框架2 .熟悉Scrapy常用命令3 .创建Scrapy爬虫项目4 .修改 items/pipelines 脚本5 .编写spider脚本6 .修改setting

9、s脚本7 .定制下载中间件8定制Spider中间件1 .了解Scrapy框架各组件的作用以及数据流向2,熟悉Scrapy的常用命令及其作用3 .掌握Scrapy爬取文本信息的方法4 .掌握下载器中间件、Spider中间件的定制方法4学时合计242 .实验教学序号实验项目名称实验要求学时1Python网络爬虫环境搭建1.在 Windows/Linux 系统上安装 Python PyCharm MySQL、MongoDB 数据库22 .使用PyCharm进行代码编写、运行、安装卸载第三方库操作3 .学会MySQL、MongoDB数据库配置操作2爬虫基础知识准备1 .使用html标

10、签和CSS样式创建网页2 .分析HTTP请求的过程3 .使用浏览器查看HTTP报文并分析报文的头部信息4 .从浏览器中查看报文中Cookie信息的方法43简单静态网页爬取获取某企业官网基本信息1 .使用Chrome浏览器查看网页源码，并定位节点2 .使用urllib3和Requests实现HTTP请求发送和接收响应结果3 .使用Xpath、Beautiful Soup或者正则表达式对响应的内容进行解析4 .将数据存储到JSON文件中5,将数据存储到MySQL数据库中104爬取动态网页获取图书基本信息1 .判断网页类型2 .使用逆向分析的方法获取网页信息3 . Selenium库及

11、浏览器驱动安装4,使用Selenium库爬取动态网页5 .网页元素选取6 .网页元素交互7 .网页页面操作8 .网页页面等待9 .将数据存储到MongoDB数据库中85模拟登录一一登录某企业官网1 .查找提交的入口2 .查找并获取需要提交的表单数据3 .使用POST方法发送登录请求实现模拟登录4 .从浏览器中查找Cookie5 .使用Cookie模拟登录46终端协议分析一一获取某音乐PC客户端和 APP数据1.安装HTTP Analyzer工具，并掌握基本用法2,使用HTTP Analyzer爬取酷我音乐PC端数据3 .安装Fiddler工具，并掌握基本用法4 .使用Fiddler分析

12、酷我音乐APP,并获取数据67使用Scrapy爬虫爬取某企业官网新闻动态1 .使用Scrapy常用命令2 .通过Scrapy爬取网页信息3 .修改 items/pipelines 脚本4 .编写spider脚本5 .修改settings脚本6 .根据需求定制下载器中间件7 .根据需求定制Spider中间件6学时合计40五、考核方式突出学生解决实际问题的能力，加强过程性考核。课程考核的成绩构成二平时作业（10%） +课堂参与（20%） +期末考核（70%）,期末考试建议采用开卷形式，试题应包括发送HTTP请求、解析静态网页内容、解析动态网页内容、数据存储为JSON文件、数据存储至U MySQL数据库、数据存储到MongoDB数据库、使用表单和Cookie模拟登录、使用 HTTP Analyzer获取PC端数据、使用Fiddler获取APP端数据、Scrapy框架使用等部分，题型可采用判断题、选择、简答、编程题等方式。六、教材与参考资料1 .教材池瑞楠.Python网络爬虫技术（第2版）（微课版）M.人民邮电出版社.2023.2 .参考资料1江吉彬.Python网络爬虫技术M.人民邮电出版社.2019.2黄瑞军.Python爬虫项目教程（微课版）M.人民邮电出版社.2021.3黑马程序员.Python网络爬虫基础教程M.人民邮电出版社.2022.

展开阅读全文