《网络爬虫技术》课程标准（高职）.docx-淘文阁

资源描述

《《网络爬虫技术》课程标准（高职）.docx》由会员分享，可在线阅读，更多相关《《网络爬虫技术》课程标准（高职）.docx（9页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、网络爬虫技术课程标准【课程名称】网络爬虫技术【开课时间】第4学期【学时/学分数】64学时/4学分【课程类型】专业核心课程【授课对象】大数据专业学生二、课程定位1、课程性质：该课程为专业核心课程；是大数据专业的必修课；是一门理论与实践相结合的课程。2、课程任务：本课程的主要目标是以爬虫工程师岗位的基本要求为指导，依据该岗位真实业务内容与流程选取课程内容、构建学习单元，将目前爬虫程序必备功能组件如网页数据下载、数据分析、数据存储、网页地柜爬取等技术作为项目中的系列任务。课程内容编排符合循序渐进的认知规律，培养学生的网页爬虫实际应用能力。三、课程目标本课程内容涵盖了学生在“基本理论”、“基

2、本技能”和“实战项目”三个层次的培养。以网页爬虫开发岗位必备的开发技能为重点并具备相应的理论基础的同时，注意实际工作中业务场景，从而培养学生的数据爬取能力。3、课程衔接：先行课程包括web应用开发技术、python基础、数据库基础建议等。三、课程培养目标通过本课程的学习，旨在对学生的程序设计思想和技能进行强化，培养学生利用主流scrapy框架进行爬虫项目的设计和开发的能力。（一）专业能力1 .具有使用ullib实现网页下载的能力；2 .具有使用正则表达式获取网页数据的能力；3 .具有使用beautifulsoup工具选择数据的能力；4.具有使用xpath、css选择数据的能力；5 .具

3、有使用scrapy编写网页爬虫程序的能力；6 .具有使用item、pipeline实现数据序列化与存储的能力；7.具有使用scrapy实现网页递归爬取的能力；8 .具有进行网站爬虫程序综合开发通用能力；（二）方法能力1 .在学习过程中，学会运用观察、实验、查阅资料等多种手段获取信息，并运用比较、分类、归纳、概括等方法对信息进行加工；2 .能对自己的学习过程进行计划、反思、评价和调控，提高自主学习的能力；3 .通过理论知识和实践活动相结合的一体化学习过程,深入了解实践和理论之间的相互关系；4 .通过各种实践活动，尝试经过思考发表自己的见解，尝试运用技术知识和研究方法解决一些工程实践问题；5

4、 .具有一定的质疑能力，分析、解决问题能力，交流、合作能力。（三）社会能力1 .能领略本领域科技发展的过程，激发对科学技术探究的好奇心与求知欲，能体验技术改革的艰辛与喜悦；2 .有参与科技活动的热情，有将科学知识应用于生活和生产实践的意识，勇于探究各种工程问题。3 .具有敢于坚持真理、勇于创新和实事求是的科学态度和科学精神；4 .有主动与他人合作的精神，有将自己的见解与他人交流的愿望，敢于坚持正确观点，勇于修正错误，具有团队精神；5 .养成认真细致、实事求是、积极探索的科学态度和工作作风，形成理论联系实际、自主学习和探索创新的良好习惯；6 .关心国内、外科技发展现状与趋势，有振兴中华的

5、使命感与责任感，有将科学技术服务于人类的意识。四、课程内容和要求课程内容按照由浅入深、由易到难、循序渐进的认知规律，包含爬虫概述一一前置技能准备一一ullib 实现网站下载一一使用正则表达式获取网页数据一一使用beautifulsoup工具选择数据使用xpath、css选择数据使用 scrapy编写网页爬虫程序使用item、pipeline实现数据序列化与存储使用scrapy实现网页递归爬取九大教学单元，其具体要求如下表：序号教学单元知识要求技能要求与情感目标思政目标思政元素建议课时 (实践课)1爬虫概述1 .能够初步了解爬虫的科念，了解爬虫的历史、发展、功能等2 .

6、了解现有的爬虫工具，使用爬虫工具爬取一次数据3 .具备信息收集和信息处理能力4 .具备自学能力，能适应行业的不断变革发展5 .具备一定的设计素养爬虫工具的使用，简单的数据爬取项目用了解职业的社会价值和需求，引发学习兴趣激发学生为中国信息技术发展做出贡献的使命感。L爱国2.职业情感82前置技能准备1. python语言回顾2. web开发基础回顾3. 具备一定的互联网和网页知识使用python编写一个程序，使用 web开发一个网页激发学生好奇心与求知欲的科学兴趣以及社会责任感。1.踏实、责任2 .科学素养83ullib实炯站下载1 .搭建前端开发环境2 .搭建

7、后端静态网页3 .利用ur 11 i b下载后端网次4 .编写程序实现编码(GBK, UTF-8)的自动识别与转换5 .存储网页到文件或数据库能够通过ullib网页下载函数方法下载网页，实现编码的转换形成开放的视野，勇于探索、质疑、独立思考、互助合作的科学精神1.哲学素养2.科学素养84使用正则表达式获取网页数据L搭建前端开发环境2 ,搭建后端静态网页3 .利用urllib下载后端网页4 ,使用正则表达式匹配并提取网页数据能够根据功能组件的不同实现需求，使用正则表达式匹配并提取网页中的数据沟通、协作、主动、坚持的职业意识；勇于探索、质疑、独立思考、

8、互助合作的科学精神1.职业意识2.科学素养65使用 beautifulsoup 工具选择数据1 .搭建前端开发环境2 .搭建后端静态网页3 .利用urllib下载后端网页4 .使用 beautifulsoup 提取网页的数据5 .存储提取的数据能够使用 beautifulsoup 工具选择数据，掌握find.all等常用方法形成国标意识，土吾养严谨、认真的工作态度；养成独立思考、互助合作的科学精神1.合作2.探究3.创新66使用xpath、 css选择数据1 .搭建前端开发环境2 .搭建后端静态网页3 .利用urllib下载后端网页4 .使用xpath css摘又网页

9、的数据5 .存储提取的数据使用xpathcss选择复杂的数据形成开放的视野，勇于探索、质疑、独立思考、互助合作的科学精神1.哲学素养2 .科学素养67使用scrapy编写网页爬虫程序1 .搭建scrapy开发环境2 .搭建web后台网页3 .使用scrapy爬取网页文件4 .使用 xpath css 蛔特征数据能够使用 scrapy网页爬取的工作流程爬取单个网页的某几个特征数据爱岗、忠诚、敬业、诚信、踏实的职业态度；实事求是、勇于探索、质疑、独立思考、互助合作的科学精神1.爱岗敬业2.团队合作3.科学精神68使用item、 pipeline 51 数

10、据序列化与存储1 .搭建scrapy开发环境2 .搭建web后台网页3 .使用scrapy爬取1网页文件4,使用 item、pipeline 提取与存储数据能够使用 scrapy中pipeline 进行数据提取与数据存储具备团队合作意识和能力；爱岗、忠诚、敬业、诚信、踏实的职业态度1.敬业2.创新3.团队合作89使用scrapy实现网页递归爬取1 .搭建scrapy开发环境2 .搭建web后台众多关联网页3 .使用scrapy爬取多层嵌套与关联的网页文4 .使用 item、pipeline 提取与存储数据能够使用 scrapy 中 spider 的网页递归爬取循环，

11、实现数据的提取与存储激发学生好奇心与求知欲的科学兴趣以及社会责任感。1.踏实、责任2 .科学素养8五、实施建议（一）教材选用与编写本课程教材的选用，一方面考虑教材是否能反映数据库技术的理论和实践发展最新成果，另一方面也考虑依据教学模式选取适应的教材。为此，建议采用Python网络爬虫开发从入门到精通，刘延林主编，北京大学出版社，2019 年推荐教材：Python3网络爬虫宝典韦世东主编电子工业出版社，2020年Python 3网络爬虫开发实战崔庆才主编人民邮电出版社，2018年（二）教学建议1 .教学目标要符合学生专业发展水平和已有的经验，做到精选学习内容，使课程不断适应学生知识掌

12、握和能力发展的需要；充实最新成果，坚持以高职教育技能型人才培养目标为依据,遵循“以应用为目的，以必需、够用为度”的原则，以“髓概念、强化应用、培养技能”为重点，力图做“精选内容、降（雌论、加强基础、突出应用”，紧紧围绕“液压气压传动系统的应用”这个中心目标组织教学。2 .教学方法要符合学生的发展水平和特点。要以案例教学、任务驱动为主要方法，重视小组合作学习，强化课程实践训练，关注学生主体意识培养，及在理论指导下的实践和实践中的理论提升，做到知识内化。3 .教学中应强调以学生发展为中心，帮助学生学会学习，通过详细的学习液压传动来学会气压传动。4 .教学手段应采取多种手段，如教学课件、

13、教学视频、教学动画、辅助软件、实验实训等多种方式。在课堂组织实施过程中体现爱国、敬业、诚信、自控、创新、严谨、团结互助等元素，使学生潜移默化形成良好的态度和习惯。5 .教学管理要既重视学习结果又重视学习过程的全程性管理。需要加强对学生学习过程管理，科学引导学生进行学习，提高学习效果。（三）教学基本条件教师需具备本专业本科及其以上学历，要有一定的网络爬虫技术理论基础，了解国内外行业发展的动态，一定的企业实际工作经历，具有良好的教师职业精神；教学场所需要多媒体的教室；实验室拥有专用服务器，投影仪等。为学生网络课程提供了良好的实验环境。（四）课程资源的开发与利用本课程研发有完整的课程标准

14、、学习指南、授课计划、教案、课件、教学案例等资源可供学习使用。（五）教学评价本课程注重学生的形成性评价，采用卷面闭卷考试和过程性学习相结合的办法，出勤成绩占20%,过程性评价成绩占30%,期末卷面成绩占50%。1 .出勤成绩：占20%o2 .过程性评价：作业、课堂表现、平常测验情况占30%。3,期末考试：占50%,采用闭卷考试的形式。本课程期末考试既重视基础知识、原理、基本方法的考核，也重视动手操作等能力的考核，还重视学生对知识综合程度和运用的考核。考试标准参照教学要求分为识记、理解、迁移与应用、综合四个层次。六、教学单元设计教学单元教学要点理论实践教学重点教学情境与教学设计建议学时爬

15、虫概述1 .课程认知2 .具备信息收集和信息处理能力3 ,具备自学能力，能适应行业的不断变革发展4 .具备一定的设计素养L能够初步了解爬虫的概念，了解爬虫的历史、发展、功能等 2 .了解现有的爬虫工具，使用爬虫工具爬取一次数据课堂讲解掌握爬虫工具的使用，简单的数据爬取项目用收集任务资讯，下发任务说明书和相关参考资料；分析任务要求，制定任务工作计划，确定工作方案；任务实施：讲解相应命令操作多媒体展示程序运行效果，说明标准，完整演示编程过程；组织讨论和总结8前置技能准备1 .python语言同顾2 .web开发基础回顾3 .具备一定的互联网和

16、网页知识1 .python语言同顾2 .web开发基础回顾3 ,具备一定的互联网和网页知识使用python编写一个程序，使用web开发一个网页掌握使用 python独立编写一个程序，使用web开发一个网页任务资讯，下发任务说明书和相关参考资料任务要求，制定任务工作计划，确定工作力果。实施：讲解相应命令操作多媒体展示程序运行效果，说明标准，完整演示编程过程4、技能实训，拓展知识组织讨论和总结233ullib实现网站下载1 .编写程序实现编码(GBK,UTF-8) 的自动识别与转换2 .存储网页到文件或数据库1 .搭建前端开发环境2 .搭建后端静态网页

17、3 .利用urllib下载后端网页课堂案例 ullib网页下载函数方法下载网页，实现编码的转换能够通过ullib 网页下载函数方法卜载网页，实现编码的转接提前下达任务书，让学生收集资料，展开前期的自学。任务分析和分解，规划任务方案。任务实施：技能实训和知识拓展44使用正则表达式获取网页数据1.使用正则表达式匹配并提取网页数据L正则表达式概念2 .正则表达式规则课堂案例使用正则表达式匹配并提取网页中的掌握根据功能组件的不同实现需求，使用正则表达式匹配并提取网页中的数据下达任务，让学生收集资料，展开前期的自学，摆出问题。分析和分解，规划任务方

18、案。24使用 beautiful soup T 具选择数据1 .使用 beautifulsoup 提取网页的数据2 .存储提取的数据1 .beautifulsoup 工具的使用课堂案例 beautifulsoup 工具选择数据，掌握 find_all 等常用方法掌握使用 beautifulsoup .T 具选择数据，掌握End_all等常用方法明确任务、根据用户需求进行分析；根据任务要求，个人站点页面6使用 xpath css选择数据1 .使用 xpathcss 提取网页的数据2 .存储提取的数据1 .Xpath 概述课堂案例 xpath a css 选择复杂的数据掌

19、握使用xpath css 选择复杂的数据明确任务、根据用户需求进行分析；根据任务要求，家庭生活照片6使用 scrapy 编写网页爬虫程序1 .揄S scrapy 开发环境2 . 建web后台网页3 .使用scrapy J型取网页文件4 .使用 xpath css 获取特征数据1 .Scrapy 概述课堂案例 scrapy网页爬取的工作流程爬取单个网页的某几个特征数掌握使用 scrapy网页爬取的工作流程爬取单个网页的某几个特征数据才耀scrapy开发环境搭建web后台网页完成使用scrapy爬取网页文件的案例完成使用xpath css 获取特征数据22

20、2使用 item pipeline 实现数据序列化与存储I.scrapy 开发环境2 . web 后台网页3 .使用scrapy爬取网页文件4 .使用 item、 pipeline提取与存储数据Litem、 pipeline 概述课堂案例 scrapy 中 pipeline 进行数据提取与数据存储掌握使用 scrapy 中 pipeline 进行数据提取与数据存储scrapy开发环境搭建web后台网页完成使用scrapy爬取网页文件完成使用item、 pipeline提取与存储数据44使用 scrapy 实现网页递归爬取1 .搭建scrapy开发环境2 .搭建web后台众多关联网页3 .使用scrapy爬取多层嵌套与关联的网页文L递归爬取数据概述课堂案例 scrapy 中 spider的网页递归爬取循环，实现数据的提取与存储掌握使用 scrapy 中 spider 的网页递归爬取循环，蝴;数据的提取与存储搭建scrapy开发环境搭建web众多关联网页完成使用scrapy爬取多层嵌套与关联的网页文完成使用xpath css2244.使用 item pipeline提取与存储数据获取特征数据

展开阅读全文