《网络数据采集技术概述.pptx》由会员分享,可在线阅读,更多相关《网络数据采集技术概述.pptx(12页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、网络爬虫简介网络爬虫简介爬虫与反爬技术目录目录爬虫技术数据采集流程网页分析动态页面抓取可视化爬虫爬虫框架案例反爬技术反爬技术及解决方案前言前言robots.txt:Robots协议被称为爬虫协议,或机器人协议。是国际互联网界通行的道德规范。User-agent:用于描述搜索引擎robot的名字;Disallow:禁止robot访问该网站的目录或文件;Allow:允许robot访问该网站的目录或文件;sitemap.xml/txt/html/.:Sitemaps协议使网站能够告知搜索引擎网站中可供抓取的网址。自动生成:更方便地了解一个网站的内容、布局、架构。主动提交:向百度、Google、雅虎、
2、和微软等提交,被搜索引擎收录。数据采集流程数据采集流程需求分析:业务类型/方向决定抓取策略和抓取频率。(干什么用)抓取内容:具体需要什么数据/字段。(怎么用)数据来源:数据来源于具体网站或其他。抓取方式:获取数据的方式、网页结构分析、API等。代码实现:自定义或开源爬虫框架。数据清洗:根据业务具体情况转换数据格式、类型,进行数据计算等。数据清洗分为入库前点清洗和入库后点清洗。数据存储:写文件或入库方式,远程数据入库,数据加密等。爬虫任务分发:分布式爬虫、多线程爬虫。反爬策略、日志管理、监控报警等。网页分析网页分析数据抓取方式网页移动网页移动客户端API网页解析正则XpathBeautiful
3、SoupJson格式解析网页编码动态页面抓取动态页面抓取JS渲染页面Web kitRender类Ajax请求IframeSelenium库重定向Status_codeHtml meta 的refreshjs可视化爬虫可视化爬虫Import.ioPortia八爪鱼集搜客造数BBD爬虫框架爬虫框架Scrapy框架:案例案例1:58同城同城-简历中心简历中心url:E7%AE%80%E5%8E%86%E4%B8%AD%E5%BF%83案例案例2:阿里巴巴:阿里巴巴-搜索搜索url:httpcee4baeec7f8.htmlSet-Cookie_csrf反爬技术反爬技术User_agent判断来源根据IP访问频率判断,封锁IP或者账号验证码识别Pillow库Tesseract库Numpy机器学习根据实际成本制定策略频繁变更网页结构非正常请求提供虚假信息(隐含输入字段或缺失参数)谢谢谢谢!