网络爬虫原理与实战ppt课件.pptx-淘文阁

资源描述

《网络爬虫原理与实战ppt课件.pptx》由会员分享，可在线阅读，更多相关《网络爬虫原理与实战ppt课件.pptx（9页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、CompanyLOGO网络爬虫原理与实战23 13 3美女图片抓取实例如何解析HTML网络爬虫基本原理3网络爬虫基本原理请求资源 Http Post/Get 解析HTML Jsoup获取资源图片.下个资源下载资源 HttpClient4Java中的JQuery = JSoup getElementById(String id) 用id获得元素 getElementsByTag(String tag) 用标签获得元素 getElementsByClass(String className) 用class获得元素 getElementsByAttribute(String key) 用属性获得

2、元素用下面方法获得元素的数据：attr(String key) 获得元素的数据 attr(String key, String value) t设置元素数据 attributes() 获得所以属性 id(), className() classNames() 获得id class得值 text()获得文本值 text(String value) 设置文本值 html() 获取html html(String value)设置html outerHtml() 获得内部html tagname 操作tag ns|tag ns或tag #id 用id获得元素 .class 用class获得元素 a

3、ttribute 属性获得元素 attr: 以attr开头的属性 attr=value 属性值为value attr=value, attr$=value, attr*=value attr=regex正则 *:所以的标签选择组合el#id el和id定位 el.class e1和class定位 elattr e1和属性定位 ancestor child ancestor下面的child Jsoup官方网站 http:/jsoup.org/相关学习资http:/ input = new File(/example.html);Document doc = Jsoup.parse(input, UTF-8);/ 取得class=big的img对象Elements elements = doc.select(imgclass=big);/取得class=big的img对象elements = doc.getElementsByClass(big);/ 取得ID= img001的对象Element element = doc.getElementById(img001);6让我们来抓取一个帖子中的几张图片http:/

展开阅读全文