网络爬虫原理与实战ppt课件.pptx

上传人:飞****2 文档编号:28996223 上传时间:2022-07-29 格式:PPTX 页数:9 大小:285.91KB
返回 下载 相关 举报
网络爬虫原理与实战ppt课件.pptx_第1页
第1页 / 共9页
网络爬虫原理与实战ppt课件.pptx_第2页
第2页 / 共9页
点击查看更多>>
资源描述

《网络爬虫原理与实战ppt课件.pptx》由会员分享,可在线阅读,更多相关《网络爬虫原理与实战ppt课件.pptx(9页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、CompanyLOGO网络爬虫原理与实战23 13 3美女图片抓取实例如何解析HTML网络爬虫基本原理3网络爬虫基本原理 请求资源 Http Post/Get 解析HTML Jsoup获取资源 图片.下个资源下载资源 HttpClient4Java中的JQuery = JSoup getElementById(String id) 用id获得元素 getElementsByTag(String tag) 用标签获得元素 getElementsByClass(String className) 用class获得元素 getElementsByAttribute(String key) 用属性获得

2、元素 用下面方法获得元素的数据:attr(String key) 获得元素的数据 attr(String key, String value) t设置元素数据 attributes() 获得所以属性 id(), className() classNames() 获得id class得值 text()获得文本值 text(String value) 设置文本值 html() 获取html html(String value)设置html outerHtml() 获得内部html tagname 操作tag ns|tag ns或tag #id 用id获得元素 .class 用class获得元素 a

3、ttribute 属性获得元素 attr: 以attr开头的属性 attr=value 属性值为value attr=value, attr$=value, attr*=value attr=regex正则 *:所以的标签 选择组合el#id el和id定位 el.class e1和class定位 elattr e1和属性定位 ancestor child ancestor下面的child Jsoup官方网站 http:/jsoup.org/相关学习资http:/ input = new File(/example.html);Document doc = Jsoup.parse(input, UTF-8);/ 取得class=big的img对象Elements elements = doc.select(imgclass=big);/取得class=big的img对象elements = doc.getElementsByClass(big);/ 取得ID= img001的对象Element element = doc.getElementById(img001);6让我们来抓取一个帖子中的几张图片http:/

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 教案示例

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁