《北邮毕设答辩-网络爬虫设计及算法研究优秀PPT.ppt》由会员分享,可在线阅读,更多相关《北邮毕设答辩-网络爬虫设计及算法研究优秀PPT.ppt(20页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、网络爬虫设计及相应算法探讨网络爬虫设计及相应算法探讨姓名:指导老师:无忧无忧无忧无忧PPTPPT整理发布整理发布整理发布整理发布项目介绍项目介绍1完成内容完成内容4选题背景选题背景2主要工作主要工作3总结及展望总结及展望5无忧无忧无忧无忧PPTPPT整理发布整理发布整理发布整理发布项目名称:项目名称:网络爬虫设计及相应算法探讨网络爬虫设计及相应算法探讨 The Research and Design of Web Crawler项目类别:软件探讨设计类项目类别:软件探讨设计类项目来源:科研项目项目来源:科研项目项目简介项目简介1无忧无忧无忧无忧PPTPPT整理发布整理发布整理发布整理发布项目介
2、绍项目介绍1完成内容完成内容4选题背景选题背景2主要工作主要工作3总结及展望总结及展望5无忧无忧无忧无忧PPTPPT整理发布整理发布整理发布整理发布 搜寻引擎介绍:互联网的快速发展,使得网上信息越来越多,搜寻引擎正是为了解决在浩瀚的信息海洋中快速高效的找寻信息的问题。搜寻引擎是通过互联网搜寻信息的重要途径,涉及到多个领域的理论和技术,具有很高的综合性和很强的挑战性。本课题探讨的内容是搜寻引擎的关键部分网络爬虫。选题背景选题背景2无忧无忧无忧无忧PPTPPT整理发布整理发布整理发布整理发布 网络爬虫介绍:网络爬虫是搜寻引擎系统中特别重要的组成部分,它负责从互联网中搜集网页、采集信息,这些网页信息
3、用于建立索引从而为搜寻引擎供应支持,它确定着整个引擎系统的内容是否丰富,信息是否即时,因此其性能的优劣干脆影响着搜寻引擎的效果。选题背景选题背景2无忧无忧无忧无忧PPTPPT整理发布整理发布整理发布整理发布 网络爬虫的基本原理:1)从一个初始URL集合中选择一个URL,下载该URL对应的页面;2)解析该页面,从该页面中抽取出其包含的URL集合,接下来将抽取的URL集合再添加到初始URL集合中;3)重复前两个过程,直到爬虫达到某种停止标准为止。选题背景选题背景2无忧无忧无忧无忧PPTPPT整理发布整理发布整理发布整理发布项目介绍项目介绍1完成结果完成结果4选题背景选题背景2主要工作主要工作3总结
4、及展望总结及展望5无忧无忧无忧无忧PPTPPT整理发布整理发布整理发布整理发布 学习爬虫的基本技术学习爬虫的基本技术网页抓取技术网页去重技术多线程技术 主要工作主要工作3无忧无忧无忧无忧PPTPPT整理发布整理发布整理发布整理发布网页抓取技术网页抓取技术宽度优先遍历算法和广度优先算法宽度优先遍历算法和广度优先算法PageRankPageRank算法算法基于链接的搜寻算法基于链接的搜寻算法主要工作主要工作3无忧无忧无忧无忧PPTPPT整理发布整理发布整理发布整理发布网页去重技术网页去重技术Bloom Filter 算法错误率估计最优哈希函数个数位数组大小主要工作主要工作3无忧无忧无忧无忧PPTP
5、PT整理发布整理发布整理发布整理发布多线程技术多线程技术多线程半同步/半异步并发模式多线程的问题主要工作主要工作3无忧无忧无忧无忧PPTPPT整理发布整理发布整理发布整理发布项目介绍项目介绍1完成结果完成结果4选题背景选题背景2主要工作主要工作3总结及展望总结及展望5无忧无忧无忧无忧PPTPPT整理发布整理发布整理发布整理发布设计实现爬虫系统,并对系统性能就以下两方面进行比较分析:在测试时间、最大连接数等基本参数相同的状况下,通过给爬虫系统设置不同的多线程数进行页面抓取,并对结果进行比较分析。在测试时间、恳求线程数、页面抓取线程数等基本参数相同的状况下,通过变更爬虫系统的最大页面连接数进行页面
6、抓取,并对结果进行比较分析。完成结果完成结果4无忧无忧无忧无忧PPTPPT整理发布整理发布整理发布整理发布1.测试爬虫在测试时间、最大连接数等基本参数相同的状况下,接受单线程或多线程方式抓取页面的速度,结果如下表:2.测试爬虫系统在测试时间、恳求线程数、页面抓取线程数等基本参数相同的状况下,接受不同的并行连接数抓取页面的速度,结果如下表:完成结果完成结果4无忧无忧无忧无忧PPTPPT整理发布整理发布整理发布整理发布1.测试爬虫在测试时间、最大连接数等基本参数相同的状况下,接受单线程或多线程方式抓取页面得到的表格绘制曲线图如下:从图中可以看出,在多线程的状况下,爬虫系统的效率的确有所提高,但是提
7、高的效果并不特别明显。而理论上,多线程的抓取效率应当是要明显高于单线程的,但是由于测试是在单CPU机器上进行的,所以效率的提高并不能很好的体现出来。完成结果完成结果4无忧无忧无忧无忧PPTPPT整理发布整理发布整理发布整理发布1.测试爬虫系统在测试时间、恳求线程数、页面抓取线程数等基本参数相同的状况下,接受不同的并行连接数抓取页面得到的表格绘制曲线图如下:从图中可以看出,在其他条件相同的状况下,最大并行连接数对爬虫的爬取效率的影响比较大。当最大连接数从16变更到32时,抓取效率提高了将近1倍,之后又渐渐趋于平缓。这是因为系统的线程数限制了抓取效率。在相同的HTTP恳求和页面抓取的线程数的条件下
8、,在确定的范围内,最大连接数越高,爬虫效率也越高,当超过某一范围,爬虫的效率会趋于平稳。完成结果完成结果4无忧无忧无忧无忧PPTPPT整理发布整理发布整理发布整理发布项目介绍项目介绍1完成结果完成结果4选题背景选题背景2主要工作主要工作3总结及展望总结及展望5无忧无忧无忧无忧PPTPPT整理发布整理发布整理发布整理发布总结:总结:1、完成了爬虫系统的学习与设计;、完成了爬虫系统的学习与设计;2、探讨比较了相关算法;、探讨比较了相关算法;3、对系统结果进行了比较分析。、对系统结果进行了比较分析。展望:展望:1、爬虫系统效率仍旧比较低;、爬虫系统效率仍旧比较低;2、爬取的信息不够精确;、爬取的信息不够精确;3、还有很多爬虫算法有待学习和探讨。、还有很多爬虫算法有待学习和探讨。总结及展望总结及展望5