2022年网页搜集 .pdf-淘文阁

资源描述

《2022年网页搜集 .pdf》由会员分享，可在线阅读，更多相关《2022年网页搜集 .pdf（3页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、2011 级八班胡国辉S11085211012 简述搜索引擎网页搜集原理搜索引擎是应用在web 上的软件系统，它以一定的策略搜集和发现信息，再对信息进行处理和组织后为用户提供web 信息查询服务。搜索引擎分三个大模块：网页搜集，预处理和查询服务。本文主要是简述搜索引擎的第一大模块：网页搜集。搜索引擎网页搜集过程并不是在用户提交关键词后进行及时的搜索，而是预先将网页搜集好并进行相关的处理之后等待用户的查询。面对大量的用户查询，不可能每来一个查询系统就到网上“搜索”一次。大规模的搜索引擎是将一批预先搜集好的网页进行管理和维护。如何维护?有两种基本的方法。(1)定期搜集法每次搜集替换上一次的内容，

2、我们称之为“批量搜集”。由于每次都是重新来一次，对于大规模搜索引擎来说，每次搜集的时间通常会花费几周的时间。这样做的开销比较大，通常两次搜集的间隔时间也很长。这种方法的好处是系统实现比较简单，缺点是时实性不高还有重复搜集所带来的额外带宽的消耗。(2)增量搜集法最初时搜集好一批数据以后只是搜集新出现的网页和改变的网页并删除不再存在的网页。除了新闻网站外，许多网页的内容并不是经常变化的，这样一来每次搜集的网页量不会很大，于是可以经常进行搜集。30 万个网页一台PC 机在一般的网络条件下半天也就搜集完了。这样的系统表现出来的信息时实性就会比较高.主要缺点是系统实现比较复杂。实际上网页搜集的过程是从U

3、RL 库(初始时包含用户指定的起始种子URL 集合，可以是 1 个或多个 )获得输入，解析URL 中标明的 Web服务器地址、建立连接、发送请求和接收数据，将获得的网页数据存储在原始网页库，并从其中提取出链接信息放入网页结构库，同时将待抓取的URL 放入 URL 库，保证整个过程的递归进行，直到URL 库为空。搜索引擎为了提供检索服务，需要保存网页原文。网页搜集子系统不但要能够获取以 .html, .htm, .txt 结尾的 URL 对应的网页，还应该能够获取不是以.html 结尾的 URL，比如 .pdf，.doc，因为 .pdf，.doc 等文件可以通过转换程序生成为.html或者.tx

4、t 文件，同样为搜索引擎提供检索服务。作为搜索引擎的起始流程，搜集的网页要按照一定的格式存储，便于后续组织和提供服务。搜索引擎会定义url 类和page类，其中 url 类的实现主要是解析出net_loc(表示网络位置，包括主机名和端口号)部分，用于组成消息体，发送给服务器。有了URL，搜集系统就可以按照URL 标识抓取其所对应的网页。网页信息保存在 Page类中，Page类主要完成两个任务，解析网页头信息和提取链接信息。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页，共

5、3 页 - - - - - - - - - 与服务器建立连接：已经从URL 中获得了服务器的主机名，要能够从服务器上获取网页内容，还需要客户端进程与服务端进程建立连接。UDP 和 TCP的通信采用 Socket 方法实现， Socket为进程间通信提供了端点。通信由消息组成，消息是在一个进程的 Socket与另一个进程 Socket之间传送的。在与服务器建立连接的时候，使用了非阻塞连接，超过定时，就放弃。采用 HTTP 1.1 协议时，抓取程序不主动关闭Socket通道。这样，当Web服务器支持持续连接，后续该网站的网页请求就可以利用已经建立的Socket 通道进行，可以节省时间和网络带宽。

6、如果服务器不支持持续连接，使用已经建立的 Socket通道会报错，此时需要重新建立连接。服务端接受搜集端发送的请求消息后，先返回一个 HTTP 头信息 (称“ 网页头信息 ”)，其中包含文件类型，大小，最后修改时间等内容。接着是两个 “ n” ，表现为一个空行，然后返回HTTP 体信息，其中包含网页的全文内容。网页头信息获取后，进行解析：根据返回码，判断Web服务器是否针对该请求转向，如果转向，应该重新组装消息体发送请求；根据传输类型，网页体的大小，申请内存空间准备接收，如果超出预定接收大小，放弃该网页；根据网页类型，判断是否获取该网页。如果满足获取条件，继续进行网页体信息的获取。在具体搜

7、集过程中，如何抓取一篇篇的网页，可以有不同的考虑。最常见的一种是所谓“爬取”。具体过程是，将 Web上的网页集合看成是一个有向图。搜集过程从给定起始URL 的集合 S(或者说“种子” )开始，沿着网页中的链接按照先深、先宽或者某种别的策略遍历。不停的从S 中移除 URL，下载相应的网页，解析出网页中的超链接URL，看是否已经被访问过，将未访问过的那些URL 加人集合 S，整个过程可以形象地想象为一个蜘蛛(Spider)在蜘蛛网上爬行。另外一种可能的方式是在第一次全面网页搜集后，系统维护相应的U RL 集合 S。往后的搜集直接基于这个集合。每搜到一个网页，如果它发生变化并含有新的 URL，则将它

8、们对应的网页也抓回来，并将这些新URL 也放到集合 S 中。如果 S 中某个 UHL 对应的网页不存在了，则将它从S 中删除。这种方式也可以看成是一种极端的先宽搜索。即第一层是一个很大的集合，往下最多只延伸一层。还有一种方法是让网站拥有者主动向搜索引擎提交它们的网址。系统在一定时间内向那些网站派出“ 蜘蛛”程序，扫描该网站的所有网页并将有关信息存人数据库中。大型商业搜索引擎一般都提供这种功能。网页搜集大多采用多道搜集程序并行工作。针对搜索引擎应用的搜集程序通常是在同一个局域网内的多台机器，每个机器多个进程并发的工作。这样一方面可以利用局域网的高带宽，低延时，各节点充分交流数据。另一方面采用多进

9、程并发方式降低 Internet高延迟的副作用。这种方式加快了 Web 信息的搜集，但是要名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页，共 3 页 - - - - - - - - - 避免多个gather 重复的收集网页，还要避免由于同一时间内与同一服务器连接过多而给服务器端造成的严重性能问题。很多情况下会造成网页的重复搜集，造成重复搜集的原因，一方面是搜集程序没有清楚记录已经访问过的URL，另一方面是由于域名与 IP 多重对应关系造成的。Gather 访问了一个网页后，

10、会对它进行分析，提取出新的URL，将之加入到待访问列表中，如此递归地访问 Web。因此定义两个表， “ 未访问表 ” 和“ 已访问表 ” 。“ 未访问表 ” 中存储准备取入待访问队列的URL，“ 已访问表 ” 中存储已经请求过网页的 URL。除了存储上述 “ 已访问表 ” 和“ 未访问表 ” 的摘要信息，还存储了已经获取网页内容的摘要信息。域名与 IP 的对应关系存在4 种情况：一对一，一对多，多对一，多对多。一对一不会造成重复搜集，后三种情况都有可能造成重复搜集。一个真正的系统其实是多个“蜘蛛”同时在爬。这种方法实现起来不算困难，但需要注意的是在实现过程中通过一定的策略，使搜集到的某些网

11、页相对比较 “重要” 。我们知道任何搜索引擎是不可能将Web上的网页搜集完全的，通常都是在某些条件的限制下来结束搜集的过程(如磁盘满，或者搜集时间已经太长了)。因此就有了一个尽量使搜到的网页比较重要的问题，这对于那些并不追求很大的数量盖率的搜索引擎特别重要。那么如何首先搜集重要的网页？一个好的搜集策略是优先搜集重要的网页，以便能够在最短的时间内把最重要的网页抓取过来。对于网页重要程度的评定，要依据搜集信息所针对的不同应用而定。从而信息的搜集可以采用不同的策略。根据搜集经验，体现网页重要度的特征有：1) 网页的入度大，表明被其他网页引用的次数多；2) 某网页的父网页入度大；3) 网页的镜像度高，说明网页内容比较热门，从而显得重要；4) 网页的目录深度小，易于用户浏览到。多数重要度高的网页会同时具有上述4 个特征，即上述表示重要度特征的因素并非独立无关的。蜘蛛爬行的时候也会进行简单的复制内容检测，如果遇到权重很低的网站上大量转载或抄袭内容时，很可能不再继续爬行，这也是很多权重低的网站页面更新的很多很快但却没有被收录的原因之一名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页，共 3 页 - - - - - - - - -

展开阅读全文