《Web信息采集系统的设计与实现(共9页).doc》由会员分享,可在线阅读,更多相关《Web信息采集系统的设计与实现(共9页).doc(9页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、精选优质文档-倾情为你奉上基于主题的Web信息采集系统的设计与实现李盛韬,赵章界,余智华(中国科学院计算技术研究所 软件研究室,北京 )摘 要:基于主题的Web信息采集是信息检索领域内一个新兴而有实用价值的方向,也是信息处理技术中的一个研究热点。本文分析了主题Web信息采集的基本问题,提出了难点以及相关的解决方案,并在此基础上设计实现了“天达”主题Web信息采集系统。关键词: 信息采集;信息检索;信息处理;主题Email: ; ; 中图分类号:TP391 文献表示码:A基金资助:中科院计算所领域前沿青年基金资助(资助号-8 )Design and Realization of Focused
2、Web CrawlerLI Sheng-tao,ZHAO Zhang-jie,YU Zhi-hua(Software Division, Institute of Computing Technology, Chinese Academy of Sciences, Beijing , China)Abstract: Focused web crawling is a new and practical direction in the field of information retrieval. And it also is a research hotspot in the informa
3、tion processing technologies. This paper argues the principles, difficulties and measures of the focused web crawler, and then detailedly analyses the design of our SkyReach focused web crawler. Key Words: Web Crawler;Information Retrieval;Information Processing; Focused Crawler 1.引言随着Internet的迅速发展,
4、网络正深刻地改变着我们的生活。截止到2000年7月,Internet上的网页数量就已经超过21亿,上网用户超过3亿,而且网页还在以每天700万的速度增加8。这给人们的生活提供了丰富的资源。然而,Web信息的急速膨胀,在给人们提供丰富信息的同时,又使人们在对它们的有效使用方面面临一个巨大的挑战。因此,基于Web的信息采集、发布和相关的信息处理日益成为人们关注的焦点。传统的Web信息采集的目标就是尽可能多地采集信息页面,甚至是整个Web上的资源,而在这一过程中它并不太在意页面采集的顺序和被采集页面的相关主题。这样做的一个极大好处是能够集中精力在采集的速度和数量上,并且实现起来也相对简单,例如Goo
5、gle采集系统在并行4个采集器时的采集速度可以达到每秒100页。但是,这种传统的采集方法也存在着很多缺陷。随着WWW信息的爆炸性增长,信息采集的速度越来越不能满足实际应用的需要。最近的试验表明,即使大型的信息采集系统,它对Web的覆盖率也只有30-40%。解决这一问题的办法有升级信息采集器的硬件设备、提高并行能力,但是它们的能力十分有限,带来的改善效果仍远不能满足人们的需要。主题采集则可以通过对整个Web按主题分块采集,并将不同块的采集结果整合到一起,来提高整个Web的采集覆盖率。对于传统的信息采集来说,待刷新页面数量的巨大使得很多采集系统刷新一遍需要数周到一个月的时间12,这使得页面的失效率
6、非常地巨大。Selberg和Etzioni在1995年的调查发现,通过Internet中最常用的一些搜索引擎查询到的结果URL中,14.9%的目标页面已经失效了5。一个好的缓解办法就是采用主题采集,通过减小采集页面的数量,从而减小刷新一遍的时间,进而减小已采集页面的失效率。传统的信息采集需要采集的页面数量十分巨大,这需要消耗非常多的系统资源和网络资源,而对这些资源的消耗并没有换来采集到页面的较高利用率,事实上,它们中有相当大的一部分利用率很低。基于主题的采集有效地提高了采集到页面的利用效率。为此,我们开展了主题Web信息采集技术的研究,并设计实现了“天达”主题Web信息采集系统。全文的组织是这
7、样的:第二章介绍主题Web信息采集的基本问题;第三章给出了“天达”主题Web信息采集系统的结构模型以及相关细节;在第四章里,我们给出了该系统的实现情况;最后,在第五章里展望了主题Web信息采集发展的动向。2.基于主题的Web信息采集的基本问题2.1基于主题的Web信息采集的定义 在Web信息采集的大家庭中,有一类非常重要,它就是基于主题的Web信息采集(Focused Crawling),也称为Topic-Specific Crawling,主要是指选择性地搜寻那些与预先定义好的主题集相关的页面进行采集的行为。2.2基于主题的Web信息采集的分类2.2.1广泛主题和具体主题的Web信息采集 按
8、照采集主题的范围和规模,基于主题的Web信息采集可分为广泛主题的Web信息采集和具体主题的Web信息采集。广泛主题是指那些涵盖面较宽,并且和其他主题相比有较强的独立性的一类主题。广泛主题的Web信息采集也称作领域Web信息采集。一般这类信息采集所需要采集的页面数量较多,为了达到较高的召回率,在进行URL过滤的时候所设定的阈值较低、限制较宽,因此它的页面内容也相对较杂。与之相对应,具体主题涵盖面较窄,意义较明确,采集规模也较小,一般进行URL过滤的时候所设定的阈值较高、限制较严。这类采集一般可直接服务于用户,提供更加灵活、针对性更强的服务。2.2.2固定主题和可变主题的Web信息采集按照采集时能
9、否指定主题,基于主题的Web信息采集分为固定主题的Web信息采集和可变主题的Web信息采集。顾名思义,固定主题的Web信息采集在采集前和采集的过程中都不能进行主题的变更。它一般是针对广泛主题和领域搜索引擎的,不直接服务于用户。可变主题的Web信息采集是指用户在采集前可设定采集主题、在采集过程中可改变主题的一种采集方式。这类采集往往设定的主题较具体,采集页面的规模也较小,提供给用户的操作方式比较灵活。另外,多个此类信息采集器进行合作,分别采集不同的主题,能够完成一些更高级和复杂的服务。2.3主题页面在Web上的分布特征 整个Web上的页面主题分布是混杂的,但同一个主题在Web上分布却有一些规律。
10、我们将这些分布规律总结为四个特性:Hub特性、Sibling/Linkage Locality特性、站点主题特性、Tunnel特性。2.3.1 Hub特性 美国康奈尔大学的教授Jon M. Kleinberg发现Web上存在大量的Hub页面,这种页面不但含有许多outlink链接(指出链接),并且这些链接趋向于相关同一个主题。也就是说,Hub页面是指向相关主题页面的一个中心。另外,他还定义了权威页面(authority)的概念,即其它许多页面都认为相关于这一主题有价值的好页面。好的Hub页面一般指向多个Authority的页面,并且所指向的Authority页面越权威Hub页面的质量也越好;反
11、过来,Hub页面的质量越好,它所指向的每个页面也趋向于越权威。我们把主题在Web上的这一特性称为Hub特性。2.3.2 Sibling/Linkage Locality特性在Hub特性的基础上,人们又提出了Sibling/Linkage Locality特性1。1).Linkage Locality,即页面趋向于拥有链接到它的页面的页面主题;2).Sibling Locality,对于链接到某主题页面的页面,它所链接到的其它页面也趋向于拥有这个主题。这实际上是Hub特性的变形,主要是从页面的设计者设计的角度考虑的。一个页面的设计者趋向于把本页面指向于与本页面相关的其他页面。我们把主题在Web上
12、的这一特性称为Sibling/Linkage Locality特性。2.3.3站点主题特性我们发现,一个站点趋向于说明一个或几个主题,并且那些说明每个主题的页面较紧密地在此站点内部链接成团,而各个主题团之间却链接较少。我们认为,这主要与网站的设计者的设计思路有关。每个网站在设计时都有目标,而这种目标往往就集中在一个或几个主题中。而网站的浏览者往往也有一定的目的性,这个目的性一般体现在用户趋向于浏览同一主题的页面。为了满足浏览者的这一需求,网站设计者需要将相关内容紧密地链接在一起。为了研究主题团特性,我们设计了实验:首先将站点内的链接分为六类(下行链、上行链、水平链、交叉链、外向链、框架链)、站
13、点内的页面分为四类(主页、索引页面、内容页面、参考页面),并为每一类链接和页面赋予不同的权重,然后通过为每个页面分类,并在站点内部结构特征的基础上,对站点页面树按照自底向上进行主题聚类9。试验结果证明了站点中存在着许多主题页面团。2.3.4 Tunnel特性在Web中还有一类现象,就是主题页面团之间往往需要经过较多的无关链接才能相互到达。这些无关链接就像一个长长的隧道,连接着两个主题团,因此我们把这种现象称为“隧道现象”(Tunnel)。在基于主题的页面采集过程中,Tunnel的存在极大地影响着采集的质量。为了提高采集页面的准确率,我们需要提高过滤相关性判定阈值,而阈值的提高将过滤掉大量的Tu
14、nnel,使得采集系统很可能丢失Tunnel另一端的主题团,进而影响了查全率(或者说资源发现率)。反过来,为了提高查全率,就得大量发现Tunnel,降低过滤相关性判定阈值,但是阈值的降低使得混进了大量的无关页面,从而大大降低了页面的准确率。这是一个两难问题,但关键还是不能有效地区别Tunnel和其它大量无关页面。事实上,两个主题团之间的隧道数也较少。2.3.5四个特性的关系Web中的页面对于主题来说是杂乱的,但也存在一些规律。Hub特性说明了主题容易成团出现的现象,Linkage/Sibling Locality特性进一步对成团的特性有所扩展,站点主题特性说明了主题团所在的位置(即大部分分布于
15、站点的内部),而Tunnel特征说明了主题团在Web 上的分布并不稠密。3. 基于主题的Web 信息采集系统模型3.1系统模型我们在国内外已有主题采集系统的基础上,设计了“天达”主题采集系统,其系统模型如图1所示。为实现对基于主题的信息自动采集,我们将整个处理过程分成七大模块:主题选择、初始URL选择、Spider采集、页面分析、URL与主题的相关性判定(链接过滤/链接预测)、页面与主题的相关性判定(页面过滤)、数据存储。3.2主题的选择为了有效地进行采集,主题信息采集系统所要解决的一个重要问题就是主题选择。针对随便的主题词可能较大地影响采集效果,系统一般提供给用户一个主题分类目录以供选择。为
16、了有效地确定用户选定主题的含义,用户要提供对主题的进一步描述,比如提供若干表达主题含义的文本,当然系统也会提供一些主题文本供用户选择。我们的系统就是按照中国图书馆的分类方法的第一级目录和二级目录对主题进行分类的,并在每个主题下配备了一些主题文本,以供用户选择。3.3采集起点的选择一般采集器是从一个种子URL集出发,通过Web协议向Web上所需的页面扩展的。基于主题的Web信息采集也不例外,也有一个起始采集的种子URL集。但是,它的采集起点选择却必须十分慎重,因为这将影响着采集的效率,尤其是刚开始采集的准确率。根据主题在Web上的Linkage/Sibling Locality特性,一般采集系统
17、需要选择质量较高的主题URL作为初始种子URL集。为此,我们采用我们的小金手元搜索引擎为每个主题搜索页面,搜索排名前50的URL作为每个主题目录下的种子URL。用户在设置主题采集时可以在这50个URL中进行选择,也可以将自己知道的好的主题URL输入进来,以提高采集的效果。 图13.4 Spider采集这个部分处于系统的底层,也叫“网络蜘蛛”,是系统专门与具体的Web打交道的部分。主要通过各种Web协议来自动采集Internet上WWW站点内有效的信息(包括文本、超链接文本、图象、声音等各类文档)。目前系统实现的主要是针对HTTP协议的。这一部分的主要任务是将全局URL队列中的URL分配给各个S
18、pider采集器,Spider采集器的个数根据系统的需要动态分配。抓取页面的算法如下:1) 分析页面URL,抽出目标站点地址和端口号,若无端口号设为HTTP默认端口80。判断该站点的连接方式设置,若设为直接连接则与该地址和端口建立网络连接;若设为穿越Proxy连接则与指定的Proxy地址和端口建立网络连接。2) 若建立网络连接失败,说明该站点不可达,中止抓取该页面并将其抛弃;否则继续下一步骤获取指定页面。3) 由页面URL组装HTTP请求头,若该站点需要用户标识和口令则将其填入请求头中,发送请求到目标站点。若超过一定时间未收到应答消息则中止抓取该页面并将其抛弃;否则继续下一步骤分析应答消息。4
19、) 分析应答头,判断返回的状态码: 若状态码为2xx,返回正确页面,进入步骤5); 若状态码为301或302,表示页面被重定向,从应答头中提取出新的目标URL,转入步骤3); 若状态码为其它,说明页面连接失败,中止抓取该页面并将其抛弃。5) 从应答头中提取出日期、长度、页面类型等页面信息。若设置了页面抓取限制,进行必要的判断和过滤,抛弃不符合要求的页面。6) 读取页面的内容。对于长度较大的页面,采用分块读取再拼接的方法保证页面内容的完整。至此该页面的抓取完成。3.5页面分析在页面采集到以后,我们要从中提取出链接、元数据、正文、标题、摘要来,以便进行后续的过滤和其它处理。我们在这里主要介绍链接和
20、标题的提取。3.5.1 链接的提取对抓取到的页面需要分析其中的链接,并对链接中的URL进行必要的转换。首先判别页面类型,显然只有类型为“text/html”的页面才有必要分析链接。页面的类型可由应答头分析得出,有些WWW站点返回的应答信息格式不完整,此时须通过分析页面URL中的文件扩展名来判别页面类型。遇到带有链接的标记如、等,就从标记结构的属性中找出目标URL,并从成对的该标记之间抽取出正文作为该链接的说明文字(扩展元数据)。这两个数据就代表了该链接。对一个页面中的链接提取工作流程如下:1) 从页面文件队列中取出一个页面文件,如果应答头中未说明文件类型,根据URL中的文件扩展名补充完整。如果
21、页面文件队列为空,跳转到7)。2) 判断页面是否为text/html/htm/shtml文件,如果不是,抛弃此文件,转入1),否则转入3)。3) 从文件头按顺序读取文件,遇到如下标记 等,记录其中的URL连接。如果遇到文件结束符,则跳转到7)4) 将提取出来的URL链接按照预先定义的统一的格式补充完整。(页面链接中给出的URL可以是多种格式的,可能是完整的、包括协议、站点和路径的,也可能是省略了部分内容的,或者是一个相对路径)5) 记录下 等后面对此链接的说明信息。在URL与主题的相关性判定那一章中,我们要用到此信息,并把它定义为扩展元数据。6) 存储此URL及其扩展元数据,跳转到2)。7)
22、页面URL提取完毕。3.5.2 标题的提取如图2所示,页面中标题的提取分为三步:1).判断正文开始的位置,从文章开头开始,逐段扫描,直到某一段长度不小于设定的正文最小长度,就假定这段为正文中的一段。2). 由正文位置向前搜索可能是标题的一段,根据字体大小、是否居中、颜色变化等特征找出最符合的一段文字作为标题。3). 由所给参数调整标题所在的段,使标题提取更准确。句法、语义、统计分析标题段stTitlePara的前后几段,以准确确定标题段的真实位置;向前或向后调整几段,追加前一段或后一段。 图 23.6 URL与主题的相关性判定为了有效地提高基于主题的Web信息采集的可靠性(查全率和查准率的综合
23、)和效率,系统需要在采集过程中增加过滤机制,以使得采集的页面能够向主题靠拢。过滤方法主要有四种:根据元数据的过滤、根据扩展元数据的过滤、根据链接分析的过滤、根据页面内容语义的过滤。元数据方法需要人们在设计页面时增加许多原来不需要的Meta信息,而这一点对设计者要求过高,因此目前此方法并不实用。根据页面语义的过滤,需要对整个文本进行相关度计算,速度较慢,不能符合人们实时性的要求,扩展元数据方法主要是利用链接周围的Meta信息来预测所链到的页面主题,尽管可靠性不如根据页面语义方法高,但有较好的实时性。因此,我们的系统采用了综合扩展元数据方法和链接分析方法的IPagerank方法。也就是说,我们的方
24、法是进行URL与主题的相关性判定。按照高预测值优先采集、低预测值(小于设定阈值)被抛弃的原则进行剪枝处理。这样可以大大减少采集页面的数量,有效地提高主题信息搜索的速度和效率。3.6.1 扩展元数据的含义:尽管目前元数据演算(在HTML中增加的一类标记,记作 )并不理想,人们却发现利用其它HTML标记anchor等信息能够有效的指导检索和基于主题的信息采集。为了与元数据相区别,我们把这些标记信息统称为HTML扩展元数据,相应的计算叫做扩展元数据演算。3.6.2 扩展元数据方法:相关性权重算法(Relevance Weighting or RW) 公式1其中,M(url)指与此URL相关的所有扩展
25、元数据集合,是指扩展元数据中的一个词与主题的相关度。c为用户设定的相关性阈值。一般的扩展元数据方法是看扩展元数据中是否包含主题词或者主题词的同义词,这样会漏掉许多相关页面;而RW方法则是看扩展元数据中词与主题词之间的相似度,同义词之间的相似度100%,近义词之间的相似度50%100%,远义词之间的相似度0%50%,这样大大降低了漏判相关页面的可能性,同时也增加了错判相关页面(不相关的页面判断为相关页面)的可能性,它的相关与否是通过阈值来决定的(大于等于阈值为相关,小于阈值为不相关)。3.6.3 链接分析方法:PageRank算法PageRank是著名搜索引擎Google的一个重要检索算法,它有
26、效的帮助搜索引擎识别那些重要的页面并且将它们排在检索结果的前列。Google是美国斯坦福大学计算机科学系研究开发的一个大型搜索引擎。它的设计目标是提供千万页面级的搜索引擎,每天可以应付数以百万计的查询请求,并且,最重要的是提供了相对令人满意的检索结果。此方法的公式是这样定义的:给定一个网页A,假设指向它的网页有T1,T2,Tn。令C(A)为从A出发指向其它网页的链接数目,PR(A)为A的PageRank,d为衰减因子(通常设成0.85),则有 公式23.6.4 IPageRank算法通过观察我们发现:尽管PageRank方法对发现重要页面有很强的能力,但是它发现的重要页面是针对广泛主题的,而不
27、是基于一个具体的主题。因此,一个被大量无关于主题的页面群指向的页面的PageRank值就比一个由少量相关于主题的页面群指向的页面的PageRank值高,这个现象对基于主题的采集来说是不合理的。但是,对于一个被大量相关于主题的页面群指向的页面的PageRank值高于一个由少量相关于主题的页面群指向的页面的PageRank值这个现象来说,我们却要加以利用。为此,我们对PageRank方法进行了改进:在链接关系的基础上,加入一定的语义信息权重,以使得所产生的重要页面是针对某一个主题的,这就形成了IPageRank算法。IPageRank算法既利用了PageRank发现重要页面的优势,又利用RW算法提
28、高链接的相关性。改进公式如下: 公式3其中,A为给定的一个网页,假设指向它的网页有T1,T2,Tn。urlT1,urlT2,urlTn分别是网页T1,T2,Tn指向A的链接, k1,k2,kn分别是网页T1,T2,Tn中所含的链接数。IPR(A)为A的IPageRank值,d为衰减因子(也设成0.85)。IPageRank的实际意义可以用主题浏览者来解释。假设Web上有一个主题浏览者,IPageRank(即函数IPR(A)是它访问到页面A的概率。它从初始页面集出发,按照页面链接前进,从不执行“back”操作。在每一个页面,浏览者对此页面中的每个链接感兴趣的概率是和此链接与主题的相关性成比例的。
29、当然浏览者也有可能不再对本页面的链接感兴趣,从而随机选择一个新的页面开始新的浏览。这个离开的可能性设为d。从直观上看,如果有很多页面指向一个页面,那么这个页面的PageRank就会比较高,但IPageRank值不一定很高,除非这很多的页面中大部分都为与主题相关的页面;如果有IPageRank很高的页面指向它,这个页面的IPageRank也会很高。3.7页面与主题的相关性判定为了进一步提高采集页面的准确率,需要对已采集的页面进行主题相关性评价,也就是页面过滤。通过对评价结果较低的页面(小于设定的阈值)剔除,来提高所采集主题页面的准确率。我们采取的方法就是基于关键词的向量空间模型算法。算法如下:0
30、).预处理:在采集之前,我们先将描述主题的多个页面进行关键词的提取和加权,学习到属于该主题的特征向量及向量的权重。1).我们对页面的正文进行分词,除去停用词,留下关键词。并按照关键词在文章中出现的频率,对关键词加权。2).将此页面的标题分词,并将得到的关键词与文章中的关键词合并,并加重权于这个关键词上。3).根据主题中的特征向量对页面中的关键词进行修剪和扩充。4).根据公式9.3计算出页面与主题的相似度其中D1为主题,D2为待比较的页面。 公式45).根据Sim(D1,D2)值的大小和阈值d进行比较,如果Sim(D1,D2)大于等于d,则页面与主题相关,保留到主题页面库中;否则不相关,删除此页
31、。3.8数据存储主要有三种数据库需要存储,它们是主题页面库、全局URL队列和中间信息记录库。主题页面库主要存放采集器采集的并经过页面过滤处理后的主题页面。全局URL队列则是存放从采集到的页面中提取出来的URL的地方,这些URL在进入URL队列前必须经过URL预测处理,只有被预测为指向主题相关页面的链接才能进入全局URL队列。在插入队列时,也要根据URL与主题的预测相关性的大小排序,相关性越高,排序越前。为了有效的进行URL与主题的性关性判定和页面与主题的相关性判定流程,显然需要许多中间处理结果,比如使用IPageRank算法时每个页面所拥有的IPageRank值,所有的这些中间数据,保存在中间
32、信息记录库中。4系统的实现4.1系统基本情况“天达”主题Web信息采集系统是在中科院计算所领域前沿青年基金课题“构筑个性化信息空间的基础模型研究”的资助下设计的。我们对预测算法和系统的基本性能进行了测试,取得了令人满意的结果。系统是在原有基于站点采集的“天罗”采集系统的基础上改进实现的。“天罗”信息采集系统是一个采集性能较高的实用系统,它是我们Internet/Intranet智能导航平台、搜索引擎、采集转播、内容安全、报警平台、主机攻击等项目的核心和基础,也是一个能力强大的采集系统,能够采集包括Web网页、FTP文件、Web聊天、Web BBS、以及Telnet BBS等多种信息。4.2系统
33、测试结果4.2.1测试集的选择我们选择了旅游信息作为主题进行测试,收集了旅游主题网站20个,并加入了60个无关网站组成测试集,其中共含超过20000个页面。4.2.2算法测试我们用相同的初始URL集合,分别用广度优先算法、PageRank算法、IPageRank算法、对数据进行采集。为了有效地得到各个方法的准确效果,我们在实验中暂停了页面与主题相关性判定模块。在实验中,我们分别记录下采集页面数为500,1000,1500,4000时的页面数量及状态,并及时的计算出采集准确率和资源发现率。 图 34.2.3性能测试我们的测试平台为一台CPU为Intel PIII 800、内存为128兆、操作系统
34、为Window2000 Professional的计算机,在采集时候,系统的采集端设置了10个线程,采用的URL预测算法为IPageRank。所测试的性能指标包括最终采集页面的准确率、采集页面的资源发现率、内存的占用大小,测试结果如图4所示。 图 45.结束语随着人们对Web服务种类和质量要求的提高,我们展开了基于主题的Web信息采集技术的研究,并设计了一个实际系统。在原有技术的基础上,我们又设计出许多独具特色的新算法,比如Spider采集、标题提取、URL主题预测以及页面与主题相关性的判定,特别地,我们对著名的Google算法进行了改进,以使得它即适合基于主题的采集,又保持了原来的优势。实验
35、表明基于主题的采集优势是明显的。随着Web服务朝个性化方向的迈进、Agent技术的发展、迁移式思想的出现,单纯的为了检索的Web信息采集技术必将向着基于主题以及个性化主动信息采集服务方向全方位拓展。参考文献1Aggarwal et al. 2001 C. Aggarwal, F. Al-Garawi and P. Yu. Intelligent Crawling on the World Wide Web with Arbitrary Predicates. In Proceedings of the 10th International WWW Conference, Hong Kong,
36、May 2001.2Brin & Page 1998 S. Brin and L. Page. The Anatomy of a Large-Scale Hypertextual Web Search Engine. In Proceedings of the Seventh International World Wide Web Conference, Brisbane, Australia, April 1998. 3M.Diligenti et al. 2000 M. Diligenti, F. M. Coetzee, S. Lawrence, C. L. Giles and M. G
37、ori Focused Crawling Using Context Graphs. VLDB Conference. 20004Menczer et al. 2001 F. Menczer, G. Pant. P. Srinivasan and M. Ruiz.Evaluating Topic-Driven Web Crawlers, In Proceedings of the 24th Annual International ACM/SIGIR Conference, New Orleans, USA, 2001.5Selberg&Etzioni 1995 Erik Selberg an
38、d Oren Etzioni. “Multi-Service Search and Comparison Using the MetaCrawler”. In Proc. 4th World Wide Web Conference, Boston, MA USA, December 19956SMB 1999 Soumen Chakrabarti,Martin van den Berg,Byron Dom,”Focused Crawling: A New Approach to Topic-Specific Web Resource Discovery”. Proceedings of the
39、 8th World-Wide Web Conference,1999,Canada.7李盛韬 2002 李盛韬. Web信息采集研究进展 计算机科学,2002.8徐泽平 2001 徐泽平. “数据挖掘在Internet信息检索中的应用”硕士论文D.北京:中科院计算所 20019余智华 1999 余智华. “WWW站点的分析与分类” 硕士论文D.北京:中科院计算所1999作者简介:李盛韬(1976-),男,甘肃兰州人,硕士研究生,主要研究方向:智能Agent,信息采集,信息检索,文本分类;赵章界(1976-),男,安徽人,博士研究生,主要研究方向:信息检索,数据挖掘余智华(1974-),男,湖北人,博士研究生,项目主管,主要研究方向:信息检索与分类,个性化推送模型;专心-专注-专业