Web新闻自动采集发布系统的设计与实现.pdf-淘文阁

资源描述

《Web新闻自动采集发布系统的设计与实现.pdf》由会员分享，可在线阅读，更多相关《Web新闻自动采集发布系统的设计与实现.pdf（4页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第 1 9卷第 9 期 2 0 0 9年 9 月计算机技术与发展 V o 1 1 9 N o 9 C OMP U TE R T E C HNO L OG Y A ND D E VE L OP ME NT S e p 2 0 0 9 We b新闻自动采集发布系统的设计与实现张春元，康耀红，伍小芹(海南大学信息科学技术学院，海南海口 5 7 0 2 2 8)摘要：针对新闻网站通过人工方式采集发布来自其它网站的 we b 新闻费时费力、易重采与漏采这一问题，综合运用 We b 信息采集技术、网页去噪技术、文本文档消重技术以及文本自动分类技术设计并实现了一种基于网络爬虫

2、的 We b新闻自动采集发布系统。在给出系统总体结构的基础上，对其各个模块的功能、设计与实现方法进行了详细介绍。实验表明，该系统设计合理，具有采集效率高、消重准确、集成方便、运行费用低等优点，可作为新闻网站的采编工具加以推广使用。关键词：网络爬虫；网页去噪；文档消重；We b 新闻发布中图分类号：TP 3 9 1 3 文献标识码：A 文章编号：1 6 7 36 2 9 X(2 0 0 9)0 90 2 5 00 4 De s i g n a nd I mpl e me nt a t i o n o f W e b Ne ws Au t o ma t i c a l l y Ga

3、t he r i ng a n d Pub l i s hi n g S y s t e m Z HANG Ch u n y u a n，KANG Ya o-h o n g，WU Xi a o-q i n (I n s t i t u t e o f I n f o r ma t io n S c i e n c e a n d Te c h n o l o g y，Ha i n a n Un i v e r s i t y，H a i k o u 5 7 0 2 2 8，C h i n a)Ab s t r a c t：Ne ws s i t e s ma n u a l l y g a t

4、 h e r an d p u b l is h ，e b n e ws f r o m o t h e r s it e s，wh i c h i s in e f f i c i e n t and e a s y t o r e p e a t e d l yll ect o r n fi s s s o me n e ws To s o l v e t h i s p r o b le mu s in g W e b i n f o r ma t i o n f e t c h i ng t e c h n o l o g yW e b p a g e s n o i s e s e

5、l imi mt in g t e c hn o l o g y，r e pli c a t ed t e x t d o c u me nt s e l imi n a t in g t e c hno l o g y and a uto ma t i c t e x t c la s s if i c a t io n t e c h n o k gyare b n e ws a u t o ma t i c a l l y g a t h e r i n g a n d p u b l i s hin g s yst e m i s d e s ign e d and i mp l e

6、me n t ed Th e wh o l e s t r u c t u r e o f t h e s y s t e m is p r e s e n t ed，an d t h e n t h e w min f u n c t i o n a nd d esig n me t h o d o f i t s e a c h mo d u l e a r e i n t r o du c ed Th e e x p e r i me n t s h o ws i t s d e s ign i s r e a s o n a b l e，an d c r a wl i n g e f

7、f i c i e n c y i s h i g h，and e l i mi nat i n g r e p l i cat e d d o c u me n t s i s a c c u r a t e，a n d i n t e g r a t in g in t o a n e w s i t e is e a s y，a n d o per a t i o n c o s t i s lo w，an d i t c a n b e u s e d a s t h e g a t h e。ing an d edi t i n g t o o l o f n e ws s i t e

8、 s wi d e l y Ke y wo r d s：We b c r a wl e r；W e b p a ge s n o i s e s e l i mina t io n；r e p l i c a t e d d o c u me n t s e l imi n a t i o n；We b v i e ws p u b l i s h i ng 0 引言目前，不少新闻网站仍然依靠网络编辑从其它网站手工采集各种新闻信息来丰富自己的内容，这种方式发布的 we b 新闻虽然具有较高的质量，但是费时费力。为了即时转发有价值的新闻，网络编辑们需要花费大量时间频繁

9、浏览各大新闻网站；多名编辑一同采编时，由于缺乏统一的协作平台，还比较容易出现新闻信息的重复采集或者漏采。针对这一问题，笔者参与设计并实现了一种基于 C r a wl e r 的 We b 新闻自动采集发布系统。该系统通过网络爬虫对用户指定网站区域下的 We b 新闻网页增量采集，经解析、消重、分类处理后保存至新闻网站的数据库中，可以 7 2 4小时自动采集发布 We b 新闻，也可作为新闻网站编辑人员的日收稿日期：2 0 0 81 22 3；修回日期：2 0 0 9一O 32 1 基金项目：海南省自然科学基金项目(8 0 6 3 8)作者简介：

10、张春元(1 9 7 3 一)，男，湖北武汉人，讲师，硕士，研究方向为信息检索与数据挖掘。常采编工作平台。1 系统设计 1 1系统结构图 l 为 We b 新闻自动采集发布系统结构图，整个系统由虚线框内各模块组成。也可将系统处理后的新闻文档保存到系统外部待集成新闻网站的数据库中，完成 we b 新闻的自动发布。下面将逐一介绍系统各模块的功能和设计思想。1 2 增量式 C r a w l e r C r a w l e r 即网络爬虫，又称网络蜘蛛(S p i d e r)、网络机器人(R o b o t)等，主要用来采集各种 We b 信息资源，本系统所采用的增量式

11、 C r a w l e r 是一种介于主题网络爬虫和个性化网络爬虫之间的轻量级采集系统。我们注意到，大多数新闻网站或者包含新闻信息服务的综合性门户网站设计比较规范，分类也比较清晰，同类别的新闻网页一般放在同一子目录下；另外，第 9期张春元等：We b 新闻自动采集发布系统的设计与实现 2 5 1 新闻网页大多具有一定的时效性，一经发布以后基本上不会再被更新。因此，我们的 C r a w l e r 只需对系统管理员所设定的采集区域中新近发布的新闻网页进行增量式采集，主题型网页(具体定义见 1 3节)采集过后将不再作周期性更新采集。例如打算

12、采集网易发布的体育新闻，只需将 C r a wl e r 的采集对象限定为 UR L 以 h t t p：s p o r t s 1 6 3 c o m”为前缀的网页即可，如表 1 所示。一般来说，每日上午 9至 l 2时是各大网站发布新闻的高峰时间，其余时间则较少发布甚至零发布。针对这一情形，C r a w l e r 将根据被采集区域上一个工作日的新闻发布情况自适应地调整各种子网页当日的采集时间，具体方法为：刚开始 C r a w l e r 从 6：0 0至 2 4：0 0 对各采集限定区域每隔 1 小时设定一个采集时间点并采集一次，若某采集限定区域在某

13、采集时间点被采集的网页数量为 0，则该区域该时间点失效；若某采集限定区域在某失效时间点的后一个采集时间点被采集的网页数量大于 0，则恢复该区域该失效采集时间点。图 1 We b 新闻自动采集发布系统结构图表 1 C r a w l e r 采集参数设定表自动采类别采集限定区域种子网页分类集时间 6：o o 体育 h t t p：z p o r t s 1 6 3 0 0 r n h t t p：s p o r m 1 6 3 o a a 否 8：0 0 h t t p：ww w h i n e w s c a h t t p：w w w h i n e w s

14、e n 6：0 0 体育否 n v s t i y u n e ws 1i y u i n d e x s h t ml 8：0 0 6：0 0 热点 h r t p：n e w s 1 6 3 t o m h r t p：n e w s 1 6 3 e o m 是 7：0 0 h t t p：w ww h in e w s c n h t t p：w w w h i n e w s o n 6：0 0 热点是 n e ws s y s t n n e ws in d e x s h t ml 8：0 0 1 3 删。解析器 H T ML解析器实际上是增量式 G r a w l e r

15、的一个组成部分，为了讨论的方便，将它从 C r a wl e r 中独立出来。HT ML解析器主要用来对 C r a w l e r 采集得到的网页源文件进行解析，从中提取出 UR L与网页正文内容，另外对一些做了分页处理的网页进行内容合成。在解析过程中，将待解析网页分为两种类型进行处理：类是 Hu b型网页，这类网页主要用来提供网页导航，是超链接聚集的网页，本系统 C r a wl e r 的种子网页就属于此类型；另一类是主题型网页，这类网页大多通过文字或图片描述一件或多件事物来表达一定的主题，本系统采集到的新闻网页绝对多

16、数属于这种类型。H u b 型网页比较容易识别，解析时只需提取出 U R L；主题型网页解析除了需要提取出 UR L外，还要提取出正文内容。H T ML解析器从网页源文件提取 UR L比较简单，提取出来的 U RL经规范化处理后如果在采集限定区域之内且尚未被采集，就将其作为待采集任务加入到 U R L数据库中供 C r a w l e r 采集。H T ML解析器从主题型网页源文件提取正文内容则比较复杂，主要是由于其中往往夹杂着导航信息、广告信息、评论信息等噪声内容。国内外关于网页噪声内容的去除已提出了许多方法 3-9】，在去噪声过程中大多采用了基于块和 D O

17、M树的分析方法。在文献 7 9 的基础上，通过机器自学习方式构建解析模板库来完成主题型新闻网页正文内容的提取。解析模板库建立的具体思路是：首先，将来自同一网站的网页按 U R L组织成一棵 U RL树，如图 2 所示，底层黑色结点为网页结点，其余为目录结点。需要说明的是，对于诸如“h t t p：w w w h a i n a n e o m a p p n e w s v i e w j s p?I d=1 8 7”这种类型的 U R L，其网页结点为“I d=1 8 7”，而非“v i e w j s p?I d=1 8 7”。然后，从 U R L树中选取两张互

18、为兄弟网页结点的网页(以下简称“兄弟网页”)，根据网页中的 H T ML标记生成两棵 D O M 树(如图 3所示)。对主题型兄弟网页而言，它们的 I X3 M树剔除内容结点(如图 3中的黑色结点)后通常具有相同的组织结构。比较兄弟网页的 D O M树结构，如果相同，对其中一棵 I X)M 树深度优先遍历得到一个标签序列(剔除内容结点)，记为 s t r u c t u r e T a g S e q，再采用基于块分析的网页去噪算法【8 和 D S E算法】对两棵 D O M树作进一步分析，确定正文内容提取的标签序列，记为 c o n t e n t T a g S e

19、 q。s t r u c t u r e T a g S e q和 e o n t e n t T a g S e q一起构成了兄弟网页的解析模板，将其保存在 U R L树中相应的目录结点上。如果两棵 D 0 M 树不相同，则意味着兄弟网页的父目录下存在多个解析模板，需重新选取兄弟网页来生成解析模板。最后，检查 U RL树，如果兄弟目录结点的解析模板一致，就将其解析模板保存到它们的父目录结点上，兄弟目录结点及其网页结点 2 5 2 计算机技术与发展第 l 9卷予以删除。UR L树经修剪后，可能仍存在部分叶子结点为网页结点，将其仍旧保存在 U R L树中，当 C r

20、a w l e r 为其采集到合适的兄弟网页后，再生成新的解析模板。解析模板库随着 H T ML解析器对主题型新闻网页的不断解析而逐步得以建立与完善。在 H T ML解析器中，一张新闻网页的解析过程为：H T ML解析器首先根据其 UR L在 UR L树中查找是否有相应的解析模板存在，如果存在，将该网页转换成 I X)M 树，进一步利用s t r u c t u r e T a g S e q查找是否存在标签结构相同的模板，如果存在则利用该模板的 c o n t e n t T a g S e q 完成网页正文内容的提取；如果 H TML

21、解析器在 U RL树中没有为待解析网页找到合适的解析模板，则将该网页作为网页结点添加到 U R L树中，直到建立起新的模板再进行正文内容的提取。图 3 HTML文档生成 DOM 树示例 1 4 文档消重器互联网上一些相对重要的新闻通常会被众多网站转载，故 C r a w l e r 采集到新闻网页中存在不少内容雷同的页面，文档消重器就是对这些网页进行过滤。当前基于文档内容的消重算法大多是在对文档内容进行分析的基础上，从中抽取出一定数量的特征项，按一定规则组成特征串进行数字签名，然后以此来判断文档内容是否雷同；或者直接利用两篇文档的特征

22、项集合的相似度实现文档查重 3,1 0-1 1 。文档消重器具体设计思路是：在待查重文档中的逗号、句号前后各取 2 个汉字或字符作为特征项，按它在文档中出现的顺序连接起来组成特征串，然后与新闻文档库中的文档进行比较，如果某文档的特征串与该特征串连续相同的字符数超过一定比例，就认为该文档与已有文档内容重复，停止后续处理并且不予对外发布。这种方法在构建特征串时具有较高效率，但在查重时需与新闻文档库中的文档逐一比较，因而计算量较大。考虑到新闻具有一定的时效性，转载大多集中在_两天内，超过一周的转载非常少；部分网页在转载过程中虽然作了一些修改，但主要集中在标题和首段上，文档字符

23、数变化并不是太大，因此可对文档消重器做如下效率优化：从新闻文档库中按时间顺序由近及远取一周内对外发布的文档进行比较，且只比较特征串长度差值在 2 0以内的文档。1 5 文本分类器考虑到大多数新闻网页已经做了良好的分类，为了提高系统的运行效率，只对一些需要重新分类的网页进行分类，由系统管理员在 C r a w l e r 采集参数设定表中进行设定。近年来，国内外针对文本自动分类技术的研究一直非常活跃，这方面成果也比较丰富L 3 1。在文本分类器中，选用搜狐研发中心提供的文本分类语料库 x 2 J 作为训练样本集，采用正向最大匹配法进行中文分词，用 C

24、 HI 算法 1 3】提取类别特征向量。对一个待分类的新闻文档，首先对其作分词处理，然后转换成文档特征向量，再采用传统向量夹角余弦公式计算其与各类别特征向量的相似度，以此确定所属类别，最后将其保存至新闻文档库和系统外部待集成的新闻网站数据库中。1 6 系统管理模块系统管理模块是整个系统的控制中心，系统管理员在此设置 C r a w l e r 的采集及运行参数、查看解析模板库、管理文本分类语料库、对文本分类器进行训练、查看或修改新闻文档库中的文档。2 实验结果整个系统采用纯 J a v a实现，分类语料库、新闻文档库选用 My S Q L 5 1 数据库保存，为了提高

25、系统性能，UR L数据库、解析模板库选用 B e r k e l e y 数据库(J a v a 版)实现。C r a w l e r 通过线程池来管理活动线程，为了不给被采集网站带来太大的负担，将属于同一采集限定区域的采集任务放在同一个队列中，当此队列中有一个 UR L被取出之后，该队列就会进入阻塞状态，直至被取出 U R L对应的网页被处理完后才从阻塞状态中恢复。采用 1台联想 T h i n k C e n t r e P C机(C P U为奔腾双核 1 6 G Hz，内存为 2 G B，硬盘 7 2 0 0 r mi n，Wi n d o w s X P 操作

26、系统，带宽 1 Mb s)对系统性能进行测试，得到表 2 和表 3所示测试数据。在多个采集限定区域情形下，系统的平均下载速度达到了 9 6 3 9 k B s，基本接近最大带宽；在单一采集限定区域采集情形下，系统的下载速度此时与带宽大小基本没有关系，只与被采集网站服务器的响应速度和网页平均大小有关。对近50家新闻网站各新闻子栏目每日发布新闻数量进行统计，发现大多数在50条以下，即便是网易这样的大型网站，其国内新闻频道每日发布新闻的数量平时也不超过200条，每小时发布新闻数量一般多在20条以下。由此不难推知，新闻采集发布系统在现有条件下，具备对500个限定采集区域进行日常采集

27、的能力。从表3数据来看，系统的消重性能比较理想，分类性能则有待进一步提高。另外，从系统自动采集发布的we b新闻结果中随机抽取了300张网页人工检查，发现系统完全正确抽取出正文内容的网页达到了97，夹杂有噪声的网页占3，没有发现不包含正文内容网页，表明系统能较好地完成新闻网页的正文提取。袁2新闻采集发布系统采集性能测试数据活动线网页平均平均下下载网页测试内容程数量下载数量载速度平均大小多个限定区域501057396393282采集能力测试PageshkB sk BPage单一限定区域12978372324采集能力测试1PageshkBskB P运e表3新闻采集发布系统消重及分类性

28、能测试数据测试内容平均查全率平均查准率文档消重器消重性能975985文本分类器分类性能751723 3结束语设计并实现了一种Web新闻自动采集发布系统，该系统能自动对用户指定网站区域的we b新闻进行采集、去噪、消重、分类与发布，可以非常方便地与现有新闻类网站系统集成。从实际运行效果来看，该系统总的来说具有较高的性能，可大幅提高新闻网站的Web新闻采集与发布效率，降低网站的运营成本。但是系统在采集种子与采集限定区域的设置上对用户要求较高、对于正文内容下方夹杂有用户评论的网页去噪还不完善、文本分类模块的查全率与查准率也有待进一步提高，这些将是下一步工作的重点。

29、参考文献：1李盛韬基于主题的Web信息采集技术研究D北京：中国科学院，20022刘金红，陆余良主题网络爬虫研究综述J计算机应用研究，2007，24(10)：26293李晓明，闫宏飞，王继民搜索引擎原理、技术与系统M北京：科学出版社，200543GuptaS，Kais erG，NeistadtD，eta1DO MBasedContentction0fHTMLDocumentsC Pr oce ecofthe12thInter nationalConferenc eonw o r ldWideWebNewYork：ACMPres s，2003：20721453C AI De n g，YUShip

30、eng，WenJirong，eta1ExtractingCo ntentStructureforWebPagesbasedonV isualRepr esentafionCProceedingofthe5thAsiaPacificWebC onfer enc eBerlin：SpringerVerlag，2003：4064 176ZhengS h蛳，SongRuihua，WenjiRongTemplateIndependentNew sExtractonBas edonV isualConsistency【c27 fThe22ndConferenceonArtificialImel ligen

31、ceVancouver：AA A IPr ess2007：150715117欧健文，董守斌，蔡斌模板化网页信息的提取方法J清华大学学报：自然科学版，2005，4(S1)：1743174 78刘晨曦，吴扬扬一种基于块分析的网页去噪音方法J广西师范大学：自然科学版，2007，25(2)：1491529】WA NGJiying，LochovskyFHDatarichSectionExtractionfr omHT MLPagesCPr oceedingsof3rdInter nationalC o nference onWe bInfor mationSystem sEnginee_dngSinga

32、pore：IFb 2FComputerSociety2002：1一l O10白广慧网页排重技术研究与应用D北京：中国科学院，20061 13吴平博，陈群秀基于特征串的大规模中文网页快速去重算法研究J中文信息学报，2003，17(2)：283512搜狐研发中心搜狗文本分类语料库EBO L2008ht tp：w ww)gOUoomlabsdlchtml13王倩倩，段震，张燕平基于交叉覆盖算法的文本分类J计算机技术与发展，2007，17(6)：113115关于推荐2009年CCF优秀博士学位论文的通知为推动中国计算机领域的科技进步，鼓励创新性研究，激励计算机领域的博士研究生

33、潜心钻研，务实创新，解决计算机领域中需要解决的理论和实际问题，使做出优秀成果的年轻学者获得同行认可并有成就感，中国计算机学会(CC F)自2006年起设优秀博士学位论文奖。2009年度优秀博士学位论文推荐工作已经启动。具体参评条件和约束条件见“C C F优秀博士学位论文奖条例”(http：一，、wccforgcn之关于cC F规则与条例)。C CF优秀博士学位论文推荐表(必须有作者答辩时所在单位(如系、院、所等)负责人签字、单位盖章，可在http：v wccforgcnwebres ourcetuijianbia odoe下载)。联系人：韩玉琦电话：01062601340朱征瑜电话：0106256250316邮寄地址：北京2704信箱中国计算机学会邮编：100190

展开阅读全文