《Web新闻自动采集发布系统的设计与实现.pdf》由会员分享,可在线阅读,更多相关《Web新闻自动采集发布系统的设计与实现.pdf(4页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第 1 9卷第 9 期 2 0 0 9年 9 月 计 算 机 技 术 与 发 展 V o 1 1 9 N o 9 C OMP U TE R T E C HNO L OG Y A ND D E VE L OP ME NT S e p 2 0 0 9 We b新 闻自动采集发布 系统的设计与实现 张春元,康耀红,伍 小芹(海南大学 信息科 学技术学院,海南 海 口 5 7 0 2 2 8)摘要:针对新闻网站通过人工方式采集发布来自其它网站的 we b 新闻费时费力、易重采与漏采这一问题,综合运用 We b 信息采集技术、网页去噪技术、文本文档消重技术以及文本自动分类技术设计并实现了一种基于网络爬虫
2、的 We b新闻 自 动采集发布系统。在给出系统总体结构的基础上,对其各个模块的功能、设计与实现方法进行了详细介绍。实验表明,该 系统设计合理,具有采集效率高、消重准确、集成方便、运行费用低等优点,可作为新闻网站的采编工具加以推广使用。关键词:网络爬虫;网页去噪;文档消重;We b 新闻发布 中图分类 号:TP 3 9 1 3 文献标 识码:A 文章 编号:1 6 7 36 2 9 X(2 0 0 9)0 90 2 5 00 4 De s i g n a nd I mpl e me nt a t i o n o f W e b Ne ws Au t o ma t i c a l l y Ga
3、t he r i ng a n d Pub l i s hi n g S y s t e m Z HANG Ch u n y u a n,KANG Ya o-h o n g,WU Xi a o-q i n (I n s t i t u t e o f I n f o r ma t io n S c i e n c e a n d Te c h n o l o g y,Ha i n a n Un i v e r s i t y,H a i k o u 5 7 0 2 2 8,C h i n a)Ab s t r a c t:Ne ws s i t e s ma n u a l l y g a t
4、 h e r an d p u b l is h ,e b n e ws f r o m o t h e r s it e s,wh i c h i s in e f f i c i e n t and e a s y t o r e p e a t e d l yll ect o r n fi s s s o me n e ws To s o l v e t h i s p r o b le mu s in g W e b i n f o r ma t i o n f e t c h i ng t e c h n o l o g yW e b p a g e s n o i s e s e
5、l imi mt in g t e c hn o l o g y,r e pli c a t ed t e x t d o c u me nt s e l imi n a t in g t e c hno l o g y and a uto ma t i c t e x t c la s s if i c a t io n t e c h n o k gyare b n e ws a u t o ma t i c a l l y g a t h e r i n g a n d p u b l i s hin g s yst e m i s d e s ign e d and i mp l e
6、me n t ed Th e wh o l e s t r u c t u r e o f t h e s y s t e m is p r e s e n t ed,an d t h e n t h e w min f u n c t i o n a nd d esig n me t h o d o f i t s e a c h mo d u l e a r e i n t r o du c ed Th e e x p e r i me n t s h o ws i t s d e s ign i s r e a s o n a b l e,an d c r a wl i n g e f
7、f i c i e n c y i s h i g h,and e l i mi nat i n g r e p l i cat e d d o c u me n t s i s a c c u r a t e,a n d i n t e g r a t in g in t o a n e w s i t e is e a s y,a n d o per a t i o n c o s t i s lo w,an d i t c a n b e u s e d a s t h e g a t h e。ing an d edi t i n g t o o l o f n e ws s i t e
8、 s wi d e l y Ke y wo r d s:We b c r a wl e r;W e b p a ge s n o i s e s e l i mina t io n;r e p l i c a t e d d o c u me n t s e l imi n a t i o n;We b v i e ws p u b l i s h i ng 0 引 言 目前,不少新闻网站仍然依靠网络编辑从其它网 站手工采集各种新闻信息来丰富 自己的内容,这种方 式发布的 we b 新 闻虽然具有较高 的质量,但是 费时费 力。为了即时转发有价 值的新 闻,网络 编辑们需 要花 费大量时间频繁
9、浏览各大新闻网站;多名编辑一同采 编时,由于缺乏统一的协作平 台,还 比较容易出现新 闻 信息的重复采集或者漏采。针对这一问题,笔者参与 设计并实现了一种基 于 C r a wl e r 的 We b 新 闻 自动采集 发布系统。该系统通过网络爬虫对用户指定网站区域 下的 We b 新闻网页增量采集,经解析、消重、分类处理 后保存至新闻网站的数据库中,可以 7 2 4小时自动 采集发布 We b 新 闻,也可作 为新 闻 网站编辑人员 的 日 收稿 日期:2 0 0 81 22 3;修 回日期:2 0 0 9一O 32 1 基金项 目:海南省 自然科学基金项 目(8 0 6 3 8)作者简介:
10、张春元(1 9 7 3 一),男,湖北武汉人,讲师,硕士,研究方向 为信息检索与数据挖掘。常采 编工作 平台。1 系统设计 1 1系统结构 图 l 为 We b 新闻自动采集发布系统结构图,整个 系统由虚线框内各模块组成。也可将系统处理后的新 闻文档保存到系统外部待集成新闻网站的数据库中,完成 we b 新闻的 自动发布。下面将逐一介绍系统各 模块的功能和设计思想。1 2 增量式 C r a w l e r C r a w l e r 即网络爬虫,又称网络蜘蛛(S p i d e r)、网 络机器人(R o b o t)等,主要用来采集各种 We b 信息资 源,本 系统 所采 用 的增 量式
11、 C r a w l e r 是 一种介 于 主题 网络爬 虫和个性化 网络爬虫 之间 的轻 量级采集系 统。我们注意到,大多数新 闻网站或者包含新闻信息 服务的综合性门户网站设计比较规范,分类也比较清 晰,同类别的新闻网页一般放在同一子 目录下;另外,第 9期 张春元等:We b 新闻自动采集发布系统的设计与实现 2 5 1 新闻网页大多具有一定的时效性,一经发布以后基本 上 不会再 被更 新。因此,我 们 的 C r a w l e r 只需 对 系 统 管理员所设定的采集区域中新近发布的新闻网页进行 增量式采集,主题型网页(具体定义见 1 3节)采集过 后将不再作周期性更新采集。例如打算
12、采集网易发布 的体育新闻,只需将 C r a wl e r 的采集对象限定为 UR L 以 h t t p:s p o r t s 1 6 3 c o m”为前缀 的网页 即可,如表 1 所示。一般来说,每 日上午 9至 l 2时是各大网站发布 新闻的高峰时间,其余 时间则较少发布甚至零发 布。针对这一情形,C r a w l e r 将根据被采集区域上一个工作 日的新 闻发 布情况 自适应地 调整 各种子网页 当 日的采 集时间,具体方法为:刚开始 C r a w l e r 从 6:0 0至 2 4:0 0 对各采集限定区域每隔 1 小时设定一个采集时间点并 采集一次,若某采集限定区域在某
13、采集时间点被采集 的网页数量为 0,则该区域该时间点失效;若某采集限 定区域在某失效时间点的后一个采集时间点被采集的 网页数量大于 0,则恢复该区域该失效采集时间点。图 1 We b 新 闻 自动采 集发 布 系统结构 图 表 1 C r a w l e r 采集参数设定表 自动采 类别 采集限定区域 种子网页 分类 集时间 6:o o 体育 h t t p:z p o r t s 1 6 3 0 0 r n h t t p:s p o r m 1 6 3 o a a 否 8:0 0 h t t p:ww w h i n e w s c a h t t p:w w w h i n e w s
14、e n 6:0 0 体育 否 n v s t i y u n e ws 1i y u i n d e x s h t ml 8:0 0 6:0 0 热点 h r t p:n e w s 1 6 3 t o m h r t p:n e w s 1 6 3 e o m 是 7:0 0 h t t p:w ww h in e w s c n h t t p:w w w h i n e w s o n 6:0 0 热点 是 n e ws s y s t n n e ws in d e x s h t ml 8:0 0 1 3 删。解析器 H T ML解 析器实际上是 增量式 G r a w l e r
15、 的一个 组 成部分,为了讨论 的方便,将它从 C r a wl e r 中独立 出 来。HT ML解析器主要用来对 C r a w l e r 采集得到的网 页源文件 进行 解 析,从 中提 取 出 UR L与 网 页正 文 内 容,另外对 一些 做 了分页 处 理 的网页 进 行 内容合 成。在解析过程中,将待解析网页分为两种类型进行处理:类是 Hu b型网页,这类网页主要用来提供 网页导 航,是超链接聚集的网页,本系统 C r a wl e r 的种子网页 就属于此类型;另一类是主题型网页,这类网页大多通 过文字或图片描述一件或多件事物来表达一定的主 题,本系统采集 到的新 闻网页绝对多
16、数属于这种类型。H u b 型网页比较容易识别,解析时只需提取出 U R L;主题型 网页解 析除了需要提取 出 UR L外,还要提取 出 正文 内容。H T ML解析器从 网页源文件提取 UR L比较简 单,提取出来的 U RL经规范化处理后如果在采集限定 区域之内且尚未被采集,就将其作为待采集任务加入 到 U R L数据库中供 C r a w l e r 采集。H T ML解析器从主题型网页源文件提取正文 内 容则 比较复杂,主要是由于其中往往夹杂着导航信息、广告信息、评论信息等噪声内容。国内外关于网页噪 声内容的去除已提出了许多方法 3-9】,在去噪声过程 中大多采用了基于块和 D O
17、M树的分析方法。在文献 7 9 的基础上,通过机器自学习方式构建解析模板 库来完 成主题型新 闻网页正 文内容 的提取。解析模 板 库建立的具体思路是:首先,将来 自同一网站的网页按 U R L组织成一棵 U RL树,如图 2 所示,底层黑色结点 为网页结点,其余为 目录结点。需要说明的是,对于诸 如“h t t p:w w w h a i n a n e o m a p p n e w s v i e w j s p?I d=1 8 7”这种类型的 U R L,其网页结点为“I d=1 8 7”,而非“v i e w j s p?I d=1 8 7”。然 后,从 U R L树 中选取 两张互
18、 为兄弟网页结点的网页(以下简称“兄弟 网页”),根据 网页中的 H T ML标记生成两棵 D O M 树(如 图 3所 示)。对主题型兄弟网页而言,它们的 I X3 M树剔除内 容结点(如图 3中的黑色结点)后通常具有相同的组织 结构。比较兄弟网页的 D O M树结构,如果相同,对其 中一棵 I X)M 树深度优先遍历得到一个标签序列(剔 除内容结点),记为 s t r u c t u r e T a g S e q,再采用基于块分 析的网页去噪算法【8 和 D S E算法 】对两棵 D O M树作 进一步分析,确定正文内容提取的标签序列,记为 c o n t e n t T a g S e
19、 q。s t r u c t u r e T a g S e q和 e o n t e n t T a g S e q一 起 构 成了兄弟网页的解析模板,将其保存在 U R L树中相应 的目录结点上。如果两棵 D 0 M 树不相同,则意味着 兄弟网页的父 目录下存在多个解析模板,需重新选取 兄弟网页来生成解析模板。最后,检查 U RL树,如果 兄弟 目录结点的解析模板一致,就将其解析模板保存 到它们的父目录结点上,兄弟 目录结点及其网页结点 2 5 2 计算机技术与发展 第 l 9卷 予以删除。UR L树经修剪后,可能仍存在部分叶子结 点为网页结点,将其仍旧保存在 U R L树中,当 C r
20、a w l e r 为其采集到合适的兄弟网页后,再生成新的解析模板。解析模板库随着 H T ML解析器对主题型新闻网页的 不断解析而逐步 得 以建 立与完 善。在 H T ML解 析器 中,一 张新 闻 网页 的解析 过程 为:H T ML解 析器 首先 根据其 UR L在 UR L树 中查找是否有相应 的解析模板 存在,如果存 在,将该 网 页转换成 I X)M 树,进 一 步利 用s t r u c t u r e T a g S e q查找是否存在标签结构相 同的模 板,如果存在则利用该模板的 c o n t e n t T a g S e q 完成网页 正文内容的提取;如果 H TML
21、解析器在 U RL树中没 有为待解析网页找到合适的解析模板,则将该 网页作 为网页结点添加到 U R L树中,直到建立起新的模板再 进行正文 内容 的提取。图 3 HTML文 档 生 成 DOM 树 示例 1 4 文档 消重器 互联 网上一些相对重要的新 闻通常会被众多网站 转载,故 C r a w l e r 采集到新闻网页 中存在不少内容雷 同的页面,文档消重器就是对这些 网页进行过滤。当前基于文档内容的消重算法大多是在对文档内 容进行分 析的基础上,从 中抽取出一定数量 的特征项,按 一定规则组成特征 串进行数字 签名,然 后 以此 来判 断文档内容是否雷同;或者直接利用两篇文档的特征
22、项集合的相似度实现文档查重 3,1 0-1 1 。文档消重器 具体设计思路是:在待查重文档中的逗号、句号前后各 取 2 个汉字或字符作为特征项,按它在文档中出现的 顺序连接起来组成特征串,然后与新闻文档库中的文 档进行比较,如果某文档的特征串与该特征串连续相 同的字符数超过一定比例,就认为该文档与已有文档 内容重复,停止后续处理并且不予对外发布。这种方 法在构建特征串时具有较高效率,但在查重时需与新 闻文档库中的文档逐一比较,因而计算量较大。考虑 到新闻具有一定的时效性,转载大多集中在_两天内,超过一周的转载非常少;部分网页在转载过程 中虽然 作了一些修改,但主要集中在标题和首段上,文档字符
23、数变化并不是太大,因此可对文档消重器做如下效率 优化:从新闻文档库中按时间顺序 由近及远取一周内 对外发布的文档进行 比较,且只比较特征串长度差值 在 2 0以内的文档。1 5 文本 分类器 考虑到大多数新闻网页已经做了良好的分类,为 了提高系统的运行效率,只对一些需要重新分类的网 页进行分类,由系统管理员在 C r a w l e r 采集参数设定 表 中进行设定。近年来,国内外针对文 本 自动分 类技术 的研究 一 直非常活跃,这方面成果也 比较丰富L 3 1。在文本分类 器中,选用搜狐研发中心提供的文本分类语料库 x 2 J 作 为训 练样本集,采用正 向最大匹配法进行 中文分词,用 C
24、 HI 算法 1 3】提取类别特征向量。对一个待分类的新 闻文档,首先对其作分词处理,然后转换成文档特征向 量,再采用传统向量夹角余弦公式计算其与各类别特 征向量的相似度,以此确定所属类别,最后将其保存至 新闻文档库和系统外部待集成的新闻网站数据库中。1 6 系统管理模块 系统管理模块是整个系统的控制中心,系统管理 员在此设置 C r a w l e r 的采集及运行参数、查看解析模 板库、管理文本分类语 料库、对 文本分类 器进行 训练、查看或修改新闻文档库中的文档。2 实验结果 整个系统采用纯 J a v a实现,分类语料库、新闻文 档库选用 My S Q L 5 1 数据库保存,为了提高
25、系统性 能,UR L数据库、解析模板库选用 B e r k e l e y 数据库(J a v a 版)实现。C r a w l e r 通过线 程池来 管理活 动线程,为 了不给被采集网站带来太大的负担,将属于同一采集 限定区域的采集任务放在同一个队列中,当此队列中 有一个 UR L被取出之后,该 队列就 会进入 阻塞状态,直至被取出 U R L对应的网页被处理完后才从阻塞状 态中恢 复。采用 1台联想 T h i n k C e n t r e P C机(C P U为奔腾双 核 1 6 G Hz,内存为 2 G B,硬盘 7 2 0 0 r mi n,Wi n d o w s X P 操作
26、系统,带宽 1 Mb s)对系统性能进行测试,得到表 2 和表 3所示测试数据。在多个采集 限定区域情形 下,系统的平均下载速度达到了 9 6 3 9 k B s,基本接近 最大带宽;在单一采集限定区域采集情形下,系统的下 载速度此时与带宽大小基本没有关系,只与被采集网 站服务器的响应速度和网页平 均大小有关。对近50家新闻网站各新闻子栏目每日发 布新闻数量进 行统计,发现大多数在50条以下,即便是网易这样的大型网站,其国内新闻频道每日发布新 闻的数量平时也不超过200条,每小 时发布新闻数量一般多在20条以下。由此不难推知,新闻采集发布系统在现有条件下,具备对500个限定采集区域进行日常采集
27、的能力。从表3数据来看,系统的消重性能比较理想,分类性能则有待进一步提高。另外,从 系统自动采集发布 的we b新闻结果中随机抽取了300张 网页人工检查,发现 系统完全正确抽取出正文内容的网页达到了97,夹杂有噪声 的网页占3,没有发现 不包含正文内容网页,表明系统能较好地完成新 闻网页的正文提取。袁2新闻采集发布系统采集性能测试数据活动线网页平均平均下下载网页测试内容程数量下载数量载速度平均大小多个限定区域501057396393282采集能力测试PageshkB sk BPage单一限定区域12978372324采集能力测试1PageshkBskB P运e表3新闻采集发布系统消重及分类性
28、能测试数 据测试内容平均查全率平均查 准率文档消重器消重性能975985文本分类器分类性能751723 3结束语设计并实现 了一种Web新闻自动采集发布系统,该系统能 自动对用户指定网站区域 的we b新 闻进行采集、去噪、消重、分类与发布,可 以非常方便地与现有新闻类 网站系统集成。从实际运行效果来 看,该系统总的来 说 具 有 较高的性 能,可大 幅提高新闻 网站的Web新闻采集与发布效率,降低网站的运营成本。但是系统在采集种子与采集限定区域 的设置上对用户要求较高、对于正文内容下方夹杂有用户评论的网页去噪还不完善、文本分类模块的查 全率与查准率也有待进一步提高,这些将是下一步工作的重点。
29、参考文献:1李盛韬基于主题的Web信息采集技术研究D北京:中国科学院,20022刘金红,陆余良主题网络爬虫研究综述J计算机 应用研究,2007,24(10):26293李晓明,闫宏飞,王继民搜索引擎原理、技术与系统M北京:科学出版社,200543GuptaS,Kais erG,NeistadtD,eta1DO MBasedContentction0fHTMLDocumentsC Pr oce ecofthe12thInter nationalConferenc eonw o r ldWideWebNewYork:ACMPres s,2003:20721453C AI De n g,YUShip
30、eng,WenJirong,eta1ExtractingCo ntentStructureforWebPagesbasedonV isualRepr esentafionCProceedingofthe5thAsiaPacificWebC onfer enc eBerlin:SpringerVerlag,2003:4064 176ZhengS h蛳,SongRuihua,WenjiRongTemplateIndependentNew sExtractonBas edonV isualConsistency【c27 fThe22ndConferenceonArtificialImel ligen
31、ceVancouver:AA A IPr ess2007:150715117欧健文,董守斌,蔡斌模板化网页信息的提取方法J清华大学学报:自然科学版,2005,4(S1):1743174 78刘晨曦,吴扬扬一种基于块分析的网页去噪音方法J广西师范大学:自然科学版,2007,25(2):1491529】WA NGJiying,LochovskyFHDatarichSectionExtractionfr omHT MLPagesCPr oceedingsof3rdInter nationalC o nference onWe bInfor mationSystem sEnginee_dngSinga
32、pore:IFb 2FComputerSociety2002:1一l O10白广慧网页排重技术研究 与应用D北京:中国科学院,20061 13吴平博,陈群秀基 于特征串的大规模 中文 网页快速去重算法研究J中文信息学报,2003,17(2):283512搜 狐研发中心搜 狗文本 分类语 料库EBO L2008ht tp:w ww)gOUoomlabsdlchtml13王倩倩,段震,张燕平基于交叉覆盖算法的 文本 分类J计算机技术与发展,2007,17(6):113115关于推荐2009年CCF优秀博士学位论文的通知为推动中国计算机 领域的科 技进步,鼓励创新 性研究,激励计算机领域的博士研究生
33、潜心钻研,务实创新,解决计算机领域 中需要解决的理论和实际问题,使做出优秀成果的年轻学者获得同行认可并有成就感,中国计算机学会(CC F)自2006年起设优秀博士学位论文奖。2009年度优秀博士学位论文推荐工作已经启动。具体参评条件和约束条件见“C C F优秀博士学位论 文奖条例”(http:一,、wccforgcn之关于cC F规则与条例)。C CF优秀博士学位论文推荐表(必须有作者答辩时所在单位(如系、院、所等)负责人签字、单位盖章,可在http:v wccforgcnwebres ourcetuijianbia odoe下载)。联系人:韩玉琦电话:01062601340朱征瑜电话:0106256250316邮寄地址:北京2704信箱中国计算机学会邮编:100190