《2022年网络信息检索研究的发展趋势 .pdf》由会员分享,可在线阅读,更多相关《2022年网络信息检索研究的发展趋势 .pdf(7页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、1994 年以来,Internet发展日渐迅猛, 由于它的开放性,世界任何地方的个人或单位都可以随时与网络连接,很方便地实现信息上网,达到资源的充分共享,因而大大提高了信息的可获得率。可是,网络开放的同时,也带来了一个直接的负面效应,那就是资源混杂紊乱,再加上网络管理的特 殊性,人们只好在浩如烟海的资源面前屡屡驻足,要想从中挖掘出一点有用信息,简直比大海捞针都难。 公众一致期待一种简单、易用、高效的信息检索方法出台,一些热情的计算机用户也纷纷推荐各种检索 工具。但现有的检索软件参差不齐,各有优缺点,因此,如何选择一种最佳的检索软件成了困惑计算机 用户的新问题。对当前网络信息检索的发展情况进行一
2、番总结,可以满足人们的一些现实需求,并对将来的网络检索技术作出预测,为专家学者的研究指明方向。鉴于此,笔者做了以下的调研工作。1 资料以及检索结果资料收集分为国外与国内两部分。国外文献主要查阅INSPEC1994- 1997 年 9 月,并辅以PAR1995,检索途径为从主题词入手,选择的主题词主要有 Internet searching searching Internet search engine Internet information retrieval Internet Navigator Gopher Yahoo Lycos Infoseek W ebc raw le r WW
3、W? W or Id Wide Web Information retrieval其中前 4 个主题词为重点检索词,后几个用于获得一批相关文献,以了解网络信息检索的大致情况,并对某些内容如Lycos Yahoo 等 进行了具体测定,其中难免有重复文献,但对大致的定性研究并无大碍。检索的方法为回溯检索,从最新文献开始,检索到1994 年 1 月,至此,关于Internet 检索的文献已是廖廖无几而且从Internet的发展来看,确定1994 年 1 月为时间下限较合适( 见表 1) 国内文献主要查阅中文科技期刊(1994 年 1 月 1997 年 9 月光盘版 ) 和清华大学出版的论文集( 理
4、工辑) 前者主要收录了近几年发表于中文科技期刊的科技文献,部分还附有文摘。通过阅读文摘,并辅以篇名及出处中给出的信息,我们能够大体确定文献所涉及的基本领域及具体问题。采取的方法主要是主题词检索 , 使用的重点检索词为 :Inter net: 检 出文献 52篇, 其中有效的为12篇;计算机网络: 检 出 1 394篇,有效文献为7 篇信息技术 :检出 2 篇通 WWW:检出 1 篇;情报检索 : 检出 4 篇;资源检索 : 检出 1 篇 0浏览器 : 检出 1 篇。然后根据上述检出文献的作者情况,按主要作者进行人名检索 ; 再根据文献出处确定如下几种核心期刊:现代图书情报技术计算机与通信软件世
5、界、计算机系统应用, 并据此进行刊名检索; 最后再根据分类号TP393及 G2进行相关文献扩检,以弥补上述三种检索方法的不足对于 1997 年 9 月到 1998年 4 月的新文献,笔者又用手工检索的方式遍览了北京大学图书馆和北京图书馆收录的所有相关期刊,得到 17 篇文献。 至此, 凡 1994 年 1 月到 1998 年 4 月公开发表于中文期刊上且主题是论述网络信息检索的文献已全被收集齐全。考虑到提高查全率的要求,笔者又手工翻阅了 1994 1997 年全国报刊索引“哲社版”和“科技版”,所获无几 2 历年来的发展规律分析检索得到的诸多数据,可以发现一些规律鉴于我国和西方各国之间的发展不
6、平衡Internet信息检索情况也有一定的差别,故对国内文献与国外文献分别进行讨论。先看看国外的发展形势。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 7 页 - - - - - - - - - 检索词每年的文献数量都呈明显增长之势。1994 年 全年 Internet方面的文献仅有503 篇,而到 1995年 上半年已增长至724 篇,比 1994 年全年文献多221 篇; 及至 1997 年仅 7 月到 9 月短短 3 个月的时间,公开发表的 Internet文献数
7、量就有1 372 篇,是 1994 年全年的 2 6 倍( 见表 2)有专家预计,到1998 年,论述网络信息检索的文献将达1 万篇。再看一下总体情况:所有检索用词得到文献的并集,也在这段时间里呈明显增长趋势。1994 年总量是 3 498 篇, 1995 年总量是 5 965 篇, 1996 年为 9 018 篇, 1997 年则约为 10 828 篇。为了让大家更直观地了解这些规律,笔 者将 199 七 1997 年每年月平均用几个代表性检索词检出的文献量列于表2 虽然 Internet的研究铺天盖地,且研究方向百家争鸣,百花齐放,但细心的读者会发现每年都有一个热门话题,每年的研究都有一个
8、关注焦点。1994 年, 在和其它年度进行横向比较下,有一个较为突出的特点, 那就是有关Naviga tor 的文献比较多。也许是因为当时浏览器刚刚问世, 许多学者都把精力投向这一问题的研究。我们知道, 信息检索是一门涉及多方面因素的学问,拥有一个良好的检索平台和精细的检索环境,对于检索过程的实现以及检索结果的输出显示, 无疑都是至关重要的。浏览器的推出与日渐完善正迎合了这种需求,它成为1994 年 的研究焦点也是必然的。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 7
9、 页 - - - - - - - - - 1995 年,有关 Gopher 话题的文献总数达115 篇,几乎占199 七 1997 年总量 264 篇的一半这在一定程度上应归因于Go pher 这种检索工具给予用户的便利服务。 Gopher以不同层次的菜单形式展现 Internet资料,并可以将检索到的文件传递到用户的电子邮件信箱而无需逐页打印。另外,Gopher 对于初学者来说,是最容易掌握的一种检索工具,这大概也是它成为1995 年研究重点的原因之一。1996 年是“搜索引擎”年。关于各种网络资源搜索引擎的介绍比比皆是。各种引擎技术的优越性比较研究以及搜索结果关于相关性、全面性等方面的对比
10、,如雨后春笋般涌现出來比较知名的搜索引擎有Yahoo Lycos Infoseek Excite W ebcr aw leK AltaVista等等。它们各有所长,分别在不同的检索领域和不同的检索要求下各显神通,在信息检索的舞台上各据一方天地。1997 年, 搜索引擎的余波仍未平息,但浪尖发生了一定的偏移 更侧重于技术内核的研究。如果说1996 年是对搜索引擎的入门研究,那么, 1997 年 就是在上一年度研究基础上的深人而且,单个搜索引擎的介绍几乎已经销声匿迹,更多的是对各引擎技术的对比分析( 评价它们孰优孰劣) 一一任何事物都有其产生、发展、衰落、消亡的过程,这一“放之四海而皆准”的真理在
11、网络信息检索的研究中同样得到了验证。笔者在表3(表 1 的子表)中,将各数据折算成6 个月平均文献数量(文献数量* 6/ 月份数 ) 我们知道,事物之所以走向消亡,是因为它已不再适应社会生产的发展。同样,网络信息检索也符合这一规律,陈旧的、落后的检索工具、检索方法终将被新的、先进的技术取而代之,新型服务软件、新型检索策略不断推动着网络信息检索领域的更快发風另外,有的检索工具或服务软件由于逐渐为人们所熟悉掌握,成为大众化的、比较定型的事物,它们被接受后,讨论热潮也会出现一段萧条期。国内部分仅将检索到的所有文献按年度统计,统计结果为:1994 年 4 篇, 1995 年 29 篇, 1996 年
12、10 篇,1997 年 31 篇,1998 年 1 3 月共 16 篇。虽然总量在 1996 年出现了低谷,但整体趋势还是上升的,去除检索文献时人为因素带来的种种误差我们可以得出这样一个结论:从 1994 年至今,世界各国都在努力寻找一种对 Internet信息资源进行检索的最佳方案,以便更充分地利用网络资源 众多用户、学者的不同思路又导致他们从不同的角度进行研究。虽然国内专家学者及网络用户同样也在进行孜孜不倦的探索, 但相对于国外, 国内的研究要稍落后些。从数量上说, 国内关于 Internet信息检索的文献还不是太多 ; 从内容上看, 关于网络概述及简介的文献似乎偏多一点,涉及技术内核的研
13、究则略少一点。4 Internet信息检索研究的5 个重点领域名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 7 页 - - - - - - - - - 从内容上对检索到的文献进行分类,可以了解国内外关于网络信息检索研究与探索的重点在哪些方面,从而预测今后的发展趋势。浏览检索到的所有文献,可以发现, 国内外的研究情况大致相似,文献 音、图像,资源不再是单调的纯文本,这样可以给用内容主要侧重于以下5 个方面:- 搜索引擎 (search engine)的介绍及对比研究。论及
14、的搜索引擎很多,包括:AltaVista Excite Infoseek Guide Lycos O pen text W ebcr aw ler W WW W or m Ho t Bo t Lo ok Sm ar t Y ah oo Britan iii ca Inte rn et Gui de W eb Gui de CUI W 3ca t alo g M ag ell an Poi nt、Inf oM a rk et E u ro ferr et GOD Yell UK Plus UK Search Ultra等,比较多的是对他们的使用方法进行介绍。另外,关于这些搜索引擎的优越性的评述也
15、占有较大比重,主要从检索的全面性、结果文献的相关性排序、检索方法的易用性、检索时效的快捷性、检索内容的多样性、检索入口的丰富性这6 个方面进行比较。一部分文献还对搜索引擎所面向的数据库作了讨论,比较了诸多数据库的完善性及丰富性所在一一各种检索工具及服务软件的推出。介绍的重点放在 Gopher Archive W AIS FTP Web 服务器、各种浏览器,还涉及一些诸如电子邮件服务、网上浏览加速器等非直接性的检索服务器。Archive是一种类似于档案馆的查询FTP文件 的工具 ;Gopher 则包含了 Archive的档案馆查询功能,在 FTP的基础上,给文件系统增设了结构,并提供文件,还可以
16、发布信息,起到公告牌的作用; Hy telnet可按图索引浏览Inter net下众多的服务系统;Whois 是有格式的文本检索,它提供网络用户的目录,是一种以文件系统为对象的信息检索系统; WAIS 则是全文检索系统,它还具有一个优越的性能,即检索词按相关性排序,相关性越大,在文献序列中越排在前面,其权值越高。一一各种信息技术的研究、发展及改进提到的检索方法很多,包括一些传统信息检索方法的改进完善和新型检索技术,如:?智能检索。即在检索时系统软件自动进行分析,挖掘用户深层次的意图。?全文检索、短语检索,尤其是相关性检索。?冲浪技术先判断信息源及站点的性质及特色,再有选择地进行查找?网页节点的
17、预订。?利用临时文件存储浏览过的网页,只传文字而忽略图像以便节省时间。?熟练使用书签,以便再次迅速定位。一一多媒体信息检索方 法随着多媒体技术的逐步发展应用,Internet上大量的信息中都包含有声音、图像 , 资源不再是单调的纯文本, 这样可以给用户阅读文献带来些许乐趣, 然而 , 声音与图像检索不同于文字查找 , 它的特征是隐含在深层中的,需要人工干预才能挖掘出來根据图像声音的特点研究出一种高效的检索方法是非常必要的。只有这样,才能充分利用网上丰富的信息资源。各学科信息的检索。 Internet上容纳了几十种学科的知识, 而网络的开放性又允许人们从遥远的地方连接入网, 这样 , 各种各样的
18、信息资源在网上极为丰富,形成了一个杂乱无章的信息库专业人才、专家学者或者对某一领域感兴趣的用户,为了获得所需的某类信息,就需要制定一个完备的检索策略,以名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 7 页 - - - - - - - - - 达到“大海捞针”的预定目标。比较热门的信息领域有专利信息、化学信息、农业信息等等各学科的特点不同,形成的检索方法彼此间也有差异。- 其他 上述 5 个领域作为Internet信息检索研究的重点,吸引了大量网络用户的关注, 还有一些研
19、究是关于Internet概述、连接、应用、影响和开 发的,网络引发的社会问题也颇值得寻昧 5 几种搜索引擎的对比既然搜索引擎已成为当前网络信息检索的重要工具,那么,我们有必要将几种重要的搜索引擎作一综合全面的对比, 以便用户迅速作出选择几乎所有论述搜索引擎的文献都将焦点置于自然语言智能搜索、 结果文献的相关性排序以及数据库的全面性这三个方面。但第一个领域的杰出软件尚不发达, 研究者们一直期待这方面的突破。单个词或者固定顺序短语的检索是人们早已熟悉的最原始的检索手段,但随着科学技术的迅速发展和信息量的剧增,对国内外种类繁多和数量巨大的科技文献进行检索已远非人力和传统检索系统所能胜任。为此,研究智
20、能检索系统已成为众所关注的焦点。其中通过对用户的查询计划、意图、兴趣进行推理、预测并为用户提供有效的答案是这种系统的支柱性技术例如:在检索系统中,用户顺序提出以下查询: Q1:在 U1学院附近有多少餐馆?( 系统给出一系列餐馆名 C1,C2,C3,)Q2 C1餐馆的菜单 ? Q3 C1餐馆附近的停车场有多大? 可根据用户查询该餐馆的停车场,进一步确定用户 Excite和 Lycos 的数据库网页也比较大,而In- 71W4-2UI4 China Academic Journal Electronic Publisning House. All rights reserved, nttp:/ 在
21、 Q1 查询中,用户检索位于U1学院附近的餐馆; 在第二个查询中, 用户从 Q1的检索结果中选择了一个特定的餐馆C1,进而查询该餐馆的菜单从 Q1 和 Q2的查询中,系统可推测用户的行为意图是“到餐馆去吃饭”在用户的第三个查询Q3中,系统可根据用户查询该餐馆的停车场, 进一步确定用户的行为意图是“开车到餐馆吃饭”。若Q3 的检索结果表明 C1餐馆没有停车场,则不能满足用户的需要。此时用户可重复 Q2和 Q3的检索,以找出另外一个满足需求的餐馆。用户输出一个如下的间接查询检索信息:Q4 C2餐馆怎样 ? 由于 Q4不是一个定义完好的查询,并且不能被标准数据库管理系统直接解释,所以为了使间接查询Q
22、4产生一个有效的应答,系统必须推断用户期望的信息类型并重新将Q4形成直接查询。系统可以通过如下方法实现上述要求:先定义两个检索属性,即用户属性G集和餐馆属性 S集 G集=( 菜单、地址、餐馆名、 电话、预定接待时间、假日、工作日、停车场、停车费) ,S 集=( 电 话、传真、地址、假日、工作日、菜单、价格、座位号、预定接待时间、停车场、停车费), 然后通过求两者的交集 GG S,可得到令用户满意的答案名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 7 页 - - - -
23、- - - - - 理论上的研究已达到这种程度,而实际的智能检索系统仍停留在对布尔检索的完善以及智能化上。在这一水平上,仅有少数搜索引擎做得比较好, Infoseek Guide是表现最突出的一个。它拥有最好的搜索参数的集成, 而且难得的是, 它们对用户是透明的 Infoseek允许用户在填写查询要求时随心所欲,不厌其详,而它在后台则施以适当的逻辑。这就意味着用户可以忽略如何使用搜索引擎,只把精力集中在自己想提的问题上,这大概是因为Infoseek Guide 把全文索引、相关性接近对象的搜索以及事件敏感性结合在一起了。O pent ext 紧随其后, 用户可用它自己建立有侧重点的搜索, 在一
24、次搜索中最多可以为4 个不同的搜索词选择不同的相关性,但当你在主菜单里键入一个复杂的要求时, 最后你会发现, 只有词语顺序与你的搜索词句顺序完全一致的文档,才会出现在搜索结果里我们可以以此为基础,进行更加具体的搜索,即选择“ Find Similar Pages (寻找相近网页 )”的选项,之后就会得到很好的搜索结果AltaVista的搜索算法极其机械而缺乏判断力,并且不支持词语的衍生形成但它在搜索全面性上表现突出。能对网络进行全面彻底搜索的大概仅此一家了。与其他站点相比,AltaVista的搜索结果内容更丰富,就连一些鲜为人知的偏僻站点也能找到。如果你想查找某个公司的产品或者其他人提交的某个
25、站点, AltaVista应是首选工具 (表 4) foseek Guide在这方面显然不如前两者。为了弥补这缺憾, Infoseek公司将推出第二种网络搜索引擎 “ Moby”.它包括1 000万网页,是目前Infoseek Guide 拥有的网页的10 倍,但由于两者使用的不 是同一种相关性索引工具,所以这两个产品大概是不会合并的搜索结果的相关性排序显然也是用户关心的重要因素之一, Infoseek Guide又一次展示了它异乎寻常的优越性,它的搜索具有“事件敏感性”(对某些名字进行搜索时,搜索有效率明显提高), 用户输入一个短语后, Infos eek Gu id e会使用与短语最接近的
26、排序方法,提高搜索结果的相关性。在寻找相关网址 时,Excite几乎和 Infoseek表现一样,但明显慢一点。对于那些善于组织逻辑Boolean 查询的用户,可 以使用 Opentext, 因为它的设计正好使其在这方面表现优异。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页,共 7 页 - - - - - - - - - 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 7 页,共 7 页 - - - - - - - - -