《文献综述之信息检索技术.doc》由会员分享,可在线阅读,更多相关《文献综述之信息检索技术.doc(9页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、文献信息检索技术综述【摘要】介绍文献信息检索技术的发展过程,分析了网络文献信息检索的主要技术方法,以及今后文献信息检索的发展趋势。【关键词】文献信息信息检索网络发展趋势一、前言 据联合国教科文组织报道,目前世界上每年出版的文献已超过60万种,其中图书30万种,期刊15万种,其他形式的出版物15万种。在我国仅期刊资源每年增长率就达到5% 7%。发表论文增长率为8%9%。面对如此巨量的文献资源,要从浩如烟海而又极其分散的信息中迅速、准确地查获自己所需要的信息资料,必须学会使用文献信息检索的方法。文献信息检索,广义地说,是指将信息按照一定的方式组织和存储起来,并能根据信息用户的需要指出其中相关信息的
2、过程,因此它的全称又叫“信息存储与检索”( Information Storage and Retriva1) 。狭义地说,大多数人讲到信息检索时,一般只涉及“取”,即主要关注如何从存储的信息集合中快速获取各种需要的信息。本文也主要从文献信息检索的概念、发展历史、主要文献检索方法及文献检索的发展趋势作一般概述。二、文献信息检索技术的发展过程2.1手工检索方式 检索方式主要以手工操作为主,这种检索既费时、费力,而且检索效率也很低。其中包括纸质文献的检索和缩微式检索。中国最早的检索工具是西汉刘向、刘歆父子整理编撰的摘要性书目别录和七略,世界上第一种文摘性科学期刊是1665年1月5日在巴黎创办的学者
3、周刊以及著名的美国工程索引、科学引文索引、科技会议录索引等都属于手工检索工具。2. 2脱机检索方式 信息检索逐步实现了计算机检索中的单机批处理检索。包括计算机可读文献磁带和磁盘检索以及光盘数据库检索。机读磁带、磁盘检索实现了一种输入多种输出。光盘数据库比磁带和磁盘有更大的存储空间,且存储速度更快,如中国专利检索光盘、中国学术期刊全文数据库光盘版等。这是计算机检索的第一阶段。2.3计算机联机检索方式 进入20世纪70年代,计算机软、硬件技术不断进步,分组数字通信技术和实时操作技术发展迅速,出现了一台主机带多个终端的系统。用户可以利用计算机检索终端设备,通过拨号、电信专线及计算机互联网络,从联机服
4、务中心的数据库中检索出自己所需要的信息,从而实现了计算机联机检索。它属于计算机检索中的第二阶段。2.4网络化信息检索方式 由于网络技术的普及,加上超文本传输技术的出现,联机检索进人了当前新的发展阶段网络化信息检索,这是计算机检索的第三阶段。网络信息检索是指利用计算机设备和国际互联网( internet)检索网上各服务器站点的信息。目前国内网上数据库有:国家科技图书文献中心、中国学术期刊数据库、万方数据库、重庆维普数据库,中国专利文献数据库、中国标准数据库以及超星数字图书馆、书生之家等全文数据库;国外网上数据库则更多,如:美国科学索引( SCI) 、工程索引( E I) 、化学文摘( CA )
5、、Sp ringerL ink 数据库、EBSCO 数据库等。三、信息检索技术现状 信息检索技术,在现有研究的基础上,实现了把信息检索从基于关键词层面提高到知识层面。从传统的基于关键词的检索到吸引广大研究者眼球的语义检索。实现了把信息检索从基于关键词层面提高到知识层面。传统的基于关键词信息检索,已取得了很大的成功,但是它不能从根本上表达用户的查询请求。语义检索是把信息检索与人工智能技术、自然语言处理技术相结合的检索技术,它从语义理解的角度分析信息对象和检索者的检索请求,提高了检索性能。但由于自然语言理解和人工智能等领域的局限,语义检索技术将有一个长期深入研究的过程。 目前,信息检索搜索引擎已经
6、把浏览与检索功能进行了整合,使用户可以在一个网站同时利用两种功能,而且可以在某个类目下实施检索,提高了检索的准确率;鉴于网络面对的是全世界的用户,这些用户层次不一、知识背景各不相同,实现了自然语言检索功能;通过信息智能检索(Agent)技术来学习用户兴趣,使客户端检索软件具备智能性,自主地在Internet网上漫游,收集用户感兴趣的信息,用户Agent可以根据用户的爱好对它们的任务进行动态调整,搜索网上潜在的有用信息,按照一定的规则进行过滤,并以一定的优先方式提供给用户;为更加客观公正地对检索结果进行排序,让用户快速获得最需要的信息,产生了一些新的排序算法根据其他网站指向某个网站链接的数量多少
7、,决定该网站的重要性,数量越多越重要。四、信息检索技术类型及方法 当今比较热门的主要有两种信息检索技术:第一,智能检索或知识检索传统的全文检索技术基于关键词匹配进行检索,智能检索利用分词词典、同义词典,同音词典等改善检索效果,还可在知识层面或者概念层面上辅助查询,通过主题词典、上下位词典、相关同级词典,形成一个知识体系或概念网络,给予用户智能知识提示,最终帮助用户获得最佳的检索效果。第二,知识挖掘,目前主要指文本挖掘技术的发展,目的是帮助人们更好的发现、组织、表示信息、提取知识,以满足信息检索的高层次需要。4.1 多媒体信息检索技术 传统的多媒体检索方法处理比较简单,有的仅通过多媒体的外部属性
8、和简单的文字描述进行检索,还脱离不了文本、数值和关键词的检索范畴,对图像、音频、视频信息则只有浏览或查看功能,缺乏多媒体本质特征的描述,在多媒体数据库中集成了图像、视频、音频等非文本信息,这样我们就可以用图像、音频、视频信息方便的进行检索。4.2 分布式信息检索技术 分布式信息检索是信息检索研究的一个重要方向,主要对分布式信息检索概念、分布式信息检索法、搜索引擎技术进行了分析,分布式技术与信息检索相结合,对于分布式资源的检索策略来讲,不仅可以对分布服务器之间的通信问题进行有效解决,还可以对信息检索功能进行研究,从而使得分散资源的检索效率大大提高。分布式技术使得数据更安全,信息检索改变了传统的方
9、法,从而实现了多个数据库检索的目的,信息量和检索效率也因此得到提高。分布式检索技术与计算机技术相结合,实现了理论与实践的和谐统一,并且具有良好的可行性和易实现等特点,其应用前景非常广阔。4.3 Web信息检索技术的探讨 Web 信息资源大体可以分成两类:纯文本格式的信息和多媒体(图像、影视频)信息,为了有效地提取出人们所需要的信息,新一代的 Web 信息检索系统应该朝着搜索速度更快、,精度更高并且能够满足用户的个性化需求的方向发展。这就需要我们在自然语言处理、数据挖掘和机器学习等方面有所突破,并将这些技术充分地应用到信息检索中去,从而使人们更好地感受到 Web 信息的便利。4.4 融合分类特征
10、的信息检索技术研究 这是一种融合分类特征选择技术进行分类检索结果重排序的方法。该方法在已抽取出类别特征的前提下,认为一篇文档中类别特征出现的频率越大,这篇文档与其所属类别的相关性就越大,就越符合该类别。那么在综合考虑检索词与文档相关性的同时,赋予这两个相关性一定的权值再对结果进行重新排序。这个方法能够在保持分类搜索引擎结果文档的召回率的前提下提高结果的平均准确率。主要处理过程如下:1 对一个分类体系结构的语料文档进行特征选择,为每个类别抽取出特征表。2 检索,得到符合 query的结果集。3 计算结果集中每篇文档包含的特征在该篇文档中的频率。4 使用 TF- IDF 模型计算 query与文档
11、的相关性得分。5 综合考虑两个得分得到一个文档总评分。.6 按照评分从大到小将文档排序返回给用户。4.5 XML 信息检索技术综述 通过XML 对分散的 Web 信息资源在逻辑上进行了有组织的管理,设计了一个专业内容的 Web 信息检索体系结构,为用户高效地获取面向专业内容的信息资源提供了一种方法。良好的数据存储格式,可扩展性,高度结构化以及便于网络传输等特点,决定了 XML 卓越的性能表现。由于 XML 能针对特点的应用定义自己的标记语言,这一特征使得 XML 可以在电子商务、政府文档、司法、保险、机构、厂商和中介组织信息交换等领域中大展身手,根据不同的系统和厂商提供各具特色的独立解决方案。
12、,当整个互联网的信息在 XML 的平台上整合应时,现代信息海洋的杂乱无章无疑会得到根本的改善。未来的 Web 也将在高度一、开放的数据标准之下,透过无所不在的应用终端,展开随时随地的移动交换和计算,真正为商务时代的互联网提供一个个性化的界面、规范化的流程和数据质量的保证。4.6 计算机网络信息检索技术 网络信息检索技术的优缺点:优点:降低了我们搜索信息的时间,扩大了信息的可利用资源,打破了传统计算机的局限性,可在短时间内搜索到可利用的资源,可以在第一时间得到与之对应的最新信息,加快传播,侧面增加了行事的成功几率。智能化的搜索依旧可以从中获得额外收获,信息的公开化,多端口的进入,可以容纳多人同时
13、对信息的获取,节省了排队等待时间,提高了办事效率。缺点:网络上信息如雨后春笋层出不穷,无形之中就加大了我们筛选工作;由于发布信息的途径之多,端口宽,不受限制,重复率过高也会耗费我们在检索过程中的进度。同时也会带来信息的准确性的受人质疑的问题,很多网站设置虚假信息,显示关键词和网页内容不符,各种钓鱼网站的出现更是让人望而却步。 五、信息检索技术发展趋势 随着计算机技术和通信技术等现代信息技术的飞速发展,信息检索技术的软硬件环境有了很大的改善,呈现出以下一些发展趋势。5.1检索智能化 利用智能代理技术对用户的查询计划、意图、兴趣方向进行推理,自动进行信息搜集过滤,自动地将用户感兴趣的、对用户有用的
14、信息提交给用户。它是基于自然语言的检索形式,可以用自然语言同用户交互。采取诸如语义网络等智能技术,通过汉语分词、句法分析以及统计理论有效地理解用户的请求。还可在知识层面上辅助查询,通过主题词典、上下位词典、相关同级词典,形成一个知识体系或概念网络,给予用户智能同级词典,形成一个知识体系或概念网络,给予用户智能知识提示。另外,智能检索还包括歧义信息的检索处理,甚至还能体会出用户的言外之意,最大限度地满足用户的需求。5.2可视化技术的应用 网络检索的可视化是指将数据库中的不可见的语义关系用图像形式可视化显示并表达用户检索的过程。可视化检索有许多优点,主要表现在:对文献或检索式内部语义关系的理解有助
15、于用户判断一个检索中的相关文献;可视化的环境可以为用户提供更丰富和更直观的信息。相关性在传统的信息检索中只指检索结果、检索式相关,而在可视化检索中则指检索结果之间的相关度,使得用户可以进行交互式输入。允许在信息空间进行动态移动,允许用户修改数据的显示方式,使他们理解数据的个人偏好可视化;减少了理解检索结果的时间,可以对相关信息进行聚类分析(ClustersAnalysis)。而聚类分析可帮助人们发现新的学科点,也可作为反馈的工具;操纵检索的内部过程。提高检索系统与人之间的交互性;检索结果可以模仿网络环境形成拓扑结构图。在拓扑结构图中所有相关文献或其他类型资源将被归为同类;一个透明的检索过程使检
16、索更容易更有效。目前,可视化已应用在气象、地理、企业、经济、文献检索方面。虽然还未普及,但随着计算机技术以及计算机语言的进一步发展,可视化信息检索技术将会得到快速发展。可视化技术如今在地理信息系统、产品设计、城镇建设与规划等领域得到了广泛的应用。可视化信息检索系统也已经出现,如中国气象局设置了网上极轨气象卫星资料可视化检索页。5. 3检索多样化 这主要表现在可以检索的信息形态有文本、声音、图像、动画等,这样,就必须开发出可查询图像、声音、电影等的检索工具来适应这一需求。同时,检索工具已不仅仅是单纯的检索工具,正在向其他服务范畴扩展,如向用户提供站点评论、天气预报、新闻报道、股票点评、航班和列车
17、时刻表、地图等全方位信息服务及提供免费电子信箱,并以多种形式满足用户的需要。5. 4检索简单化 现在一般用户很少应用复杂的检索,而大多只是用输入一、两个检索词的方式来进行检索。因而网络检索工具界面更加“傻瓜化”,使用户学习和进行信息检索更加容易。例如搜索引擎的发展,有些搜索引擎提供了分类导引式的网络资源指南,甚至将它置于比较醒目的位置;有些搜索引擎则可以让用户将检索范围限制在其索引或数据库的某个子集中,从而有可能产生最直接相关的检索结果等等。此外,网上自动标引、自动文摘、自动跟踪、自动漫游、机器翻译、多媒体等技术逐步发展完善,都将使信息检索变得越来越简单。5. 5信息提供的深入化 信息检索深入
18、化包括两个方面:一是检索深度的提高。在现阶段,网络检索大多实行相关性检索,其结果往往是海量的,这会分散用户的注意力,背离原有目的。为避免这种情况,就要求提高检索深度,由相关性检索向直接性检索发展。另一方面是检索内容的综合化与专业化相结合。针对用户要求,一些检索工具不再片面追求加大收录标引量,而是突出专业性特色,方便用户对一些专业性、学术性或较深入的核心数据库进行访问。这样,用户就可以预先选择自己的信息源,向各种用户满意的信息源提问索取特定类型的信息。还可以对命中结果进行进一步限定,要求仅提供权威性的可靠结果,从而提高查准率。5. 6友好化进一步提高 它主要包括两个方面的内容:一是用户界面友好化
19、,例如利用窗IZl、图标浏览器和超文本等用户友好界面技术,使用户不必知道所要查找的信息在网络存放的位置,也不必掌握许多操作命令,同样能得到满意的检索结果。另一方面是更好的检索结果提供方式,使用户方便地进行浏览、选择和利用。5. 7检索多语种化跨语言信息检索的概念,学术界普遍认为是在20世纪60年代末70年代初,由康奈尔大学的Saltons首次提出的:跨语言信息检索( cross language informationretrieval) 。是指用户以自己熟悉的语言来构建和提交检索提问式,系统检索出符合用户需求的包含多个语种的相关信息。用户查询提问式所使用的语言,一般为母语或熟悉的第二外语,称
20、之为源语言,而系统检索到的信息所包涵的语种,称之为目标语种。如何在源语言与目标语言之间建立沟通桥梁,是目前跨语言信息检索研究的核心问题。目前英语与法语、德语、意大利语、西班牙语、荷兰语之间互译已取得一定进展。5. 8提供全文检索全文检索是指以各类数据诸如文字、声音、图像等为主要处理对象,根据数据资料的内容,而不是外在特征来实现的信息检索手段。它是信息检索发展的最前沿和目前的最高阶段。全文检索技术最早出现在美国Pittsburgh大学1959年建立的法律情报检索系统中。与其他检索技术相比,全文检索技术的新颖之处在于,它可以使用原文中任何一个有实际意义的词作为检索入口,而且得到的检索结果是原始文献
21、而不是文献线索,从而使人们能快速方便地查到他们想要的文献原文。目前,国内对全文检索模型的研究也方兴未艾,第五届World Multiconference On Systemics, Cybernetics and Informatics ( SCI2001)海量中文信息管理分会上展示了许多全文检索方面的优秀成果。 综上所述,以上是网络时代文献信息检索的八大发展趋势。可以预见,随着现代信息技术和传播手段的改进,信息载体类型的不断更新变化,文献信息检索必将有更大的发展。参考文献:【1】梁鸿雁,信息检索技术综述J,2010(9),软件导刊,3537【2】陆娟,浅析当前网络信息检索与过滤技术J,200
22、6(16)科技情报开发与经济,23【3】赵阳,浅谈信息检索技术J,2012,11,科技创新与应用,45【4】孙广维,多媒体信息检索技术的研究,2012,6 ,吉林建筑工程学院学报,7981【5】双林平,分布式信息检索技术探析,2012(4),图书馆学刊,111112【6】 赵静,张鸿业,Web信息检索技术的探讨 ,2010(20),科技情报开发与经济 ,105109【7】李静柏,融合分类特征的信息检索技术研究J,信息产业,85【8】党杨阳,XML 信息检索技术综述J,2011年10月,甘肃科技,41.【9】李思达,探析当前计算机网络信息检索技术J,2012(2),无线互联科技,38 【10】张
23、颖,基于本体的智能信息检索在农业电子商务中的应用J,2012(5),安徽农业科学,29082910【11】王冉,信息检索技术在高校图书馆的应用J,科技情报开发与经济,2010(18),3032,【12】赵丽、王文哲,信息检索技术对企业信息化的助推性研究J,信息化论坛,2012 ,2426,【13】陆玲,浅谈信息检索技术的发展J ,科海故事博览,2011(10):4【14】曹鹏,现代信息检索技术发展探析J,2010年8月,高等函授学报(自然科学版),7375,【15】黄振江、李勇,网络信息检索的现状及发展趋势J,2011(2),菏泽医学专科学校学报,9596【16】郭绍华,网络信息检索技术的现状及发展趋势J,2011 ,6 ,黑龙江教育学院学报,200202