《信息存储与检索(第1章).ppt》由会员分享,可在线阅读,更多相关《信息存储与检索(第1章).ppt(46页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第一章 绪论 授课教师:张起荣本章目录第一节 信息检索基本理论第二节 信息检索系统第三节 信息检索研究信息存储与检索第一节 信息检索基本理论 1.1.1 信息检索的概念 1 1.1.2 信息检索的原理 2 1.1.3 信息检索的类型 3信息存储与检索1.1.1 信息检索的概念“信息检索”(Information Retrieval,IR,我国早期译为“情报检索”)一词最早出现于1952 年,由美国学者穆尔斯()提出,从1961 年开始在学术界和实践领域中得到广泛的应用1。信息检索这一概念首先假设包含相关信息的文献或记录已经按照某种有助于检索的顺序组织起来。信息检索就是对信息项进行表示、存储、组
2、织和存取的全过程。对信息项的表示和组织应该能够为用户提供其感兴趣信息的方便存取。遗憾的是,对用户信息需求进行全面而准确的描述不是一件轻而易举的事情。信息存储与检索1.1.1 信息检索的概念 在万维网环境中考察以下假设的用户信息需求:找到包含能满足以下两个条件的有关某一学院网球队相关信息的所有网页(即文献):(1)该网球队隶属于美国的一所大学;(2)该网球队参加过美国大学生体育协会(NCAA)举办的网球锦标赛。为了保证查找结果的相关性,检索到的网页必须包括该网球队在过去3 年里在全国比赛中的名次及其教练的电子邮箱,地址或电话号码等信息。信息存储与检索1.1.1 信息检索的概念 在目前的Web 搜
3、索引擎界面中,人们不可能直接采用这种对用户信息需求进行完整描述的方式来检索信息,用户必须首先将这些信息需求转换为搜索引擎(或IR 系统)能够处理的查询式来查询。这种转换以其最普遍的形式生成一组关键词(或索引词),而这些关键词能够对用户信息需求的描述进行概述。信息存储与检索1.1.1 信息检索的概念 随着Internet 的形成、发展和普及,信息检索才被越来越多的人所知。就信息检索这个概念而言,不同的使用者对它有着不同的理解和解释,大体可以分为两类:第一类是广义的。对于专门从事信息检索及其系统的研究、开发和设计的少数人来说,“信息检索”的完整含义是“信息存储与检索”。也就是说,把“信息检索”当做
4、“信息存储与检索”的简称。这里所谓的信息检索,包括存储和检索两个过程。信息存储是指将有用信息按照一定的方式组织和存放起来;信息检索是指当用户需要这些信息时,再把它们从存放的地方查找和提取出来。因此,对于广义的信息检索来说,存储和检索缺一不可。本书采取信息检索的广义用法,这就要求不仅要知道如何检索,也要知道如何存储,因为如何存储决定了如何检索。信息存储与检索1.1.1 信息检索的概念 第二类是狭义的。对于普通用户来说,在大多数情况下,“信息检索”可以用英文Information Searching 来表达,其准确的含义是“信息查询”或“信息搜索”。也就是说,所谓信息检索,是指按照一定的方式从现有
5、的信息集合或数据库中,找出并提取所需要的信息。可见,狭义的信息检索仅指检索这一个过程,而不关心信息是如何存储的。信息存储与检索1.1.2 信息检索的原理 信息检索的基本原理可以用下图表示 信息资源信息搜集需求分析信息需求信息用户信息分析信息表达词语转换需求表达词语转换数据库检索结果检索语言信息存储过程信息检索过程图1-1 广义信息检索的基本原理信息存储与检索1.1.2 信息检索的原理 从上图可以看出,信息存储和信息检索有两个交汇处:一个是直接的,即表达信息主题内容的词语与表达需求主题内容的词语之间进行对比的交汇;另一个是间接的,即通过检索语言进行沟通,确保把存储用词和检索用词都统一到同一个检索
6、语言体系中(对于自然语言检索系统来说,不存在存储与检索的间接交汇处)。信息存储与检索v 从由此可见,信息存储和信息检索的直接交汇处是至关重要的,由此形成了信息检索的一致性匹配作用机理,如图1-2 所示。1.1.2 信息检索的原理 比较判断选择符号化表示信息特征提取符号化表示需求特征提取现实的信息现实的需求输出检索结果图1-2 信息检索的一致性匹配作用机理信息检索的一致性匹配作用机理包括5 个机理:(1)提取机理(2)表示机理(3)比较机理(4)判断机理(5)选择机理信息存储与检索(1)提取机理。从现实的信息和现实的需求中提取出能够揭示特定信息和特定需求的语法特征和语义特征。这些特征可以归纳成内
7、容(内部)特征和形式(外部)特征,前者包括特定信息和特定需求的类别(如学科、专业)、主题等;后者包括信息和需求的名称(提名)、作者(责任者)、时间、编号等。(2)表示机理。用适当的符号表示信息和需求的各种特征。符号是广义的,可以是文字、数字和符号,也可以是图形、图像、视频和音频。比如,用分类号表示信息和需求的类别,用关键字表示信息和需求的主题。1.1.2 信息检索的原理 信息存储与检索(3)比较机理。在检索项类型(如提名、作者、分类、关键词)相同的情况下,对代表特定信息的特征符号与代表特定需求符号进行对比。比较的实质是相似性比较或一致性比较,即包括完全一致、部分一致和不一致,也包括等于、不等于
8、、大于、小于。比如,对于两个词或词组来说,它们可以是完全一致、前方一致、后方一致、中间一致;对于两个编号来说,它们可以是相等、大于、小于。(4)判断机理。在比较的基础上,对信息是否符合需求以及符合的程度加以判断。两者相符合的信息被检索出来(命中),不相符合的信息被拒绝(不命中)。从符合程度来看,可以是完全符合,也可以是部分符合。在部分符合中,还可以进一步细化。原则上,凡是符合需求的,尽管它们符合的程度有所不同。1.1.2 信息检索的原理 信息存储与检索(5)选择机理。对于检索出来的结果,按照一定的标准加以选择,带有推荐首选或着重使用的意义。选择的实质是排序,排序有多种标准和方法,如相关度、权值
9、和(加权检索)1.1.2 信息检索的原理(5)选择机理。对于检索出来的结果,按照一定的标准加以选择,带有推荐首选或着重使用的意义。选择的实质是排序,排序有多种标准和方法,如相关度、权值和(加权检索)、时间(新颖性)、重要作者或单位等。信息检索的一致性匹配作用机理的实质是简化现实的信息和现实的需求之间的匹配。把内容与形式都非常复杂的信息简化成信息特征的符号化表示,再把内容与形式都非常复杂的需求也简化成需求特征的符号化表示,将这两个非常简单的特征符号化表示进行比较、判断和选择,从而变复杂为简单,化模糊为清晰,大大提高了匹配效率。然而,这种简化也会带来一些弊病,造成误检和漏检。信息存储与检索1.1.
10、3 信息检索的类型(一)按照信息检索的对象性质划分(1)文献检索。文献检索的对象是文献。例如:检索有关“太阳能电池”方面的文献。这里所说的“文献”是指文献单元,即包含一个完整内容的单元,如一篇论文、一本图书、一份报告等,而忽略其物理载体(如一次文献、二次文献、三次文献)等。进一步说,这里的“文献”可以是完整的原始文献,也可以是原始文献的替代品,如一条目录款目、一条文献款目或一条索引款目。归根结底,文献检索的目标是检索出原始文献或原始文献的替代品。供文献检索使用的数据库是文献数据库,包括目录、文献、索引、全文等数据库。信息存储与检索1.1.3 信息检索的类型(一)按照信息检索的对象性质划分(1)
11、文献检索。文献检索的对象是文献。按照文献内容的完整性,文献检索又可以进一步分为书目检索和全文检索。书目检索,是指检索对象为原始文献的替代品,即文献线索,而不是原始文献本身,要想阅读原始文献,还必须依据文献线索去进一步找到和获取原始文献。书目检索通常借助于文献数据库、索引数据库、目录数据库来完成。书目检索的首要目标是检索出包含用户所需信息的书目记录,其数据库则由被存储文献的书目记录构成。信息存储与检索1.1.3 信息检索的类型(一)按照信息检索的对象性质划分(1)文献检索。文献检索的对象是文献。按照文献内容的完整性,文献检索又可以进一步分为书目检索和全文检索。全文检索,是指检索对象为原始文献本身
12、,主要是对全文中的字、词、句、段等进行检索,检索出来的结果就是原始文献,进而可以直接阅读和使用原始文献。全文检索通常借助于全文数据库来完成,其首要目标是找出能满足用户所需信息的某个实际文本。全文数据库包含文献的实际文本,最终的检索结果也是实际文本。全文检索的完整含义不限于检索结果是全文,而是使用全文中的各种元素(如字、词、句、段)进行检索。因此,如果只使用题名、作者、关键词、摘要等进行检索,而不是使用全文中的各种元素进行检索,即使检索结果同样是全文,也不是严格意义上的全文检索。信息存储与检索1.1.3 信息检索的类型(一)按照信息检索的对象性质划分(2)数值检索(3)事实检索(二)按照计算机检
13、索技术划分(1)脱机检索(Off-line Retrieval)(2)联机检索(On-line Retrieval)(3)光盘检索(CD-ROM Retrieval)(4)网络检索(Internet Retrieval)信息存储与检索1.1.3 信息检索的类型(一)按照信息检索的对象性质划分(2)数值检索(3)事实检索(二)按照计算机检索技术划分(1)脱机检索(Off-line Retrieval)(2)联机检索(On-line Retrieval)(3)光盘检索(CD-ROM Retrieval)(4)网络检索(Internet Retrieval)信息存储与检索第二节 信息检索系统 1.2
14、.1 信息检索系统的概念 1 1.2.2 信息检索系统的类型 2 1.2.3 信息检索系统的物理结构 3 1.2.4 信息检索系统的逻辑结构 4信息存储与检索1.2.1 信息检索系统的概念 信息检索过程的实现要依靠特定的系统,这个系统就是信息检索系统。系统是由两个或两个以上既相互区别又互相影响的各种要素构成的统一整体,信息检索系统的构成包括六个要素:(1)目标(2)功能(3)资源(4)设备(5)方法(6)人员 信息存储与检索1.2.1 信息检索系统的概念 由此可见,信息检索系统由若干个相互作用的部分构成,各部分的功能互异,设计的目的也各不相同,但它们之间相互联系,共同实现系统的目标。狭义地讲,
15、这个目标就是检索信息;广义地讲,则是提升用户的知识水平。通常认为,信息检索系统的任务是告知用户他所需要的信息在哪里。也就是说,信息检索系统并不告诉用户他所询问的主题(即不改变用户的知识结构),它只是告诉用户这一主题是否存在于数据库中,相关的文献都存在哪里。信息存储与检索1.2.2 信息检索系统的类型(1)书本式检索系统。(2)卡片式检索系统。(3)机械式检索系统。(4)缩微式检索系统。(5)计算机检索系统。(6)网络检索系统。信息存储与检索1.2.3 信息检索系统的物理结构(1)联机检索系统的物理结构 所谓联机检索,是指用户利用终端设备,通过通信网络或通信线路与分布在世界各地的检索系统中心的中
16、央计算机连接,通过人机对话的方式,运用特定的检索指令和检索策略,访问中央数据库,从中检索出所需信息的过程。联机检索系统也称国际联机检索系统,通常采用相对封闭的客户机/服务器模式,属于典型的主从式结构。如图1-3 所示,联机检索系统通常由联机检索中心、通信设施、检索终端3 个主要部分组成。信息存储与检索1.2.3 信息检索系统的物理结构资源子网通讯子网通信网络数据库中央计算机外设联机检索中心通信设备通信设备检索终端检索终端检索终端用户图1-3 联机检索系统的物理构成信息存储与检索1.2.3 信息检索系统的物理结构 联机检索系统的特点是:检索范围广,数据库数量多,几乎涉及到各个学科领域,世界上公开
17、出版发行文献的90%都可以通过几种主要的联机检索系统查到。检索内容新,数据库更新及时,基本上是同步,能够检索到最新信息。检索功能强,一个联机检索系统中的所有数据库通常使用统一的检索命令,检索途径多、检索效率高、检索质量好。信息存储与检索1.2.3 信息检索系统的物理结构数据库质量高,都是经过严格加工、处理和组织的,通常是各个领域中核心的和权威的数据库。检索较复杂,专业性太强,一般用户不容易掌握检索指令、规则和方法,通常依赖于专业检索人员。检索费用高,要求熟练掌握检索技巧和经验,普通用户难以承受。人机界面比较单一、呆板。信息存储与检索1.2.3 信息检索系统的物理结构 目前,随着光盘检索和网络检
18、索的兴起,联机检索系统的最终用户数量减少,大部分最终用户都委托专业检索人员进行代理检索,但这种检索方式和系统仍然存在,特别是对于科学研究更为重要。比较著名的联机检索系统有Dialog、ORBIT、BRS、ESA-IRS、STN、MEDLINE、DataStar、OCLC等。信息存储与检索1.2.3 信息检索系统的物理结构(2)光盘检索系统的物理结构 光盘检索系统有两种类型:单机光盘检索系统和光盘网络检索系统。单机光盘检索系统比较简单,通常由计算机、光盘驱动器、光盘数据库等硬件设备组成,自成一体,系统结构简单,数据量少,利用率低,一次只能供一个用户检索,通常供单用户、单机使用。信息存储与检索1.
19、2.3 信息检索系统的物理结构v 光盘网络检索系统可以分为面向特定范围对象的局域网的系统和依托Internet 的面向所有用户开放的系统,其实质是将光盘资源上网,允许局域网、广域网甚至Internet 上的众多用户在同一时间、不同地点同时访问一个或多个光盘数据库。其局域网系统的物理结构如图1-4 所示。光盘塔服务器 主域服务器数据库 数据库镜像光盘服务器光盘库光盘库P C机P C机馆内网校园网图1-4 光盘网络检索系统的物理结构信息存储与检索1.2.3 信息检索系统的物理结构光盘检索系统的特点是:方便快捷,不受通信线路和网络等因素的影响和限制,可以随时启动使用。检索费用低,一次购买、多次使用,
20、不涉及远程通信,分摊成本低,用户心理上没有费用的压力。操作界面友好,帮助信息、功能键、窗口式对话框、鼠标控制等,简单易学,直接面向最终用户,不需要对用户进行专门的培训。信息存储与检索1.2.3 信息检索系统的物理结构输出灵活,可以有拷盘、打印、套录建库以及网上传输等多种输出形式。融多种媒体为一身,结合激光技术、计算机技术和多媒体技术,将文字、声音、图像、视频等多种媒体信息存储在一起。数据更新慢,周期较长,时效性差。数据量有限,受到光盘容量的限制,通常局限于专业领域,范围不够广泛。信息存储与检索1.2.3 信息检索系统的物理结构(3)网络检索系统的物理结构 Internet路由器交换机服务器客户
21、机数据库数据库数据库客户机客户机数据库数据库客户机客户机客户机交换机路由器服务器图1-5 基于Internet的客户机/服务器结构(C/S)数据库信息存储与检索1.2.3 信息检索系统的物理结构数据库服务器W e b服务器Internet浏览器浏览器浏览器图1-6 基于Internet的浏览器/服务器结构(B/S)信息存储与检索1.2.3 信息检索系统的物理结构W eb 服务器检索器索引器搜索器索引库网络网络W eb 站点FTP 站点Gopher 站点W eb 站点新闻组站点搜索引擎图1-7 搜索引擎系统结构用户用户用户用户用户页面库信息存储与检索1.2.3 信息检索系统的物理结构检索请求与结
22、果检索代理接口检索式处理检索结果处理单搜索引擎单搜索引擎用户单搜索引擎 用户用户图1-8 元搜索引擎系统结构信息存储与检索1.2.3 信息检索系统的物理结构网络检索系统的特点是:检索空间无限,检索范围覆盖了全球性、开放性Internet 所能延伸到的世界各地,用户不必知道某种资源的具体地址。检索内容极其丰富,包括网上所有领域、各种类型、各种媒体(文本、图像、声音、视频、动画等)的信息资源,如Web、FTP、Telnet、Usenet、Gopher 等。超文本浏览,检索结果是完全可以直接阅读的Web页面,可以非线性地随时从一个页面跳到另一个页面。信息存储与检索1.2.3 信息检索系统的物理结构界
23、面最友好,屏蔽了各个局域网之间的各种物理差异(如硬件系统、软件平台、地理位置、存储方式、通信协议等),极大地提高了系统的透明度,用户使用通用的图形窗口检索界面,即可访问和检索各种异构系统的数据库,在通过Web 浏览器访问过程中,无需关心一些技术细节。操作最简便,良好的交互式作业、多种导航和编辑功能、及时获得在线帮助和指导以及符合大多数用户检索习惯的用户接口使得检索简单易行,不必经过太多的培训即可操作。检索效率不高,网络信息缺乏规范和统一管理,动态性强,重复率、冗余度高,无用信息较多,查准率差。信息存储与检索1.2.4 信息检索系统的逻辑结构v 系统的逻辑结构主要是指该系统所包括的子系统或功能模
24、块及其相互之间的逻辑关系。不管信息检索系统的物理结构如何,它们的逻辑结构大体上都是相同或相似的,只有组成部分多与少的区别。如前所述,信息检索系统的两大基本功能是存储和检索,这两大基本功能可以分解为6 个子系统或功能模块,它们共同构成了信息检索系统逻辑结构。这6 个子系统是采选子系统、词语子系统、标引子系统、查询子系统、交互子系统和匹配子系统。如图1-9 所示。信息存储与检索1.2.4 信息检索系统的逻辑结构词语子系统匹配子系统采选子系统标引子系统交互子系统数据库用户群 信息源查询子系统图1-9 信息检索系统逻辑结构信息存储与检索第三节 信息检索研究 1.3.1 信息检索的研究内容 1 1.3.
25、2 信息检索的相关学科 2 1.3.3 信息检索的产生和发展 3 1.3.4 信息检索的趋势 4信息存储与检索1.3.1 信息检索的研究内容概括起来,信息检索的研究内容包括以下几个方面:(1)信息检索理论研究(2)信息检索方法研究(3)信息检索技术研究(4)信息检索语言研究(5)信息检索系统研究(6)信息检索服务研究(7)信息检索评价研究。信息存储与检索1.3.2 信息检索的相关学科 与信息检索关系比较密切的相关学科和领域如下:(1)计算机科学与技术。(2)数学。(3)系统科学。(4)语言学。(5)认知科学。信息存储与检索1.3.3 信息检索的产生和发展从信息检索的发展历史来看,可以分为以下几个时期(1)起步期(20 世纪50 年代)(2)成长期(20 世纪60 年代)(3)发展期(20 世纪70 年代)(4)成熟期(20 世纪80 年代)(5)开放期(20 世纪90 年代以后)信息存储与检索1.3.4 信息检索的趋势 概括地讲,可以把信息检索当前正在研究的主要课题和未来发展趋势归纳如下:(1)跨语言信息检索。(2)多媒体信息检索。(3)信息检索可视化。(4)信息检索智能化。(5)信息检索个性化。(6)信息检索多样化。信息存储与检索