《计算机信息检索概述(1).ppt》由会员分享,可在线阅读,更多相关《计算机信息检索概述(1).ppt(41页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第三章第三章 计算机信息检索计算机信息检索第一节第一节 计算机信息检索概述计算机信息检索概述第一节第一节 计算机信息检索概论计算机信息检索概论第二节第二节 计算机信息检索基本原理及检计算机信息检索基本原理及检 索技术索技术第三节第三节 计算机信息检索策略计算机信息检索策略第四节第四节 联机信息检索联机信息检索第一节第一节 计算机信息检索概述计算机信息检索概述一、计算机信息检索的含义一、计算机信息检索的含义二、计算机信息检索的类型二、计算机信息检索的类型三、计算机信息检索的系统构成三、计算机信息检索的系统构成四、计算机信息检索发展概况四、计算机信息检索发展概况 一、计算机信息检索的含义一、计算机
2、信息检索的含义 计算机信息检索是指计算机信息检索是指人人们在们在计算机计算机或计算或计算机检索网络的终端机上,使用特定的机检索网络的终端机上,使用特定的检索指检索指令令、检索词和检索策略,从计算机检索系统、检索词和检索策略,从计算机检索系统的的数据库数据库中检索出需要的信息,继而再由终中检索出需要的信息,继而再由终端设备显示或打印的过程。端设备显示或打印的过程。l l计算机信息检索过程:计算机信息检索过程:(1)(1)信息存储过程信息存储过程 (2)(2)信息检索过程信息检索过程l l计算机信息检索的本质是信息用户的提问标计算机信息检索的本质是信息用户的提问标识和信息集合数据库特征标识匹配的过
3、程。识和信息集合数据库特征标识匹配的过程。手工检索手工检索手工检索手工检索:人人书本式检索工具书本式检索工具书本式检索工具书本式检索工具(文献条目文献条目)计算机检索计算机检索计算机检索计算机检索:人人计计计计算算算算机机机机数据库数据库数据库数据库(文献条目文献条目)相同点:相同点:相同点:相同点:均需经过标引,均需经过标引,均需经过标引,均需经过标引,提炼出文献标识提炼出文献标识提炼出文献标识提炼出文献标识不同点:不同点:不同点:不同点:前者按主题词、前者按主题词、前者按主题词、前者按主题词、分类、著者等进行编排;分类、著者等进行编排;分类、著者等进行编排;分类、著者等进行编排;后者按文档
4、号编排(检后者按文档号编排(检后者按文档号编排(检后者按文档号编排(检索时自动生成索引文档)索时自动生成索引文档)索时自动生成索引文档)索时自动生成索引文档)查找查找查找查找检检检检索索索索指指指指令令令令查查查查找找找找手工检索的特点(和计算机检索相比较)手工检索的特点(和计算机检索相比较)优点:优点:1.发展早,可检索的时间范围广发展早,可检索的时间范围广2.所有内容都呈现在读者面前,容易对比所有内容都呈现在读者面前,容易对比并发现新的线索并发现新的线索缺点:缺点:1.查找繁琐,效率低下查找繁琐,效率低下2.只能查找原文线索,无法直接获取全文只能查找原文线索,无法直接获取全文3.检索途径相
5、对较少,且无法灵活地编制检索途径相对较少,且无法灵活地编制检索策略检索策略 二、计算机信息检索的类型二、计算机信息检索的类型按工作方式划分按工作方式划分 1 1、脱机信息检索、脱机信息检索2 2、联机信息检索、联机信息检索3 3、光盘信息检索、光盘信息检索4 4、网络信息检索、网络信息检索 1、脱机信息检索脱机信息检索l l是一种早期应用的检索是一种早期应用的检索l l利用单台计算机的输入输出装置进行检索利用单台计算机的输入输出装置进行检索l l磁带作为存储介质,计算机对数据的处理过磁带作为存储介质,计算机对数据的处理过程是依次连续的程是依次连续的l l适用于大批量的定题信息检索适用于大批量的
6、定题信息检索l l一般由专职检索人员操作一般由专职检索人员操作2、联机信息检索、联机信息检索l lOnline retrievall l用户通过计算机终端设备,通过通讯线路或用户通过计算机终端设备,通过通讯线路或网络,在联机检索中心的数据库中进行检索网络,在联机检索中心的数据库中进行检索并获得信息的过程并获得信息的过程l l检索过程采用人机对话的方式,用户可根据检索过程采用人机对话的方式,用户可根据需要随时修改检索表达式需要随时修改检索表达式l l具有分时操作能力,用户能通过各个独立的具有分时操作能力,用户能通过各个独立的终端同时进行检索终端同时进行检索l l最大的缺点是检索费用高最大的缺点是
7、检索费用高3、光盘信息检索光盘信息检索l lCD-ROM数据库数据库l l最初是单机检索,后来逐渐发展出了联机光最初是单机检索,后来逐渐发展出了联机光盘检索盘检索l l联机光盘检索指把单用户系统发展成多用户联机光盘检索指把单用户系统发展成多用户的局域网系统,通过网络(如校园网)连接的局域网系统,通过网络(如校园网)连接多个用户终端,用服务器管理多组光盘数据多个用户终端,用服务器管理多组光盘数据库及其检索系统库及其检索系统4、网络信息检索、网络信息检索l lWeb-databasel l用户在自己的客户端上,通过互联网和浏览用户在自己的客户端上,通过互联网和浏览器界面对数据库进行检索器界面对数据
8、库进行检索l l与联机系统中主机和用户与联机系统中主机和用户 终端的主从关系不同终端的主从关系不同三、计算机信息检索的系统构成三、计算机信息检索的系统构成l l服务器服务器l l通信网络通信网络l l检索终端检索终端l l数据库数据库计算机检索系统:计算机检索系统:检索终端(检索终端(PCPC机,同时也是输出端)机,同时也是输出端),通信网络(或通信电缆),数据库存储服务器,通信网络(或通信电缆),数据库存储服务器检索终端检索终端检索终端检索终端 通信网通信网通信网通信网 INTERNETINTERNET服务器(数据库终端服务器(数据库终端服务器(数据库终端服务器(数据库终端)结果输出结果输出
9、结果输出结果输出结果返回结果返回结果返回结果返回 数据库类型与结构数据库类型与结构 1、数据库的定义、数据库的定义 按按ISO/DIS5127(文献与情报工作术语),文献与情报工作术语),数据库:至少由一种文档组成、能满足特定数据库:至少由一种文档组成、能满足特定目的或特定数据处理系统需要的数据集合。目的或特定数据处理系统需要的数据集合。数据库是在计算机存储设备上按一定方式数据库是在计算机存储设备上按一定方式存储的相互关联的数据集合。数据库是计算存储的相互关联的数据集合。数据库是计算机技术与信息检索技术相结合的产物,是现机技术与信息检索技术相结合的产物,是现代重要的信息资源管理工具,也是计算机
10、信代重要的信息资源管理工具,也是计算机信息检索的基础。息检索的基础。2、数据库类型、数据库类型 (1)参考数据库()参考数据库(reference database)主要存储一系列描述性信息内容,指引用主要存储一系列描述性信息内容,指引用户到另一信息源获得完整的原始信息的一类户到另一信息源获得完整的原始信息的一类数据库,主要包括数据库,主要包括书目数据库书目数据库和和指南数据库指南数据库。书目数据库书目数据库存储描述如目录、题录、存储描述如目录、题录、文摘等书目线索的数据库,又称二次文献信文摘等书目线索的数据库,又称二次文献信息数据库。如图书馆目录数据库、题录数据息数据库。如图书馆目录数据库、
11、题录数据库、文摘数据库等,作用是指出获取原始信库、文摘数据库等,作用是指出获取原始信息的线索。息的线索。图书馆目录数据库图书馆目录数据库,又称机读目录,主要,又称机读目录,主要报道和存储图书馆馆藏各种文献的书目信息。报道和存储图书馆馆藏各种文献的书目信息。既是图书馆业务部门的业务管理工具,也是既是图书馆业务部门的业务管理工具,也是一般用户查找馆藏文献的工具,它的数据内一般用户查找馆藏文献的工具,它的数据内容详细,除描述标题、作者、出版项等书目容详细,除描述标题、作者、出版项等书目信息外,还提供索取原始信息的馆藏信息,信息外,还提供索取原始信息的馆藏信息,记录格式比较统一。记录格式比较统一。在网
12、络环境下,图书馆目录数据库已发展在网络环境下,图书馆目录数据库已发展成成OPAC检索系统检索系统(OPAC-Online Public Access Catalogue System,联机公共书目查联机公共书目查询系统询系统)。题录、文摘数据库题录、文摘数据库描述的数据内容与印刷描述的数据内容与印刷型题录、文摘相似,主要是简要通报有关领型题录、文摘相似,主要是简要通报有关领域某一时期发表的文献,供人们查阅与检索,域某一时期发表的文献,供人们查阅与检索,它提供确切的文献来源信息,能准确鉴别相它提供确切的文献来源信息,能准确鉴别相对应的原始文献。它的生产者多是学术协会对应的原始文献。它的生产者多是
13、学术协会或信息服务机构。这些机构通常根据服务对或信息服务机构。这些机构通常根据服务对象的需要来决定数据库的收录范围,或面向象的需要来决定数据库的收录范围,或面向特定学科用户,或面向特定文献类型。特定学科用户,或面向特定文献类型。国外:国外:COMPENDEX、INSPEC、NTIS、CA search、BIOSIS、SCI等;等;国内:中国学术论文数据库、中国国内:中国学术论文数据库、中国学位论文数据库、中国科学期刊数据库学位论文数据库、中国科学期刊数据库(文摘版)等。(文摘版)等。指南数据库指南数据库存储描述关于机构、人物、存储描述关于机构、人物、产品、活动等对象的数据库,又称事实数据产品、
14、活动等对象的数据库,又称事实数据库,主要用途是供用户查询有关某一事物的库,主要用途是供用户查询有关某一事物的发生地点、时间、过程或简要情况等信息。发生地点、时间、过程或简要情况等信息。如人物传记数据库、公司名录数据库、机构如人物传记数据库、公司名录数据库、机构指南数据库、行业指南数据库、基金数据库、指南数据库、行业指南数据库、基金数据库、产品数据库、标准指南数据库等。产品数据库、标准指南数据库等。存储的数据为非文献信息,为用户提供的存储的数据为非文献信息,为用户提供的是一些客观实体的指示性描述。是一些客观实体的指示性描述。(2)源数据库()源数据库(source database)主要存储全文
15、、数值、结构式等信息,能主要存储全文、数值、结构式等信息,能直接提供原始信息或具体数据,用户不必再直接提供原始信息或具体数据,用户不必再转查其他信息源的数据库。主要包括转查其他信息源的数据库。主要包括全文数全文数据库据库和和数值数据库数值数据库。全文数据库全文数据库可将包括题名、著者、摘要、可将包括题名、著者、摘要、关键词、正文、参考文献、著作日期等在内关键词、正文、参考文献、著作日期等在内的数据全部收入数据库,供用户查询,能向的数据全部收入数据库,供用户查询,能向用户提供一步到位的查找原始文献的信息服用户提供一步到位的查找原始文献的信息服务。务。国内:中国学术期刊全文数据库、国内:中国学术期
16、刊全文数据库、中国优秀博硕士学位论文全文数据库、中国优秀博硕士学位论文全文数据库、中国重要报纸全文数据库、人大复印中国重要报纸全文数据库、人大复印资料全文数据库等。资料全文数据库等。数值数据库数值数据库是一种以自然数值形式表示、是一种以自然数值形式表示、计算机可读的数据集合,存储以数值表示信计算机可读的数据集合,存储以数值表示信息为主的一种源数据库,与书目数据库相比,息为主的一种源数据库,与书目数据库相比,数值数据库是对信息进行深加工的产物,可数值数据库是对信息进行深加工的产物,可以直接提供所需数据信息,如各种统计数据以直接提供所需数据信息,如各种统计数据库、科学技术数据库等,除具有一般检索功
17、库、科学技术数据库等,除具有一般检索功能外,还具有准确数据运算功能、数据分析能外,还具有准确数据运算功能、数据分析功能、图形处理功能及对检索输出数据进行功能、图形处理功能及对检索输出数据进行排序和重新组织等方面的功能。排序和重新组织等方面的功能。3、数据库的结构、数据库的结构 数据库通常以文档的形式组合起来,其主数据库通常以文档的形式组合起来,其主要部分是各种主文档(又称顺排文档)和索要部分是各种主文档(又称顺排文档)和索引文档(又称倒排文档),而文档的基本组引文档(又称倒排文档),而文档的基本组成单位是记录,每条记录又由不同的字段组成单位是记录,每条记录又由不同的字段组成,每个字段都有标志符
18、,字段中所含的真成,每个字段都有标志符,字段中所含的真实内容称字段的属性值。因此,可以这样说,实内容称字段的属性值。因此,可以这样说,多个字段组成一个记录,多个记录构成一个多个字段组成一个记录,多个记录构成一个文档,多个文档共同组成计算机信息检索系文档,多个文档共同组成计算机信息检索系统中完整的数据库。统中完整的数据库。记录记录 记录是作为一个单位来处理有关数据的集记录是作为一个单位来处理有关数据的集合,是组成文档的基本数据单位,是对某一合,是组成文档的基本数据单位,是对某一实体的属性进行描述的结果。记录中所包含实体的属性进行描述的结果。记录中所包含的若干字段,则是组成记录的基本数据单位。的若
19、干字段,则是组成记录的基本数据单位。记录相当于文摘型或题录。记录相当于文摘型或题录。书目数据库中,每条记录相当于题录或文书目数据库中,每条记录相当于题录或文摘型检索刊物的一条著录款目。摘型检索刊物的一条著录款目。字段字段 一个记录通常由标题字段、作者字段、一个记录通常由标题字段、作者字段、来源字段、文摘字段、主题词字段、分来源字段、文摘字段、主题词字段、分类号字段、语种字段等组成。类号字段、语种字段等组成。在有些字段中,又包含多个子字段,在有些字段中,又包含多个子字段,子字段是字段的下级数据单位,如主题子字段是字段的下级数据单位,如主题词字段含有多个主题词。词字段含有多个主题词。每一条记录基本
20、上都包含三种字段:每一条记录基本上都包含三种字段:l l存取号字段存取号字段存取号是计算机检索系统为存取号是计算机检索系统为数据库中的每一条记录规定的、能够被计算数据库中的每一条记录规定的、能够被计算机识别的特定号码,在同一个数据库中,每机识别的特定号码,在同一个数据库中,每条记录只能有一个存取号,一般情况下,该条记录只能有一个存取号,一般情况下,该存取号出现在记录的开头位置。存取号出现在记录的开头位置。l l基本索引字段基本索引字段也可称为主题性字段,主也可称为主题性字段,主要是指用来表达文献内容特征的字段。文献要是指用来表达文献内容特征的字段。文献的标题(的标题(TI)、)、文摘(文摘(A
21、B)、)、主题词主题词(DE)、关键词(关键词(KY)等属于基本索引字段。等属于基本索引字段。l l辅助索引字段辅助索引字段也可称为非主题性字段,也可称为非主题性字段,主要表达文献的外部特征。文献的作者主要表达文献的外部特征。文献的作者(AU)、)、文献出处(文献出处(SO)、)、出版年代出版年代(PY)、)、语种(语种(LA)等属于辅助索引字段,等属于辅助索引字段,一般与基本索引字段配合使用,起到限制检一般与基本索引字段配合使用,起到限制检索范围的作用。索范围的作用。文档文档 文档是按一定结构组织的相关记录的集文档是按一定结构组织的相关记录的集合。文档是书目数据库数据组织的基本形合。文档是书
22、目数据库数据组织的基本形式,文档的组织方式与检索系统的软硬件式,文档的组织方式与检索系统的软硬件功能密切相关,在书目数据库中,文档的功能密切相关,在书目数据库中,文档的结构主要分为结构主要分为顺排文档顺排文档和和倒排文档倒排文档。顺排文档顺排文档 顺排文档顺排文档:是文档在计算机存储器中的一:是文档在计算机存储器中的一种存放形式,文档中的全部记录按顺序一个种存放形式,文档中的全部记录按顺序一个接一个地存放,记录之间的逻辑顺序与物理接一个地存放,记录之间的逻辑顺序与物理顺序是一致的,相当于印刷型工具中文摘的顺序是一致的,相当于印刷型工具中文摘的排列顺序,是一种线性文档。顺排文档是构排列顺序,是一
23、种线性文档。顺排文档是构成数据库的主体部分,成数据库的主体部分,相当于印刷型检索工相当于印刷型检索工具的正文部分。具的正文部分。倒排文档倒排文档 倒排文档倒排文档:将顺排文档各个记录中一切可:将顺排文档各个记录中一切可检字段检字段含有主题性质的字段含有主题性质的字段(如主题词如主题词字段、标题字段、叙词字段等字段、标题字段、叙词字段等)和非主题性和非主题性质的字段(如作者字段、机构字段、来源字质的字段(如作者字段、机构字段、来源字段等)或属性值分别提取出来,作为检索标段等)或属性值分别提取出来,作为检索标识,按某种顺序重新组织得到的一种文档,识,按某种顺序重新组织得到的一种文档,具有主题性质的
24、倒排文档称基本索引档,非具有主题性质的倒排文档称基本索引档,非主题性质的倒排档称辅助索引档。主题性质的倒排档称辅助索引档。倒排文档实际上相当于印刷型检索工具中倒排文档实际上相当于印刷型检索工具中的辅助索引。的辅助索引。顺排文档顺排文档和和倒排文档倒排文档的主要区别是:的主要区别是:顺排文档以完整的记录为处理和检索单元,顺排文档以完整的记录为处理和检索单元,是主文档,倒排文档则以记录中的字段为处是主文档,倒排文档则以记录中的字段为处理和检索单元,倒排文档是从主文档中派生理和检索单元,倒排文档是从主文档中派生出来的索引文档。出来的索引文档。计算机进行检索时,先进入倒排文档查找计算机进行检索时,先进
25、入倒排文档查找有关信息的存取号,然后再进入顺排文档按有关信息的存取号,然后再进入顺排文档按存取号查找记录。存取号查找记录。数据库构成数据库构成p参考数据库(参考数据库(Reference databasesReference databases)p源数据库(源数据库(Source databasesSource databases)数数数数据据据据库库库库分分类类文档文档(File)File)Ti:MolecularAu:XXXSo:JournalDe:xxx记录(记录(RecordRecord)Ti:MolecularAu:XXXSo:JournalDe:xxx字段(字段(FieldFiel
26、d)Ti:Au:So:De:四、计算机信息检索发展概况四、计算机信息检索发展概况1.1.国外计算机信息检索发展阶段国外计算机信息检索发展阶段脱机检索阶段脱机检索阶段(1954-1964)联机检索阶段联机检索阶段(1965-1971)国际联机检索阶段国际联机检索阶段(1972-1994)光盘检索阶段(光盘检索阶段(20世纪世纪80年代年代-)网络信息检索阶段网络信息检索阶段(1995-)(1)脱机检索阶段)脱机检索阶段(1954-1964)六十年代发展起来的批次检索,用户不与检六十年代发展起来的批次检索,用户不与检索系统发生直接联系,只需把检索要求送往索系统发生直接联系,只需把检索要求送往检索中
27、心,由检索人员在计算机主机旁进行检索中心,由检索人员在计算机主机旁进行文献检索的一种方式。文献检索的一种方式。优点:价格便宜,无网络通讯费,检索费用优点:价格便宜,无网络通讯费,检索费用由用户平摊,随机存储。由用户平摊,随机存储。缺点:一次机会检索,检索结果延误,委托缺点:一次机会检索,检索结果延误,委托性检索。性检索。(2)联机检索阶段联机检索阶段(1965-1971)联机检索是用户利用终端设备,通过通信网联机检索是用户利用终端设备,通过通信网络或通信线路与检索系统联机,进行络或通信线路与检索系统联机,进行“人机人机对话对话”,从检索中心的数据库查找所需要的,从检索中心的数据库查找所需要的文
28、献信息过程。文献信息过程。特点:检索的速度快,检索结果可以得到及特点:检索的速度快,检索结果可以得到及时修改。时修改。缺点:检索费用高。缺点:检索费用高。(3)国际联机检索阶段)国际联机检索阶段(1972-1994)70年代出现的一门现代化信息检索手段,目年代出现的一门现代化信息检索手段,目前已发展到相当高的水平,计算机联机网络前已发展到相当高的水平,计算机联机网络和检索终端已遍及世界所有主要国家和地区。和检索终端已遍及世界所有主要国家和地区。特点:特点:(1)可以实现资源共享;)可以实现资源共享;(2)检索速度快;)检索速度快;(3)信息资源专业化;)信息资源专业化;(4)查全率和查准率较高
29、。)查全率和查准率较高。(4)光盘检索阶段()光盘检索阶段(20世纪世纪80年代年代-)光盘是光盘是80年代发展起来的激光存储载体,年代发展起来的激光存储载体,继纸张、感光材料、磁性载体之后问世继纸张、感光材料、磁性载体之后问世的又一种新型信息存储介质。能存储数的又一种新型信息存储介质。能存储数据、文字、图形、图像、声音、动画等据、文字、图形、图像、声音、动画等各种信息。一张普通光盘的信息存储量各种信息。一张普通光盘的信息存储量约为约为650兆。兆。光盘分类:按存储方式分只读型光盘光盘分类:按存储方式分只读型光盘(CD-ROM)、)、一次写入型光盘一次写入型光盘(WORM)、)、可檫写型光盘(
30、可檫写型光盘(ERM)(5)网络信息检索阶段)网络信息检索阶段(1995-)l l指通过网络接口软件,用户可在任一终端查指通过网络接口软件,用户可在任一终端查询各地上网的信息资源。询各地上网的信息资源。l l网络检索也是一种广义的联机检索,如使用网络检索也是一种广义的联机检索,如使用远程远程登录登录(Telnet)通过通过Internet连接用户所连接用户所指定的远程计算机,共享该主机指定的远程计算机,共享该主机上的资源,上的资源,这个过程也称为联机,但后者更适宜用连网这个过程也称为联机,但后者更适宜用连网或网络检索这一概念。或网络检索这一概念。2.国内计算机信息检索发展概况国内计算机信息检索发展概况1975年,从国外引进数据库开展机检服务;年,从国外引进数据库开展机检服务;1980年,建立国际联机终端开展检索服务;年,建立国际联机终端开展检索服务;20世纪世纪80年代中后期,自建数据库;年代中后期,自建数据库;90年代初,发展光盘检索;年代初,发展光盘检索;90年代中期,年代中期,Internet网络化检索阶段。网络化检索阶段。