《情报检索的原理与技术精.ppt》由会员分享,可在线阅读,更多相关《情报检索的原理与技术精.ppt(50页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、情报检索的原理与技术第1页,本讲稿共50页日本经济发展的启示日本经济发展的启示日本人均国民生产总值日本人均国民生产总值:19451945年只有年只有2020美元,美元,19551955年为年为200200美元,美元,19651965年为年为10001000美元,美元,19801980年为年为1000010000美元,美元,19821982年为年为1200012000美元,美元,19891989年为年为1610016100美元,美元,19911991年为年为2732627326美元(当年美国是美元(当年美国是2255022550美元)且仅次于瑞美元)且仅次于瑞士(士(3510035100美元),
2、美元),19941994年为年为3463034630美元,居世界银行评出的十大富国的第美元,居世界银行评出的十大富国的第三位(十大富国:卢森堡、瑞士、日本、丹麦、挪威、三位(十大富国:卢森堡、瑞士、日本、丹麦、挪威、美国、德国、奥地利、冰岛、瑞典)。美国、德国、奥地利、冰岛、瑞典)。数据来源:数据来源:远东经济评论远东经济评论(Economic Review of Far EastEconomic Review of Far East)第2页,本讲稿共50页 日本是第二次世界大战战败国,而且地处孤岛,日本是第二次世界大战战败国,而且地处孤岛,资源缺乏,但它只花了资源缺乏,但它只花了2020年的
3、时间就令全国经济获得年的时间就令全国经济获得飞速发展,原因何在?飞速发展,原因何在?最重要的一条就是每个国民及整个国家都竭尽最重要的一条就是每个国民及整个国家都竭尽全力地追求信息,走一条全力地追求信息,走一条“引进、消化、综合、创引进、消化、综合、创新、返销、赚钱新、返销、赚钱”的富国之路。的富国之路。第3页,本讲稿共50页 资料显示,资料显示,19521952年日本出口总额只年日本出口总额只有有8 8亿美元亿美元,由于它在,由于它在战后花了战后花了2020年时间和年时间和5757亿美元亿美元购买外国的购买外国的情报和专利,大大促情报和专利,大大促进了经济的发展,到进了经济的发展,到19901
4、990年,日本的出口年,日本的出口总额竟达到总额竟达到28602860亿美亿美元元,19951995年则达到年则达到44004400亿美元亿美元,出口总,出口总额仅次于德国、美国,额仅次于德国、美国,居世界第三位。居世界第三位。日本人收集情报信息日本人收集情报信息的手段多种多样,而且的手段多种多样,而且具有独创性。每年在近具有独创性。每年在近千种科技文献、政府报千种科技文献、政府报告和报刊上获得美国有告和报刊上获得美国有价值的论文约价值的论文约7 7万篇万篇,内,内容几乎涉及所有的科技容几乎涉及所有的科技领域。日本企业在美国领域。日本企业在美国的大学情报站有的大学情报站有上千个上千个,这些情报
5、站多是高薪聘这些情报站多是高薪聘用美国的专家为日本服用美国的专家为日本服务的务的。第4页,本讲稿共50页 国际情报公司国际情报公司(International International Information Company,Information Company,IICIIC)一位人士说,日)一位人士说,日本人收集情报、信息本人收集情报、信息像梭子鱼一样,极其像梭子鱼一样,极其厉害,什么都不放过。厉害,什么都不放过。第5页,本讲稿共50页第一节第一节 情报检索原理情报检索原理第二节第二节 情报检索技术情报检索技术第6页,本讲稿共50页第一节第一节 情报检索原理情报检索原理一情报检索概念一情
6、报检索概念二二.情报检索类型情报检索类型三情报检索语言三情报检索语言四情报检索工具四情报检索工具 第7页,本讲稿共50页 1.1.情报检索情报检索 “检索检索”一词源自英文一词源自英文“Retrieval”,其含义是,其含义是“查找查找”。将大量相关情报按一定的方式和规律组织和存储起将大量相关情报按一定的方式和规律组织和存储起来,形成某种情报集合,并能根据用户特定需求快速高来,形成某种情报集合,并能根据用户特定需求快速高效地查找出所需情报的过程称情报检索。效地查找出所需情报的过程称情报检索。一情报检索概念一情报检索概念第8页,本讲稿共50页总结:总结:从大量的信息情报集合中查找出所需情报的活从
7、大量的信息情报集合中查找出所需情报的活动、过程与方法。动、过程与方法。(狭义(狭义)将情报信息按照一定方式组织、存贮起来,将情报信息按照一定方式组织、存贮起来,并针对用户需求的需要查找出所需情报的过程。并针对用户需求的需要查找出所需情报的过程。(广义)(广义)第9页,本讲稿共50页 2.2.情报检索原理情报检索原理 存存贮贮过过程程:搜搜集集情情报报、筛筛选选加加工工、形形成成检索工具、组成检索系统检索工具、组成检索系统 检检索索过过程程:明明确确需需求求、分分析析课课题题、利利用检索工具、得出检索结果用检索工具、得出检索结果第10页,本讲稿共50页主题分析主题分析文文 献献 情情报内容报内容
8、用用 户户 情情报需求报需求主题概念主题概念主题概念主题概念情情报报检检索索语语言言标识标识标识标识情情报报检检索系统索系统结果结果主题分析主题分析 输入输入检索检索第11页,本讲稿共50页 1 1.根据检索内容分类根据检索内容分类 文献检索文献检索(Document Retrieval)数据检索(数据检索(Data Retrieval)事实检索(事实检索(Fact Retrieval)二二.情报检索类型情报检索类型 第12页,本讲稿共50页 2.2.根据检索手段分类根据检索手段分类 手工检索手工检索 特点是方便、灵活、判别直观,可随特点是方便、灵活、判别直观,可随时修改检索策略,查准率较高。
9、不足的是检索速度较时修改检索策略,查准率较高。不足的是检索速度较慢,漏检现象比较严重,不便于进行复杂概念课题的慢,漏检现象比较严重,不便于进行复杂概念课题的检索。检索。计算机检索计算机检索 特点是速度快、效率高、查全率较高。特点是速度快、效率高、查全率较高。不足之处是成本高、费用大,查准率通常不尽如人意。不足之处是成本高、费用大,查准率通常不尽如人意。第13页,本讲稿共50页 1.检索语言的概念检索语言的概念 情报检索语言是根据检索需要而创制的人工语言,情报检索语言是根据检索需要而创制的人工语言,也称检索标识系统。它专门用于各种手工和计算机情也称检索标识系统。它专门用于各种手工和计算机情报检索
10、系统,其实质是表达一系列概括文献内容的概报检索系统,其实质是表达一系列概括文献内容的概念及其相互关系的概念标识系统。念及其相互关系的概念标识系统。三情报检索语言三情报检索语言第14页,本讲稿共50页 2.2.检索语言的类型检索语言的类型 检索语言的种类很多,按其构成原理一般检索语言的种类很多,按其构成原理一般可分为分类语言(又称分类法)、主题语言和可分为分类语言(又称分类法)、主题语言和代码语言三种。代码语言三种。其中分类语言又有体系分类法和组配分类法其中分类语言又有体系分类法和组配分类法的区别,主题语言又有标题词语言、叙词语言和的区别,主题语言又有标题词语言、叙词语言和关键词语言的区别。关键
11、词语言的区别。第15页,本讲稿共50页检索语言检索语言 表达文献情表达文献情报主题概念报主题概念 表达文献情表达文献情报外部特征报外部特征分类语言分类语言 主题语言主题语言 标题词语言标题词语言单元词语言单元词语言 叙词语言叙词语言关键词语言关键词语言书名、刊名、篇名等书名、刊名、篇名等 著者(作者)名称著者(作者)名称号码(如报告号、专利号码(如报告号、专利号、文献序号)号、文献序号)文献类型文献类型 第16页,本讲稿共50页 1.1.检索工具的概念检索工具的概念 检索工具是用以报道、存储和查找文献信息检索工具是用以报道、存储和查找文献信息的一切工具与设备。的一切工具与设备。它以各种类型的原
12、始文献为素材,在广泛收集、它以各种类型的原始文献为素材,在广泛收集、筛选、分析的基础上,用选定的检索语言进行描述筛选、分析的基础上,用选定的检索语言进行描述和标引,并按特定规则组织编排而成的二次文献。和标引,并按特定规则组织编排而成的二次文献。四情报检索工具四情报检索工具第17页,本讲稿共50页(1 1)按检索手段划分)按检索手段划分 手工检索工具手工检索工具 机械检索工具机械检索工具 计算机检索工具计算机检索工具2.2.检索工具的类型检索工具的类型 (2 2)按载体形态划分)按载体形态划分 书本式检索工具、书本式检索工具、卡片式检索工具、卡片式检索工具、缩微式检索工具、缩微式检索工具、磁性材
13、料检索工具(磁盘、磁性材料检索工具(磁盘、光盘等)光盘等)第18页,本讲稿共50页(4 4)按著录对象和方式)按著录对象和方式划分划分 目录型检索工具目录型检索工具 题录型检索工具题录型检索工具 文摘型检索工具文摘型检索工具 参考型检索工具参考型检索工具 搜索引擎搜索引擎 (3 3)按收录范围划分)按收录范围划分 综合性检索工具综合性检索工具 专业性检索工具专业性检索工具 专题性检索工具专题性检索工具 单一性检索工具单一性检索工具第19页,本讲稿共50页第二节第二节 情报检索技术情报检索技术一一.传统检索技术传统检索技术二二.现代检索技术现代检索技术三三.检索策略检索策略第20页,本讲稿共50
14、页 传传统统意意义义上上的的检检索索技技术术包包括括布布尔尔逻逻辑辑检检索索、位位置置检检索索、截截词词检检索索、限限制制检检索索等等,不不同同的的数数据据库库使使用用该该技技术术的的情情况况各各不不相相同同,具具体使用时应结合实际情况选用。体使用时应结合实际情况选用。一传统检索技术一传统检索技术第21页,本讲稿共50页1.1.布尔逻辑检索(布尔逻辑检索(Boolean Logic Boolean Logic RetrievalRetrieval)通过对一些简单概念检索词的组配,表达一个通过对一些简单概念检索词的组配,表达一个复杂概念。表达概念间的并列关系、相交关系和排复杂概念。表达概念间的并
15、列关系、相交关系和排斥关系,分别是斥关系,分别是逻辑或(逻辑或(oror)、逻辑与()、逻辑与(andand)、逻)、逻辑非(辑非(notnot)。)。第22页,本讲稿共50页 (1 1)逻辑)逻辑“或或”“oror”或或“+”“或或”用于组配具有同义或同组概念的词,如同义词或用于组配具有同义或同组概念的词,如同义词或近义词。用于并列关系,可以扩大检索范围,防止漏检,近义词。用于并列关系,可以扩大检索范围,防止漏检,增加查全率。增加查全率。检索式检索式写作写作 A or BA or B 或或 A+BA+B 表达意义表达意义 数据库中凡有检索词数据库中凡有检索词A A或者或者B B,或同时有,或
16、同时有A A和和B B的记录均为命中记录。的记录均为命中记录。第23页,本讲稿共50页 (2 2)逻辑)逻辑“与与”“andand”、“*”或或“”“与与”用于概念交叉和限定关系的组配。可以缩小用于概念交叉和限定关系的组配。可以缩小检索范围,减少命中文献量,提高查准率。检索范围,减少命中文献量,提高查准率。检索式检索式写作写作 A and BA and B 、A*BA*B 或或A BA B 表达意义表达意义 数据库中同时有检索词数据库中同时有检索词A A和和B B的记录才的记录才为命中记录。为命中记录。第24页,本讲稿共50页 (3 3)逻辑)逻辑“非非”“notnot”或或“”表示排除某些不
17、需要的和影响检索结果的概念,表示排除某些不需要的和影响检索结果的概念,基本作用是缩小检索范围,提高查准率。基本作用是缩小检索范围,提高查准率。检索式检索式写作写作 A not BA not B 或或 A-BA-B 表达意义表达意义 数据库中凡有检索词数据库中凡有检索词A A而不含检索词而不含检索词B B的记的记录才为命中记录。录才为命中记录。第25页,本讲稿共50页注意:注意:布尔逻辑检索算式优先执行顺序通常是布尔逻辑检索算式优先执行顺序通常是NOTNOT、ANDAND、OROR,在有括号的情况下,先执行括号内的运算,在,在有括号的情况下,先执行括号内的运算,在多层括号时,先执行最内层括号的运
18、算。多层括号时,先执行最内层括号的运算。布尔逻辑检索比较容易掌握,但使用不当会布尔逻辑检索比较容易掌握,但使用不当会造成大量误检和漏检,尤其是非运算符的运用造成大量误检和漏检,尤其是非运算符的运用应特别小心。应特别小心。第26页,本讲稿共50页 2.2.位置算符检索位置算符检索 位置检索也叫邻近检索,是用一些特定的位置检索也叫邻近检索,是用一些特定的算符(位置算符)来表达检索词与检索词之间算符(位置算符)来表达检索词与检索词之间的邻近关系,并且可以不依赖主题词表而直接的邻近关系,并且可以不依赖主题词表而直接使用自由词进行检索的技术方法。使用自由词进行检索的技术方法。位置关系包括位置关系包括词距
19、(单词间的间隔)和词序(单词距(单词间的间隔)和词序(单词的先后顺序)词的先后顺序)两个方面。两个方面。第27页,本讲稿共50页 (1 1)()(W W)或()或()(W W)算符是)算符是WithWith或或word word 的缩写,的缩写,表示两侧的词必须紧表示两侧的词必须紧密相连,次序不得颠倒,中间不得有其他词或者字母(两密相连,次序不得颠倒,中间不得有其他词或者字母(两个词之间可以有一个空格、或一个标点符号、或一个连接个词之间可以有一个空格、或一个标点符号、或一个连接号)。号)。例如:例如:CDCD()()ROMROM (nWnW)n Word n Word n n为一个数字,表示算
20、符两侧的检索词间允许插入为一个数字,表示算符两侧的检索词间允许插入n n个实词或虚词,顺序不能颠倒。个实词或虚词,顺序不能颠倒。例如:例如:price (2w)inflationprice (2w)inflation 第28页,本讲稿共50页 (2 2)()(N N)(N N)算符是)算符是NearNear的缩写,表示算符两侧的词必须紧的缩写,表示算符两侧的词必须紧密相连,中间不得有其他字符,但词序可以颠倒。密相连,中间不得有其他字符,但词序可以颠倒。(nNnN)nNear nnNear n是一数字,表示在两个检索词之是一数字,表示在两个检索词之间最多可以插入间最多可以插入n n个单词,且词序
21、可以颠倒。个单词,且词序可以颠倒。(3 3)()(F F)FieldField同字段检索,检索词必须同时出同字段检索,检索词必须同时出现在同一字段中。现在同一字段中。(4 4)()(S S)SubfieldSubfield或或sentence sentence,同子字,同子字段或同句检索,参加检索的两个词必须出现在同段或同句检索,参加检索的两个词必须出现在同一个自然句中。一个自然句中。第29页,本讲稿共50页3.3.截词检索截词检索 由于西文的构词特性,在检索中经常会遇到名词由于西文的构词特性,在检索中经常会遇到名词的单复数形式不一致;同一意义的词,英、美拼法不一的单复数形式不一致;同一意义的
22、词,英、美拼法不一致;词干加上不同性质的前缀和后缀就可以派生出许多致;词干加上不同性质的前缀和后缀就可以派生出许多意义相近的词等。意义相近的词等。截词是在检索词的某个局部截断,采用截词符构成截词是在检索词的某个局部截断,采用截词符构成模糊检索,防止漏检。模糊检索,防止漏检。截词符(通配符)截词符(通配符)??*意义意义 截词检索具有逻辑截词检索具有逻辑or or 的运算特性。的运算特性。第30页,本讲稿共50页 (1)按照截词的位置按照截词的位置 后截断:将截词符号放在一个字符串的右方,满足截后截断:将截词符号放在一个字符串的右方,满足截词符左方所有字符的记录均为命中记录。词符左方所有字符的记
23、录均为命中记录。性质上讲,是一性质上讲,是一种前方一致的检索。种前方一致的检索。例如例如 market*(market or marketable or market*(market or marketable or marketing or marketing or)199?(1990-1999)199?(1990-1999)前截断前截断:将截词符号放在一个字符串的左方,是一种后方将截词符号放在一个字符串的左方,是一种后方一致检索。一致检索。中截断:又称中间屏蔽法,用截词符屏蔽词中不同中截断:又称中间屏蔽法,用截词符屏蔽词中不同字符的方法,中间一致检索。字符的方法,中间一致检索。第31页,本
24、讲稿共50页 (2)按照截取字符的数量按照截取字符的数量 有限截断:是在检索词后截去有限的字符。有限截断:是在检索词后截去有限的字符。例如例如 computer?(computer or computers)computer?(computer or computers)computer?computer?三个字符三个字符 无限截断:在检索词后跟任意个字符均为命中文献。无限截断:在检索词后跟任意个字符均为命中文献。例如例如 comput*(computer or computing or comput*(computer or computing or computered computere
25、d )第32页,本讲稿共50页4.4.字段限制检索字段限制检索 字段限制检索是限定检索词在数据库记录中字段限制检索是限定检索词在数据库记录中的一个或几个字段范围内查找的一种检索。的一个或几个字段范围内查找的一种检索。在检索系统中,数据库设置的可供检索的字在检索系统中,数据库设置的可供检索的字段通常有两种:表达文献主题内容特征的段通常有两种:表达文献主题内容特征的基本索基本索引字段引字段和表达文献外部特征的和表达文献外部特征的辅助索引字段辅助索引字段。基本。基本索引字段包括篇名、文摘、叙词、自由标引词四索引字段包括篇名、文摘、叙词、自由标引词四个字段;辅助索引字段包括除基本索引字段外的个字段;辅
26、助索引字段包括除基本索引字段外的所有字段,如著者字段、著者机构字段、文献类所有字段,如著者字段、著者机构字段、文献类型字段、语种字段等。型字段、语种字段等。基本索引字段一般用后缀表示,如基本索引字段一般用后缀表示,如 medicine/TImedicine/TI,或,或medicine In TI medicine In TI;辅助索引字段一般用前缀表;辅助索引字段一般用前缀表示,如示,如AU=Smith D.AU=Smith D.,再如,再如PY=2005PY=2005。第33页,本讲稿共50页 AB Abstract文摘文摘 TI Title 题名题名 AD Address of Auth
27、or著者地址著者地址 AU Author著者著者 CP Country of Publication出版国出版国 LA Language of Article文献语种文献语种 PT Publication Type出版物类型出版物类型 PY Publication Year出版年出版年 第34页,本讲稿共50页检索式检索式 business information/TI or business information in TI 表示检索在题名中出现表示检索在题名中出现business information 的所有文献。的所有文献。分析分析 review in TI AU=Gordon an
28、d PY=2005 表示检索表示检索Gordon所所写的写的2005年发表的所有文献。年发表的所有文献。分析分析 PT=patent and LA=Chinese第35页,本讲稿共50页 5 5词组检索词组检索 词组检索是将一个词组(通常用双引号词组检索是将一个词组(通常用双引号“”括起)括起)当作一个独立运算单元,进行严格匹配,以提高检索的当作一个独立运算单元,进行严格匹配,以提高检索的精度和准确度,它也是一般数据库检索中常用的方法。精度和准确度,它也是一般数据库检索中常用的方法。词组检索实际上体现了邻近位置运算(词组检索实际上体现了邻近位置运算(NearNear运运算)的功能,即它不仅规定
29、了检索式中各个具体的算)的功能,即它不仅规定了检索式中各个具体的检索词及其相互间的逻辑关系,而且规定了检索词检索词及其相互间的逻辑关系,而且规定了检索词之间的临近位置关系。之间的临近位置关系。第36页,本讲稿共50页1.1.全文检索全文检索 全全文文检检索索系系统统是是为为人人们们获获取取文文献献原原文文而而不不仅仅仅仅是是文文献献线线索索而而产产生生的的一一种种现现代代检检索索技技术术。近近年年来来,全全文文检检索索的的应应用用范范围围不不断断拓拓展展,它它与与出出版版技技术术的的结结合合,使使各各种种科科技技期期刊刊、专专利利文文献献、新新闻闻报报纸纸等等全全文文数数据据库库应应运运而而生
30、生。一一些些年年鉴鉴、手手册册、百百科科全全书书、参参考考书书等等也也成成为为全全文文系系统统处处理理的的对对象象,有有些些著著名名的的文文学学作作品品也也可可以以转转换换成成全全文文数数据据库。库。二二.现代检索技术现代检索技术第37页,本讲稿共50页2.多媒体检索多媒体检索 多媒体检索技术是把文字、声音、图像(形)等多种信多媒体检索技术是把文字、声音、图像(形)等多种信息的传播载体通过计算机进行数字化加工处理而形成的一种综息的传播载体通过计算机进行数字化加工处理而形成的一种综合技术。合技术。视频检索。这种检索要在大量的视频数据中查找所需要视频检索。这种检索要在大量的视频数据中查找所需要的视
31、频片断。如关于卫星云图的变化、人体内器官的运作等。的视频片断。如关于卫星云图的变化、人体内器官的运作等。声音检索。包括:用序号查找一段声音;以匹配方式声音检索。包括:用序号查找一段声音;以匹配方式检索给定样值的声音;对声音文本的检索等。检索给定样值的声音;对声音文本的检索等。图像检索。它通过分析图像的内容,如颜色、纹理等图像检索。它通过分析图像的内容,如颜色、纹理等建立特征索引,并存储在特征库中。用户查询时,只要把建立特征索引,并存储在特征库中。用户查询时,只要把自己对图像的模糊印象描述出来即可在大容量图像信息库自己对图像的模糊印象描述出来即可在大容量图像信息库中找到所要的图像中找到所要的图像
32、。第38页,本讲稿共50页 3.超媒体超文本检索超媒体超文本检索 传统文本都是线性的,用户必须顺序阅读。超媒体与此传统文本都是线性的,用户必须顺序阅读。超媒体与此不同,它是一种非线性的网状结构。用户要沿着交叉链选择阅读不同,它是一种非线性的网状结构。用户要沿着交叉链选择阅读自己感兴趣的部分。早期的超文本以文字为主,随着多媒体的发自己感兴趣的部分。早期的超文本以文字为主,随着多媒体的发展,开始容纳包括图像(形)、视频、声频等各种动、静态信息,展,开始容纳包括图像(形)、视频、声频等各种动、静态信息,统称为超媒体系统或超级文本系统。统称为超媒体系统或超级文本系统。从信息组织角度看,超媒体系统是一个
33、由节点和表达从信息组织角度看,超媒体系统是一个由节点和表达节点之间关系的链构成的网状数据库节点之间关系的链构成的网状数据库。第39页,本讲稿共50页 所谓检索策略就是在分析检索提问实质的基础所谓检索策略就是在分析检索提问实质的基础上,为实现检索目标而制定的一个合理的检索方案。上,为实现检索目标而制定的一个合理的检索方案。一般来说,要经过以下基本程序,分析检索课题,一般来说,要经过以下基本程序,分析检索课题,选择检索系统及数据库,确定检索词,构建检索提选择检索系统及数据库,确定检索词,构建检索提问式,实施检索并调整检索策略,输出检索结果。问式,实施检索并调整检索策略,输出检索结果。三三.检索策略
34、检索策略第40页,本讲稿共50页1.1.分析检索课题分析检索课题 接到检索课题时应当分析研究课题,全面了解课题的内接到检索课题时应当分析研究课题,全面了解课题的内容以及用户对检索的各种要求,从而有助于正确选择检索系容以及用户对检索的各种要求,从而有助于正确选择检索系统及数据库,制定合理的检索策略等。统及数据库,制定合理的检索策略等。分析检索课题时应从以下几方面进行:分析检索课题时应从以下几方面进行:弄清用户情报需求的目的和意图;弄清用户情报需求的目的和意图;分析课题涉及的学科范围、主题要求;分析课题涉及的学科范围、主题要求;课题所需情报的内容及其特征;课题所需情报的内容及其特征;课题所需情报的
35、类型,包括文献类型、出版类型、年课题所需情报的类型,包括文献类型、出版类型、年代范围、语种、著者、机构等;代范围、语种、著者、机构等;课题对查新、查准、查全的指标要求等。课题对查新、查准、查全的指标要求等。第41页,本讲稿共50页2.2.选择检索系统和数据库选择检索系统和数据库 在全面分析检索课题的基础上,根据用户要求得到的情报类型、在全面分析检索课题的基础上,根据用户要求得到的情报类型、时间范围、课题检索、经费支持等因素综合考虑后,选择检索系统时间范围、课题检索、经费支持等因素综合考虑后,选择检索系统和数据库。数据库的选择要从以下几方面考虑:和数据库。数据库的选择要从以下几方面考虑:数据库收
36、录的情报内容所涉及的学科范围;数据库收录的情报内容所涉及的学科范围;数据库收录的文献类型、数量、时间范围以及更新周数据库收录的文献类型、数量、时间范围以及更新周期;期;数据库所提供的检索途径、检索功能和服务方式。数据库所提供的检索途径、检索功能和服务方式。第42页,本讲稿共50页3.3.确定检索词确定检索词 检索词的确定一般有以下几种方法:检索词的确定一般有以下几种方法:先选用主题词。当所选的数据库具有规范化词表时,先选用主题词。当所选的数据库具有规范化词表时,应优先选用该数据库词表中与检索课题相关的规范化主应优先选用该数据库词表中与检索课题相关的规范化主题词,从而获得最佳的检索效果。题词,从
37、而获得最佳的检索效果。选用数据库规定的代码。许多数据库的文档中使用各种代选用数据库规定的代码。许多数据库的文档中使用各种代码来表示各种主题范畴,有很高的匹配性。码来表示各种主题范畴,有很高的匹配性。CACA中的化学物质等中的化学物质等记号记号 选用常用的专业术语。选用常用的专业术语。选用同义词与相关词。同义词、近义词、相关词、缩选用同义词与相关词。同义词、近义词、相关词、缩写词、词形变化等应尽量选全,以提高查全率。写词、词形变化等应尽量选全,以提高查全率。第43页,本讲稿共50页4.4.构造检索提问式构造检索提问式 基本要求是:能充分而准确地反映情报需求的基本要求是:能充分而准确地反映情报需求
38、的内容;能适应所检索数据库的索引体系、用词和匹内容;能适应所检索数据库的索引体系、用词和匹配规则,即与数据库中的情报标识匹配。配规则,即与数据库中的情报标识匹配。第44页,本讲稿共50页 注意问题:注意问题:构造检索式时,要弄清所使用数据库的检索功能和构造检索式时,要弄清所使用数据库的检索功能和所采用的操作算符,不同的数据库往往采用不同的符号所采用的操作算符,不同的数据库往往采用不同的符号或文字来描述词与词之间的组配关系。或文字来描述词与词之间的组配关系。检索词之间用检索词之间用“逻辑或逻辑或”连接,可扩大检索式概念的连接,可扩大检索式概念的外延,拓宽情报检索的范围。外延,拓宽情报检索的范围。
39、为提高检索速度,在使用布尔算符时,应把估计出现频率为提高检索速度,在使用布尔算符时,应把估计出现频率低的次放在低的次放在“ANDAND”的左边,把频率高的词放在的左边,把频率高的词放在“OROR”的左边,的左边,同时使用同时使用“ANDAND”和和“OROR”时,应把时,应把“OROR”放在放在“ANDAND”的左边。的左边。应考虑哪些词可利用截词算符,哪些地方要用位置算符,应考虑哪些词可利用截词算符,哪些地方要用位置算符,是否需要字段算符加以限制。是否需要字段算符加以限制。应避免可能产生多种逻辑判断的组配。应避免可能产生多种逻辑判断的组配。第45页,本讲稿共50页5.5.实施检索并调整检索策
40、略实施检索并调整检索策略 在检索过程当中,应及时分析检索结果是在检索过程当中,应及时分析检索结果是否与检索要求一致,根据检索结果对检索提问否与检索要求一致,根据检索结果对检索提问式作相应的修改和调整,直至得到比较满意的式作相应的修改和调整,直至得到比较满意的结果。结果。第46页,本讲稿共50页 检索结果情报量过多检索结果情报量过多 原因有二:一是主题词本身的多义性导致误检;原因有二:一是主题词本身的多义性导致误检;二是对所选的检索词的截词截得太短。二是对所选的检索词的截词截得太短。调整的方法:减少同义词与同族相关词;增加限调整的方法:减少同义词与同族相关词;增加限制概念,采用逻辑制概念,采用逻
41、辑“与与”连接检索词;使用字段限定,连接检索词;使用字段限定,将检索词限定在某个或某些字段范围;使用逻辑将检索词限定在某个或某些字段范围;使用逻辑“非非”算符,排除无关概念;调整位置算符,由松变算符,排除无关概念;调整位置算符,由松变严。严。第47页,本讲稿共50页 检索结果情报量过少检索结果情报量过少 原因:选用了不规范的主题词或某些产品的俗称,原因:选用了不规范的主题词或某些产品的俗称,商品名称作为检索词;同义词、近义词没有用全;上位商品名称作为检索词;同义词、近义词没有用全;上位概念或者下位概念没有完整运用。概念或者下位概念没有完整运用。调整的方法:选全同义词与相关词并用逻辑调整的方法:
42、选全同义词与相关词并用逻辑“或或”将它们连接起来;减少逻辑将它们连接起来;减少逻辑“与与”的运算,丢掉一些次的运算,丢掉一些次要的或者太专指的概念;去掉某些字段限制;调整位要的或者太专指的概念;去掉某些字段限制;调整位置算符,由严变松。置算符,由严变松。第48页,本讲稿共50页6.6.输出检索结果输出检索结果 根据检索系统提供的检索结果输出格式,选根据检索系统提供的检索结果输出格式,选择需要的记录以及相应的字段(全部字段或部分择需要的记录以及相应的字段(全部字段或部分字段),将结果显示在屏幕上、存储到磁盘或直字段),将结果显示在屏幕上、存储到磁盘或直接打印输出,网络数据库检索还可以提供电子邮接打印输出,网络数据库检索还可以提供电子邮件发送,整个检索完成。件发送,整个检索完成。第49页,本讲稿共50页Thats all.Thank you!第50页,本讲稿共50页