《信息检索技术基础知识讲义41542.pptx》由会员分享,可在线阅读,更多相关《信息检索技术基础知识讲义41542.pptx(96页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、信息检索技术基础信息检索技术基础信息检索与利用信息检索与利用1主要内容主要内容2.1 信息检索语言信息检索语言2.2 信息检索技术信息检索技术2.3 检索效果评价检索效果评价2.4 检索词的确定检索词的确定2.5 信息检索策略及策略式信息检索策略及策略式2.6 信息检索步骤信息检索步骤2.7 科技查新科技查新2检索语言:在信息的存储和检索过程中,检索语言:在信息的存储和检索过程中,为使信息在用户和系统间有效传递,各为使信息在用户和系统间有效传递,各种检索工具使用专门的语言体系来描述种检索工具使用专门的语言体系来描述信息的内部特征和外部特征,同时要求信息的内部特征和外部特征,同时要求用户依此构造
2、检索提问式来进行信息检用户依此构造检索提问式来进行信息检索,这种专门的语言体系成为检索语言。索,这种专门的语言体系成为检索语言。2.1 信息检索语言信息检索语言3检索检索语言语言描述文献描述文献内容内容特征特征分类语言分类语言主题语言主题语言描述文献描述文献外表外表特征特征题名(书名、刊名、篇名)题名(书名、刊名、篇名)著著者者出版事项出版事项代码代码/序号序号关键词语言关键词语言叙词语言叙词语言标题词语言标题词语言2.1 信息检索语言信息检索语言单元词语言单元词语言4主题语言主题语言(内容特征)(内容特征)按照主题性质的不同可分为:按照主题性质的不同可分为:标题词标题词单元词单元词叙词叙词关
3、键词关键词2.1 信息检索语言信息检索语言5标题词语言标题词语言:是表征文献内容特征的、经过是表征文献内容特征的、经过规规范化处理范化处理的名词术语(包括词和短语)。的名词术语(包括词和短语)。例如:飞机:例如:飞机:plane、airplane、aeroplane aircraft 用用aircraft来表示所有来表示所有“飞机飞机”概念概念,以此作为规范词以此作为规范词.使用使用aircraft一词的检索结果将包括全部有飞机概念的一词的检索结果将包括全部有飞机概念的文献文献.单元词:单元词:指从信息内容中抽出的最基本的词汇。指从信息内容中抽出的最基本的词汇。关键词语言:关键词语言:关键词是
4、从文题、文摘或正文中关键词是从文题、文摘或正文中抽出,具有实质意义,能够代表文献内容主题抽出,具有实质意义,能够代表文献内容主题的名词术语。关键词可直接用于文献标引。的名词术语。关键词可直接用于文献标引。2.1 信息检索语言信息检索语言6叙词语言叙词语言 叙词:指从信息的内容中抽出的、能概括表达叙词:指从信息的内容中抽出的、能概括表达信息内容基本概念的名词或术语,它是经信息内容基本概念的名词或术语,它是经规范化处规范化处理理的自然语言词汇。的自然语言词汇。叙词受叙词表控制,有组配功能。叙词受叙词表控制,有组配功能。通常使用的叙词表有:通常使用的叙词表有:国内国内汉语主题词表汉语主题词表,英国英
5、国科学文摘科学文摘使用的使用的INSPEC Thesaurus,美国美国工程索引工程索引使用的使用的Ei Thesaurus等。等。运输飞机设计运输飞机设计运输运输飞机飞机设计设计运输飞机运输飞机飞机设计飞机设计7EIEI(ThesaurusThesaurus)8作用作用检索词用来组织信息检索词用来组织信息(信息工作者)(信息工作者)对文献信息内容进行标引;对文献信息内容进行标引;对内容相同或相关的信息加以集中或揭示其相关性;对内容相同或相关的信息加以集中或揭示其相关性;对信息进行系统化、有序化;对信息进行系统化、有序化;检索词用于检索检索词用于检索(检索用户)(检索用户)进行主题检索进行主题
6、检索进行分类检索进行分类检索进行外表特征检索进行外表特征检索检索词是信息资源组织与检索者检索提问的桥检索词是信息资源组织与检索者检索提问的桥梁,在数据库中,对应为检索点、检索入口梁,在数据库中,对应为检索点、检索入口2.1 信息检索语言信息检索语言9对文献信息内容进行标引对文献信息内容进行标引特征特征1特征特征2特征特征3特征特征4特征特征5特征特征n10字段名字段名数据库中文献的记录方式数据库中文献的记录方式112.2.1 布尔逻辑布尔逻辑2.2.2 截词检索截词检索2.2.3 限制检索限制检索2.2.4 位置逻辑位置逻辑2.2.5 检索策略式检索策略式2.2 信息检索技术信息检索技术12n
7、在进行信息检索时,检索项之间概念有在进行信息检索时,检索项之间概念有相交关系、同义关系或相关关系,这时相交关系、同义关系或相关关系,这时采用布尔逻辑进行检索项之间的逻辑组采用布尔逻辑进行检索项之间的逻辑组配。配。n用用“与与”(ANDAND)、)、“或或”(OROR)、)、“非非”(NOTNOT)来表达。来表达。2.2.1 布尔逻辑检索布尔逻辑检索13布尔逻辑检索:布尔逻辑检索:在进行信息检索时,检索项在进行信息检索时,检索项之间概念有相交关系、同义关系或相关关系,之间概念有相交关系、同义关系或相关关系,这时采用布尔逻辑进行检索项之间的逻辑组配这时采用布尔逻辑进行检索项之间的逻辑组配。布尔逻辑
8、算符布尔逻辑算符有三种:有三种:逻辑与、逻辑或、逻辑非逻辑与、逻辑或、逻辑非用用“与与”(AND)、)、“或或”(OR)、)、“非非”(NOT)来表达。来表达。2.2.1 布尔逻辑布尔逻辑14逻辑逻辑“与与”在计算机信息检索时在计算机信息检索时,“与与”用于表示概念的用于表示概念的交叉、限定关系交叉、限定关系逻辑符号:逻辑符号:and、还可用空格表示、还可用空格表示表达形式:表达形式:A and B、A*B、或、或 A B具有缩小检索范围和提高专指性的功能。具有缩小检索范围和提高专指性的功能。例例:computer and control(SCI)computer*control(Dialog
9、)computer control(Google)AB15逻辑或逻辑或逻辑逻辑“或或”算符,用来表示概念的并列、平行、算符,用来表示概念的并列、平行、等同关系等同关系代表符号:代表符号:“or”、“”表达形式:表达形式:A OR B 或或 A+B具有扩大检索范围,减少漏检的功能。具有扩大检索范围,减少漏检的功能。例:例:AIRPLANE OR AIRCRAFT(Google)或或 AIRPLANE+AIRCRAFTAB16逻辑逻辑“非非”算符算符,是具有概念包含关系的一种是具有概念包含关系的一种组配组配,可以从原检索范围中排除某一内容。可以从原检索范围中排除某一内容。表达形式:表达形式:A n
10、ot B、A-B具有缩小命中范围,提高查准率,增强检索的具有缩小命中范围,提高查准率,增强检索的专指性,减少输出量的作用。专指性,减少输出量的作用。例:Energy not nuclear逻辑非逻辑非AB17布尔逻辑检索技术布尔逻辑检索技术逻辑或逻辑或(OR):扩大检索范围,扩大检索范围,有利于提高查全率。有利于提高查全率。逻辑与逻辑与(AND):缩小检索范围,有利于提高查准率。:缩小检索范围,有利于提高查准率。逻辑非逻辑非(NOT):缩小检索范围,有利于提高查准率。:缩小检索范围,有利于提高查准率。ABAB逻辑与逻辑与A*B 逻辑或逻辑或A+B逻辑非逻辑非 A-BAB18运用运用“布尔算符布
11、尔算符”的注意事项:的注意事项:布尔逻辑运算符运算顺序为:布尔逻辑运算符运算顺序为:notandor 运算符遵循运算符遵循数学运算法则数学运算法则;(a)括号括号优先优先;(A or B)and C not D (b)在检索式中只有在检索式中只有and或或or前后的检索标识可前后的检索标识可 以以交换;交换;(c)检索式中有检索式中有not时前后检索词时前后检索词不能交换不能交换。备注备注:()必须在必须在半角半角和和英文英文状态下输入状态下输入 2.2.1 布尔逻辑布尔逻辑19布尔逻辑检索表达式的特点布尔逻辑检索表达式的特点布尔检索表达式式目前信息检索系统中布尔检索表达式式目前信息检索系统中
12、使用最多的一种方法。使用最多的一种方法。优点:优点:表现直观清晰,方便扩检和缩检。表现直观清晰,方便扩检和缩检。易于计算机实现。易于计算机实现。缺点:缺点:没有反映文献内容(或信息需求)没有反映文献内容(或信息需求)所涉及的多个概念的相对重要性。没有所涉及的多个概念的相对重要性。没有反应概念之间的内在语义关系。反应概念之间的内在语义关系。20 写出下图的布尔逻辑检索式写出下图的布尔逻辑检索式21截词截词(truncation):是指检索者将检索词在认为比是指检索者将检索词在认为比较合适的地方截断,也称模糊检索,又称词干较合适的地方截断,也称模糊检索,又称词干检索法检索法截词检索,用截断的词的一
13、个局部进行的检索截词检索,用截断的词的一个局部进行的检索即利用检索词的词干加上截词符号去数据库中即利用检索词的词干加上截词符号去数据库中进行检索。进行检索。(模糊检索模糊检索)截词符号截词符号:一般为一般为“?”或或“*”。各种检索系。各种检索系统有不同规定,没有统一标准。统有不同规定,没有统一标准。截词符具有截词符具有“OR”运算符的功能,能够扩大检索运算符的功能,能够扩大检索范围,而且减少了输入检索词的时间,节约了范围,而且减少了输入检索词的时间,节约了机时。机时。2.2.2 截词检索截词检索22截词的分类截词的分类按位置分类:按位置分类:前截词前截词 中间截词中间截词 后截词后截词按取代
14、数量分:按取代数量分:有限截词有限截词 无限截词无限截词 23后截词,也称前方一致。它是将截词符放在一串字符后截词,也称前方一致。它是将截词符放在一串字符的后面,用以表示以相同字符串开头,而结尾不同的的后面,用以表示以相同字符串开头,而结尾不同的所有词。所有词。词尾的有限截断词尾的有限截断相同字符串后可能变化一个字符时,则在其后使用一相同字符串后可能变化一个字符时,则在其后使用一个个“?”?”,常用来表示检索词的单复数变化。,常用来表示检索词的单复数变化。例如用例如用system?system?可以查出可以查出sytem sytem 和和systems systems 的文献。的文献。相同字符
15、串后可能变化两个以上字符时,则在其后连相同字符串后可能变化两个以上字符时,则在其后连续使用若干个续使用若干个“?”?”代替可能变化的字符。例如,代替可能变化的字符。例如,?表表示两个字符,示两个字符,?表示三个字符,以此类推表示三个字符,以此类推如表示九十年代;如表示九十年代;199199?如表示如表示2020世纪:世纪:1919?后截词后截词24词尾的无限截断词尾的无限截断相同字符串后可能变化任何字符串时,则在其相同字符串后可能变化任何字符串时,则在其后使用一个后使用一个“?”或或“*”。这种方法可以查找。这种方法可以查找出含有相同字符串的所有检索词。出含有相同字符串的所有检索词。例如,例如
16、,comput*可查出可查出compute,computer,computing,computation,computerisation 等等如如physic*可检出:可检出:physical,physic,physicalism physician,physicists,physicochenistry,physics 等等.即相当于为上述各检索词的逻辑即相当于为上述各检索词的逻辑 OR运算运算后截词后截词25中间截词:可变化的字符出现在单词的中中间截词:可变化的字符出现在单词的中间位置。间位置。例如:例如:“woman”woman”和和“women”women”,可用,可用“wom?n”w
17、om?n”代替;代替;“defence”defence”和和“defense”defense”可用可用“defen?e”defen?e”代替。代替。查找英美不同拼法最有效查找英美不同拼法最有效中间截词中间截词26前截断:将截词符号放在一个字符串的左方是前截断:将截词符号放在一个字符串的左方是后方一致的检索。后方一致的检索。例如:例如:*physics 可检可检 physics、astrophysics、biophysics.*Chem*可检可检 chemical,electrochemic,chemistry,thermochemistry.很少使用很少使用前截断前截断27F *Ei Vill
18、age,Web of Science,Elsevier,EBSCO Janes 航空数据库航空数据库 F?PQDD,INSPEC ,Dialog 截截 词词28限制检索是限定检索词出现在数据库记录中某一限制检索是限定检索词出现在数据库记录中某一字段范围的一种检索技术。字段范围的一种检索技术。检索时,系统只对指定字段进行匹配运算,提高检索时,系统只对指定字段进行匹配运算,提高了效率和查准率。了效率和查准率。基本检索字段基本检索字段 标题、文摘、叙词、自由标引词标题、文摘、叙词、自由标引词 Title、abstract、descriptor、identifier辅助检索字段辅助检索字段 作者、刊名
19、、语种、年代、专利号等作者、刊名、语种、年代、专利号等 author、journal、language、publication year、patent number2.2.3 限制检索限制检索29字段检索常用代码字段检索常用代码30 目前各个检索系统所设立的字段是各不相同的,即同一目前各个检索系统所设立的字段是各不相同的,即同一字段,也可能采用不同的字段代码表示。字段,也可能采用不同的字段代码表示。如题名字段如题名字段 Ei中,用中,用 highway transport*within TI 来表示;来表示;OCLC Firstsearch 中,用中,用 TI:highway transpor
20、t*来表示。来表示。在进行字段检索时,应先看一下该数据库的使用指南。在进行字段检索时,应先看一下该数据库的使用指南。例例:Ei CPX Web 网络版数据库主要字段的字段代码如下:网络版数据库主要字段的字段代码如下:CV Ei叙词表受控语叙词表受控语 TI 题名题名 AB 文摘文摘 AU 著者姓著者姓 AF 著者机构名称著者机构名称 ST 连续出版物名称连续出版物名称 PN 出版时间出版时间注意注意31例:检索例:检索2005年以后在年以后在情报学报情报学报上发表的有上发表的有关信息价值计算方法的文献关信息价值计算方法的文献限定范围:限定范围:2005以后以后;情报学报情报学报检索词:信息价值
21、检索词:信息价值、计算计算时间上的限定,有时间上的限定,有“”、“”、“”、“=”、“=”。例如:。例如:PY=2004表示检索表示检索2004年以来(包括年以来(包括2004)发表的文献。)发表的文献。检索式检索式:(年年=2005)*(刊名刊名=情报学报情报学报)*(主题主题=信息价值信息价值*计算计算)323334Search within a specific field using wn test bed wn ALL AND atm networks wn TI(window wn TI AND sapphire wn TI)OR Sakamoto,K*wn AU35利用位置算符来
22、表示检索词之间的位置关系,以利用位置算符来表示检索词之间的位置关系,以实现位置逻辑检索功能。实现位置逻辑检索功能。特征特征这是一种可以不依赖主题词表而直接使用自这是一种可以不依赖主题词表而直接使用自由词进行检索的技术方法。由词进行检索的技术方法。可表达复合内容可表达复合内容属于提高专指度的方法属于提高专指度的方法引入位置算符的目的是增加检索式的灵活性,表引入位置算符的目的是增加检索式的灵活性,表达复杂专深的概念,从而提高检索的专指度,弥达复杂专深的概念,从而提高检索的专指度,弥补布尔逻辑算符难以表达某些复杂提问的不足。补布尔逻辑算符难以表达某些复杂提问的不足。2.2.4 位置逻辑位置逻辑36分
23、类:分类:记录级检索记录级检索:要求检索词在同一记录中有要求检索词在同一记录中有 L字段级检索字段级检索:要求检索词在同一字段中要求检索词在同一字段中,有有 F子字段或自然句级检索子字段或自然句级检索:要求检索词出现在要求检索词出现在同一子字段或同一自然句中同一子字段或同一自然句中,有有 S,词位置检索词位置检索:要求词之间相互位置满足某些要求词之间相互位置满足某些条件条件,有有 W,NW,N.nN 等等2.2.4 位置逻辑位置逻辑37(W)表示该算符两侧的检索词相邻,且两者之间表示该算符两侧的检索词相邻,且两者之间只允许只有一个空格或标点符号只允许只有一个空格或标点符号,不允许有,不允许有任
24、何字母或词,任何字母或词,顺序不能颠倒顺序不能颠倒。(W)也可以简也可以简写为写为()。例如例如:Aircraft()design 可检索出含有可检索出含有Aircraft design 的文献记录。的文献记录。Computer()aided()design 可检索出含有可检索出含有Computer aided design 的文献记录的文献记录(Dialog 为例)为例)(1)(W)With38(nW)表示在此算符两侧的检索词之间最多允许表示在此算符两侧的检索词之间最多允许间隔间隔n 个词个词(实词或虚词实词或虚词),且两者的相对位置,且两者的相对位置不能颠倒不能颠倒。例如:例如:laser
25、(1w)printer 可检出含有可检出含有laser printer 和和laser color printer 的文献记录的文献记录Computer(1w)animation可检出可检出Computer assisted animation(Dialog 为例)为例)(2)(nW)nWords(W),(),(1W),(),(nW)39Wn 如:如:W8EBSCO 例:例:tax W8 reformADJElsevier两词按指定顺序排列两词按指定顺序排列,相当于短语相当于短语 例:例:remote ADJ educationPRE/n PQDD 例:例:military PRE/1 wea
26、pons常见的另外的表达形式常见的另外的表达形式40(N)表示该算符两侧的检索词相邻,但两者的相表示该算符两侧的检索词相邻,但两者的相对对位置可以颠倒位置可以颠倒。例如:例如:computer(N)network 可检出含有可检出含有computer network、network computer 形式的形式的文献记录。文献记录。例例ECONOMI*(1NEAR)RECOVER*可包含多可包含多重组合和含义重组合和含义(Dialog 为例)为例)(3)(N)Near41(nN)表示此算符两侧的检索词之间允许表示此算符两侧的检索词之间允许间隔最多间隔最多n 个词,且两者的顺序可以颠倒。个词,且
27、两者的顺序可以颠倒。例如例如 computer(2N)system 可检出含有可检出含有computer system,computer code system,computer aided design system,system using modern computer 等形式的文献记等形式的文献记录。录。(4)(nN)nNear(N),(),(1N),(),(nN)42Nn 例:例:tax N5 reform(EBSCO)NEARN 例例:remote NEAR5 ducation (Elsevier)W/n 例:例:intelligent W/10 buildings PQDD 常见
28、的另外的表达形式常见的另外的表达形式43邻接符号邻接符号F(field),表示其两侧的检索词必须是在表示其两侧的检索词必须是在文献记录的文献记录的同一字段中同一字段中,而它们在该字段中的相,而它们在该字段中的相对对次序不限次序不限。检索式为检索式为A(F)B。例如:例如:computer(F)control,只要这两个词在一,只要这两个词在一个字段同时出现就算命中。个字段同时出现就算命中。例如:例如:water()pollution(F)control 表示在同一个表示在同一个字段中字段中(如篇名、文摘、叙词等如篇名、文摘、叙词等)同时含有同时含有water pollution 和和contr
29、ol 的文献记录均可检索出来。的文献记录均可检索出来。(5)(F)Field44邻接符号邻接符号S(sentence),表示其两侧的检索词必须表示其两侧的检索词必须是在文献记录的同一子字段中,用(是在文献记录的同一子字段中,用(S)连接的)连接的两个词都两个词都出现在同一个子字段出现在同一个子字段中中词序不限词序不限。检索式为检索式为A(S)B,(S)在文摘字段中,一个句子就是一个子字段在文摘字段中,一个句子就是一个子字段,用用句号或豆号结束。句号或豆号结束。例如例如computer()control(s)system 可检出文摘中可检出文摘中含有含有“This paper is concer
30、ned with an application of the computer control technique in a intelligent system for testing inner walls of pipes.”这样一句话的文献记录。这样一句话的文献记录。(6)S-sentence452.2.4 位置逻辑位置逻辑检索精确度排序检索精确度排序(W)()(nW)()(N)()(nN)()(S)()(F)高高低低46L表示所连接的两个词之间有一定丛属关表示所连接的两个词之间有一定丛属关系,后者修饰、限定前者,两者为主从系,后者修饰、限定前者,两者为主从关系。如主题表中的主题词和副
31、主题就关系。如主题表中的主题词和副主题就具有丛属关系。具有丛属关系。在在EI,MEDLINE中使用中使用如:如:SOLAR(L)ENERGY 系统会自动到叙词字段查找和太阳能相系统会自动到叙词字段查找和太阳能相关的文献。关的文献。(7)L-link47检索执行的优先顺序检索执行的优先顺序 括号中的检索词括号中的检索词 高高 W,N,或或L,F,NOT AND OR 低低48信息检索效果是评价一个信息检索系统性能优信息检索效果是评价一个信息检索系统性能优劣的质量标准,它始终贯穿信息存储和检索的劣的质量标准,它始终贯穿信息存储和检索的全过程。全过程。衡量信息检索效率的指标:查全率、查准率、衡量信息
32、检索效率的指标:查全率、查准率、漏检率、误检率。漏检率、误检率。理想的检索效果是查全率和查准率同时达到理想的检索效果是查全率和查准率同时达到100%100%。但事实上很难达到全部检出和全部检准的要求,但事实上很难达到全部检出和全部检准的要求,而只能达到某个百分比。而只能达到某个百分比。2.3 检索效果评价检索效果评价49查全率:查全率:检索结果中相关记录数与数据库中总的检索结果中相关记录数与数据库中总的相关记录数的比值相关记录数的比值即检出文献中合乎需要的文献数量占数据库中存即检出文献中合乎需要的文献数量占数据库中存在的合乎该需要的所有文献的比例。查全率高说在的合乎该需要的所有文献的比例。查全
33、率高说明有用的东西都被你检中了,但对于数量巨大的明有用的东西都被你检中了,但对于数量巨大的数据库而言,要达到数据库而言,要达到100%的查全率是不可能的,的查全率是不可能的,在网络条件下尤其如此。在网络条件下尤其如此。查全率查全率=检索出相关文献总数检索出相关文献总数系统中的相关文献总数系统中的相关文献总数X 100%2.3 检索效果评价检索效果评价50查准率查准率:检索结果中相关记录数与检索结果总数的比值检索结果中相关记录数与检索结果总数的比值查全率和查准率之间存在近似于互逆关系查全率和查准率之间存在近似于互逆关系在查全与查准两个方面一般难以两全,为了获得很多有在查全与查准两个方面一般难以两
34、全,为了获得很多有用的东西(达到高的查全率),需要较少的限制检索条用的东西(达到高的查全率),需要较少的限制检索条件,但这样检出的无用的东西就会很多(查准率不高),件,但这样检出的无用的东西就会很多(查准率不高),反之亦然。在计算机检索中,一般认为查准率为反之亦然。在计算机检索中,一般认为查准率为6070、查全率为、查全率为4060是较为理想的。是较为理想的。查准率查准率=检索出相关文献总数检索出相关文献总数检出文献总数检出文献总数X 100%2.3 检索效果评价检索效果评价51 扩检扩检方法:方法:1)准确把握准确把握检检索索对对象及目的象及目的,选择选择合适的数据合适的数据库库。2)降降低
35、低检检索索词词或或分分类类号号的的专专指指度度,可可选选上上位位词词和和相关相关词词加入其中。加入其中。3)调调整整检检索式的网索式的网罗罗度,度,删删除不重要的概念面。除不重要的概念面。4)更多地采用学科分更多地采用学科分类类途径来途径来扩扩大大检检索范索范围围。5)减少减少逻辑逻辑“与与”及及逻辑逻辑“非非”的使用。的使用。6)增加增加逻辑逻辑“或或”及截及截词检词检索技索技术术的使用。的使用。7)采用采用“全文全文检检索索”。8)不限定不限定检检索索对对象的文献象的文献类类型、型、时间时间段、文种等。段、文种等。提高查全率的主要方法提高查全率的主要方法52 缩检方法缩检方法 1)1)准确
36、把握准确把握检检索索对对象及目的象及目的,选择选择合适的数据合适的数据库库。2)2)提高提高检检索索词词或分或分类类号的号的专专指度。指度。3)3)更多地采用更多地采用专专用名用名词词及特性及特性检检索的途径。索的途径。4)4)选择逻辑选择逻辑“与与”及及逻辑逻辑“非非”的使用。的使用。5)5)减少或不采用减少或不采用逻辑逻辑“或或”及截及截词检词检索技索技术术的使用。的使用。6)6)限限定定检检索索词词出出现现的的字字段段及及在在段段落落、文文句句中中的的位位置。置。7)7)不不选选“全文全文检检索索”.8)8)限定限定检检索索对对象的文献象的文献类类型、型、时间时间段、文种及其段、文种及其
37、它特征。它特征。提高查准率的主要方法提高查准率的主要方法532.4 检索词的确定检索词的确定必须明确所需信息涉及的主题范畴必须明确所需信息涉及的主题范畴选择合适的主题词选择合适的主题词注意关键词与标题词、叙词的区别注意关键词与标题词、叙词的区别注意关键词中的同义词、近义词的选择注意关键词中的同义词、近义词的选择注意用数据库自带的词表选择合适的检索词注意用数据库自带的词表选择合适的检索词注意检索词的上下位概念词的选择注意检索词的上下位概念词的选择注意选择已输入的检索词的相关复合检索词注意选择已输入的检索词的相关复合检索词注意有些数据库有禁用词:注意有些数据库有禁用词:the、about、on等等
38、等等54专业技术词典专业技术词典词表词表利用数据库自带的词表利用数据库自带的词表利用搜索引擎选择利用搜索引擎选择2.4 检索词的确定检索词的确定55利用搜索引擎选择检索词利用搜索引擎选择检索词搜索引擎是关键字、词、词组、复合词组的搜索引擎是关键字、词、词组、复合词组的检索检索搜索引擎能检索各种语言的信息,特别是中搜索引擎能检索各种语言的信息,特别是中英文检索英文检索可以利用搜索引擎对已检索的内容进行字词可以利用搜索引擎对已检索的内容进行字词的选择,特别是英文词的选择的选择,特别是英文词的选择当有些数据库(当有些数据库(SCISCI、ScienceDirect ScienceDirect)没)没
39、有检索词表可以选择,搜索引擎对词的选择有检索词表可以选择,搜索引擎对词的选择将是主要可参考的途径将是主要可参考的途径2.4 检索词的确定检索词的确定56课题:大型船舶运输安全的风险评估方法与决策技术课题:大型船舶运输安全的风险评估方法与决策技术检索前对课题检索词分析:检索前对课题检索词分析:船舶运输、船舶船舶运输、船舶 maritime transportation,Vessel,ship,boat危险可操作性分析、危险与可操作性分析危险可操作性分析、危险与可操作性分析Hazard and Operability Analysis,HAZOP评估、评价评估、评价 Evaluate,evalua
40、tion,assess,assessment,assessing,appraisal,estimate安全评估、风险评估安全评估、风险评估 Safety Assessment,safety evaluation,Risk Assessment、hazard assessment,exposure rating、利用搜索引擎选择检索词利用搜索引擎选择检索词57用搜索引擎查看用搜索引擎查看可以利用的检索可以利用的检索词,发现除了词,发现除了“船舶运输船舶运输”外,外,还可以用还可以用“海上海上运输运输”。而英文。而英文词方面,有词方面,有maritimetransport、maritimetran
41、sportation两种两种 利用搜索引擎选择检索词利用搜索引擎选择检索词58此处检索所得词此处检索所得词是:危险是:危险与与可操可操作性分析作性分析结论:结论:前后两次前后两次检索说明检索说明“危险危险与可操作性分析与可操作性分析”、“危险可操危险可操作性分析作性分析”都可都可以是检索的对象以是检索的对象59利用数据库功能选择检索词利用数据库功能选择检索词利用数据库查看这些词的可靠性(是否常用、利用数据库查看这些词的可靠性(是否常用、规范,有无其他用法)规范,有无其他用法)利用利用CNKICNKI数据库查看所选词的其他相关词并利数据库查看所选词的其他相关词并利用用利用维普数据库查看同义词利用
42、维普数据库查看同义词利用外文数据库功能查看、选择检索词(利用外文数据库功能查看、选择检索词(CSACSA、EIEI、EbscoEbsco)60中国学术期刊网中国学术期刊网616263利用维普数据库的利用维普数据库的同义词库,可以查同义词库,可以查询出有关检索词的询出有关检索词的同义、近义词。在同义、近义词。在检索中,这些同义检索中,这些同义词与近义词都要用词与近义词都要用来检索,才不至于来检索,才不至于“漏检漏检”由于清华同方、万由于清华同方、万方数据库中没有同方数据库中没有同义词查看功能,因义词查看功能,因此要充分利用维普此要充分利用维普数据库这一功能,数据库这一功能,将查看到的词用于将查看
43、到的词用于其他数据库检索中。其他数据库检索中。6465666768在在EI数据库的数据库的“受控词汇受控词汇”索引中,索引中,选择合适的、规范化的检索词。使选择合适的、规范化的检索词。使用时,只要在上方对话框中输入自用时,只要在上方对话框中输入自身的检索词,查对一下数据库合适身的检索词,查对一下数据库合适的、受控的检索词。用的、受控的检索词。用“受控词汇受控词汇”检索,更能检索到符合内容的信检索,更能检索到符合内容的信息息69词表词表最合适的检索词查看最合适的检索词查看词表词序浏览词表词序浏览相关性检索词的查看相关性检索词的查看702.5 检索策略及检索策略式检索策略及检索策略式检索策略式:它
44、将各种检索点用逻辑算符、检索策略式:它将各种检索点用逻辑算符、位置算符、截词符等组配符连接起来,形成位置算符、截词符等组配符连接起来,形成完整的检索概念和检索顺序。完整的检索概念和检索顺序。检索策略,即在分析检索课题内容实质基础检索策略,即在分析检索课题内容实质基础上,选择检索系统、检索途径、确定检索词上,选择检索系统、检索途径、确定检索词及其相互间的逻辑关系等的信息检索方案。及其相互间的逻辑关系等的信息检索方案。关键:构造能够确切表达信息需求的检索式。关键:构造能够确切表达信息需求的检索式。71课题课题1:查找有关面包添加剂方面的文献资料查找有关面包添加剂方面的文献资料 可有两种检索途径可有
45、两种检索途径分类途径:分类号分类途径:分类号主题途径:主题词主题途径:主题词检索字段及检索标识:检索字段及检索标识:分类号字段:分类号字段:TS202.3(食品添加剂食品添加剂)、TS213.21(面包类面包类)题名、文摘、关键词字段:面包、添加剂题名、文摘、关键词字段:面包、添加剂72分类检索表达式:分类检索表达式:分类号分类号:(TS202.3*TS213.21)主题检索表达式:主题检索表达式:题名题名:(面包面包*添加剂添加剂)题名或关键词题名或关键词:(面包面包*添加剂添加剂)分类、主题组配检索表达式:分类、主题组配检索表达式:分类号分类号:(TS202.3)*题名题名:(面包面包)分
46、类号分类号:(TS202.3)+主题主题:(添加剂添加剂)*题名题名:(面包面包)主题:主题:中国知网数据库中国知网数据库中的一个组合字段,表中的一个组合字段,表示在题名、关键词和文摘三个字段中进行检索示在题名、关键词和文摘三个字段中进行检索73课题课题2:“论企业生产线的优化论企业生产线的优化”企业企业*生产线生产线*优化优化(企业(企业+工厂)工厂)*(生产线(生产线+流水线)流水线)*(优化(优化+计算机控制计算机控制+在线控制在线控制+智能智能控制)控制)741)选词)选词切分、删除切分、删除例:例:神经网络在旋转机械故障诊断中的应用研究切分:神经网络、在、旋转机械、故障诊断、中、神经
47、网络、在、旋转机械、故障诊断、中、的、应用、研究的、应用、研究删除:在在 中中 的的 应用应用 研究研究最终:最终:神经网络、旋转机械、故障诊断神经网络、旋转机械、故障诊断替换替换 将表达不清晰、概念不明确的词替换掉将表达不清晰、概念不明确的词替换掉如:酸洗费液的处理如:酸洗费液的处理处理:“回收”、“再生”提取概念提取概念例如例如:公司劳动奖励、职工培训和养老保险制度公司劳动奖励、职工培训和养老保险制度管理的理论和实践管理的理论和实践公司公司,劳动奖励劳动奖励,职工培训职工培训,养老保险养老保险,制度制度,管理管理“劳动力资源管理:劳动奖励、职工培训和养老保劳动力资源管理:劳动奖励、职工培训
48、和养老保险险最终:最终:“劳动力资源劳动力资源”,“管理管理”2.5 检索策略式检索策略式752)扩展补充)扩展补充进行同义词、近义词、上位词、相关词进行同义词、近义词、上位词、相关词等的扩充等的扩充中英文同义、近义词中英文同义、近义词上位词、相关词上位词、相关词 -神经网络:上位词:人工智能神经网络:上位词:人工智能 -故障诊断故障诊断:相关词:相关词:故障定位、故障检测故障定位、故障检测 上位词:上位词:容错技术容错技术2.5 检索策略式检索策略式762)扩展补充)扩展补充截词方法截词方法 当某些检索词词干相同、词义相近,但词尾当某些检索词词干相同、词义相近,但词尾或词中间有变化时或词中间
49、有变化时(多数英语单词的单复数多数英语单词的单复数变化和英美不同拼写形式变化和英美不同拼写形式),可以采用截词,可以采用截词方法扩展检索词。方法扩展检索词。在词干后使用截词符。在词干后使用截词符。2.5 检索策略式检索策略式773)组合)组合把检索词用组配符连接起来,组合成检索式把检索词用组配符连接起来,组合成检索式 例:例:神经网络在旋转机械故障诊断中的应用研究神经网络在旋转机械故障诊断中的应用研究(神经网络(神经网络 or 人工智能)人工智能)and(旋转机械)(旋转机械)and(故障诊断故障诊断 or 故障定位故障定位 or 故障检测故障检测or 容错技术)容错技术)2.5 检索策略式检
50、索策略式78制定检索式时要注意:制定检索式时要注意:1.主要检索词主要检索词放在放在最前面最前面,并且限制在,并且限制在基本基本索索引字段里。引字段里。2.正确使用各种正确使用各种算符算符。3.检索式应检索式应简单简单不复杂。不复杂。2.5 检索策略式检索策略式79例:亚音速飞机在飞行控制方面的研究例:亚音速飞机在飞行控制方面的研究检索词:亚音速检索词:亚音速 、飞机、飞行控制、飞机、飞行控制 检索式:检索式:摘要(亚音速摘要(亚音速*飞机飞机 +亚音速飞机)亚音速飞机)*飞行控制飞行控制外文检索词:外文检索词:subsonic velocity;aircraft(s)、airplane(s)