文献检索与利用2.ppt

上传人:得****1 文档编号:76377895 上传时间:2023-03-09 格式:PPT 页数:76 大小:9.93MB
返回 下载 相关 举报
文献检索与利用2.ppt_第1页
第1页 / 共76页
文献检索与利用2.ppt_第2页
第2页 / 共76页
点击查看更多>>
资源描述

《文献检索与利用2.ppt》由会员分享,可在线阅读,更多相关《文献检索与利用2.ppt(76页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、信息存储与检索信息存储与检索刘刘 佳佳第二章第二章 网络信息检索的方法与技术网络信息检索的方法与技术 第一节第一节 网络信息检索的基本方法网络信息检索的基本方法信息检索方法的分类信息检索方法的分类1.直接法直接法 不利用检索系统(工具),直接通过原文或文献指不利用检索系统(工具),直接通过原文或文献指引来获取相关信息的方法。引来获取相关信息的方法。浏览法:直接通过浏览、查阅文献原文来获取所需浏览法:直接通过浏览、查阅文献原文来获取所需 信息的方法。信息的方法。追溯法:利用已知文献的某种指引来获取所需信息追溯法:利用已知文献的某种指引来获取所需信息 的方法。的方法。2.工具法工具法 是最常用的方

2、法,利用各种检索系统(工具)来检是最常用的方法,利用各种检索系统(工具)来检索信息。索信息。顺查法:按照时间顺序由远及近地查找信息的方顺查法:按照时间顺序由远及近地查找信息的方 法。法。倒查法:按照时间顺序由近及远地逐年查找所需倒查法:按照时间顺序由近及远地逐年查找所需 信息。信息。抽查法:根据检索需求的特点和学科发展的实际抽查法:根据检索需求的特点和学科发展的实际 情况,抽取这一段时间的文献进行检索。情况,抽取这一段时间的文献进行检索。3.综合法综合法 综合利用上述各种方法来查找信息的方法。综合利用上述各种方法来查找信息的方法。第一节第一节 网络信息检索的基本方法网络信息检索的基本方法 布尔

3、逻辑检索(布尔逻辑检索(boolean logic searching)布尔逻辑检索是多个检索项(可以是单词、词组布尔逻辑检索是多个检索项(可以是单词、词组或检索式)之间通过运用布尔逻辑算符来准确的表或检索式)之间通过运用布尔逻辑算符来准确的表达检索提问的检索技术。达检索提问的检索技术。(1)逻辑逻辑“与与”AND或或*同时含有两个检索词才能被命中同时含有两个检索词才能被命中用于交叉概念或限定关系概念之间的组配,可以缩用于交叉概念或限定关系概念之间的组配,可以缩小检索范围,提高检准率。小检索范围,提高检准率。(2)逻辑逻辑“或或”OR 或或+,或,或|表示只要含有其中一个检索词或同时含有这两个

4、检表示只要含有其中一个检索词或同时含有这两个检索词的文献都将被命中。索词的文献都将被命中。用于并列关系的概念组配,相当于增加了检索词主用于并列关系的概念组配,相当于增加了检索词主题的同义词或近义词,有助于扩大检索范围,提高题的同义词或近义词,有助于扩大检索范围,提高查全率。查全率。(3)逻辑)逻辑“非非”NOT或或-表示被检索文献在含有检索词表示被检索文献在含有检索词A而不含有检而不含有检索词索词B时才能被命中。时才能被命中。用于排斥与选择关系的组配,能够缩小命中用于排斥与选择关系的组配,能够缩小命中文献的范围,增强检索的准确性。文献的范围,增强检索的准确性。例:北京除冬季外汽车和可吸入颗粒物

5、造成的例:北京除冬季外汽车和可吸入颗粒物造成的空气污染状况空气污染状况”这一主题的检索。这一主题的检索。北京北京*空气污染空气污染*(汽车(汽车+可吸入颗粒物)可吸入颗粒物)-冬季冬季 邻近检索(邻近检索(proximity search)又称为位置限制检索,是用一些特定的算符(位置又称为位置限制检索,是用一些特定的算符(位置算符)来表达检索词与检索词之间的顺序和词间距算符)来表达检索词与检索词之间的顺序和词间距的检索。的检索。(1)()(W)在此算符两侧的检索词必须按此前后的顺序排列,在此算符两侧的检索词必须按此前后的顺序排列,顺序不能颠倒,两个检索词之间不许有其他的词或顺序不能颠倒,两个检

6、索词之间不许有其他的词或字母,但允许有空格或标点符号。字母,但允许有空格或标点符号。例:例:information(W)retrieval Information retrieval,information-retrieval(2)()(nW)在此算符两侧的检索词之间最多不超过在此算符两侧的检索词之间最多不超过n个(最大个(最大数量)实词或虚词(非用词),两个检索词的词序数量)实词或虚词(非用词),两个检索词的词序不许颠倒。不许颠倒。例例1:electronic(1W)resourceselectronic resources,electronic information resourses例

7、例2:Jilin Medical University,Jilin Agricultural University,Jilin Technology University Jilin(1W)University(3)()(N)在此算符两侧的检索词必须紧密相连,但词序可在此算符两侧的检索词必须紧密相连,但词序可颠倒。颠倒。例:例:information(N)retrieval information retrieval,retrieval information(4)()(nN)表示两个词位置可以颠倒,两个词间插入词的表示两个词位置可以颠倒,两个词间插入词的最多数目是最多数目是n个。个。例例:i

8、nformation retrieval,retrieval information retrieval of information,retrieval of law information,retrieval of Chinese law information information(3N)retrieval(5)()(F)表示在此运算符两侧的检索词必须同时出表示在此运算符两侧的检索词必须同时出现在文献记录的同一字段内。两个词的前后现在文献记录的同一字段内。两个词的前后顺序不限,夹在两个词之间的词的个数也不顺序不限,夹在两个词之间的词的个数也不限。限。(6)()(S)表示在此运算符两侧的

9、检索词只要出现在文表示在此运算符两侧的检索词只要出现在文献记录的同一子字段或同一段内,此文献即献记录的同一子字段或同一段内,此文献即被命中,两个词词序不限,两个词中间可间被命中,两个词词序不限,两个词中间可间隔若干个词。隔若干个词。(7)NOT NOT与邻接运算符组合使用,而产生相反的含义。与邻接运算符组合使用,而产生相反的含义。NOT W 表示其后的词不能紧跟其前的词表示其后的词不能紧跟其前的词 NOT N 表示两个词不能相邻表示两个词不能相邻 NOT S 表示其后的词不应出现在同一子字段中表示其后的词不应出现在同一子字段中 NOT F 表示两个词不应出现在同一字段中表示两个词不应出现在同一

10、字段中短语检索(短语检索(phrase search)用用“”表示,检索出与表示,检索出与“”内形式完全相同的短内形式完全相同的短语,以提高检索的精度和准确度,也称为语,以提高检索的精度和准确度,也称为“精确检精确检索索”(exact search)。)。George W.Washington George W.Bush spoke at Washington D.C.about human rights “George W.Washington”截词检索(截词检索(truncation/wildcats)用截词符号加在检索词的前后或中间,以检索一组用截词符号加在检索词的前后或中间,以检索一组

11、概念相关或同一词根的词,即概念相关或同一词根的词,即在检索标识中保留相在检索标识中保留相同的部分,用相应的截词符代替可变化部分。同的部分,用相应的截词符代替可变化部分。可以可以扩大检索范围,提高查全率,主要用于西文数据库扩大检索范围,提高查全率,主要用于西文数据库检索,中文数据库通常不使用。检索,中文数据库通常不使用。?代表?代表0至至1个字符个字符 *代表代表0至多个字符至多个字符(1)前截词(词首截词)前截词(词首截词)截词符在检索词的开头。截词符在检索词的开头。例:例:*ology biology,geology,physiology,sociology(2)中间截词)中间截词 wom?

12、n(3)后截词(词尾截词)后截词(词尾截词)词尾的有限截词。词尾的有限截词。“?”几个问号连在一起时,问号的几个问号连在一起时,问号的个数代表可变化的字符数的上限。个数代表可变化的字符数的上限。词尾的无限截词。词尾的无限截词。“*”允许有允许有0至任意个字符的变化。至任意个字符的变化。例:例:cat*cat,cats,catalog,catalogue,category econom*economy,economic,economics,economical,economist,economize等等字段限制检索(字段限制检索(field limiting)在信息检索过程中,为提高查全率或查准

13、率,检索在信息检索过程中,为提高查全率或查准率,检索范围限制在特定的字段中,即字段限制检索。范围限制在特定的字段中,即字段限制检索。基本索引字段(基本索引字段(basic index fields)一篇记录中主要用来表达文献内容特征的字段。一篇记录中主要用来表达文献内容特征的字段。如篇名、文摘、主题词、关键词如篇名、文摘、主题词、关键词基本索引字段的限定由基本索引字段的限定由“/”与一个基本索引字段代与一个基本索引字段代码组成,又称后缀限定。码组成,又称后缀限定。字段名字段名字段代码字段代码中译名中译名AbstractAB文摘文摘DescriptorDE叙词(主题词)叙词(主题词)Keywor

14、dKW关键词关键词TitleTI题名题名常用基本索引字段及代码表常用基本索引字段及代码表例:地震例:地震/TI辅助索引字段(辅助索引字段(additional index fields)表达文献外部特征的字段。表达文献外部特征的字段。如著者、机构名称、语种、刊名、来源、出如著者、机构名称、语种、刊名、来源、出 版年。版年。辅助检索字段由辅助字段代码和辅助检索字段由辅助字段代码和“=”组成,一般将组成,一般将辅助索引字段代码置于检索词前,称为前缀。辅助索引字段代码置于检索词前,称为前缀。字段名字段名字段代码字段代码中译名中译名Author AffiliationAA著者单位著者单位Author,

15、InventorAU著者,发明者著者,发明者Conference TitleCT会议名称会议名称Journal NameJN刊名刊名PublisherPU出版者出版者Publication YearPY出版年出版年常用辅助索引字段及其代码表常用辅助索引字段及其代码表例:例:PY=2000例例1:检索:检索“吉林大学吉林大学”姓名是姓名是“王力王力”的作者的文献。的作者的文献。AU=王力王力 AND(AA=吉林大学)吉林大学)例例2:检索:检索“2010年年”出版的关于出版的关于“人寿保险人寿保险”的资料。的资料。人寿(人寿(N)保险)保险 AND PY=2010 例例3:检索主题内容是情报的:

16、检索主题内容是情报的2000年的文献。年的文献。情报情报/DE AND PY=2000文献书目型数据库记录的字段:文献书目型数据库记录的字段:存取号、篇(题)名、文摘、叙词、自由词、著者、存取号、篇(题)名、文摘、叙词、自由词、著者、著者机构、刊名、出版年、语种、分类号著者机构、刊名、出版年、语种、分类号网络检索工具的字段:网络检索工具的字段:标题(标题(title)、图像()、图像(image)、文本)、文本(text)、主机、主机名名(host)、域名、域名(domain)、链接、链接(link)、统一资源地、统一资源地址址(URL)、新闻组、新闻组(newsgroup)、电子邮件、电子邮

17、件(E-mail)Title(ti):Jilin Universityurl:Link:whitehouse.govadmission AND site:www.harvard.edu Py=2010La=englishAU=Wang li AND(AA=Jilin Univ.)Title:Jilin Universityurl:括号检索(括号检索(parentheses)用于改变运算的先后次序,括号内的运算优用于改变运算的先后次序,括号内的运算优先进行。先进行。自然语言检索(自然语言检索(natural language search)直接采用自然语言中的字、词、句进行提问式检直接采用自然语

18、言中的字、词、句进行提问式检索,又称为索,又称为“智能检索智能检索”(intelligent search)。)。多语种检索(多语种检索(multilingual search)提供多种语言的检索环境供用户选择,系统提供多种语言的检索环境供用户选择,系统按用户选定的语种进行检索并反馈结果。按用户选定的语种进行检索并反馈结果。模糊检索(模糊检索(fuzzy search)又称概念检索,是指使用某一检索词进行检索时又称概念检索,是指使用某一检索词进行检索时,能同时对该词的同义词、近义词、上位词、下,能同时对该词的同义词、近义词、上位词、下位词进行检索,以达到扩大检索范围、避免漏检位词进行检索,以达

19、到扩大检索范围、避免漏检索的目的。索的目的。区分大小写的检索(区分大小写的检索(case sensitive)china-china,China,CHINA China-China加权检索(加权检索(term weighting)音形一致检索(音形一致检索(phonetic search)词根检索(词根检索(stemming)思考题思考题查找查找2010年发表的题名中含有信息检索系统年发表的题名中含有信息检索系统评价的英文论文评价的英文论文第二节第二节 信息检索的主要技术信息检索的主要技术一一.全文检索技术全文检索技术 全文检索必须具有一个全文数据库,全文数据库是将一个完全文检索必须具有一个全

20、文数据库,全文数据库是将一个完整的信息源的全部内容转化为计算机可识别、处理的信息单整的信息源的全部内容转化为计算机可识别、处理的信息单元而形成的数据集合。元而形成的数据集合。特点:特点:信息量大,基本上是未经加工的、详尽的、客观的原始信息;信息量大,基本上是未经加工的、详尽的、客观的原始信息;信息检索的灵活性和适应性;信息检索的灵活性和适应性;检索语言的自然性;检索语言的自然性;数据相对稳定。数据相对稳定。问题:问题:查准率低。查准率低。全文检索系统在检索过程中可能对同一页面重复检索,即同全文检索系统在检索过程中可能对同一页面重复检索,即同一检索词检出的多条检索结果可能是同一个地址,影响查准一

21、检索词检出的多条检索结果可能是同一个地址,影响查准率;只要检索词出现在文本中就能被检出,导致查准率不高。率;只要检索词出现在文本中就能被检出,导致查准率不高。二二.多媒体信息检索技术多媒体信息检索技术 音频信息检索音频信息检索 语音检索:以语音为中心的检索语音检索:以语音为中心的检索 音乐检索:以音乐为中心的检索音乐检索:以音乐为中心的检索 音频检索:以波形声音为对象音频检索:以波形声音为对象 视频信息检索视频信息检索 基于关键帧检索基于关键帧检索 基于镜头和视频对象的时间特征检索基于镜头和视频对象的时间特征检索三三.超文本及超媒体检索技术超文本及超媒体检索技术 即把有关的信息或资源通过超链接

22、联系起来,检索即把有关的信息或资源通过超链接联系起来,检索时可以借助超链接实现相关信息的阅读。时可以借助超链接实现相关信息的阅读。特点:特点:不但注重所要管理的信息,而且更注重信息之间关不但注重所要管理的信息,而且更注重信息之间关系的建立与表示。系的建立与表示。缺陷:缺陷:信息以超文本方式链接,导致检索过程含有极大的信息以超文本方式链接,导致检索过程含有极大的盲目性和偶然性,容易偏离检索目标。盲目性和偶然性,容易偏离检索目标。四四.智能信息检索技术智能信息检索技术 智能检索技术就是采用人工智能进行信息检索的技智能检索技术就是采用人工智能进行信息检索的技术。可以模拟人脑的思维方式,分析用户以自然

23、语术。可以模拟人脑的思维方式,分析用户以自然语言表达的检索请求,自动形成检索策略进行智能、言表达的检索请求,自动形成检索策略进行智能、快速、高效的信息检索。快速、高效的信息检索。特点:特点:在检索过程中引入了资源对象的语义处理。在检索过程中引入了资源对象的语义处理。可视化信息检索技术可视化信息检索技术 是将信息资源、用户提问、信息检索模型、是将信息资源、用户提问、信息检索模型、检索过程以及检索结果中各种不可见的内部检索过程以及检索结果中各种不可见的内部语义关系转换成图形,显示在一个二维、三语义关系转换成图形,显示在一个二维、三维或多维的可视化空间中,帮助用户理解检维或多维的可视化空间中,帮助用

24、户理解检索结果、把握检索方向,以提高信息检索的索结果、把握检索方向,以提高信息检索的效率与性能。效率与性能。跨语言检索技术跨语言检索技术 允许用户使用其熟悉的某一种语言来构造检索式,允许用户使用其熟悉的某一种语言来构造检索式,以此检索出另外一种或几种语言表达的信息,即跨以此检索出另外一种或几种语言表达的信息,即跨越语言限制进行检索的技术。越语言限制进行检索的技术。技术实现的核心问题:翻译技术实现的核心问题:翻译文本聚类技术文本聚类技术 按照知识之间的相似性,即它们在对应的特按照知识之间的相似性,即它们在对应的特征空间的亲疏远近来决定其类别,即是聚类。征空间的亲疏远近来决定其类别,即是聚类。聚类

25、过程:聚类过程:特征选择特征选择 文本表示文本表示 聚类处理聚类处理第三节第三节 信息检索的技巧信息检索的技巧检索策略(检索策略(retrieval strategy)是为实现检索目标而制订的全盘计划或方是为实现检索目标而制订的全盘计划或方案,是就一个问题检索一个或多个数据库案,是就一个问题检索一个或多个数据库所输入的全部检索式的集合。所输入的全部检索式的集合。信息检索流程信息检索流程(一)分析信息需求(一)分析信息需求 确切了解所要查询的目的和要求,确定确切了解所要查询的目的和要求,确定检索问题的关键词及涉及的学科或主题范围、检索问题的关键词及涉及的学科或主题范围、地域范围、语种范围、资源的

26、时间范围、需地域范围、语种范围、资源的时间范围、需要的信息类型、查询方式、资源的性质等。要的信息类型、查询方式、资源的性质等。(二)选择合适的检索工具(二)选择合适的检索工具 检索问题对需要使用的检索工具具有直接影响,检索问题对需要使用的检索工具具有直接影响,检索工具的选择正确与否对检索效率起着十分重要检索工具的选择正确与否对检索效率起着十分重要的作用。的作用。检索工具的类型、收录范围、检索问题的类型、检检索工具的类型、收录范围、检索问题的类型、检索问题的具体要求、数据库的检索功能。索问题的具体要求、数据库的检索功能。数据库的选择:数据库的选择:4C Content(数据库的内容)、(数据库的

27、内容)、Coverage(数据库收录(数据库收录资源的范围)、资源的范围)、Currency(数据库内容的新颖性、(数据库内容的新颖性、更新的频率)、更新的频率)、Cost(数据库的费用)(数据库的费用)(三)确定检索点与检索词(三)确定检索点与检索词 检索点对应数据库中的字段,其基本构成单检索点对应数据库中的字段,其基本构成单位是检索词。位是检索词。检索词是用户或检索人员检索时输入的字、检索词是用户或检索人员检索时输入的字、词、字符或短语。包括关键词和各种符号。词、字符或短语。包括关键词和各种符号。关键词是出现在文献的标题、关键词、摘要关键词是出现在文献的标题、关键词、摘要或正文中,对表达文

28、献主题内容具有实质意或正文中,对表达文献主题内容具有实质意义的语词。义的语词。(四)正确构造检索式(四)正确构造检索式 检索式是检索策略的具体体现,是要求检索系统执检索式是检索策略的具体体现,是要求检索系统执行的检索语句。行的检索语句。有效的信息检索要充分利用搜索工具支持的检索运有效的信息检索要充分利用搜索工具支持的检索运算、允许使用的检索标识、各种限定。算、允许使用的检索标识、各种限定。建议使用高级查询和进阶检索。建议使用高级查询和进阶检索。积木型检索式积木型检索式例例1:(1)information AND retrieval (2)“information retrieval”(3)in

29、formation(N)retrieval (4)Information(3N)retrieval例例2:利用英文搜索引擎查找网络检索方面的资料。利用英文搜索引擎查找网络检索方面的资料。(Web OR Internet OR WWW)AND(search*OR retrieval*)(五五)及时调整检索策略及时调整检索策略 扩大检索范围:扩大检索范围:使用布尔逻辑使用布尔逻辑“或或”连接表达某一概念的同义词、近义词或相关词;连接表达某一概念的同义词、近义词或相关词;减少用布尔逻辑运算符减少用布尔逻辑运算符“AND”连接的最不重要的检索词;连接的最不重要的检索词;去掉布尔逻辑运算符去掉布尔逻辑运

30、算符“NOT”及其连接的检索词;及其连接的检索词;降低检索词的专指度;降低检索词的专指度;取消某些限制;取消某些限制;使用分类号进行族性检索;使用分类号进行族性检索;使用截词检索;使用截词检索;利用检索工具提供的利用检索工具提供的“自动扩检自动扩检”功能进行相关检索;功能进行相关检索;对于查全率要求高的检索问题,使用多个检索工具;对于查全率要求高的检索问题,使用多个检索工具;使用元搜索引擎;使用元搜索引擎;使用信息资源的整合平台检索来自于不同提供方的各种数据库。使用信息资源的整合平台检索来自于不同提供方的各种数据库。缩小检索范围缩小检索范围使用逻辑使用逻辑“与与”连接更多关键词;连接更多关键词

31、;使用布尔逻辑使用布尔逻辑“非非”把不需要查找的关键词排除在检把不需要查找的关键词排除在检索结果之外;索结果之外;使用位置限制的检索;使用位置限制的检索;使用字段限制检索;使用字段限制检索;用短语检索进行精确检索;用短语检索进行精确检索;当某一缩略语有多种全称时,同时使用缩写与全称;当某一缩略语有多种全称时,同时使用缩写与全称;利用检索工具的进阶检索功能;利用检索工具的进阶检索功能;限制查询范围。限制查询范围。(六)检索结果的输出(六)检索结果的输出输出方式输出方式 显示、复制、打印、下载、显示、复制、打印、下载、E-mail发送、输入发送、输入到参考文献管理软件或个人信息管理软件。到参考文献管理软件或个人信息管理软件。输出形式输出形式 目录、题录、文摘、全文、自定义形式等。目录、题录、文摘、全文、自定义形式等。谢谢 谢谢

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 工作报告

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁