《【教学课件】第七章信息检索技术.ppt》由会员分享,可在线阅读,更多相关《【教学课件】第七章信息检索技术.ppt(56页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第七章第七章 信息检索技术信息检索技术 信息检索的概念信息检索数据库检索语言和检索效果评价信息检索的基本流程第一节第一节 信息检索的概念信息检索的概念1、检索的意义信息具有共享性,信息资源共享(information resource sharing)是当今社会的一个热点问题。为了分享人类共同的知识财富、研究成果,人们必须通过一种科学的方法从取之不尽的信息源中去识别和获取所需要的那部分信息,这个过程就是检索(searching)。信息的检索、利用和创造是一个循环和增值的过程,人们通过工具(数据库)检索获得信息,经过处理筛选出需要的部分,在利用信息的过程中又创出新的信息,这些信息经过核准后又被标
2、引、组织进检索工具(数据库),再提供人们使用,信息在这个循环的处理过程中不断得到扩充,它的增长是没有穷尽的。2 2、检索的基本原理、检索的基本原理 信息检索基本原理的核心是用户信息需求与文献信息集合的比较和选择,是两者匹配(match)的过程。一方面是用户的信息需求,一方面是组织有序的文献信息集合,检索就是从用户特定的信息需求出发,对特定的信息集合采用一定的方法、技术手段,根据一定的线索与规则从中找出(search,locate,hit)相关的信息。匹配有其匹配标准,这里涉及到两者一致性、相关度等问题,按一定的标准筛选出符合要求的信息。信息检索的过程往往需要一个评价反馈途径,多次信息检索的过程
3、往往需要一个评价反馈途径,多次比较匹配,以获得最终的检索结果。其图示如下比较匹配,以获得最终的检索结果。其图示如下:3 3、检索点、检索点 检索点(检索点(access point)是检索的出发点,以)是检索的出发点,以前常用前常用“检索途径检索途径”(approach)这一术语。这一术语。每件文献均有内部的(信息内容)特征及其相关每件文献均有内部的(信息内容)特征及其相关的外部特征,在检索系统中检索点是标目的总称。的外部特征,在检索系统中检索点是标目的总称。从文献的特征出发,将其特征值与检索系统中标从文献的特征出发,将其特征值与检索系统中标目数据进行计算比较,通过匹配达到检索目的。目数据进行
4、计算比较,通过匹配达到检索目的。反映文献信息内容特征:反映文献信息内容特征:分类检索分类检索和和主题检索主题检索;反映文献外部特征:反映文献外部特征:作者、名称作者、名称和和号码检索号码检索等。等。1 1)分类检索)分类检索(classificationclassification)分类检索是从文献内容所属的学科类别出发来检索文献,分类检索是从文献内容所属的学科类别出发来检索文献,它依据的是一个可参照的分类体系(它依据的是一个可参照的分类体系(classification system)。)。分类体系按文献内容特征的相互关系加以组织,并以一分类体系按文献内容特征的相互关系加以组织,并以一定的标
5、记定的标记(类号类号)作排序工具,它能反映类目之间的内在联系,作排序工具,它能反映类目之间的内在联系,包括从属、并列、交替、相关等。包括从属、并列、交替、相关等。较权威的图书分类法有:中国图书馆图书分类法美国国会图书馆分类法(Library of Congress Classification)杜威十进分类法(Dewey decimal Classification system)2 2)主题检索)主题检索 主题(subject)检索是从反映文献内容的有关主题词出发来检索文献,主题是检索点,它对应文献主题概念。检索按主题词的音或形的字顺进行,其方式如查字典、词典。主题词有多种类型:有规范词和自
6、由词,有单元词和多元词,有先 组结构和后组结构等。主题词的合理选择与使用对检索结果的优劣直接相关。3 3)作者检索)作者检索 作者(author)检索是从文献的作者姓名出发来检索其文献。“作者”广义上还应包括:汇编者(compiler)、编者(editor)、主办者(sponsoring body)、译者(translator)等 此外,还有代表机构、单位的团体作者(corporate author),包括作者所在单位(authors affiliation)。4 4)名称检索)名称检索 名称(title)检索点是从各种事物的名称出发来检索文献信息。这些名称包括:书名、刊名、资料名、出版物名、
7、出版社名、会议名、物质名称等等,也包括人名和机构名。检索的对象既包括对应的文献,也包括有关的信息、事项等。比如个人电话簿(white pages)或公司电话簿(yellow pages),查找的是号码信息。5 5)号码检索)号码检索 号码包括文献的编号(number)、代码(code)等,它们是文献信息的一些特有的外部标识,号码检索点以号码特征来检索文献信息。号码多种多样,通常用数字、字母或用它们结合的形式或以分段的方式来表示其各部分的含义。比如科技报告有报告号,还有其合同号、拨款号等,比如专利文献有专利号、入藏号、公司代码等;比如分类号也是号码(特殊的号码检索),等等。它们各自按号码顺序,或
8、以数序、或以字序、或以混合序列检索。图书期刊的号码图书期刊的号码国际标准书号ISBN:InternationalStandardBookNumber国际标准刊号ISSN:InternationalStandardSerialNumberISBN号:号:十位分四段构成,例如:047181086x其中:0:组号(语种、地区),组号有:0(英、美、加拿大、南非等英语区),1(其它英语区),2(法语区),3(德语区),4(日本),5(俄语区),7(中国),8(印度等),9(新加坡等东南亚地区)。471:出版社编号81086:图书序号x:一位效验码(x代表10)。ISSNISSN号:号:ISSN有八位数
9、字组成,例如:10058230其中:1005-823:前七位为出版物序号,0:最后一位为校验码。由于文献加工的细化,计算机标引的介入,新型电子文献出现等情况,形成了更多的可检索点,比如:文献类型、文献属性、参考文献、语种、出版年份等检索点,它们提供了更多的检索途径。4 4、检索手段、检索手段 从技术手段上分:手工检索(手检)和计算机检索(机检)手工检索(manual retrieval)使用的多为印刷型或书本型检索(paper-based retrieval)工具,早些有检索卡片,现在使用最多的是检索刊,它们定期地将最新收集到的信息、文献加以汇总、组织和报道。手检的技术要求不高,以人的劳动为本
10、,由人来翻阅,由人来进行比较、选择,完成匹配。手检工具能提供的检索点十分有限,检索结果往往不尽人意。计算机检索计算机检索(computer-based retrievalcomputer-based retrieval)它通过数据库系统来实现的。检索系统包括:计算机主机设备、外部存贮器、输入输出设备、终端设备、通信设备等硬件设施,还需要控制、提供检索的软件系统,包括:通信软件、操作系统、应用程序等,以实现对数据库的信息存取。检索过程是在人与机器的合作、协同下完成的,它们经常用实时的(real time)、交互的(interactive)的方式从计算机存贮的大量数据中自动分拣出用户所需要的信息。
11、计算、比较、选择的匹配任务是由机器来执行的,而人则是整个检索方案的设计者和操纵者。计算机检索的优势计算机检索的优势计算机检索明显优于手工检索,主要表现:检索的信息量大、数据更新快、检索功能强、检索结果输出的多样性。第二节 信息检索数据库(工具)检索工具(数据库)的功能 检索工具(数据库)的分类检索工具(数据库)的构成检索工具(数据库)的功能检索工具(数据库)的功能事实检索、目录检索、文摘索引检索。其关联关系如下图:1 1)事实检索)事实检索事实检索是对包括事实(fact)、数值(numeric data)与全文(full-text)的检索,提供原始信息,给出直接、确定性的答案。它回答的问题诸如
12、:“我国最近一年在SCI上被收录的文献量是多少?”“有哪些海外华人得过诺贝尔奖?”工具:字典、词典(dictionary)百科全书(encyclopedia)年鉴(annual,yearbook,almanac)手册(handbook,manual)名录(biography)和书目指南(directory)数据库属于源数据库:全文数据库、数值数据库、文本数据库属于源数据库:全文数据库、数值数据库、文本数值数据库、术语数据库、图象数据库、多媒体数据库数值数据库、术语数据库、图象数据库、多媒体数据库2)目录检索:目录检索是间接的、相关性检索,目录检索是间接的、相关性检索,给出来源文献线索,指引原始
13、文献。给出来源文献线索,指引原始文献。按性质:登记书目(出版、馆藏情况)、科学通报书目等;按所涉的学科范围:综合书目、专科书目、专题书目等;按所涉的时间范围:回溯书目、在版书目、新书书目等;按收录的文献类型:图书目录、报刊目录、来源目录等;按所涉的地域:国家书目、联合目录和馆藏目录等;按其媒体:卡片目录、书本目录、磁带目录和机读目录等。目录检索系统数据库属参考数据库。经常使用的目录有:馆藏目录、联合目录、机读目录等 3 3)文摘索引检索)文摘索引检索 文摘索引检索是一种参考型、相关性的检索,提供相关参考文献的线索,包括文献来源出处(source),也常带有文献的内容摘要,但不是文献原文。EI、
14、SCI、INSPEC等文摘索引检索是能揭示到文章、论文级(article-level)的检索,这些文章大量的是来自期刊及会议论文集。按其报道的学科范围:综合性和专业性检索工具;按其取材范围:多种出版物类型和单一出版物类型工具;按其著录方式:题录型和文摘型检索工具;按其媒体:书本型、电子型检索工具等。3 3、检索工具(数据库)的构成、检索工具(数据库)的构成第三节 检索语言和检索效果评价检索语言检索语言 检索语言(检索语言(retrieval languageretrieval language)概念)概念 检索语言的分类检索语言的分类 人工语言和自然语言人工语言和自然语言 分类语言和主题语言分
15、类语言和主题语言 检索效果评价检索效果评价 检索效果(检索效果(retrieval effectivenessretrieval effectiveness)查全率和查准率查全率和查准率 提高检索质量的措施提高检索质量的措施 检索语言的概念 语言是一种人们用以交流沟通的重要工具。人与计算语言是一种人们用以交流沟通的重要工具。人与计算机对话,需要有计算机语言,人与检索系统对话来实施机对话,需要有计算机语言,人与检索系统对话来实施检索,则需要有检索语言(检索,则需要有检索语言(retrieval language)。)。检索语言是用于描述检索系统中信息的内部检索语言是用于描述检索系统中信息的内部及
16、外部特征和表达用户信息提问的一种专门语言,及外部特征和表达用户信息提问的一种专门语言,检索的匹配正是通过语言的比较匹配来实现的。检索的匹配正是通过语言的比较匹配来实现的。检索语言也称索引语言,后者是从检索系统的标检索语言也称索引语言,后者是从检索系统的标引角度出发的,而前者是从用户的信息检索角度引角度出发的,而前者是从用户的信息检索角度出发的。出发的。检索语言的分类检索语言的分类按文献信息的特征:描述信息内容特征的语言和描述信息外部特征的语言;按检索工具编排体系:分类语言和主题词语言;按词汇的类型:关键词语言、单元词语言、标题词语言和叙词语言。按其规范的情况:人工语言(规范语言)和自然语言(非
17、规范语言);按检索语言的词汇组配方式:先组式语言和后组式语言。不同的检索语言构成不同的标目及其索引系统,提供各种检索点。人工语言人工语言 (规范语言规范语言)和自然语言和自然语言(非规范语言非规范语言)artificial language:受信息检索的控制,使用控制、规范词(controlled term)。人工语言的规范处理重在两个方面:一是使一个概念只用一个词汇来表达,这样就避免了多词一义的情况;二是使一个标引词只能表达一个概念,这样就排除了一词多义现象。natural language:自然语言是取其自然形态,不受控,使用非规范词(uncontrolled term)或称自由词(fre
18、e term)。自然语言极其丰富、复杂和多样,存在着一词多义、多词一义及词义交叉的现象。常见的有同义词、近义词、同型异义词等。分类语言和主题语言分类语言分类语言也属于主题语言。分类语言是按学科范畴划分而构成的一种语言体系,它集中反映学科的系统性、反映它们的相关、从属、派生等关系,从总体到局部分层、分面展开,形成分类体系。由类目号码及名称作为检索语言,构成分类类目表,如前述图书分类表、专利分类表用的都是分类语言。主题词语言主题词语言包括:关键词语言、单元词语言、标题词语言、叙词语言等,它们有不同的主题词表。主题词表达概念本身,在主题词表中通过参照系统来指示词汇之间的关系。常用的检索技术2、检索效
19、果评价检索效果(retrieval effectiveness)是指检索系统检索的有效程度,它反映检索系统的能力,这是对机检提出,有些指标对手检也有意义。技术效果技术效果主要指系统的性能和服务质量,它是由检索系统实现其功能的能力所确定的;经济效果经济效果主要指检索系统服务所花费的成本和时间,它是由检索系统完成其检索服务的代价所确定的。6项评价检索效果的指标:项评价检索效果的指标:收录范围、查全率、查准率、响应时间、用户负担、收录范围、查全率、查准率、响应时间、用户负担、输出形式。输出形式。查全率 R(Recall ratio)查准率 P(precision ratio)检索结果涉及四个方面:相
20、关文献、非相关文献、检索结果涉及四个方面:相关文献、非相关文献、被检出的文献和未被检出的文献。被检出的文献和未被检出的文献。实验结果表明查全率与查准率之间存在互逆关系 提高检索质量的措施提高检索系统的质量:提高检索系统的质量:对用户而言,则要选择适合课题的学科覆盖范围的、优质的检索工具,包括其收录的全面、著录的清楚、标引的准确、完善等等。提高用户使用检索系统的能力:提高用户使用检索系统的能力:充分发挥检索系统的功能。这里涉及到下一章要讨论的检索策略问题。检索语言、检索技术、方法的正确、灵活的使用,以使检索者(用户)能更好地与检索系统协调、配合。另外,要根据不同的检索课题的需要,适当调整对查全率
21、和查准率的要求,比如要求查全率很高的查新工作,就要放弃对查准率的苛刻要求。当代科技信息检索系统能达到的查全率和查准率分别是6070和40 50。第四节 信息检索的基本流程目的目的:让你你以最有效的方法以最有效的方法收集及收集及筛选所需所需数据数据以提高以提高科学研究能力科学研究能力检索的程序1、明确检索的目的、明确检索的目的2、检索前的准备工作、检索前的准备工作3、选择检索系统和数据库、选择检索系统和数据库4、规划检索程序、规划检索程序5、分析检索结果、分析检索结果1、明确检索目的n课题分析确定分析确定检索主索主题n确定确定检索的范索的范围:地理、:地理、时间段、文献段、文献类型等型等n预期所
22、需文献信息数量期所需文献信息数量目的的确定 2、检索前的准备工作 n明确学科通用的关明确学科通用的关键检索索词n是否是否对特定的作者、特定的作者、专家学者的研家学者的研究感究感兴趣?趣?n是否有特定的出版机构的文献与你是否有特定的出版机构的文献与你的研究主的研究主题相关?相关?n其它其它?检索要求:检索要求:新、准、全如要了解科技的最新如要了解科技的最新动态、学科的、学科的进展、了展、了解前沿、探索未知,解前沿、探索未知,则强调一个一个新新字字;如要解决研究中的具体如要解决研究中的具体问题,则要要强调一个一个准准字字;如要了解一个全如要了解一个全过程、写程、写综述、作述、作鉴定、定、报成果,就
23、要回溯大量文献,要求成果,就要回溯大量文献,要求检索的全面、索的全面、详尽、系尽、系统,则要要强调一个一个全全字。字。3 、选择检索系统和数据库n掌握数据掌握数据库资源所覆盖的学科范源所覆盖的学科范围n掌握各种数据收掌握各种数据收录文献的文献的类型型n查看数据看数据库的的详细介介绍和和说明明n请教教图书馆员要求介要求介绍检索的最佳数索的最佳数据据库检索点与检索词的选择检索点与检索词的选择 4、规划检索程序4 规划你的检索程序n n 选定检索主题词选定检索主题词n n 建立检索表达式建立检索表达式n n 调整相关设定:年代、类型等调整相关设定:年代、类型等选定检索主题词利用关键词的上下位词、特有
24、名词及同义词,查阅工具如字典、利用关键词的上下位词、特有名词及同义词,查阅工具如字典、分类表等。分类表等。建立你的建立你的检索检索n n 使用逻辑算符使用逻辑算符使用逻辑算符使用逻辑算符(AND,OR,NOT)(AND,OR,NOT)(AND,OR,NOT)(AND,OR,NOT)n n 限制检索条件:作者限制检索条件:作者限制检索条件:作者限制检索条件:作者,刊物或年代刊物或年代刊物或年代刊物或年代.调整相关设定调整相关设定n n决定检索结果的显示方式:决定检索结果的显示方式:决定检索结果的显示方式:决定检索结果的显示方式:以以以以 日期日期日期日期,关联性排,关联性排,关联性排,关联性排序
25、序序序 或 即时检索n n以快速方式进行初步检索以快速方式进行初步检索n n如果可能如果可能的的话,可利用手头已找话,可利用手头已找到一篇及一些评论性综述文献到一篇及一些评论性综述文献 进进 行行 检检 索索5、分析检索结果不满意不满意满满 意意不满意 非目标性结果非目标性结果 重新檢索重新檢索n检查检索词的拼写检查检索词的拼写 n检查检索词的准确性检查检索词的准确性-查阅词典、查阅词典、字典、词表,删除错误名词字典、词表,删除错误名词 n调调查查被检索的数据库被检索的数据库 数据库数据库说明、期刊列表确定是否覆盖你说明、期刊列表确定是否覆盖你所需要检索的主题所需要检索的主题不满意 结果太多
26、设定限制条件、特定的检索字段设定限制条件、特定的检索字段及年代及年代 增加检索名词的准确性增加检索名词的准确性查阅工具:主题词表、查阅工具:主题词表、字典字典、分类表等分类表等 修改检索策略修改检索策略增加使用增加使用AND,减少使用,减少使用OR。重新檢索重新檢索不满意 结果太少检查检索词的正确性、准确性检查检索词的正确性、准确性 增加检索词的普遍性增加检索词的普遍性查阅工具:主题词表、查阅工具:主题词表、字典字典、分类、分类表等表等 拓宽检索策略拓宽检索策略减少使用减少使用ANDs;使用;使用OR连接增加的同义连接增加的同义我词和近义词我词和近义词 增加检索数据库增加检索数据库确定其他数据
27、库是否覆盖你所需要的检确定其他数据库是否覆盖你所需要的检索主题索主题 重新檢索重新檢索满 意是否获得全部所需是否获得全部所需?打印打印、EmailEmail或存档或存档是否需要获取全文是否需要获取全文?连接全文连接;图书馆期刊、资料;原文传递服务连接全文连接;图书馆期刊、资料;原文传递服务(8641463786414637郁鸿老师)郁鸿老师)检索技巧和提示(1)广泛浏览数据库广泛浏览数据库(2)选择合适的数据库试查选择合适的数据库试查(3)调整策略的考虑调整策略的考虑(4)利用检出文献的信息,拓宽检索利用检出文献的信息,拓宽检索(5)充分利用各种资源充分利用各种资源各种导航工具、虚拟图书馆各种导航工具、虚拟图书馆(网络专题资源的有序集合网络专题资源的有序集合)本本 章章 结结 束束