第2章-信息检索原理与技术课件.ppt

上传人:飞****2 文档编号:92178666 上传时间:2023-05-31 格式:PPT 页数:51 大小:4.13MB
返回 下载 相关 举报
第2章-信息检索原理与技术课件.ppt_第1页
第1页 / 共51页
第2章-信息检索原理与技术课件.ppt_第2页
第2页 / 共51页
点击查看更多>>
资源描述

《第2章-信息检索原理与技术课件.ppt》由会员分享,可在线阅读,更多相关《第2章-信息检索原理与技术课件.ppt(51页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、 1 信息检索的概念与类型 2 信息检索的途径 3 信息检索技术 4 信息检索方法 5 信息检索检索步骤与策略第2章 信息检索原理及技术方法1 信息检索的概念与类型1.1 信息检索的概念1.2 信息检索的类型1.3 信息检索的流程广义:信息检索包括信息的存储和信息的检索,又称为“信息存储与检索”两个过程:信息组织是依据信息资源的主题内容或者外部特征,将无序的信息资源组织为有序集合的过程。信息检索是根据检索的要求,从检索系统中检索出相应信息资源的过程。狭义:信息检索是指从存储的信息集合中获取特定所需的信息。1.1 信息检索的概念手工信息检索:通过手工方式利用检索工具来处理和查找文献的过程。如:文

2、摘、目录、参考工具书等。脱机批处理信息检索:指定期由专职检索人员把许多用户课题汇总,批量处理提问要求并把结果提供给用户。联机信息检索:用户使用终端设备,通过通信线路与中央计算机连接,直接与计算机对话进行检索,结果由终端输出。光盘信息检索:光盘信息检索又称光盘数据库检索,即采用计算机作为手段、以光盘作为信息存储载体和检索对象进行的信息检索,是目前应用较为广泛的一种计算机信息检索。分为单机检索和局域网内的联机光盘检索。网络信息检索:用户在自己的客户端上,通过互联网和浏览器界面对网络信息进行检索。包括对通过网络进行数据库检索。按检索方式划分:手工检索和计算机检索计算机检索又包括脱机批处理检索、联机检

3、索、光盘检索和网络检索。1.2 信息检索的类型 按检索对象的性质划分:文献信息检索、数据信息检索、事实信息检索。文献检索:从一个文献集合中查找出专门包含所需信息内容的文献,是以文献为检索对象的信息检索类型。数据检索:以特定数据为检索对象和检索目的的信息检索类型称为数据检索。事实检索:是获取以事物的实际情况为基础而集合生成新的分析结果的一类信息检索。1.3信息检索的流程信息存储过程信息检索过程著录标引比较匹配分析 选定编制信息资源信息选择收集信息主题数据库记录及信息特征标识信息用户信息需求信息主题检索提问式及提问标识信息检索检索结果评价/反馈检索语言分析不满意满意输出2 信息检索的途径 信息检索

4、途径是由提取信息源的外部与内部特征形成的,又称为检索点或者检索入口。1.内容特征指由分析构成文献信息源的信息内容要素的特征与学科属性形成的,主要形成分类、主题两种。内容特征途径:从文献包含的信息内容特征来检索信息的途径。2.外表特征指从构成文献信息源的载体、符号系统、记录方式三要素中提取出的特征构成。外表特征途径:利用文献的外表特征来检索文献信息的途径。分类途径主题途径2.1 内容特征途径一种按照文献资料所属学科(专业)类别进行检索的途径。检索工具的分类表为我们提供了从分类角度进行检索的途径。是通过文献资料的内容主题进行检索的途径,主题途径依据的是各种主题索引或关键词索引,主题索引或关键词索引

5、按检索词的字顺排列,检索者只要根据课题确定了检索词(主题词或关键词),便可以像查字典那样,按照字顺去逐一查找,从检索词下的索引款目,找到所需文献的线索。中国图书馆图书分类法 1999年推出了第四版,共分大部类22个基本大类。22个基本大类是在5在部类的基础上第一次划分得到的,称为一级类目,分别对应一个英文字母;从基本大类起,再连续划分3次,得到二级、三级、四级类目。采用汉语拼音字母和数字相结合的方式对图书进行分类,是目前国内各公共图书馆和高校图书馆普遍使用的图书分类法,我馆藏书也是按照该分类法进行排架。按照学科范畴及知识之间的关系列出类目,并用数字、字母符号对类目进行标识的一种语言体系,也称分

6、类法。目前常用的分类法有中国图书馆图书分类法(简称中图法)、美国国会图书馆分类法、杜威分类法、国际专利分类表。分类途径中图法简表比如H319.4,H表示“英语”大类,319.4代表的是“英语对照读物”中国图书馆分类法样例索书号举例F123.16/W61F123.16-2/Z24/2 F123.17/Z89/(2)F123.2/L66-2 F12/Y30 专利分类法国际专利分类表国际专利分类表(International Classification of Patent for Invention,简称Int.Cl或IPC)1968年9月1日在国际范围生效,以后每5年修订一次。IPC按照技术主题

7、来设立类目表。首先将与发明专利有关的全部技术领域划分为八个部,部号分别用大写英文字母A到H来表示。各部(Section)按等级形式再细分为大类(Class)、小类(Subclass)、主组(Maingroup)、分组(Subgroup),形成五级分类的结构形式。IPC由9个分册组成,18分册分别对应八个部,第9分册是使用指南。在IPC中,八个部分别是:A:生活必需B:作业运输C:化学与冶金D:纺织与造纸E:固定建筑物F:机械工程;G:物理H:电学用于检索信息的特点 具有等级结构,便于扩大和缩小检索范围。用分类号做检索标识,不存在文种的限制。分类表中的类目不能随时变化,不能及时反映新的学科技术,

8、边缘交叉学科只能从学科门类进行检索。隶属于一个门类下,造成漏检。例如:查找“军事”类文献图书期刊分类主题词:以规范化的词汇来表达文献内容的主题的词语。如何提取主题词:词意应该具体 意义广泛的词不应作为检索词 技术方面的少数课题,可直接用课题名称中包含的具有检索意义的概念或者代码 关键词:对表征文献主题内容具有实质意义的或对揭示文献内容来说是重要的、关键性的、只做少量规范化处理或不做规范化处理的自然词语。主题途径1 例如:课题是“经济体制改革有关资料(1998-1999),如何确定检索标识?主题词:国企改革、所有制改革、国有资产管理与制度改革、金融改革、社会保障改革、劳动就业改革等。2 例如:检

9、索“甲壳素水解制壳聚糖”,如何提取关键词?关键词:甲壳素、水解、壳聚糖、制备 题名途径著者途径文献编号途径其它途径2.2 外部特征途径是根据文献的题名来查找文献的途径,它依据的是题名索引。是根据已知文献著者来查找文献的途径,它依据的是著者索引,包括个人著者索引和机关团体索引。是以编号为特征,编排和检索文献的途径,如专利文献的检索可根据“专利号索引”进行检索。有些检索工具还附有一些特殊索引,可以通过特殊途径找到所需文献的线索。如专用符号代码索引(分子式,元素符号),专用名词术语索引(地名等)。中国现当代文学基础谭浩强机械工业出版社1 布尔逻辑检索2 截词检索4 位置检索常用检索技术3 全文检索

10、计算机信息检索过程实际上是将检索提问词与文献记录标引词进行对比匹配的过程。为了提高检索效率,计算机检索系统常采用一些运算方法,从概念相关性、位置相关性等方面对检索提问实行技术处理。检索式(formula,profile,statement)是检索策略的逻辑表达式,是用来表达用户检索提问的,由基于检索概念产生的检索词和各种组配算符构成。3 信息检索技术1.布尔逻辑检索逻辑“与”(用and 或*表示)逻辑“或”(用OR 或+表示)逻辑“非”(用NOT或-表示)1.布尔逻辑检索 在检索实践中,检索提问涉及的概念往往不止一个,而同一个概念又往往涉及多个同义词或相关词。为了正确地表达检索提问,系统中采用

11、布尔逻辑运算符将不同的检索词组配起来,使一些具有简单概念的检索单元通过组配成为一个具有复杂概念的检索式,用以表达用户的信息检索要求。用and 或*表示,是一种用于交叉概念或限定关系的组配,它可以缩小检索范围,有利于提高检索的专指性。在网络搜索引擎中习惯用空格代替。如查同时含有概念A 和概念B 的文献,可表示为:“A and B”或“A*B”。检索结果如图所示,图中阴影部分即为同时包含A 和B 两个概念的命中文献。(1)逻辑“与”A and BAB 用OR 或“+”表示,是用于具有并列概念关系的组配。这种组配可以扩大检索范围,提高查全率。例如,检索含有检索项A 或检索项B 的文献,可表示为:“A

12、 OR B”或“A+B”。检索结果是将含有检索项A 的文献集合与含有检索项B 的文献集合相加,形成一个新的集合。检索结果如图1-5 所示,图中阴影部分即为包含A 或B的命中文献。图中两者共同的部分只计一次,故避免了命中文献的重复出现。B(2)逻辑“或”AA or B(3)逻辑“非”A not BAB 用“NOT”或“-”表示,是用于从某一检索范围中排除不需要的概念。这种组配可以缩小检索范围。在搜索引擎中,常用“-”号表示。例如,在含有概念A 的文献集合中,排除同时含有概念B 的文献,可表示为:“A NOT B”或“A-B”。检索结果如图所示,图中空白部分即为包含A且排除B 的命中文献。在上述逻

13、辑算符中,其运算优先级顺序为NOT,AND,OR,但是可以用括号改变它们之间的运算顺序。例如,(A OR D)AND B,表示先执行“A OR D”的检索,再与B进行AND 运算。如:以google搜索工具,检索“重庆除冬季外汽车和可吸入颗粒造成的空气污染状况”。重庆 空气污染(汽车+可吸入颗粒)-冬天布尔逻辑检索 可以看出,利用上述演算符,组成逻辑复杂的演算方式,对信息资源进行确切的查找。这对于具有海量信息的检索系统中信息资源的查找十分有效。截词检索:指在检索词的适当位置截断,用截断的词的一个局部加上截词符号所进行的检索,并认为凡满足这个词局部中的所有字符(串)的文献,都为命中的文献。是计算

14、机检索系统中应用非常普遍的一种技术,可以作为扩大检索范围的手段,是防止漏检的有效技术,在西文信息检索中,应用更为广泛。根据检索的需要,截词检索可分为:后截词、前截词、中间截词、前后截词。不同的系统所用的截词符也不同,常用的有?、$、*等。分为有限截词(即一个截词符只代表一个字符)和无限截词(一个截词符可代表多个字符)。2.截词检索后截词即将截词符号置于检索词词干的右方,以允许右方有多个字符的变化,也称为前方一致检索。例put*computer、computerized、computers、computer-based等的文献。例2.生产?生产,生产力,生产工具,生产方式等。前截词即将截词符号置

15、于检索词词干的左方,以允许左方有多个字符的变化,也称为后方一致检索。例1.*mentattachment、establishment、equipment等例2.?英语考试四级英语、六级英语、研究生英语考试等前后截词即同时将截词符号置于检索词词干的左右两侧,以允许两侧有多个字符的变化,也称为中间一致检索。例1.*computercomputer、computers、computerized、microcomputer、minicomputer等词的全部文献记录。例2.?考试?英语考试、考试试题、计算机等级考试指南等。中截词即将截词符号置于检索词的中间,以允许检索词中间有多个字符的变化,检索时,只

16、要检索词两侧的字符相同,该词所在的文献即为命中,也称为前后方一致检索。例1.wom*nwomen和woman等的文学记录。例2.信息?类型信息资源类型,信息交流类型等 是利用记录中的自然语言进行检索,词与词之间的逻辑关系用位置算符组配,对检索词之间的相对位置进行限制。是一种可以不依赖主题词表而直接使用自由词进行检索的技术方法,通常只出现在西文数据库中,在全文检索中较多。不同的检索系统其位置算符的表示方法不尽相同,通常情况下位置算符的用法意义如下:(nW)nWords(N)Near(nN)nNear(S)Subfield(F)Field(W)With位置检索3.全文检索4.位置检索限定了检索词与

17、检索词之间的位置关系(W)表示该算符两侧的检索词相邻,且两者之间只允许只有一个空格或标点符号,不允许有任何字母或词,顺序不能颠倒。(W)也可以简写为()。例:Aircraft()design 可检索出含有Aircraft design 的文献记录。Computer()aided()design 可检索出含有Computer aided design 的文献记录。(nW)-表示在此算符两侧的检索词之间最多允许间隔n 个词(实词或虚词),且两者的相对位置不能颠倒。不同的数据库的表示不一样,在EBSCO数据库中用(Wn)。例1:laser(w1)printer 可检出含有laser printer

18、和laser color printer 的文献记录。(N)表示该算符两侧的检索词相邻,但两者的相对位置可以颠倒。例如:computer(N)network 可检出含有computer network、network computer 形式的文献记录。(nN)表示此算符两侧的检索词之间允许间隔最多n 个词,且两者的顺序可以颠倒。例如 computer(2N)system 可检出含有computer system,computer code system,computer aided design system,system using modern computer 等形式的文献记录。(S)表

19、示其两侧的检索词必须是在文献记录的同一子字段中,而不限定它们在该子字段中的相对次序和相对位置的距离。在文摘字段中,一个句子就是一个子字段。例如computer()control(s)system 可检出文摘中含有“This paper is concerned with an application of the computer control technique in a intelligent system for testing inner walls of pipes.”这样一句话的文献记录。(F)表示其两侧的检索词必须是在文献记录的同一字段中,而它们在该字段中的相对次序和相对位置的

20、距离不限。例如:water()pollution(F)control 表示在同一个字段中(如篇名、文摘、叙词等)同时含有water pollution 和control 的文献记录均可检索出来.通过规定检索范围,针对性的选择相应的对象检索。如:(以搜索引擎Google 为例来讲)1 规定检索对象是网站还是网页 2 规定检索的对象是文摘、题名等 3 检索的语言、地区、时间等 4 检索对象的范围,如新闻、产品、教育、政府等 5 根据检索对象的学科分类5.限定范围检索4 信息检索的方法 信息检索的方法是根据检索课题的需要与检索系统的现状灵活选定的。4.1 常用法 又称直接法,是指直接利用检索工具(系

21、统)检索文献信息的方法,这是文献检索中最常用的一种方法。根据具体的检索需要,可分为3种情况:顺查法、倒查法和抽查法。4.2 追溯法4.3 综合法顺查法含义:按照时间的顺序,由远及近地利用检索系统进行文献信息检索的方法。优点:漏检,误检率低缺点:但劳动量较大。重点:能收集到某一课题的系统文献,用于较大课题的文献检索。优点:可以最快地获得新资料,概括了前期的成果,反映了最新水平和动向,这种方法劳动量较小。倒查法含义:是由近及远,从新到旧,逆着时间的顺序利用检索工具进行文献信息检索的方法。重点:在近期文献,只需查到基本满足需要时为止。可用于新课题立项前的调研缺点:容易造成漏检。抽查法重点:适合于检索

22、某一领域研究高潮很明显的,某一学科的发展阶段很清晰的,某一事物出现频率在某一阶段很突出的课题。含义:抽查法是针对检索课题的特点,选择有关该课题的文献信息最可能出现或最多出现的时间段,利用检索工具进行重点检索的方法。优点:花费较少时间能查得较多有效文献的一种检索方法。含义:指不利用一般的检索工具,而是利用已经掌握的文献末尾所列的参考文献,进行逐一地追朔查找“引文”的一种最简单的扩大情报来源的方法。优点:它还可以从查到的“引文”中再追朔查找“引文”,依据文献间的引用关系,获得越来越多的内容相关文献。这些内容相关的文献反映着某一课题的立论依据和背景,也在某种程度上反映着某课题或其中的某一观点,某种发

23、现的发展过程。缺点:原文著者引用的参考文献是有限的,误检,漏检 的可能性大。4.2 追溯法 含义:又称为循环法,它是把上述两种方法加以综合运用的方法。综合法既要利用检索工具进行常规检索,又要利用文献后所附参考文献进行追朔检索,分期分段地交替使用这两种方法。即先利用检索工具(系统)检到一批文献,再以这些文献末尾的参考目录为线索进行查找,如此循环进行,直到满足为止。因为参考文献一般都是引用5年以内的重要文献,所以交替期可定为5年。优点:综合法兼有常用法和追朔法的优点,可以查得较为全面而准确的文献,是实际中采用较多的方法,尤其适用于对那些过去年代内文献较少的课题。4.3 综合法5 信息检索的步骤与策

24、略 信息检索是根据即定的课题要求,利用检索工具(或系统),按照一定的方法和步骤把符合需求的文献挑选出来的过程。检索步骤:1、分析研究课题,明确文献需求 2、选择检索工具,确定检索方法 3、确定检索途径和检索标识 4、优化检索提问与策略 5、分析检索结果 6、索取原文1、分析研究课题,明确文献需求(1)明确检索目的(2)明确课题的主题或主要内容(3)课题涉及的学科范围(4)所需信息数量、语种、年代范围、类型等具体指标。例:我们要查找关于“纳米氧化铝制备技术”方面的资料。在着手检索前,要明确检索目的,了解检索课题的内容及性质,明确学科或专业范围等。最后分析哪些是已知检索线索,了解和掌握有关学科的专

25、家学者以及研究机构等目前的有关课题,为检索提供充分而有利的条件。经过分析得知,纳米功能氧化铝的制备技术涉及的主题概念有:纳米、超细材料、氧化铝、制备工艺。2、选择检索工具,确定检索方法 通常可采用两种方法:一是浏览图书馆检索工具室内陈列的全部检索刊物,从中挑选确定;二是通过查阅国内外出版的检索工具指南,从中挑选确定。为了迅速,准确地查找文献,还必须针对某一课题的具体情况选用适宜的检索方法,是使用常用法,综合法,还是使用其它方法,这些都是应该在检索前确定下来。我们可选择如下检索工具:手工检索工具:中国机械工程文摘中国学术期刊文摘有色金属文摘中国化学文摘中国物理文摘 网络数据库:中国期刊全文数据库

26、CNKI中文科技期刊数据库维谱资讯万方数据资源系统3、确定检索途径和检索标识 文献检索可以利用文献的内容特征和外表特征。当我们拿到一项课题后,具体先用哪一条或哪几条检索途径,这需要从课题对文献本身的特定要求和已掌握的线索而定。1.如系统查找某一课题的文献资料,一般应选择内容途径;2.如需了解某位科学家近期研究情况,则需从外表特征中的著者途径查找。检索途径确定之后,就要根据课题要求拟定相应的检索标识,当选择内容途径时,有些检索工具还要求将检索标识与相应的词表或类表进行核对,以提高查准率。例上题:由于纳米氧化铝的制备技术所涉及的技术领域较宽,可采用内容途径的主题途径检索,并辅以分类途径。为达到查全

27、的目的,可利用查出文献的作者及文后的参考文献做进一步的检索,以扩大检索范围。4.优化检索提问与策略检索提问式检索效果是质检索结果的有效方法,它反应了检索系统的能力。衡量检索结果的两个主要指标是查全率和查准率,分别用R和P表示。查全率:也称为命中率、检全率等。指系统实施检索是捡出的与某一检索提问相关的信息资源数与检索系统中与该提问相关的实有信息资源总数之比。P28 查准率:也称相关率,检索精度等,指系统实施检索时检出的与某一检索提问相关的信息资源数与检出的信息资源总数之比。5、分析检索结果。不满意满意非目标性结果结果太多结果太少进行调整打印、存盘、获取原文等6、查找文献线索,索取原文。确定检索途径之后,根据检索标识,如著者姓名,分类号,主题词等,通过有关索引进行文献检索。方法主要有:查找馆藏单位 与收藏单位联系 直接向著者索取 联机定购 选择质量较高的检索系统。对用户而言,则要选择适合课题的学科覆盖范围的、优质的检索工具,包括其收录的全面、著录的清楚、标引的准确、完善等等。提高用户使用检索系统的能力:充分发挥检索系统的功能。要根据不同的检索课题的需要,适当调整对查全率和查准率的要求,比如要求查全率很高的查新工作,就要放弃对查准率的苛刻要求。善于利用各种辅助索引。提高检索效果的途径小结 通过本章的学习,同学们掌握信息检索的概念、信息检索的方法、信息检索的途径、信息检索的步骤与策略。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 教案示例

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁