《情报检索的原理与技术优秀课件.ppt》由会员分享,可在线阅读,更多相关《情报检索的原理与技术优秀课件.ppt(50页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、情报检索的原理与技术第1页,本讲稿共50页日本经济发展的启示日本人均国民生产总值:1945年只有20美元,1955年为200美元,1965年为1000美元,1980年为10000美元,1982年为12000美元,1989年为16100美元,1991年为27326美元(当年美国是22550美元)且仅次于瑞士(35100美元),1994年为34630美元,居世界银行评出的十大富国的第三位(十大富国:卢森堡、瑞士、日本、丹麦、挪威、美国、德国、奥地利、冰岛、瑞典)。数据来源:远东经济评论(Economic Review of Far East)第2页,本讲稿共50页 日本是第二次世界大战战败国,而且
2、地处孤岛,资源缺乏,但它只花了20年的时间就令全国经济获得飞速发展,原因何在?最重要的一条就是每个国民及整个国家都竭尽全力地追求信息,走一条“引进、消化、综合、创新、返销、赚钱”的富国之路。第3页,本讲稿共50页 资料显示,1952年日本出口总额只有8亿美元,由于它在战后花了20年时间和57亿美元购买外国的情报和专利,大大促进了经济的发展,到1990年,日本的出口总额竟达到2860亿美元,1995年则达到4400亿美元,出口总额仅次于德国、美国,居世界第三位。日本人收集情报信息的手段多种多样,而且具有独创性。每年在近千种科技文献、政府报告和报刊上获得美国有价值的论文约7万篇,内容几乎涉及所有的
3、科技领域。日本企业在美国的大学情报站有上千个,这些情报站多是高薪聘用美国的专家为日本服务的。第4页,本讲稿共50页 国际情报公司(International Information Company,IIC)一位人士说,日本人收集情报、信息像梭子鱼一样,极其厉害,什么都不放过。第5页,本讲稿共50页第一节 情报检索原理第二节 情报检索技术第6页,本讲稿共50页第一节 情报检索原理一情报检索概念二.情报检索类型三情报检索语言四情报检索工具 第7页,本讲稿共50页 1.情报检索“检索”一词源自英文“Retrieval”,其含义是“查找”。将大量相关情报按一定的方式和规律组织和存储起来,形成某种情报集
4、合,并能根据用户特定需求快速高效地查找出所需情报的过程称情报检索。一情报检索概念第8页,本讲稿共50页总结:从大量的信息情报集合中查找出所需情报的活动、过程与方法。(狭义)将情报信息按照一定方式组织、存贮起来,并针对用户需求的需要查找出所需情报的过程。(广义)第9页,本讲稿共50页 2.情报检索原理 存贮过程:搜集情报、筛选加工、形成检索工具、组成检索系统 检索过程:明确需求、分析课题、利用检索工具、得出检索结果第10页,本讲稿共50页主题分析文献情报内容用 户 情报需求主题概念主题概念情报检索语言标识标识情 报 检索系统结果主题分析 输入检索第11页,本讲稿共50页 1.根据检索内容分类 文
5、献检索(Document Retrieval)数据检索(Data Retrieval)事实检索(Fact Retrieval)二.情报检索类型 第12页,本讲稿共50页 2.根据检索手段分类 手工检索 特点是方便、灵活、判别直观,可随时修改检索策略,查准率较高。不足的是检索速度较慢,漏检现象比较严重,不便于进行复杂概念课题的检索。计算机检索 特点是速度快、效率高、查全率较高。不足之处是成本高、费用大,查准率通常不尽如人意。第13页,本讲稿共50页 1.检索语言的概念 情报检索语言是根据检索需要而创制的人工语言,也称检索标识系统。它专门用于各种手工和计算机情报检索系统,其实质是表达一系列概括文献
6、内容的概念及其相互关系的概念标识系统。三情报检索语言第14页,本讲稿共50页 2.检索语言的类型 检索语言的种类很多,按其构成原理一般可分为分类语言(又称分类法)、主题语言和代码语言三种。其中分类语言又有体系分类法和组配分类法的区别,主题语言又有标题词语言、叙词语言和关键词语言的区别。第15页,本讲稿共50页检索语言 表达文献情报主题概念 表达文献情报外部特征分类语言 主题语言 标题词语言单元词语言 叙词语言关键词语言书名、刊名、篇名等 著者(作者)名称号码(如报告号、专利号、文献序号)文献类型 第16页,本讲稿共50页 1.检索工具的概念 检索工具是用以报道、存储和查找文献信息的一切工具与设
7、备。它以各种类型的原始文献为素材,在广泛收集、筛选、分析的基础上,用选定的检索语言进行描述和标引,并按特定规则组织编排而成的二次文献。四情报检索工具第17页,本讲稿共50页(1)按检索手段划分 手工检索工具 机械检索工具 计算机检索工具2.检索工具的类型(2)按载体形态划分 书本式检索工具、卡片式检索工具、缩微式检索工具、磁性材料检索工具(磁盘、光盘等)第18页,本讲稿共50页(4)按著录对象和方式划分 目录型检索工具 题录型检索工具 文摘型检索工具 参考型检索工具 搜索引擎(3)按收录范围划分 综合性检索工具 专业性检索工具 专题性检索工具 单一性检索工具第19页,本讲稿共50页第二节 情报
8、检索技术一.传统检索技术二.现代检索技术三.检索策略第20页,本讲稿共50页 传统意义上的检索技术包括布尔逻辑检索、位置检索、截词检索、限制检索等,不同的数据库使用该技术的情况各不相同,具体使用时应结合实际情况选用。一传统检索技术第21页,本讲稿共50页1.布尔逻辑检索(Boolean Logic Retrieval)通过对一些简单概念检索词的组配,表达一个复杂概念。表达概念间的并列关系、相交关系和排斥关系,分别是逻辑或(or)、逻辑与(and)、逻辑非(not)。第22页,本讲稿共50页(1)逻辑“或”“or”或“+”“或”用于组配具有同义或同组概念的词,如同义词或近义词。用于并列关系,可以
9、扩大检索范围,防止漏检,增加查全率。检索式写作 A or B 或 A+B 表达意义 数据库中凡有检索词A或者B,或同时有A和B的记录均为命中记录。第23页,本讲稿共50页(2)逻辑“与”“and”、“*”或“”“与”用于概念交叉和限定关系的组配。可以缩小检索范围,减少命中文献量,提高查准率。检索式写作 A and B、A*B 或A B 表达意义 数据库中同时有检索词A和B的记录才为命中记录。第24页,本讲稿共50页(3)逻辑“非”“not”或“”表示排除某些不需要的和影响检索结果的概念,基本作用是缩小检索范围,提高查准率。检索式写作 A not B 或 A-B 表达意义 数据库中凡有检索词A而
10、不含检索词B的记录才为命中记录。第25页,本讲稿共50页注意:布尔逻辑检索算式优先执行顺序通常是NOT、AND、OR,在有括号的情况下,先执行括号内的运算,在多层括号时,先执行最内层括号的运算。布尔逻辑检索比较容易掌握,但使用不当会造成大量误检和漏检,尤其是非运算符的运用应特别小心。第26页,本讲稿共50页 2.位置算符检索 位置检索也叫邻近检索,是用一些特定的算符(位置算符)来表达检索词与检索词之间的邻近关系,并且可以不依赖主题词表而直接使用自由词进行检索的技术方法。位置关系包括词距(单词间的间隔)和词序(单词的先后顺序)两个方面。第27页,本讲稿共50页(1)(W)或()(W)算符是Wit
11、h或word 的缩写,表示两侧的词必须紧密相连,次序不得颠倒,中间不得有其他词或者字母(两个词之间可以有一个空格、或一个标点符号、或一个连接号)。例如:CD()ROM(nW)n Word n为一个数字,表示算符两侧的检索词间允许插入n个实词或虚词,顺序不能颠倒。例如:price(2w)inflation 第28页,本讲稿共50页(2)(N)(N)算符是Near的缩写,表示算符两侧的词必须紧密相连,中间不得有其他字符,但词序可以颠倒。(nN)nNear n是一数字,表示在两个检索词之间最多可以插入n个单词,且词序可以颠倒。(3)(F)Field同字段检索,检索词必须同时出现在同一字段中。(4)(
12、S)Subfield或sentence,同子字段或同句检索,参加检索的两个词必须出现在同一个自然句中。第29页,本讲稿共50页3.截词检索 由于西文的构词特性,在检索中经常会遇到名词的单复数形式不一致;同一意义的词,英、美拼法不一致;词干加上不同性质的前缀和后缀就可以派生出许多意义相近的词等。截词是在检索词的某个局部截断,采用截词符构成模糊检索,防止漏检。截词符(通配符)??*意义 截词检索具有逻辑or 的运算特性。第30页,本讲稿共50页(1)按照截词的位置 后截断:将截词符号放在一个字符串的右方,满足截词符左方所有字符的记录均为命中记录。性质上讲,是一种前方一致的检索。例如 market*
13、(market or marketable or marketing or)199?(1990-1999)前截断:将截词符号放在一个字符串的左方,是一种后方一致检索。中截断:又称中间屏蔽法,用截词符屏蔽词中不同字符的方法,中间一致检索。第31页,本讲稿共50页(2)按照截取字符的数量 有限截断:是在检索词后截去有限的字符。例如 computer?(computer or computers)computer?三个字符 无限截断:在检索词后跟任意个字符均为命中文献。例如 comput*(computer or computing or computered)第32页,本讲稿共50页4.字段限制检
14、索 字段限制检索是限定检索词在数据库记录中的一个或几个字段范围内查找的一种检索。在检索系统中,数据库设置的可供检索的字段通常有两种:表达文献主题内容特征的基本索引字段和表达文献外部特征的辅助索引字段。基本索引字段包括篇名、文摘、叙词、自由标引词四个字段;辅助索引字段包括除基本索引字段外的所有字段,如著者字段、著者机构字段、文献类型字段、语种字段等。基本索引字段一般用后缀表示,如 medicine/TI,或medicine In TI;辅助索引字段一般用前缀表示,如AU=Smith D.,再如PY=2005。第33页,本讲稿共50页 AB Abstract文摘 TI Title 题名 AD Ad
15、dress of Author著者地址 AU Author著者 CP Country of Publication出版国 LA Language of Article文献语种 PT Publication Type出版物类型 PY Publication Year出版年 第34页,本讲稿共50页检索式 business information/TI or business information in TI 表示检索在题名中出现business information 的所有文献。分析 review in TI AU=Gordon and PY=2005 表示检索Gordon所写的2005年发
16、表的所有文献。分析 PT=patent and LA=Chinese第35页,本讲稿共50页 5词组检索 词组检索是将一个词组(通常用双引号“”括起)当作一个独立运算单元,进行严格匹配,以提高检索的精度和准确度,它也是一般数据库检索中常用的方法。词组检索实际上体现了邻近位置运算(Near运算)的功能,即它不仅规定了检索式中各个具体的检索词及其相互间的逻辑关系,而且规定了检索词之间的临近位置关系。第36页,本讲稿共50页1.全文检索 全文检索系统是为人们获取文献原文而不仅仅是文献线索而产生的一种现代检索技术。近年来,全文检索的应用范围不断拓展,它与出版技术的结合,使各种科技期刊、专利文献、新闻报
17、纸等全文数据库应运而生。一些年鉴、手册、百科全书、参考书等也成为全文系统处理的对象,有些著名的文学作品也可以转换成全文数据库。二.现代检索技术第37页,本讲稿共50页2.多媒体检索 多媒体检索技术是把文字、声音、图像(形)等多种信息的传播载体通过计算机进行数字化加工处理而形成的一种综合技术。视频检索。这种检索要在大量的视频数据中查找所需要的视频片断。如关于卫星云图的变化、人体内器官的运作等。声音检索。包括:用序号查找一段声音;以匹配方式检索给定样值的声音;对声音文本的检索等。图像检索。它通过分析图像的内容,如颜色、纹理等建立特征索引,并存储在特征库中。用户查询时,只要把自己对图像的模糊印象描述
18、出来即可在大容量图像信息库中找到所要的图像。第38页,本讲稿共50页 3.超媒体超文本检索 传统文本都是线性的,用户必须顺序阅读。超媒体与此不同,它是一种非线性的网状结构。用户要沿着交叉链选择阅读自己感兴趣的部分。早期的超文本以文字为主,随着多媒体的发展,开始容纳包括图像(形)、视频、声频等各种动、静态信息,统称为超媒体系统或超级文本系统。从信息组织角度看,超媒体系统是一个由节点和表达节点之间关系的链构成的网状数据库。第39页,本讲稿共50页 所谓检索策略就是在分析检索提问实质的基础上,为实现检索目标而制定的一个合理的检索方案。一般来说,要经过以下基本程序,分析检索课题,选择检索系统及数据库,
19、确定检索词,构建检索提问式,实施检索并调整检索策略,输出检索结果。三.检索策略第40页,本讲稿共50页1.分析检索课题 接到检索课题时应当分析研究课题,全面了解课题的内容以及用户对检索的各种要求,从而有助于正确选择检索系统及数据库,制定合理的检索策略等。分析检索课题时应从以下几方面进行:弄清用户情报需求的目的和意图;分析课题涉及的学科范围、主题要求;课题所需情报的内容及其特征;课题所需情报的类型,包括文献类型、出版类型、年代范围、语种、著者、机构等;课题对查新、查准、查全的指标要求等。第41页,本讲稿共50页2.选择检索系统和数据库 在全面分析检索课题的基础上,根据用户要求得到的情报类型、时间
20、范围、课题检索、经费支持等因素综合考虑后,选择检索系统和数据库。数据库的选择要从以下几方面考虑:数据库收录的情报内容所涉及的学科范围;数据库收录的文献类型、数量、时间范围以及更新周期;数据库所提供的检索途径、检索功能和服务方式。第42页,本讲稿共50页3.确定检索词 检索词的确定一般有以下几种方法:先选用主题词。当所选的数据库具有规范化词表时,应优先选用该数据库词表中与检索课题相关的规范化主题词,从而获得最佳的检索效果。选用数据库规定的代码。许多数据库的文档中使用各种代码来表示各种主题范畴,有很高的匹配性。CA中的化学物质等记号 选用常用的专业术语。选用同义词与相关词。同义词、近义词、相关词、
21、缩写词、词形变化等应尽量选全,以提高查全率。第43页,本讲稿共50页4.构造检索提问式 基本要求是:能充分而准确地反映情报需求的内容;能适应所检索数据库的索引体系、用词和匹配规则,即与数据库中的情报标识匹配。第44页,本讲稿共50页 注意问题:构造检索式时,要弄清所使用数据库的检索功能和所采用的操作算符,不同的数据库往往采用不同的符号或文字来描述词与词之间的组配关系。检索词之间用“逻辑或”连接,可扩大检索式概念的外延,拓宽情报检索的范围。为提高检索速度,在使用布尔算符时,应把估计出现频率低的次放在“AND”的左边,把频率高的词放在“OR”的左边,同时使用“AND”和“OR”时,应把“OR”放在
22、“AND”的左边。应考虑哪些词可利用截词算符,哪些地方要用位置算符,是否需要字段算符加以限制。应避免可能产生多种逻辑判断的组配。第45页,本讲稿共50页5.实施检索并调整检索策略 在检索过程当中,应及时分析检索结果是否与检索要求一致,根据检索结果对检索提问式作相应的修改和调整,直至得到比较满意的结果。第46页,本讲稿共50页 检索结果情报量过多 原因有二:一是主题词本身的多义性导致误检;二是对所选的检索词的截词截得太短。调整的方法:减少同义词与同族相关词;增加限制概念,采用逻辑“与”连接检索词;使用字段限定,将检索词限定在某个或某些字段范围;使用逻辑“非”算符,排除无关概念;调整位置算符,由松
23、变严。第47页,本讲稿共50页 检索结果情报量过少 原因:选用了不规范的主题词或某些产品的俗称,商品名称作为检索词;同义词、近义词没有用全;上位概念或者下位概念没有完整运用。调整的方法:选全同义词与相关词并用逻辑“或”将它们连接起来;减少逻辑“与”的运算,丢掉一些次要的或者太专指的概念;去掉某些字段限制;调整位置算符,由严变松。第48页,本讲稿共50页6.输出检索结果 根据检索系统提供的检索结果输出格式,选择需要的记录以及相应的字段(全部字段或部分字段),将结果显示在屏幕上、存储到磁盘或直接打印输出,网络数据库检索还可以提供电子邮件发送,整个检索完成。第49页,本讲稿共50页Thats all.Thank you!第50页,本讲稿共50页