《信息检索理论与方法教案.doc》由会员分享,可在线阅读,更多相关《信息检索理论与方法教案.doc(14页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、信息检索信息检索:理论与方法第一部分 信息检索理论一掌握和熟悉1信息检索的基本原理:即对信息集合与需求集合的匹配与选择。*2信息检索常用技术:*布尔检索:逻辑与:如,A*B ,表明一篇文献中A和B必须同时存在。例:郭沫若*语言学 (同时满足两个条件)逻辑或:如,A+B ,表明文献中A或B必须存在,包含同时存在。 逻辑非:如,A- B ,表明一篇文献中包含A但不包含B。 例:郭沫若;除去语言学 (对某一个检索要求进行限制) 逻辑“或”提高查全率,逻辑“与”和“非”提高查准率。截词检索:后截断:computer*,可检索出:computeracy, computerise, computers 前
2、截断:*computer,可检索出:microcomputer, minicomputer 中截断:organi ? ation,可检索出:organisation,organization 前后截断:*computer*限制检索:为缩小命中文献的数量,将检索范围限定在某个字段或范围中。全文位置检索:可以反映出两个检索词在文献中的邻近关系。常用在全文检索中, 弥补布尔检索的不足。加权检索:多媒体检索:基于内容的检索是指根据媒体对象的内容及上下文联系,在大规模多媒体数据库中进行检索。它的目标是提供在没有人类参与的情况下能自动识别或理解声音、图象、视频重要特征的算法。超文本检索:超文本是一种信息的
3、组织方法。3信息检索当代技术:* 并行检索:两个或两个以上的程序或任务并行处理。 分布式检索:允许检索请求在不同地点、不同结构的系统平台上运作。Z39.50 协议是一种信息检索标准,常用于分布在各地的图书馆书目数据库系统的检索。 遵循了Z39.50协议,只要进入一个界面,不需要重新退出再进入。 近年来推出了基于OAI协议的分布式检索。作为开放式数字资源库,OAI必须 遵守如下规定:作为数据库提供者应能用通用公共元数据描述所存储的对象 基于知识的智能检索:如检索“华人”,可把包含“中华人民共和国”的内容不 检索出来;检索“电脑”,可以把包含“计算机”的内容检索出来。现阶段智能 型检索系统应该有以
4、下功能:a.具有大规模实例描述的汉语分词排歧知识库;b. 具有主题词典、广义同义词检索、拼音检索、同音检索等功能;c.具有基于内容 的相似性检索功能,具有自动分类和自动摘要功能,具有知识压缩和去重功能; d.具有文本挖掘功能等。 知识挖掘:主要指文本挖掘技术的发展,目的是帮助人们更好地发现、组织、 表示信息,提取知识,满足信息检索的高层次需要。(包括摘要、分类等) 异构信息整合检索:能够检索和整合不同来源和结构的信息。 全息检索:就是支持一切格式和方式的检索。 自然语言检索:应是信息检索的发展趋势。自然语言与人工语言相结合,才能 更好地发挥自然语言检索的优势。 跨语言信息检索:可以用一种语言去
5、检索其他语言的资源。 问答系统:输入的查询是问题,要求从给定语料库中返回文本。 概念空间:通过对目标文档进行概念选取、概念类聚而形成,是一个概念网络。 概念空间是一个智能化索引,每个索引项(概念)通过一层或多层的概念与原 文档建立联系。 信息融合技术:是一种综合利用多种信息资源,以获得对某一事物更客观、更本质认识的信息处理技术。可以合理地组织查询结果,减少不必要的信息冗余,使用户获得完整、准确、及时、有效的而且是简洁、明了的实用信息。检索效果评价:判定一个检索系统的优劣,主要应从质量、费时和时间三方面来衡量。*查全率检出的相关信息数信息库中相关信息总数*100 %= a / a + c *10
6、0 %*查准率检出的相关信息数检出的信息总数*100% = a / a + b * 100%* 查全率和查准率必须结合使用,单独使用两者中的任何一个都不能全面说明检索效果的好坏。若检出一篇相关信息,必能达到100%的查准率,但查全率却会非常低;同样,若检出信息数等于库中信息的总量,则必能100%的查全率,但查准率一定很低。*误检率检出的非相关信息数检出的信息总数*100%=b / a+b * 100% *漏检率未检出的相关信息数信息库中相关信息总数*100% =c / a+ c 100% * 查全率和漏检率是互补的;查准率和误检率也是互补的。它们相加等于一。其他评价指标:均衡查全和相对查全指标
7、。还有错检率和相关率。*不同的用户对查全率和查准率的要求不同。如一个正在从事某项研究的用户,可能需要高查全率,允许较低的查准率,以保证不遗漏任何重要的信息。而对于查新人员来说,为了找到与查新项目内容一致的信息,他可以要求高查准率。*二了解1信息检索经历了从手工到机械再到计算机化检索的发展过程:手工检索(1876-1954)脱机批处理检索(1954-1965)联机检索(1965-1991)联机检索是计算机技术、信息处理技术和现代通信技术三者的有机结合。网络化联机检索(1991- )2息检索技术发展:一是传统信息检索向全文本、多媒体、多载体、多原理等新型信息检索的发展,二是信息资源的网络化和分布化
8、。3信息检索的模型,就是运用数学的语言和工具,对信息检索系统中的信息及其处理过程加以翻译和抽象,表述为某种数学公式,在经过演绎、推断、解释和实际检验,反过来指导信息检索实践。4布尔逻辑检索模型、向量空间模型、概率检索模型、模糊集合检索模型、扩展布尔逻辑检索模型、相关反馈模型:经过了十多年的理论研究与实验比较,发现所有这些新的理论都无法取代布尔检索。这不仅因为现有的操作系统大都是布尔检索系统,更重要的是布尔检索的简单易懂、提问式的方便构造是向量等模型无法比拟的。5信息检索系统:一个完整的信息检索系统,通常由以下几个功能模块组成。 信息选择子系统:信息源是检索系统的信息或数据来源。功能:根据系统的
9、目标和服务对象的需要,确定数据收集范围,采集各种信息资源,为系统提供充足、适用的数据。 标引子系统:标引,就是对文献内容进行分析,然后给每篇文献以一定数量的内容标识(如分类号、主题词、关键词等),作为存储与检索的依据。 建库子系统:功能是建立和维护可直接用于检索的数据库,包括系统所用的索引文档。 词表管理子系统:主题词表是控制标引用词和检索用词,使两者尽可能取得一致的有效工具。 用户接口子系统:全称是“系统-用户接口”,由用户模型、信息显示、命令语言和反馈机制等部分构成(界面)。 提问处理子系统:专门处理用户输入的提问式,将提问式中的检索元和算符区分,并转换成系统可接受的命令方式。与数据库中存
10、储的数据进行比较运算后,把结果输出给用户。索引与书目不同的是它能更深入地揭示文献内容,与书目相同的是都是指引性工具。检索系统评价:信息源评价:数据规模、收录范围、信息源质量控制指标可反映信息源的质量。量大、面广、信息全、信息质量高、提供一站式服务,是理想的信息源。信息组织管理:主要指标引的方法、组织方式及更新周期。系统功能评价:取决于系统所能提供的检索途径、检索方式和检索方法。(一般系统都提供布尔组配、截词检索等,也有一些系统提供二次检索、超文本检索。)输出结果评价:包括系统对用户的响应时间、命中记录的排序功能输出显示形式。用户接口:影响到用户是否喜欢使用和该系统。用户友好、方便使用是建设宗旨
11、。系统技术支持:指软、硬件平台的通用性、兼容性、先进性、可靠性和稳定性。检索效益评价:要考虑社会效益和经济效益。第二部分社科信息检索一 熟悉和掌握 社科信息检索工具体系:检索工具是根据特定需求,对原始文献进行筛选、浓缩、有序组织、提供文献线索和知识的一种特殊的文献类型,是信息检索的主要工具。检索工具按载体形态可分为书本式、卡片式、期刊式、附录式、缩微型、机读型等。按检索方式可分为手工检索系统和计算机检索系统。* 按不同的功能和编制特点,社科信息检索工具可分为:P96*指引型检索工具:指引型检索工具的特点是揭示文献形式和内容特征,提供原始文献线索,让读者作进一步查检。主要有三类:书目:书目是揭示
12、与记录一批相关文献,并按一定次序编排而成的检索工具。又称目录。书目的主要功用:从题名、著者、主题等特定角度查找相关文献;查考某一学科或某一专题文献的出版和收藏情况;指导阅读,指引学术门径。索引:索引是将书、刊或其他文献中重要的或有意义的信息,如词语、主题、篇目或人名、地名等事项摘录下来,按一定方式顺次编排,并注明出处的检索工具。它是对文献集合中包含的文献事项或单元知识进行的记录和指引,能比书目更微观、更深入地揭示文献内容。索引的功用有:提供文献线索;指引篇名、文句、语词与专题论述的出处;增加检索途径。文摘:文摘是将文献的主要内容简要确切地加以描述,并注明出处,以一定的方法编排的检索工具。文摘不
13、仅提供文献的基本书目信息,还提供文献的内容梗概(与书目不同处)。文摘是对原文的浓缩,忠实于原文,不允许加入个人评价。文摘按摘要方式分为指示性文摘(简介)和报道性文摘。文摘的功用有:帮助用户迅速鉴别选择文献,减少利用资料和查阅资料的盲目性;有的文摘在一定程度上可替代原文,节省阅读全文的时间;多语种文摘被摘录成一种语种的文摘时,可帮助用户克服语言障碍;提供学术动态和学科研究进展。以上三类检索工具若以一定格式存储在计算机存储介质中形成书目数据库,则可进行计算机检索。 参考型检索工具:是能直接提供事实、知识、数据和观点等的检索工具。(它能直接提供问题的答案,要与指引型工具区分)P 98* 辞典(字典、
14、词典):是解释字或词的概念、意义和用法,并按一定顺序编排的检索工具。 东汉许慎的说文解字是第一部部首法字典,以字典为书名,通常认为始于康熙字典。综合性语文辞典:对词语的音形义用法等加以全面解释 语文辞典特种语文辞典:同义辞典、成语辞典、方言辞典等辞典 专科辞典:用于查考一种或几种学科或专门领域的术语、知识性辞典 专名、概念等 百科辞典:是汇集各学科专业词汇,对术语、概念和事物加以概括解释的综合性工具书。(辞海既是百科辞典,又兼有语文辞典的功能) 百科全书:是会萃人类一切门类或某一门完整的知识,概要地加以叙述并有序编排的工具书。百科全书具有系统性、完备性、权威性、检索性、可读性等特点。百科全书的
15、功用有:寻检查阅特点知识;系统学习有关知识。(系统地学习知识要找百科全书) 年鉴:是汇集一年内的重要时事文献、学科进展,各种统计资料和重要信息,并按年度出版的连续性出版物。年鉴的功用有:提供新颖适时的资料;提供简明事实和统计数据;逐年编排;累积性强,具有可比性和预测性;具有非正式的索引作用。 手册:是汇集某一领域或某一学科的基本知识、事实性资料与统计数据,将其浓缩整理,加以系统性编排,以便解答各种事实性问题的参考工具。手册信息密集,资料详实、具体,实用性强,具有很大的参考价值,可供随时翻检。(手册还叫指南、必备、大全、宝鉴等。提供的是“既成的知识”如公式、数据、图表条例制度等) 类书:类书是摘
16、录、汇集多种文献中的原文,按类目或按韵部编排而成的工具书。 类书的功用:(查考事物起源,查检史实典故渊源,查找诗词文句出处,检索参考资料,辑录散佚残缺古书佚文,校勘考证古籍等。) 政书:(是记述历代或 某一朝代的典章制度的沿革及政治、经济、军事、文化制度等方面史料的工具书。)十通是通典、通志等三个系统十部书的总称。 名录:是提供有关专名(人名、地名、机构名称)及其基本情况的资料性检索工具。 表谱:(是以表格或类似表格形式反映事物变化的工具书。)(如家谱等) 表谱的功用:用来查检时间、事件和人物资料。 图录:(是以图形、图象表示事物、人物等某个方面的形象直观的工具书。)原文性检索工具:是指一些既
17、具有原始文献的阅读功能,又有检索工具的查检功用的文献。(边缘性工具书)如资料汇编、各种方志、经典著作等。全文数据库和电子图书是应用越来越广泛的原文性检索工具。3社科信息检索技能包括三个方面:一是信息检索技术的熟练应用,二是对检索工具的有效选择,三是通过分析和推理获得正确的检索结果。4社科检索技术:P103*熟悉检索语言:从检索标识规范化的角度来看,检索语言分为自然语言检索标识和规范语言检索标识。从检索语言的构成原理,可主要类分为分类检索语言和主题检索语言两大类。了解检索工具常用的排检方法:形序法中的部首法、笔画法、笔形法、笔顺法,号码法中的四角号码法,音序法中的汉语拼音字母排列法。掌握不同检索
18、工具的结构及相应的使用方法直接浏览5检索工具的选择:P105* (可能选择考填空题) 文科信息检索可分为三大类,即文献检索、事实检索和数据检索。 指引性检索工具(如书目、文摘、索引及书目数据库)与原文性检索工具(如全文数据库、资料汇编)主要用于文献检索,事实性工具书如辞典、百科全书、年鉴、图录及事实数据库等主要用于事实检索,主手册、年鉴、资料汇编及统计数据库等要用来进行数据检索。6(工具书指南是收录和评价工具书的分类提要书目,其作用是有选择地报道重要的工具书)如中国工具书大辞典,美国的工具书指南。*7对于数字资源的选择,可利用数据库指南、网络资源导航、网络资源评价网站、搜索引擎、网址簿等。*8
19、选择检索工具,首先应考虑是否能满足特定的信息需求,其次考虑易得性、易用性、可靠性。同类工具书中选用权威性强的;同种工具书中选用新出版的;既有印刷本又有电子本的,优先使用电子本。*9检索过程中的分析与推理:应认真分析检索需求,设计好检索思路。利用多种检索工具、多种检索途径进行查找,使检索结果内容全面。*10图书的检索:(以下可能考选择填空题)P2、* 查找近现代图书(1840-1949):民国时期总书目是查找近现代图书最重要的工具,书收录1911-1949年出版的中文书10万种;(生活)全国总书目收录1911-1935;中国近现代丛书目录收录1902-1949年间的丛书及图书。 查找当代图书:查
20、找已出版的图书:全国总书目是根据大陆全国出版单位的呈徼本编成。1970年起按年度出版。中国国家书目(采取“领土语言原则”旨在全面系统地揭示与报道中国出版的所有文献。收录了包括港澳台在内的全中国出版物。我国著者在国外发表的著作、海外华侨和外籍华人的著述等。中国国家书目比全国总书目更完备、规范。)全国内部发行图书总书目(1949-1986)收录内部发行的图书,包括1974年以前全国总书目未收的“只限国内发行的图书”。 查找将出版和正在出版的图书:新华书目报(旬报);全国新书目,报道全国每月新书出版的情况。 专题书籍的检索:中国学术名著提要。11报刊的检索:p121* 近代报刊的检索:(1833-1
21、949)全国中文期刊联合目录(是检索1949年以前我国出版的期刊情况的最系统、完备的目录。它是全国50所图书馆的馆藏联合目录,可获得期刊收藏分布情况。)中国近代期刊篇目汇录(1857-1918)(每种期刊下说明期刊的性质、出版情况及收入卷期,并逐期汇录全部篇目。) 当代报刊的检索:最新中国期刊全览、当代中国报纸大全、报刊简明目录、中国报刊总目录、中文核心期刊要目总览(可查找各专业学科领域的中文核心期刊)。现代报刊的检索通过网络信息资源查找更为快捷:如中国报刊目录、中华期刊展示网。 12论文资料的检索:P123* 近代报刊资料的检索:中国近代期刊篇目汇录(1857-1918) 现代论文、报刊资料
22、的查找:利用综合性的报刊资料索引:全国报刊索引(1955年创刊,月刊,1980年起分“哲社版”和“科技版”是我国出版时间最长、收录报刊最多、报道范围最广的检索刊物。)内部资料索引(可补全国报刊索引收录内部资料较少之弊) 利用综合性的文摘刊物检索:新华文摘(特点:a.选择全国主要报刊上有价值的学术文章、文艺作品、科技动态等。b.有全文刊载、详细摘编、论点摘编三种摘录方式。)中国社会科学文摘、高等学校文科学报文摘(高校文科) 利用数字资源检索论文资料:全国报刊索引数据库:哲社版(采取核心期刊全收,非核心期刊选收的原则)。文科引文数据库CSSCI、CHSSCD、TSSCI、书目数据库、全文检索数据库
23、利用馆藏书目数据库或联合书目数据库如CALIS中文现刊目次库。13文科信息的网上综合检索:P133* 利用OPAC检索(联机公共检索):查找图书、报刊及其他类型文献的基本信息及馆藏情况最为便利的途径是利用图书馆的OPAC和图书馆联盟的联合书目数据库。利用网上书店和出版社网站利用专题资源网站:中国经济信息网、国务院发展研究中心信息网等利用数字图书馆:如中国数字图书馆、超星图书馆、书生之家、北大方正。利用文科学术机构网站、学术研究网站14文科学者情况检索:P137* 中国人名大词典、中国近现代人名大词典当代中国社会科学学者大辞典世界人物大辞典(外国人物的查找)15国外文科检索常用索引和文摘:P13
24、9* 人文科学文献索引;历史文摘、心理学文摘、社会学文摘16国外文科信息检索常用数据库:P144* Lexis-Nexis系统 ProQuest Gale数据库 ERIC等17国外文科网络信息资源集成与评价网站:P145 Argus (对各学科主题网络资源的指南有完备的描述和明确的评价。被称为“指南的指南”)、 “虚拟图书馆”是著名的学术性网络信息资源指南。18文科常用参考工具书:P147(可能考比较著名的百科全书有那些) 辞典:辞海、中国历史大辞典、经济大辞典、世界文化百科全书等百科全书:国外:美国百科全书简称EA,新不列颠百科全书简称EB、科里尔百科全书简称EC,它们分别为英语著名三大百科
25、全书A、B、C中之A、B、C。 国内:中国大百科全书是我国第一部综合性大百科全书,74卷,词条7万多条。年鉴:中国百科年鉴(是我国1949年以来第一部大型综合性年鉴。)、中国统计年鉴、中国年鉴等手册:世界政治手册、国际政治手册、心理学手册等书目:外文图书总书目、英国国家书目、在版图书等网络工具书:从直接访问工具书出版社、利用搜索引擎等方面入手。二 了解社科信息检索的特点:从内容上看,社科信息资源思想倾向性较强,观点的个性化较强,学科交叉性较强。从时间上看,社科研究性信息源半衰期长,更新较慢,一些经典著作具有历久弥新的生命力。从著录特征上看,著录事项不甚规范。从信息源的类型上看,图书是重要的形式
26、,一些重要著作多以专著形式发表。2从文献中提取出来的外在特征(如责任者、题名、文献号、出版者、出版时间)和内容特征(如分类号、叙词、标题词、关键词)都是检索语言,它们提供了不同的检索途径。P1043中国图书馆分类法是中文文献检索中常用的分类语言,杜威十进制分类法、美国国会图书馆分类法等是常用的西文文献分类语言。第三部分 科技信息检索1 手工检索的意义:在电子读物日益走进人们生活的今天,传统的印刷型出版物在短期内仍然占据着难以替代的重要位置。所以,学习和掌握手工检索工具的用法与原理,可以更有效地学习和掌握检索系统的结构,掌握计算机检索的过程与原理,从而提高检索的效率和效果。2 理工科检索工具介绍
27、: P156-185(1)生物学文摘(美国、半月刊)收录:动物学、植物学、微生物学、实验医学、农学、药学、生化、生态学、生物医学工程及仪器。 文摘本: 类目表:决定了文摘正文的编排顺序 文摘正文:按类目表的标题等级表,分类编排。 生物体索引:按生物分类体系编排 辅助索引 主题索引:是单纯关键词索引 著作索引 来源期刊目录BA/RRM:是索引,收BA未收的生物学文献。BA特点:目前关于生命科学的最大一部文摘型检索工具。I.查找BA途径:4种,类目表、主题索引、著者索引、生物体索引。II.每一种检索工具书都有著者索引。III.BA数字版有联机数据库、光盘数据库、网络版检索系统。BA光盘版检索途径有
28、:输入检索式检索;浏览式检索。印刷版和数字版的不同在于检索方法。(2)化学文摘(美国、周刊)收录:16000多种期刊,还有专利文献、专著、会议录、学位论文等;有物理化学、有机化学、无机化学、分析化学、生物化学、高分子化学、应用化学与化学工程等。 分类目次表: 文摘本 :文摘正文:按分类目次表编。 索引:关键词索引、专利索引、著者索引。 附录:4个 累积索引本 :卷索引 化学物质索引、普通主题索引、分子式索引、 年索引 环系索引、著者索引、专利索引、 5年累积索引 年索引还有登记号索引、来源索引 索引指南:对CA各索引用法指导。 辅助出版物:有登记号索引,收录有登记号的化学物质,但不带文摘号。C
29、A特点:a.广博的收录范围;b.完备的索引体系(多达10多种索引);c.短暂的出版周期;d.多样化的出版形式。(是世界上公认的最大型、最权威的化学化工信息检索工具。)CA的文摘特点:以报道性文摘为主,阅读CA的文摘在某种程度上可以代替阅读原文。 I.CA数字版有联机数据库、光盘数据库、网络版检索系统。II.数字版检索途径有:索引浏览式检索;词条检索二次检索。III. 从专利号查不到,可以从著者索引查。(3)科学文摘(英国、A辑半月刊、B辑C辑月刊)收录:A辑:物理文摘B辑:电气与电子学文摘C辑:计算机与控制文摘 文摘本:分类目次表:有主题指南,是从主题词检索的主要途径 文摘正文:按分类目次表的
30、顺序编排。 辅助索引:有著者、图书、会议、团体著者、参考书目等多种索引 。 索引本:半年累积索引本 多年累积索引本 INSPEC叙词表:SA检索语言(由比较标准的叙词表构成 ) SA特点:文献类型较多;以期刊论文为主;1977年以后不收专利。 I.“分类目次表”是利用文摘本从主题内容角度检索文献信息的主要途径。 II.如果检索时对某课题所在的类目不能确定,则可以借助分类表后的主题指南来确定课题的分类号。 III.INSPEC数据库就是SA数据库(SA网络版)。 IV.SA数字版:联机数据库、光盘数据库、网络版检索系统。 V.检索途径:光盘版:直接检索、浏览检索、叙词检索;网络版:提供表单检索、
31、命令检索。(4)工程索引(美国、月刊和年刊)收录:50多个国家,10多种文字的工程出版物(土木、建材、运输等各个工程领域和各种工程活动)。Ei工程索引月刊 月刊本:主题索引、著者索引 工程索引年刊 文摘正文 年刊本:主题索引、著者索引、出版物一览表、工程信息主题词表 会议一览表。 Ei特点:纯理论的基础科学文献一般不报道;期刊和会议文献收得比较全面,不收专利文献。 I.Ei 虽然名为索引,实为文摘刊物。文摘正文是按主题词字顺编排的. II.Ei主题索引是从主题内容角度检索Ei文献的唯一途径。 III. Ei数字版有联机版、光盘版、网络版。(5)世界专利索引(英国、周刊)收录:30多个国家和2个
32、国际专利组织的专利文献;包含化学、综合、机械和电器等领域。 文摘本: 分国文摘:报道8个国家2个专利组织的专利。 分类文摘:化学专利索引、综合与机械专利索引、电器专利索引。 索引本(题录本) WPI特点:收录范围广,报道量大,报道速度快,文献加工标引质量高,能区分基本专利和相同专利,辅助索引种类多,可以多途径检索等。 I.题录和文摘都有相应的索引;有独立的优先案索引(是从优先权查找同族专利的有效途径) II文摘正文按德温特分类体系编排;文摘和索引以及累积索引的各个分册都有专利权人索引、入藏号索引(也称登记号索引,用以区分相同和同族专利)和专利号索引。 IIIWPI数字版:联机数据库、光盘数据库
33、、网络版检索系统。第四部分 基于DIALOG的信息检索1 DIALOG系统的发展特征:P226 庞大的数据库体系:有书目数据库、全文数据库、指南数据库、数值数据库等 优良的服务网络:5万个用户,10万个终端。 丰富的服务方式:晚间联机检索服务;多文档检索服务;光盘检索服务等。 先进的发展策略:技术先进策略;用户第一策略;灵活收费策略。2DIALOG数据库索引:P237DIALOG系统中每个数据库中都有两种索引: 基本索引:是一种主题性质的索引,它含有所有的与主题内容相关的词,如题目、文摘和规范词字段中的词等。有以下8种:题名字段(/TI)、文摘字段(/AB)、叙词或标题词字段(/DE或/SH)
34、、专用叙词字段(/ID)、自由词字段(/IF)、注释字段(/NT)。它们被置于检索项的后面,对检索项加以限制。 辅助索引:是一种非主题性质的索引,它含有记录中除基本索引字段之外的那部分信息,如作者、语种、出版年等。3 禁用词表(禁用词是指出现频率很高但没有实际检索意义的词,如介词、连词、代词等。在检索时遇到禁用词的场合,基本的处理方式有两种:一是检索字段用单元词标引的,检索时用位置算符(W)或(N)来代替禁用词。二是检索字段是用词组标引的,检索时可以使用双引号将整个词组引起来。4DIALOG检索技术:布尔检索、词位检索、截词检索、限制检索。(1)布尔检索技术:P240运算符号的作用;运算次序;
35、在有括号的情况下,NOT AND OR;缺陷。(2)截词检索技术:P241优点(3)词位检索技术:P243定义;算符的用法;记录级检索;字段级检索;自然级检索。(4)限制检索技术:P245缩小或约束检索结果的方法;利用前、后缀对主题字段进行限制;利用系统规定的限制符或限制命令进行数值和范围限制等。5DIALOG 检索操作:P248 DIALOG系统的基本检索模式有三种:经典的命令检索、Web化检索、菜单式检索 DIALOG经典联机操作方式:通过DialogLink等通信软件进入DIALOG系统;输入用户标识及号令; 进入缺省文档;选择数据库或文档。免费使用数据库蓝页(405文档)了解每一个数据
36、库的特征、可检字段及字段性质、输出格式等。熟悉的用户也可直接使用进库指令(熟悉文档编号); 使用文档选择指令(SF)进行检索;构造检索式并实施检索:包括选择检索词、使用各种检索技术确定组配方式等内容;主要选词指令:i.进库指令Begin (B),其格式为:?Begin n 或?B n,其中, ?是DIALOG系统检索命令提示符,n代表某一个具体的数据库或文档号。例如,检索式“?B 7”表示开始检索DIALOG系统中编号为7的数据库或文档。在Begin指令后面可以输入多个文档号,一次打开多个数据库; ii.选词指令Select (S) ,在S指令后输入适当的检索词或代码(即检索策略),系统就会从
37、数据库文档中检出含有这些检索词或代码的文献,并赋予一个集合号(Set No.),或称提问编号。检索词可以是单元词或多元词,要求不超过240字符;布尔算符、词位算符、后缀码、前缀码都可以进行组配提交。 iii.分布检索指令Select Steps (SS) :SS指令与S 指令的功能相同,区别在于SS 指令是分步给号查找文献信息的指令,系统给组配的每个检索项都赋予一个集合号,以供修改检索策略和重新组配时调用。 iv.逻辑组配指令Combine (C) :C指令的功能是对各检索词进行逻辑组配。但在C指令后面只能是集合号,而不能直接使用检索词例如,“?C(1 and 2 and 3)” v.去重指令
38、Remove Duplicates (RD) :RD指令的功能是对来自不同数据库的文献进行比较,是同一文献只出现一次,使用格式为?RDSet No. 。 vi.其他指令如限定指令(对检出的文献进行进一步限定)等。检索结果的处理:i.联机打印指令Type (T)。使用方式有两种: a.以集合号联机打印,其格式为:?Type集合号/输出格式/命中文献记录的序号。例如,“?Type 7/4/3 ”就表示用户要求联机系统以第4种打印格式联机打印第7种提问编号的命中文献记录的第3篇。b.是以文献记录索取号联机打印。例如:“?Type 4723/7”中,4723是文献记录的存取号,7为第7种打印格式。ii
39、脱机打印指令Print(PR):是指DIALOG系统先将用户的脱机打印指令和要求存储在主机内,再由检索系统中心打印处理后邮寄给用户。费用较低,时间较长。屏幕显示指令Display (D):显示符合记录要求的记录。例如,检索式“?Display S2/5/1”,就表示按格式5显示第1条记录。 Display指令的功能和使用方法与Type基本相同,差别在于Type指令把命中文献连续显示在屏幕上,而 Display指令则会按屏显示命中记录。完成检索,退出系统。i.End指令:当完成一个检索课题后,可以使用“?END”指令。表示结束查找,开始结帐但不停机可以继续查找其他文献。ii.Logoff Hol
40、d。暂停检索指令,用户可以在30分钟内再次进入上次检索的文档中,并调用上次的全部检索策略。iii.Logoff指令。“?Logoff”结束检索,退出系统。iv.B, S, T, RD, Logoff使用率最高。 第五部分 基于搜索引擎的信息检索1 搜索引擎:是互联网上专门用于检索的网站的统称。P256三大类型:通用万维网搜索引擎、通用元搜索引擎、专用搜索引擎工作原理:从跟踪一个网站的链接开始,就有可能检索整个互联网。2 一个搜索引擎由搜索器、索引器和用户界面三部分组成。P257 搜索器的功能:作为一个计算机程序,搜索器日夜不停地运行,尽可能多、尽可能快地搜集各种类型的新信息,并定期更新已经搜集
41、过的旧信息,以避免出现死链接和无效链接。搜索器运行的两种策略:策略一:一个起始 URL集合开始,顺着这些URL中的超链以宽度优先、深度优先或启发式方式循环地在互联网中发现相关信息。策略二:将eb空间按照域名、IP地址或国别域名划分成子空间,让每个搜索器负责一个子空间的穷尽搜索。 索引器的功能:是理解搜索器所搜索的信息,从中抽取出索引项,并生成文档库的索引表。 检索界面的功能:用户检索界面是搜索引擎呈现在用户目前的形象,其作用是接受用户输入的查询、显示查询结果、提供用户相关性反馈。 用户界面包括简单界面和高级界面两类。3 搜索引擎运作的三个过程:发现并搜集网页信息:一个典型的网络蜘蛛工作的方式是
42、通过查看一个页面,从中找到与索内容相关的信息,然后从该页面的所有链接中继续寻找相关的信息,以类推,直至穷尽。对信息进行提取并建立索引库:建索引库时对网页采用基于网页内容分析和基于超链分析相结合的方法进行相关度评价,能够客观地对网页进行排序,从而最大限度地保证搜索出的结果与用户的检索提问相一致。用户检索利用:搜索引擎根据用户输入的检索词,在索引库中快速检出文档,进行文档与检索的相关度评价,对将要输出的结果进行排序,并将检索结果返回给用户。此外,有的搜索引擎建目录索引。如Yahoo!,就是将网站分门别类地存放在相应的目录中,这样,用户在查询信息时,可直接按分类目录逐层查找。目前搜索引擎与目录索引有
43、相互融合渗透的趋势:一些纯粹的全文搜索引擎现在也供目录搜索。搜索引擎的设计希望达到快、准、全三大目标。其中,快是最关键的。准也是关键性的,全则只是力所能及的要求,因为网络空间太大了,很难求全。故主要关注查准率。 搜索引擎两大检索方法:全文搜索引擎与目录搜索。4 搜索引擎检索方法:P261 简单搜索:输入一个单词(关键词),提交搜索引擎检索后反馈结果,也叫单词检索。词组搜索:指输入两个单词以上的词组(短语),提交搜索引擎检索并反馈结果。也叫短语搜索。把词组或短语放在引号“ ”内。如果查找的是一个词组或多个汉字,最好的办法就是将它们用双引号括起来。高级检索:指用布尔逻辑组配方式检索。常用的逻辑运算为AND(与)、OR(或)、NOT(非),还有位置检索NEAR(邻近)算符。有的搜索引擎还支持使用通配符,用于指代一串字符。每个搜索引擎所用的通配符不完全相同,大多数使用 * 或 ?,少数用$。不少搜索引擎还支持加(+)、减(-)词操作,相当于逻辑与(AND)和逻辑非(NOT)。(在搜索词前冠以“+”可以限定搜索结果中必须包含的词汇,用“-”则限定搜索结果不能包含的词汇。