《信息检索原理与技术资料整理情报学考研.docx》由会员分享,可在线阅读,更多相关《信息检索原理与技术资料整理情报学考研.docx(100页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、信息检索原理与技术资料整理华中师范大学 信息检索原理与技术第一章信息检索概论1.1信息检索基础简述1 .信息:事物发出的信号所包含的内容。2 .知识:知识是人类的主观世界对客观世界的概括和反映,是大量有组织的信息,是关于 事实和思想的有组织的陈述,提供某种思考的判断和某种实验的结果。3 .知识的分类:知敏know-what)指关于事实方面的知识 也可理解为know-when, know-where , 即在什么样的时间(know-when、什么样的地点或条件下(know-where )能解决 什么样的问题。“知因(know-why ):指自然原理和规律方面的科学理论,知识的产生是在专门研究 机
2、构如实验室和大学完成的。“知道怎样做的知识”(know-how ):指做某些事情的技艺和能力,被称为技术情报 和商业秘密,其典型是企业开发和保存于其内部的技术诀窍或专有技术。“谁以及是怎样创造知识的(know-who ):侧重对创造思想、方法、手段、过程及特 点等的了解。4 .文献:文献是记录有知识的一切载体,即知识信息必须通过文献载体进行存储和传递。构成三要素:构成文献内核的知识信息负载知识信息的物质载体记录知识信息的符号和技术特点:知识性(本质X传递性、动态性。分类标准:内容加工程度划分: 次文献信息:指作者以自己的研究成果为基础创作和撰写的、未经过加工的原始文献。 二次文献信息:指对次信
3、息加工整理而成的文献,如目录、文摘、索引等各种书 目信息,它具有汇集性。 三次文献信息:是对一次、二次信息综合、分析等深加工的产物,如评论、进展报 告、评述、百科全书、年鉴、指南、期刊书目等。载体形式划分:书写型、印刷型、缩微型、声像型、机读型五大类。5 .文献信息惓:文献作为人类文化信息的承载物,从其产生、替代、反复被利用、再创造, 直至产生新知识,是一个不断演进的运动过程。6 .信息、知识和文献三者之间的关系(点):信息知识文献信息、知识和文献的联系在于:信息作为物质的一种普遍属性,是生物以及具有自 动控制系统的机器通过感觉器官和相应的设备与外界进行交换的一切内容。它是有形的、 独立于行动
4、和决策、经过处理改变形态、物质产品、与环境无关、可以复制的;知识作为信息的一部分,是种特定的人类信息,也是人类社会实践经验的总结, 是人的主观世界对于客观世界的概括和如实反映。它是无形的、与行动和决策相关、经 过处理能改变思维、精神产品、环境改变含义、经过学习才能转让、无法复制的;文献是知识的一部分,是进入人类社会交流系统的运动着的知识。具体来说,三者之间的关系为:信息知识文献。7 .文献信息流(重点和难点)次文献信息流发展壮大后,难以被掌握和利用,于是文献信息服务机构对次文献进行书目控制和重新组织,使得其进入到有序化阶段。这阶段由三个环节组成。 普代:描述文献特征,对次文献信息进行不同程度的
5、提炼或压缩,形成目录、文 摘、索引等二次文献信息。 改组:从次文献信息中提取数据、事实和结论,重新组合,形成手册、名录、辞 典等类型的文献信息。壕合:利用二次文献对一次文献所包含的知识加以综合并融入到现有的知识体系中, 成整个知识体系的有机组成部分。如专著、教科书、综述等。文献信息流的继续演变是对二次文献信息流的书目控制和改组,即进入“二次替代” 过程,其结果是“书目之书目:“文献指南”之类的工具。文献信息流是个以研究活动为起点,按顺时针的线性顺序移动,是一次、二次、 三次文献信息的演变过程。1.2信息检索概念和原理1 .信息检索:是从信息集合中识别和获取信息的过程,本质是用户的信息需求和一定
6、的信 息集合的匹配。广义:信息的存储和检索。狭义:信息的检索。信息的存储:主要包括在某一专业或领域范围内的信息选择的基础上对信息的内外特征 进行描述、加工并使其有序化,形成信息集合。信息的检索:是指借助一定的设备和工具,采用一系列的方法与策略从信息集合中查询 所需的信息。2 .信息检索类型:手工检索:简称“手检”,主要使用印刷型信息检索工具,其检索过程就是大脑分析、思考和手工操作的配合过程。计算机检索:简称“机检”,主要使用计算机信息检索系统(包括各种数据库、应用软件、 通信设施等),检索过程就是人的设计操作和计算机自动化处理相结合的过程。3 .信息检索系统:信息检索系统是指为了满足用户的信息
7、需求而建立的存储,经过加工了 的信息集合,拥有一定的输入、匹配、输出的技术装备,提供一定的检索服务功能的 种相对独立的实体。4 .信息检索入口 :信息检索入口又称检索点或检索标识,是指用以标识信息的外部特征和 内部特征的属性值的集合。5 .信息检索的一般原理:包括信息的存储与检索两个过程。建立文本数据库=建立文本索引(通常采用倒排档)=用户明确自己的信息需求= 产生检索提问=构造检索提问表达式=产生检索结果=不满意则修改表达式=产 生满意结果1.3检索系统与检索工具1 .检索系统的构成:检索系统的构成包括物理构成和逻辑构成。2 .从物理构成的角度来考察,检索系统一般包括硬件、软件和数据庠三个组
8、成部分。 硬件:是计算机检索系统采用的各种硬件设备的总称。 软件:包括与计算机检索相关的各种系统软件及相关应用软件。 数据库:至少由一种文档组成,并能满足某一特定目的或某数据处理系统需要的 一种数据集合。3 .数据库分为以下类型: 参考型数据库:它是指引用户到另一信息源以获得原文或其他细节的一类数据库, 包括书目数据库和指南数据库。书目数据库就是指存储某个领域的二次文献的类 数据库。指南数据库是指存储某些对象的简要描述,指引用户从其他源获取更详细 信息的类数据库。 源数据库:它是指提供原始资料或具体数据的自足性数据库,它包含数值数据库、 文本一数值数据库、全文数据库、术语数据库、图像数据库以及
9、音视频数据库。(2014 和2015名词解释) 混合型数据库:它是指能存储多种不同类型数据的数据库。4 .不管检索系统的物理构成如何,它们的逻辑构成都是相同的或基本相同的,一般由以下 六个子系统构成。文献与数据的选择与抽取子系统该子系统的功能是从外部信息源输入,输入时按照系统既定方针和用户需求进 行选择。选择标准包括专业覆盖面、文献信息类型、摘储率、文种、时间跨度等。1)专业覆盖面:就检索系统的数据库对文献和知识的学科专业的覆盖面来说, 有综合性检索系统、多学科检索系统、专业检索系统。2)摘储率:对于某专业领域,抽取的信息占该领域所有信息的比率。词表子系统数据库中所收录的知识与文献,需要依靠使
10、用一定的检索语言来加以表征和组 织;另外,检索者的检索提问也需借助检索语言来表达。这样才能使存储与检索得 到有效的沟通和控制,保证检索系统达到令人满意的查准率与查全率,减少漏检与 误检。采用词表控制的检索系统称为控制词汇的检索系统。随着计算机为主体的现代信息技术在信息处理领域的广泛应用,关键词、自由 词等些无词表控制的检索语言的应用逐步推广,因而出现了一些非控制词汇的情 报检索系统。它又可分为完全的自然语售检索系统和后控制的自然语言检索系统。后控制的自然语售检索系统在系统内设有只供检索用的后控制词表,这种词表 没有预先编定的形式,而是通过检索者的使用,将检索式中用或“逻辑相连的检索 词,由机器
11、提取并逐步累积起来的组一组的词表。在检索时,由系统自动纳入检 索式进行扩检。但对检索者来说后控制的自然语言检索系统使用的是自然语言。 “后控制“的过程对检索用户来说是透明的。2015名词解释】标引子系统按照一定的词表,对文献赋予标引词,以表征文献的特征,形成文献的标识, 这一过程就是标引。依据这个子系统,情报检索系统可分为人工标引的检索系统和 机器标引的检索系统。对于完全自然语言的检索系统来说可能根本就不进行标引, 这种情况成为无标引或全标引。查询子系统把用户的需求,经过概念分析,转换成系统语言的词汇,并指出其逻辑关系的 过程。具体来说就是构造检索策略的过程。用户与系统交互子系统 该系统即检索
12、系统向用户提供实现其检索过程的手段。匹配子系统该子系统的功能是对文献的标引记录和提问的检索策略进行对比并决定取舍。5.检索工具的体系结构利功能【2015年筒答】(1)结构一部体系完整的检索工具通常由以下五个部分组成。编辑说明与凡例编辑说明与凡例通常放在检索工具的开头部分。1)编辑说明一般向用户掲示该检索工具的编辑目的、收录范围、选材原则、适用 对象、出版沿革、总体结构、各部分的用途及用法等。编辑说明的作用是向用 户介绍该检索工具的概貌,以便用户确认该工具是否合适自己。2)凡例对用户检索起具体的指导作用通常以简洁的文字和示例详细介绍检索 具的编排体例、著录格式、著录项目和查找方法等,使用户对该检
13、索工具有进 一步的认识,了解其各方面的特征,掌握其使用方法。分类表与主题表分类表与主题表是编制和使用检索工具必不可少的辅助工具。1)分类表主要用于文献款目的编排和浏览。分类表的详表单独出版,分类编排文 献款目的检索工具往往有分类表的简表,放在每期的前面,并与目次页结合在 一起。2)主题表有两个作用:一是像分类表那样,用于文献款目的编排和浏览,但这仅 指按主题编排文献款目的检索;二是用于主题标引和检索,为检索工具和用户 提供允许使用的主题词及其参照系统保证标引的一致性以及标引与检索的一致性。正文正文是检索工具的主体,它由大量的文献款目按一定顺序编排而成。从正文内部讲, 其主要作用有两个:是为用户
14、判断检中文献是否符合自己的要求的依据,以便决 定取舍;二是为用户提供获取所需原始文献的线索。辅助索引辅助索引是从正文中抽出检索标识以及有检索意义的外部特征和内容特征,如主题 词、作者、各种号码等,编制成各种索引,每个索引款目都要注明一个或多个正文 地址,从而指回正文的对应位置。辅助索引的目的就是为了给用户提供更多的检索 途径,提高检索效率。 资料来源目录与附录1)资料来源目录是检索工具所摘录文献出处的目录,一般是指来源期刊,也叫引 用期刊目录或来源出版物目录。2)附录主要包括专业术语缩略语表、字母音译对照表、期刊代码表等,便于用户 正确识别检索工具正文中的缩略语、代码、音译名等。需要指出的是,
15、构成检索工具的上述五个部分是有机联系、不可分割的整体。功能检索工具的功能基本是相同的,主要有报道、存储和检索三大功能。 报道功能:检索工具首先应具有报道功能。检索工具以最新文献为基本报道对象,从检索工具本身讲,报道功能主要是通过正文实现。 存储功能:检索工具问世后,经过一段时间,所报道的当时认为是最新的文献逐渐 过时,相对而言,新文献逐渐变成了旧文献,原有的报道功能开始逐渐减弱,甚至 消失了。但与这一个过程几乎同时发生的是,就检索工具已经报道过的文献而言, 数量越积越多,逐渐形成了一定规模。在这种情况下,检索工具的报道功能开始逐 渐转变,即由报道功能转向存储功能。存储可以长期积累,其目的是在任
16、何需要的 时候,都能够把所需文献从已经出版或发表的全部文献中检索出来,因此存储具有 历史意义。与报道功能一样,存储功能也是通过正文实现的。 检索功能:检索功能是检索工具存在价值的最终体现。检索工具的报道功能和存储 功能都是通过正文实现的,但是,仅就检索而言,它们的作用仍然是十分有限的。 对于被报道和被存储的特定文献来说,为了能够在需要他们的任何时候都能快速、 准确地检索出来,还必须为所收录的全部文献编制各种索引。各种索引的有机结合 构成了检索工具的索引体系,索引体系的基本要素是检索标识和检索手段,索引体 系充分体现了检索工具的检索功能。检索工具三大功能的关系报道和存储有不同的作用,前者通过检索
17、工具报道当前文献,后者则通过检索 工具的积累存储当前的和过去的文献,两者是检索工具的不同表现形式,但他们属 于同一项工作,即检索工具的编制。报道和存储这两个过程统一于编制过程中,即 编制过程既体现出报道功能,有体现出存储功能。检索工具的报道功能、存储功能和检索功能关系十分密切,既对立又统,这 种矛盾现象表现在许多方面。比如,最新文献的报道速度与检索手段的完备性之间 就是对对立统的矛盾。也就是说,片面追求报道速度快,就很难使索引体系完善。当然,如果报道量不大,即使索引的完备性差些,也不会对检索有多大影响; 但是,如果报道量很大,必然要求索引完备,否则,就会给检索造成很大困难。反 之,单纯追求检索
18、手段完备,就会影响最新文献的报道速度,但对于存储多年的文献来说,检索手段的完备性则是非常必要的。1.4信息检索研究的核心问题1 .信息检索理论:标引理论:检索模型检索结果的可视化2 .信息检索技术与方法 全文检索:全文检索主要是用检索词对“原文”进行匹配的检索技术,为人们获取文献原文而非文献线索信息提供了一条有效途径。全文检索系统采用自然语言标引与 检索,所以检准率不高。多媒体检索:多媒体检索主要是指对多媒体信息(图形、图像、声音、视频等信息)的检索。多媒体信息检索的应用主要体现在两个方面:特征表述(文字描述)的检索和多媒 体对象的直接匹配检索。特征表述检索要求用文字对多媒体进行标引,检索过程
19、与文本检索相同,但最 终结果为多媒体信息;多媒体对象检索是指直接用图形、图像、语音、语调等对多 媒体数据的匹配,对于时基类媒体需要标引出关键帧(视频)和关键语音片段,以 保证检索效率。 超文本和超媒体检索:超文本与超媒体检索采用非线性的网状结构,模拟现实世界中用户的跳跃式思考模式。所以说超文本与超媒体不是种检索技术,而是信息的组织方法与手段。 联机检索:联机检索是用户在检索终端上使用特定的指令和检索语词,以人机对话 方式从检索系统的数据库中查找所需的特定信息的过程。联机系统允许用户实时操 作,随时得到结果并不断修改,无论是查全率还是查准率均保持较高水平。但由于 联机费用较高,且需要信息用户具有
20、检索专业技能,因此并未在普通用户中普及。 网络信息检索:网络信息检索帮助用户充分利用网络上海量的信息资源,为了实现 这目的,现已开发出多种网络信息检索工具。在众多工具中,WWW是种基于 超文本方式的信息查询工具,不仅可以捜索WWW上的信息,也可以捜索因特网 上其他信息资源,大有成为因特网标准检索工具的趋势。 智能检索:智能检索是信息检索和人工智能研究的个交叠领域,表现在用户检索 接口的友好、检索过程具有学习性这两个方面。即检索系统能够把自然语言的检索 提问自动翻译成检索系统能够理解的检索式,能够根据用户的检索行为进行学习, 建立高效率、高品质的检索模板库,以帮助用户改善检索策略。智能检索的另个
21、 方面是检索智能代理和智能搜索弓I擎。 跨语言检索【2014名词解释】:跨语言检索主要解决针对不同语种的信息资源进行 检索,它采用的技术一般为建立多语言的机器词典或语料库,检索时输入种语言 的检索词,计算机通过词典或语料库把它翻译成多种语言进行检索。 跨平台检索跨平台检索也成为分布式检索其检索是对不同的数据库资源进行的。 因此,跨平台检索所面对的资源可能分散在不同的机器、不同的地点、不同的软件 平台上,信息资源也可能是异构的。在网络环境下,解决跨平台检索已成为信息检索的热点课题。第二章信息检索模型2.2传统布尔检索模型1 .传统布尔检索模型的概念:布尔检索模型采用布尔代数和集合论的方法,用布尔
22、表达式表示用户提问,通过对 文献标识与用户提问的逻辑运算来检索文献。传统布尔检索模型具有工作流程简单、准 确的表达能力两大特点。2 .优点: 逻辑运算符较少,便于用户学习。由于布尔检索中使用的是关键字查询,用户可以提出自己能够想到的和问题相关的个词语,直接构成检索式。 模式较易构建,可以通过简单的关系来体现检索项的联系。由于这个特点,布尔模 型系统的构建对机器硬件的要求不高,耗费的资源少,造价低,并且不但适用于图 书馆等正式的图书情报机构,也适用于互联网检索系统。布尔检索模型可以将复杂的检索过程用简单的检索式表达出来,通过逻辑运算符将 概念间的逻辑关系体现出来 变成计算机可执行的运算 从而实现
23、自动匹配的过程。 提问式较灵活,方便修改。用户可以通过增加或减少一些检索关键词,也可以増加 一些检索运算符实现的限制条件来扩大或缩小检索范围从而更好地满足用户检索 需求。3.缺点:布尔检索中关键词没有权重区别。传统布尔模型中,无论是提问式中的关键词还是 文献的标引词都没有采用加权的方式,在布尔检索中不能体现出检索项的重要性。检索结果的输出没有重要性排序。用户检索的结果输出不是按照用户检索相关性排 序的,用户必须通读所有项目,选择符合需求的结果,造成用户的时间浪费,以及 查询不便。 查全军很难控制。布尔检索是种非是即否的检索机制。这种检索方式很容易造成 漏检,甚至会出现检索结果为零的现象,查全率
24、很难控制。布尔检索要求用户具备很高的素养和语义提取能力。由于布尔检索是一种非是即否 的匹配方式,这就对用户的素质要求比较高,一般用户的查准率不理想。2.3向量空间模型1 .向空间模型的概念:向量空间模型是种基于统计学方法的数学模型。分词器首先将文档进行分词,并 利用禁用词表将文档中出现频率较高且无实际意义的词去除然后将每个词出现的次数 统计起来,作为该词在文档中的初始权重。用IFIDF将文档转化为向量形式,再通过相 关度的计算,倒排文档进行索引,从而使用户得到一个清晰的检索结果。2 .优点:采用自动标引技术为文献提供标引词。 采用部分检索策略,使得在算法层面上的基于多值相关性的判断处理得以实现
25、。 改变了布尔模型只有两种情况和1的简单判断,标引词和文献的相关程度可以 在0和1之间取值,使检索者和标引者都可以比较灵活地定义标引词和文献的关 系深度,改变了布尔模型的僵化的缺点。 由于其相似的程度作为检索的标准,可以从量的角度判断命中与否,从而使检索更 趋合理。 检索结果可以按照与提问的相关度排序输出便于用户通过相关反馈技术修正提问,控制检索量。布尔模型的逻辑关系依然可以使用,保留了直观性和方便性。向量空间模型的灵活性使他有很好的可扩展性和可改进性,为以后的更加完善奠定 了基础。3 .缺点: 检索过程转化成向量的计算方法,不能反映出文献之间的复杂关系。 由于对于任何一个提问度需要计算全部文
26、献库中的每篇文献,因此计算量大、算 法复杂性较髙。 由于标引加权和检索加权是分离的,因此,随意性较大,难以保证质量。 有很多情况是假定的,在实际工作中有时会不能解决。4 .4扩展布尔检索模型1 .扩展布尔检索模型的概念【2015名词解释】:扩展布尔检索模型是信息检索研究者将矢量处理引入了布尔检索而提出的种检 索模型。这种矢量处理是借鉴空间向量模型的,通过计算查询向量与文档向量夹角余弦 值的大小来判断文档与查询之间的相关程度,以便对相似度做一个科学的排序。2 .优点: 拥有矢量处理的思想,体现了加权的特点。它将加权的思想引入检索当中,可以体 现文献与查询之间关联程度的大小,对于不能完全与检索式中
27、关键词匹配的文献不 是简单地概否定,而是计算出他们的关联程度加以排序,使结构更贴近用户的需 求。 继续保留布尔检索的直观的操作符,具有很强的描述能力。扩展布尔模型继续使用 传统布尔模型的AND、OR、NOT等简单的运算符,对于提问式的构建依然像传统布尔模型样简单,并且能够很好地处理多个检索词的关系。 对于结果的输出可以很好地控制和排序。由于扩展布尔检索中规定了一个阈值,所 以输出结果就可以控制在一定的数量之内,这样便可以省去用户对冗余结果的审阅 时间。除此之外,扩展布尔模型还对结果进行一个相关度的排序,与查询关联最强 的文献排在最前面,用户便可以第一时间看到最关联的结果,提高用户检索效率。 通
28、过调整权重参数的取值,可以灵活选择并得到不同的检索结果。便于区分强制性短语和严格的同义解释与试探性短语和较不严格的同义关系。 与传统倒排文档一致,更易接受。3 .缺点:目前来说,扩展布尔模型由于是集成了两种经典模型的一种改进的“集成化模型”, 所以它不可避免的存在臃肿、不够自然简洁的缺点,而且不是很普及,目前在信息检索 领域使用较少。4 .5概率模型1 .概率模型的概念:概率模型是基于一个文件与提问式的相关度是高于还是低于非相关度的概率来进 行文档检索的检索方法。2 .优点:文档可以按照他们相关概率递减的顺序来计算秩(rank卜而且这种检索模型可以 通过反复反馈结果和用户需求,使结果得到很好的
29、调整,相对合理得多。3 .缺点:索引词权值计算方法没有考虑到词频加权因素。沿用了索引词之间相互独立的基本假设。 开始时需要猜想把文档分为相关和不相关的两个集合,过程比较繁琐。 在处理实际问题时也有一定的困难:初始检索文件的阐值比较大。由检索式检 索的相关文件数量相对于精确估计的概率而言太小。为了弥补这些缺点,需要对大 量的检索式积累数据。2.6逻辑模型1,古典逻辑横型的些特点:逻辑模型不是个经典模型。逻辑检索要借助外部信息进行评价。逻辑检索对关键词的语境更加重视。对信息的联想法控制。逻辑检索具有不确定性。对多词义的把握。适应信息的不完全性。2.逻辑模型的优点: 逻辑理论具有很强的推理能力,将检
30、索过程逻辑化可以使人们从新的角度认识检索, 并在逻辑化的基础之上建立演绎信息检索系统。 在演绎信息检索系统中,用户可以增减可用规则,可以扩充或者缩小知识库,可以 增加或者减少检索目标项,从而实现扩检和缩检。 通过引入更多的谓词、丰富系统的知识库、允许查询目标语句中包含更多的谓词, 演绎信息检索系统也容易被扩展为用途更广的专家系统,使得信息检索系统智能化 程度更高,功能更强。换句话说,基于逻辑模型,我们可以建立智能化的、提供多种检索入口的、便于扩展的信息检索系统。3.逻辑模型的缺点:在逻辑模型中,信息的重要程度这一特征并不能很成功地被表达出来。不能完全表述出文献与信息需求的真实联系。它关注的仅是
31、前后件之间在真假方面的逻辑关系,并不关心前件和后件中所涉及的 信息延展性问题。信息的延展性显然难以解决。 由于查询是依靠推理来获得相关性的文献,因此推理过程越是不确定,获得的相关 性文献就越少,而这样的现象在传统的逻辑检索模型中屡有发生。2.7 情景理论模型1 .概念:情景检索模型是基于情景理论上的信息检索模型,是非经典信息检索模型,这是一 种新的理论框架,它是利用到VanRijsbergen的原则将检索看成是从文档到检索式的 信息流。2.8 其他信息检索模型1 .位检索横型:位置检索可要求检索词以用户所规定的相对位置出现。例如,使两个(或多个)检 索词相连(可以此表示词组)或相邻,或同在个字
32、段或子字段中,等等,从而使检索 出的文献更确切地符合用户要求,提高查准率。2 .限词检索模型:限制检索是通过限制检索范围,达到优化检索结果的方法。限制检索的方式有多种,如进行字段检索、使用限制符、使用限制检索指令等。第三章自动索引和文档组织3.1 索引概述1 .索引的概念:索引是著录书刊中的题名、语词、主题、人名、地名、事件及其他事物名 称,并把它们按一定的方式编排起来,指明出处的种检索工具。2 .索引的发展阶段:人工索引阶段、机辅索引阶段、自动索引阶段3.2 索引的功能与类型1,索引的功能: 检索功能:检索功能是索引的最基本的功能,能迅速准确的定位所需信息。 分解功能:索引把文献或信息中的知
33、识单元(如题名、语词、主题、人名、地名。 事件等)分解这就是索引的分解功能。它是检索工作的起跑线和索引编纂的基础, 没有这种分解功能,就没有索引。 梳理功能:梳理功能是索引分解功能的继续就是把无序的信息按一定的规律整理。聚类功能:对某个领域的信息有计划的编纂索引,从各个不同的角度和层次对信息 内容进行多维揭示和组合,使之形成一个检索这些信息的各种不同性质的知识单元的网络,这就是索引的聚类功能。 追踪功能:索引能够追踪各个主题发展的踪迹。 导航功能:导航功能是指系统能够指引正确的航向,使用户沿着正确的航向行驶, 即通过相关索引能够检寻所需要的资料。 预测功能:索引的预测功能有很多表现,如引文索引
34、中统计到被引作者的论文频率, 基本上能够预测到这个专业的学术带头人;从题录索引中统计的课题内容,可预测 到学术界未来研究方向等。2 .索引的类型:信息内容特征的索引1)按主题内容的索引,包括主题索引和分类索引2)按信息中出现的事物名称的索引包括人名索引、地名索引、机构名索引等等。3)按信息特殊内容的索引,包括地理坐标索引、旋律索引等等。信息外部特征的索引1)著者索引,包括个人著者索引、团体著者索引。2)题名索引,包括书名索引、刊名索引、篇名索引。3)信息编号索引,如专利号索引、专利对照索引等。3 .常见索引:主题索引。是指以文献内容为标目的索引。著者索引。是指以著者的名称为标目的索引。名称索引
35、。指根据文献信息中包含的名称来检索信息的途径地名索引。是指通过地理方位名称查找有关文献信息的途径。题名索引。指以文献题名为标目的索引。 数字或代码索引。是指提供按数码标识(专利号、ISBN等)检索文献或信息的途径。 分类索引。指以分类号为标目,按照某种分类表或分类体系编排的索引。3.3标引的过程1 .信息采集一索引的前提和基础:信息采集,指有关机构和个人,根据一定目的,将系统内外各种形态的信息采出并 汇集起来的过程。 传统的文献信息采集:传统的文献信息采集主要是通过人工采集如采购、索取、交 换、检索、复制等手段来获得有关文献信息。其特点是准确率较高,但是效率较低。 网络信息采集:搜索引擎采用了
36、自动网页搜索技术进行网络信息采集。这种技术的 典型代表是网络机器人。网络机器人是借助于搜索软件完成网络信息的采集工作, 其工作方式是从URL库获得输入,解析URL中标明的Web服务器地址,建立链 接、发送请求和接受数据,将获得的网页数据存储到原始网页库,并从其中提起出 链接信息放入网页结构库,同时将待抓取的URL放入URL库,保证整个过程递归 进行,直到URL库为空。2 .信息标引:标引是通过文献或信息的分析,选用确切的检索标识,用以反映该文献或信 息资源内容的过程。信息标引包括两个环节:是主题分析,即在了解和确定文献的内 容特征及某些外部特征的基础上,提炼主题概念;二是转换标识,即用标识表达
37、主题概 念,构成检索标识。3,建立索引:索引系统是指个检索工具中多种索引相互配合的有机集合。一个完整的索引系统, 通常都是由多种索引构成的索引体系,能够提供多种需要的检索途径。索引系统的建立 是整个检索系统的基础和核心,是服务的先导,因而索引系统的设计、建立和维护及其 重要。单个索引包括索引款目,参照系统和索引款目导引标志。一部索引就是个个索引 款目的有序集合,索引款目是构成索引的基础。索引款目由索引标目和索引地址两部分组成。索引标目又可分为主标目和副标目。 主标目掲示被索引概念(文献主题)或项目的核心部分,并决定索引款目的排列位置和 检索入口。副标目从属于主标目,其作用是使检索标目含义更为具
38、体、专指。索引的建立一般有以下步骤:选题,建立主索引文件。对主索引关键词进行抽 词倒排,建立目标格式文件。排序与归并。3 .4信息标引1 .分类标引:分类标引是指依据一定的分类语言,对信息资源的内容特征进行分析、判断 和选择,赋予分类标识的过程。2 .分类标引的要求: 标引的准确性是指将信息资源纳入相对应的学科和专业以及分类体系中最专指、 最切题的类目。包括两个方面,其,归类要准确,将信息资源归入对应的学科和 专业;其二,归类要确切,要将信息资源归入分类体系中最专指的类目。 标引的充分性:指根据使用需要,充分掲示有检索价值的信息资源的主题。 标引的一致性:指同一主题内容的信息资源标引结果的一致
39、性。包括不同标引员对 同一类型主题资源赋予的分类标识应一致,同一标引员在不同时间对同一类型主题 资源赋予的标识应一致。 标引的适用性指标引应考虑系统的特点和用户的检索需要使标引结果适合使用。3 .分类标引规则:分类标引的规则是分类标引必须遵守的共同规范,一般是根据检索系统的需要,根 据分类表的特点并结合信息资源的特点确定的。按照分类标引规则的特点和涉及的内容 对象范围,分类标引规则一般可以分为基本标引规则、一般标引规则、特殊标引规则三 类。基本分类标引规则分类标引的基本规则是整个分类过程中始终必须遵循的规则,它具有指导性作 用。主要包括以下内容:1)信息资源的分类标引必须以信息内容的学科或专业
40、属性为主要标准。2)信息资源的分类标引必须能体现分类法的逻辑性、等级性、系统性。3)文献信息分类标引的专指性原则,即信息资源必须归入最切合其内容的分类。4)信息资源分类标引的适用性原则,即信息资源必须归入用途最大的类。5)信息资源分类标引的一致性原则,即把内容相同的信息归入相同的类。一般分类标引规则分类标引的一般规则是从著作方式的角度提出来的,适用于各个知识门类的分 类规则。信息资源分类的方法是与各种主题类型、写作出版方式等特点相联系的。 不同主题类型、写作方式、编辑出版形式等的资源,具有不同的标引要求和规律。1)单主题的分类标引。单主题信息资源是指只论述或研究一个对象,即个主题 内容。根据构
41、成主题概念因素的数量,可划分为单元主题和复合主题。单元主 题指信息只含有一个主题概念因素;复合主题指由两个或两个以上概念因素结 合组成的单主题。2)多主体信息分类标引。多主体是指文献信息论述或研究两个或两个以上的对象. 即多个主题内容。根据主题之间的关系,可划分为并列关系主题、从属关系主 题、应用关系主题、影响关系的主题、因果关系的主题、比较关系的主题等。 (1)并列关系主题的分类标引:并列关系的主题是指文献信息同时论述两个或 两个以上的各自独立的主题。(2)从属关系主题的分类标引:是指文献信息各主题之间有包含关系、属种关 系或整体与部分关系。(3)应用关系主题的分类标引:是指一个主题应用到另
42、个或几个主题中,或 者是指几个主题同时应用到个主题中。(4)影响关系主题的分类标引:是指文献信息内容涉及几个主题,其中一个主 题对另个或多个主题产生影响,或者多个主题对个主题产生影响等。(5)因果关系主题的分类标引:是指文献信息内容涉及几个主题,其中一个主 题是另一个主题或多个主题产生的原因,或者个主题是另个或多个主 题产生的结果。(6)比较关系主题的分类标引:是指文献信息中多个主题之间具有相互比较优 劣或异同的关系。3)丛书、多卷书的分类标引。丛书是将汇集多种独立的著作为套,并冠有一个 总书名的出版物类型。对丛书的标引一般应与其著录方式一致,大体上有两种 处理办法:其一,按集中方式处理,即先
43、按整套丛书的内容标引,然后再分别 对每种书作分析标引;其二,按分散方式处理,即首先按丛书中的各个单元的内容归类,最后在根据情况确定是否为丛书综合分类标引。4)参考工具书的分类标弓I。参考工具书是指专供查考资料、事实、数据的工具书, 包括百科辞典、手册、年鉴、图谱等。检索工具书是供查找文献信息或其线索 的工具书,包括目录、索引、文摘等。5)对著作的研究、注释的分类标引。科学著作的评论、研究、注释一般按内容与 原书归入类,必要时,使用专类复分表区分其著作方。6)特种文献的分类标引。对于技术标准、专利文献的分类标引,采用方法不尽相 同。7)非书资料的分类标引。非书资料指非印刷型文献,可分为声像资料和
44、缩微资料 两类,一般根据文献内容的学科属性加以标引,并依据总论复分表掲示其媒介 形式。8)网络信息资源的分类标引。网络信息资源的分类标引,有两种方式,种是在 传统分类体系的基础上,进行必要的增补;另种是采用直接以网络资源为对 象编制的分类体系,Yahoo !、搜狐等分类检索系统属于此类情况。4 .主题标引:主题标引是对信息内容进行主题分析,确定主题概念,然后按照一定的词汇控制方 式,为标引对象赋予恰当的语词标识的过程。标引方式:标引方式是根据文献或信息特点和使用需要确定的标引和掲示主题的形 式。不同的标引方式,直接反映着对文献主题标引的不同深度。据掲示信息内 容的方式来分,标引方式包括整体标引
45、、全面标引、对标引、综合标引和分 析标引等。1)整体标引:亦称浅标引,是种概括掲示信息资源基本主题内容的标弓I。2)全面标引:亦称深标引,是一种充分掲示信息资源涉及的所有有检索价值 的主题概念的标引,它深入揭示信息的各部分内容,全面提取局部主题予 以标引。3)对标引:也称重点标引,是种只掲示文献或信息中适合某制定专业需 要的主题内容的标引。4)综合标引:是指对丛书、多卷书、论文集、会议录、连续出版物、档案的 卷宗等类型文献为个单元所进行的种整体标引。5)分析标引:是一种根据信息资源中的部分片段信息资源的构成单元所进行 的标引。标引方法:1)标题法:概念:标题法是以标题词为主题标识,以词表预先确
46、定的组配方式标引和 检索的方法。优点:形式直观;定组式标题结构固定,含义明确;按照词表列举的标题 和副标题进行标引,操作简单;主要通过以参照形式对词汇进行控制,掲 示了标题之间的相关性。缺点:标题法以为采用列举式,因此收词量巨大,专指度相对不足,修订量也较大;大量采用定组式标题,在手检工具中使用时只能从规定的组配顺序入手进行查找,无法实现多元检索,影响检索效果。2)元词法:概念:元词法又叫单元词法,以元词作为主体标识,通过字面组配的方式 表达资源主题。优点:词表体积小、标引专指度高、便于从不同主题词角度检索、适合对 专指主题进行标引。缺点:直接性差、不适于查找论述基本主题的资源,因采用字面组配
47、方法, 在字面分解与语义分解不一致时,容易造成误差。3)叙词法:概念:叙词法是以从自然语言中精选出来的,经过严格处理的语词作为资 源主体标识,通过概念组配方式表达主题的方法。优点:结构完备,词汇控制严格,可根据检索系统的需要对词汇进行有效 控制;组配准确,标引能力强,能够准确、专指地标引和掲示各种主题内 容;检索效率高,可通过灵活组配方式进行多途径检索,达到较好的检索 效果;对检索系统适应能力强,可同时适用于标识单元和文献单元检索方 式及能较好适应计算机检索系统的要求有能适应手工检索系统的需要。 缺点:是由于词汇控制要求严格,词表编制和管理的难度大,需要花费较 多人力、物力;资源标引须在概念分析的基础上进行,标引难度大、要求标引规则:1)选用标引词的基本规则(1)正式词标引规则(2)相对专指标引规则(3)标引方案优先顺