《2022年信息存储与检索复习资料 2.pdf》由会员分享,可在线阅读,更多相关《2022年信息存储与检索复习资料 2.pdf(3页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、一、填空题(每空1 分,共计25 分)二、名词解释(每题3 分,共计 15 分)三、选择提(每题2 分,共计 20 分)四、简答题(每题5 分,共 40 分)第一章:1、信息检索 就是对信息项进行表示、存储、组织与存取的全过程。信息存储是指将有用信息按照一定方式组织和存放起来,信息检索是指当用户需要这些信息时,再把它们从存放的地方查找和提取出来。2、信息检索的原理:参见书上图1-1 理解3、信息检索的一致性匹配机理:提取机理、表示机理、比较机理、判断机理、选择机理。4、信息检索的类型:(1)按照检索对象的性质分为文献检索、数值检索、事实检索;(2)按照计算机检索技术分为脱机检索、联机检索、光盘
2、检索、网络检索。5、在手工检索阶段,人们常用的概念是检索工具,在计算机检索阶段,人们使用数据库,在网络检索阶段。人们使用搜索引擎。6、信息检索系统物理结构组成,逻辑结构的组成和原理。7、信息检索产生于美国,其发展经历了起步期(以单词检索为特征)、成长期(以脱机检索为特征)、发展期(以联机检索为主)、成熟期(检索转向个人终端)、开放期(以网络检索为主)。8、信息检索的趋势:跨语言检索、多媒体检索、信息检索可视化、信息检索智能化、信息检索个性化、信息检索多样化。第二章:1、检索策略 一般都包含文档集的逻辑表示、查询的表示、相似性匹配及其排序三个要素。2、经典的检索模型:布尔模型、向量空间模型、概率
3、模型。要求了解三种模型的思想和原理。3、TF-IDF 加权策略:对特征项计算权重的方法,该策略由簇内相似性和簇间不相似性两种效果来衡量。4、将文本内容中的信息与文档结构信息结合起来进行检索的模型叫做结构化检索模型。包括费重叠链表模型、邻近节点模型、平坦模型(扁平浏览模型)、结构导向模型、超文本模型。第三章:1、记录 是作为一个单位来处理的有关数据的集合,它是对某一实体的属性进行描述的结果。常见的书目记录是MARC记录结构,不同的国家有不同的记录格式,但为了进行不同机构间的目录交换,机读目录必须在物理结构、内容标识符、内容数据方面做到统一。2、对文本信息进行检索的主要技术是顺排文档和倒排文档。顺
4、排文档检索方法主要有表展开法和逻辑树法两种,其中表展开法的处理过程是重点。倒排表是面向单词的一种索引数据结构,包括单词表和事件表(置入表)组成,了解倒排表和后缀数组的区别。掌握 倒排文档和顺排文档的区别,以及倒排文档的检索步骤。3、其他一些文本检索技术主要有:布尔检索、截词检索、限制检索、加权检索等4、文本聚类 是利用同类文档相似度大、不同文档相似度小的原理对文本信息进行有效组织和分类的技术。5、文本聚类的方法主要有等级聚类法、动态聚类法和启发式聚类法。6、全文检索的技术指标:索引膨胀系数、检索速度。全文检索包括邻接检索、同句检索、同字段检索、同记录检索等方式。第四章:名师资料总结-精品资料欢
5、迎下载-名师精心整理-第 1 页,共 3 页 -1、多媒体对象的表示和存储是尤为重要的,数据建模既要体现多媒体数据的特性又要保证在这种数据上的各种操作的灵活可靠。2、多媒体一词含义很多,但在计算机领域中主要有两层含义:一是指信息的物理载体,二是指信息的表现或传播形式。多媒体的关键特征主要有:多样性、集成性、交互性、实时性和互补性。3、多媒体数据模型要能揭示多媒体数据的内容特征和语义特征,因此一个完整的多媒体数据模型要能描述多媒体的三种层次:应用层、信息员层、数据元层,多个数据元组成信息元,多个信息元组成应用中的信息集合。目前常用的多媒体数据模型是HCM 层次模型。4、图像数据模型中物理特征主要
6、有颜色、纹理、形状、轮廓等视觉信息,音频数据模型的底层特征主要有音强、音色、音调、响度、过零率、带宽等,视频数据模型主要分为帧、镜头、场景和故事情节四个层次。5、数据压缩 是以一定的质量损失为容限,按照某种方法从给定的信息源中推出简化的数据表述,通过减少信号空间容量,使信号能安排到给定的信息集或样本中。多媒体数据之所以能够被压缩是因为原始的多媒体数据存在很大的冗余。6、多媒体压缩的基本要求:可还原、压缩比高、重现质量好、成本低、实时性好。7、多媒体压缩的分类:(1)有损压缩和无损压缩;(2)预测编码、变换编码、统计编码、分析-合成编码、混合编码。8、图像、音频、视频的压缩标准9、基于内容的多媒
7、体检索就是从媒体数据中提取特定的信息线索,然后根据这些线索从大量的多媒体数据库中找寻需要的多媒体信息。10、多媒体信息检索系统的结构:数据插入子系统、信息查询子系统、媒体处理子系统、多媒体数据库。第五章:1、Web 资源检索方法主要有三种:基于超文本/超媒体的浏览方式、基于目录的信息查询、基于搜索引擎的信息检索。2、Web 信息组织主要包括:超文本、标记语言(SGML/HTML/XML)、超文本传输协议、超文本浏览器。3、元数据是关于数据的组织、数据域及其关系的信息,简言之就是关于数据的数据主要包含四种元数据类型。4、搜索引擎的概念、功能、组成结构、原理和类型,第六章:1、并行信息检索和分布式
8、信息检索是信息检索理论与应用的提高,并行处理是指把计算机任务划分为更小的子任务,然后利用多个处理器处理同一个任务的不同子任务,各处理器采用并行工作方式,从而提高检索效率。2、根据指令流和数据流的不同将计算机分为四种体系结构:SISD、SIMD、MISD、MIMD。3、并行检索技术分为数据并行和功能并行。在数据并行技术中,利用倒排表进行并行检索又分为数据集(文档集)分割和项分割两种,其中文档集分割又分为物理文档分割和逻辑文档分割,了解两者之间的区别与联系。4、分布式检索 主要是指在分布式的环境中,利用分布式计算机和移动代理技术从大量的、异构的信息资源中检索出对用户有用信息的过程,分布式检索典型的
9、特征就是具有异构性。一个简单的分布式信息检索系统由多个数据集服务器和一个和多个代理处理器两大部分组成。5、分布式检索模式:基于元搜索引擎的分布式检索、基于Z39.50 的分布式检索、基于XML的分布式检索、基于 Web 服务的分布式渐叟。6、数据集选择就是指怎样选择最合适的信息资源库的子集,并保证这些子集可能包含与提问式相关的文献的数量最大。7、异构数据库 是指结构相异的数据库,这里的异构包含系统级异构和语义级异构。8、跨库检索 是指以多个异构数据库的数据源为对象的检索。名师资料总结-精品资料欢迎下载-名师精心整理-第 2 页,共 3 页 -第七章:1、人工智能与自然语言检索是信息检索发展的前
10、沿领域,也是信息检索发展的主要趋势和方向。人工智能检索技术主要包括专家系统、数据挖掘、知识发现和信息抽取。2、自然语言 从用户角度讲就是用自然语句作为提问的输入,这就涉及到文本的语言结构和语义分析等技术,将信息处理深入到了文本的内容,而非仅仅是依据文本中提取的索引词的信息。所以自然语言处理设计语言学、心理学、认知学、人工智能等多领域学科。2、自然语言理解的层次包括六个方面:语音学、词形学、词汇学、句法、语义学、语用学。第八章:1、用户界面 是信息检索者与信息检索系统之家的交流媒介,包含两层含义:一是系统给用户的视觉呈现,二是用户使用计算机检索系统的综合操作环境。2、用户类型 按照用户使用计算机
11、的频度分为新手用户、平均用户、专家用户、偶然用户四种。3、用户检索行为是指用户为获取所需信息,在与计算机交互过程中的一系列身体活动和心理活动,从本质上说用户检索行为时一种试验和探索的过程。4、构成信息检索的主要因素有:用户行为、检索任务、系统性能、检索结果。5、用户界面设计的原则和种类。7、人机交互的一个重要方面就是用户界面技术的评价方法,除了查准率和查全率外,还有其他一些标准如用户学习系统的时间、实现基准任务所需的时间、出错率和界面使用的一致性等。8、信息可视化的含义及作用。第九章:1、信息检索评价就是指运用科学的方法,按照设定的检索指标体系对信息检索结果进行评价的过程。2、信息检索评价的内
12、容包括资源的收录状况、数据的质量、检索的功能与效率、系统的功能及检索结果的反馈。3、相关性是指信息检索的结果具有不确定性,不像数据检索一样具有精确性,他只能检索与用户提问最接近的文档。4、相关性概念具有关系、直觉、多维和动态的特点。5、信息检索的系统性能指标通常包含查全率、查准率和响应时间三个主要要素。】6、信息检索系统的评价指标体系包含:系统性能指标、系统效益指标、费用/效果指标、费用/效益指标等。7、信息检索评价的过程与方法:确定评价对象及目标、选择评价方式、设计评价方案、实施评价方案。8、经典的检索评价实验:MEDLARS系统评价实验、SMART 检索实验等。9、信息检索评价实验平台:TREC。名师资料总结-精品资料欢迎下载-名师精心整理-第 3 页,共 3 页 -