《信息检索知识点.docx》由会员分享,可在线阅读,更多相关《信息检索知识点.docx(11页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、信息检索知识点 信息检索考点整理 1 、信息检索的概念 广义的信息检索就是指将信息按肯定的方式组织、存储起来,并依据信息用户的须要找出有关信息的过程,包括信息的存储与检索两个过程; 而狭义的信息检索仅指有序化信息的检索查找。 2. 信息检索的原理 就就是将检索者的检索提问标识与存储在检索工具中的信息特征标识进行相符性比较,凡就是信息特征标识与检索提问标识相一样或者信息特征标识包含着检索提问的标识,则具有该特征的信息就从检索工具中输出,输出的信息就就是初步命中检索所需的信息。 3 、为什么说信息存储与检索就是两个不行分割的有机体? 检索的全过程包括存储与检索两个过程,存储与检索就是相辅相成、不行
2、分割的。存储过程主要就是利用检索语言对文献进行标引,形成文献特征标识并输入检索工具,为检索供应有规律的检索途径;检索过程主要就是利用检索语言对检索提问进行标引,形成检索提问标识,再根据存储所供应的检索途径,将检索提问标识与文献特征标识进行比较。检索过程就是存储过程的逆过程。因此,检索者只有在全面了解存储者就是怎样把文献存入到检索工具中去以后,才知道怎样从检索工具中把所须要的信息检索出来。 4 、信息检索的方法 (1)顺查法 (2)倒查法 (3)抽查法 (4)追溯法 (5)循环法 5 、信息检索的途径 (1)内部特征途径 a) 分类途径 b) 主题途径 (2)外部特征途径 a) 题名途径 b)
3、著者途径 c) 文献编号途径 d) 书目检索途径 e) 机构检索法 f) 引文检索途径 6 、布尔模型的优缺点 优点:(1)简洁,形式简洁,易于理解; (2) 可操作性强,应用广泛; (3) 构成的逻辑提问式可以表达与用户思维习惯相一样的查询要求,供应特别精确的语义概念; (4) 能处理结构化提问。 缺点:(1)表达用户困难需求效果欠佳 (2)精确匹配无法供应定量比较 (3)匹配标准不尽合理 (4)检索结果不易限制 7 、概率排序原则: 假如一个检索系统对用户的每个检索提问的反应就是以文献集合中的文献按相关性递减的依次排列的,那么系统的总体效果就是最好的。 8 、什么就是计算机信息检索? 所谓
4、计算机信息检索,就就是在计算机与人的共同作用下,根据肯定的方法组织与存储信息,并通过人机对话从计算机存储的大量数据中自动输出用户所需的那部分信息的过程。实质上计算机信息系检索就是利用计算机信息检索系统存储与查找信息的技术,就是计算机硬件资源、系统软件、检索软件与数据库的综合。 9 、计算机信息检索的类型: 依据检索系统的工作方式,可分为: a)、脱机信息检索 脱机信息检索就是利用单台计算机的输入装置进行检索的系统,用磁带作为存储介质,并且为连续的依次检索方式,适合大批量的定题信息检索。 b)、联机信息检索 联机信息检索就是利用计算机终端设备,通过通信线路或网络,与世界上的信息检索系统相连,从信
5、息检索系统的数据库中进行检索并获得信息的过程。 联机检索模式就是主从式,即为全部的工作都在主机上进行,主机负担重,一旦主机瘫痪,整个系统都将处于瘫痪状态,因此对主机的性能要求极高。 c)、光盘信息检索 d)、网络信息检索 依据信息的服务方式,可分为: a)、定题检索 定题检索就是用户依据课题的要求,事先编写出逻辑检索提问式,并将存储在计算机的存储器中,每次系统加入新的信息,系统便会按检索要求,找出用户所需的资料,并把结果分给用户,用户能刚好得到最新的文献信息。具有定期性、新奇性与批处理性的特点。 b)、回溯检索 回溯检索就是追溯查找过去的信息,让用户一次检索一段时间内与某一课题有关的信息。也可
6、以查找最新的信息,可以适应多数用户的查询须要。 c)、日常检索 10. 计算机信息检索技术初级检索 6 个 1) 布尔逻辑检索 2) 位置限制检索 3) 短语检索 4) 截词检索 5) 字段限制检索 6) 区分大小写检索 11 、计算机信息检索技术高级检索 6 个 1) 加权检索 2) 自然语言检索 3) 相关信息反馈(相像检索) 4) 概念检索 5) 模糊检索 6) 聚类检索 布尔逻辑检索 逻辑与 用 AND 或*表示 检索式写作 A AND B 或 A *B 逻辑或 用OR或+表示 逻辑非 用 NOT 或 表示 A NOT B (A 当中除去 B 所剩下的) 字段名称及缩写 AB abst
7、ract TI title AU author JN journal name LA language PY publication year SP source publication 分类与聚类的异同 相同点:基于类的思想进行检索。 不同点:(1)分类基于分类法,其类目体系主要就是先组式,有系统性的。类目与文献之间具有相对独立性。而聚类则先有文献后聚类,类的性质及整体类目体系完全由系统中的文献确定。(2)从类目形成过程瞧,分类就是总到分,聚类由分到总。 会构建检索式( 主要就是积木型) 12 、计算机信息检索策略含义 狭义的计算机信息检索策略就是指检索提问式的构建,即运用系统特定的检索技术
8、,确定检索词之间的逻辑关系,形成表达用户信息需求的检索提问式。 广义的计算机信息检索策略就是指在分析检索课题的实质内容与明确检索目标的基础上,选择检索工具,确定检索途径与检索用词,以及检索词之间逻辑关系与查找步骤最佳方案的一系列科学支配。 13 、计算机信息检索策略类型( 即联机检索五原则) 最专指面优先:从最专指的概念入手 最低登录量面优先 积木型( 重点驾驭, 会构建此检索式) 引文珠型增长 逐次分馏 14 、网络信息资源的评价方法: 定性评价法:就是指根据肯定的评价标准从主观角度对网络信息资源所做的优选与评估,主要有指标体系法与调查表法。 定量评价法:国内外比较典型的定量评价方法有信息计
9、量法、层次分析法与对应分析法等三种。 综合评价法:就是定性评价与定量评价相结合的一种方法,有包括分析法、模糊综合评价法等。 分类方法:分为第三方评价法、用户评价法与网络计量法。 15 、搜寻引擎的类型: 按检索机制划分:检索型、书目型与混合型检索工具 按检索内容划分:综合型、专题型与特别型检索工具 按包含检索工具数量划分:单独型与集合型检索工具 按检索资料类型分:万维网检索工具与非万维网检索工具 16 、元搜寻引擎的含义 所谓元搜寻引擎,就是对分布于网络的多种检索工具的全局限制机制,它通过一个统一用户界面帮助用户在多个搜寻引擎中选择与利用合适的搜寻引擎来实现检索操作。 17 、元搜寻引擎的特点
10、: 虚拟索引数据库 查全率高 用户界面友好 相宜二次加工 扩展性好 18. 元搜寻引擎的工作原理 输 入 查询条件 19 、实现跨语言信息检索的方法: (1)提问式翻译方法 (2)文献翻译方法(唯一结果就是源语言描述) (3) 提问式 文献翻译方法( 将查询语言提问式翻译成目标语言提问式, 与目标语言描述的信息库进行匹配, 检索相关信息, 然后再把检索结果的全部或部分内容翻译成查询语言描述的信息。 检索结果一般选择部分翻译, 这样工作量较小, 简单提高翻译的效率与质量, 部分翻译一般就是对结果文本的前两行、文摘或文本中重要的词进行翻译, 在重要词的翻译中, 如何确定重要词就是确定这种方法效果的
11、关键。 (4)中间语种翻译方法 (5)非翻译方法 20 、语义网的应用 Web 服务 智能信息检索 基于语义的网页搜寻引擎 企业数据管理 21 、Ei 收录论文的两个层次 Compendex 数据。数据的内容全面,主要包括:论文标题;作者;作者单位;英文文摘;论文所在期刊名称;卷,期;论文页码;分类码;主题词等等。其中:分类码;主题词须要专业人员单独给出。 Page One 数据:数据内容主要包括:论文标题;作者;作者单位;论文所在期刊名称;卷,期;论文页码;少数数据带有英文文摘。不须要任何专业人员再做工作。 22 、Compendex 数据 与 与 Page One 数据的主要区分在于:数据
12、中就是否有分类码与主题词;有这两项内容的数据就是 Compendex 数据,反之就是 Page One 数据。有没有主题词与分类号就是推断论文就是否被 Compendex 数据正式收录的唯一标记。 23 、主题指南 按字母依次列出与分类表中类目名称相关的主题词,并注明相关的分类号,事实上就是分类表的主题索引,就是从分类途径检索文献的指南。便于不能确定分类号的读者实现从主题查到分类号,再由分类号查到文献所在页码。 24 、SCI( 科学引文索引) 的编制结构及检索方法 引文索引 来源索引 机构索引 轮排主题索引 25 、如何确定收录期刊的数量与种类? (1)加菲尔德文献集中定律确定相宜的期刊数量
13、 选 择 搜寻引擎 提交查询恳求 搜寻引擎 1 搜寻引擎 2 搜寻引擎 3 整理返回结果 显示查询结果 该定律认为:在几万种科技期刊中,最重要的期刊(即核心期刊)不过一千种,甚至可能还不足 500。因而,把收录期刊的范围定在 3000 种以内,足以把重要的科技文献包括在内。 (2)费用效果原则用来选择每一种期刊,详细方法就是引用频率统计法 先计算一种期刊在一年内被引用的总次数,再计算其中每篇论文的平均引文章,其她因素对引文章的影响通过加某些修正系数来解决,引用频率越高,说明该刊质量越高。 通过上述两个指标确定了收录期刊的数量与种类 26 、什么就是专利? 这种受法律爱护的独创就称专利。 含义:
14、专利权法律 受专利法爱护的独创创建专利技术 专利说明书等专利文献文献 这三层含义的核心就是受专利法爱护的独创,而专利权与专利文献就是专利的详细表现。 27 、什么就是同族专利? 同族专利指同一个独创为了在不同国家得到爱护,而在这些国家分别申请的一系列内容相同或基本相同的专利。由于同族专利或相同专利都具有相同的优先权项,所以通过优先权项可以便利、快捷地检索出有关同一独创的全部相同专利或同族专利。 28 、专利的类型 独创专利 好用新型专利 外观设计专利 植物性专利 防卫性专利 学问产权:工业产权与著作产权 29 、学位论文的文献价值: 较高价值的一次文献:写作不受篇幅限制,论述详尽:从探讨背景、
15、技术线路、试验方法到数据获得、分析结论论述翔实。 宝贵的信息资源价值:能集中反映所在单位的科研领域、学术活动、探讨进展与最新成果,论文的运用者可以跟踪名校导师的科研进程。 综述性二次文献:对相应探讨领域有系统深化的探讨与综述,拥有详尽的参考文献,可得到课题探讨现状综述。 写作技巧的启发蓝本:通过对学位论文的阅读,可大致梳理出作者的写作思路与探讨方法,学习学位论文的写作方法。 30 、信息检索评价方法 测试文档集合法 人机交互 用户体验日志分析法 自然视察法 31 、召回率:R=(检索出的相关文献量 / 数据库中的全部相关文献)x101% 精确率:P=(检索出的相关文献量 / 检出的文献总量)x101% 32 、平均精确率( 并会计算) 平均精确率就是一个通过全部相关文献测定系统绩效的单值指标。假如检索系统能快速返回所需的相关文献,并对被检文献进行等级排序,则该系统的性能较好。 平均精确率就是求各个相关文献精确率的平均值。因此平均精确率的计算只考虑相关文献的数量,而与检出文献的总量无关。 第11页 共11页第 11 页 共 11 页第 11 页 共 11 页第 11 页 共 11 页第 11 页 共 11 页第 11 页 共 11 页第 11 页 共 11 页第 11 页 共 11 页第 11 页 共 11 页第 11 页 共 11 页第 11 页 共 11 页
限制150内