信息检索复习预习资料.doc

上传人:小** 文档编号:557973 上传时间:2018-10-26 格式:DOC 页数:12 大小:237KB
返回 下载 相关 举报
信息检索复习预习资料.doc_第1页
第1页 / 共12页
信息检索复习预习资料.doc_第2页
第2页 / 共12页
点击查看更多>>
资源描述

《信息检索复习预习资料.doc》由会员分享,可在线阅读,更多相关《信息检索复习预习资料.doc(12页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、|科学信息检索与应用第一章 绪论1.情报检索与科学研究关系2.个体研究阶段,世界上最早出现的手工检索工具:答:1821 年瑞士出版的物理科学进展年报1830 年德国创办的文摘杂志药学总览3.社会化阶段,研制大型检索工具:答:美国 1884 年创办了工程索引 (EI)美国 1907 年创办了化学文摘 (CA)美国 1926 年创办了生物学文摘 (BA)英国 1896 年创办了科学文摘 (SA)4.自动化阶段,产生新的检索理论:答:1951 年 Taube,M 提出:单元词组配法1958 年 Citron,J 提出:轮排索引1958 年 Luhn,H 提出:定题服务(SDI) 二战期间案例: 曼哈

2、顿工程 - 阿波罗计划5.科技文献概念答:记录在载体上的科技知识,包括科技事实、数据、理论方法、构思和假设等。 (文献/科技文献)6.文献信息源,按文献载体形式划分: 答:印刷型文献:指印刷术发明之后,以纸张为存储载体,通过油印、铅印、胶印、静电复印等手段,将文字固化在纸张上所形成的文献。 缩微型文献:又称为缩微复制品文献,它是以感光材料为载体,以印刷型文献为母本,采用光学摄影技术,将文献的体积浓缩而固化到载体上。 机读型文献:机读型文献的全称为计算机阅读型,是以磁性材料为存储载体,以穿孔、打字或光学字符识别装置为记录手段而形成的文献。 声像型文献:又称为视听型文献,它是以磁性材料或感光材料为

3、载体,借助特定的机械设备直接记录声音信息和图像信息所形成的文献。 7.文献信息源,按文献的出版形式划分:答:科技图书(Science and Technical Book) |科学期刊(Science and Technical Journal) 科技报告(Science and Technical Report) 专利文献(Patent Document) 会议文献(Conference Paper)学位论文(Degree Thesis)标准文献(Standard Literature) 政府出版物(Government Document) 产品样本(Product Stylebook )技

4、术档案(Technical Files) 8. 文献信息源,按文献的产生、加工、用途划分为:答:一次文献,又称原始文献。以本人的研究成果为基本素材创作而成的文献。二次文献,将分散的一次文献进行选择、加工、整理之后所得到的产物,是为了便于管理和利用一次文献而编制的检索工具。 三次文献,利用二次文献查阅大量一次文献,并将其进行综合、分析、研究而编写出来的文献。 9.文献寿命缩短 半衰期:贝纳尔(Bernal,J.D)提出半衰期:某学科现时尚在利用的全部文献中较新的一半,是在多长一段时间内(X 年)发表的。经过 X 年,某学科领域其一半文献的利用价值已逐渐衰减。例如:生物科学文献的半衰期是 3 年,

5、也就是说,现时仍在利用的生物科学文献的 50%,其出版年龄不超过 3 年。换句话说,上述生物学文献的半衰期(一半老化的时间)是 3 年。 表 1. 各类科技文献使用寿命 文献类型 使用寿命 文献类型 使用寿命科技图书 10-20 年 科技期刊 3-5 年 科技报告 10 年 标准文献 5 年 学位论文 5-7 年 产品样本 3-5 年 平均使用寿命为 5-6 年 表 2. 不同学科文献半衰期学科 半衰期 学科 半衰期 学科 半衰期数 学 10.5 地理学 16.0 生物、医学 3.0物理学 4.6 化 工 4.8 生理学 7.2化 学 8.1 冶金工程 3.9 植物学 10.0天文学 4.7

6、机械工程 5.2 农林科学 5.9|地质学 11.8 工程技术 3.2 社会科学 5.010.情报检索(Information Retrieval)是指将信息按一定的方式组织存储起来,并根据信息用户的需要找出相关信息的过程。11.主题检索语言:答:主题词:能表达文献的实质内容,经过规范化处理的名词术语。如,中国汉语主题词表 、 医学主题词表 、 农业、生物科学主题词表关键词:能表达文献主要内容的词汇或术语,未经过规范化处理。12.评价指标答:英国情报学家克莱弗登(Cranfield)在分析用户基本要求的基础上,提出了 6 项系统性能的指标,它们是:收录范围、查全率、查准率、响应时间、用户负担和

7、输出形式,其中查全率和查准率是两个最常用的重要指标。查全率(Recall ratio) :指检出的相关文献量( a)与检索系统中相关文献总量(ac)的比率。例如:某课题检出相关文献 49 篇,而该检索工具中与课题相关的文献总量有 70 篇,那么,此次检索的查全率为 70%。%10cR10749R%70R查准率(Precision ratio):指检出的相关文献量( a)与检出的文献总量(ab)的比率。例如:某课题检出文献总量为 60 篇,经筛选只有 30 篇与课题相关,那么此次检索的查准率为 50%。10p1063P50P13.效果评价答:表 3. 各种因素对查全和查准率的影响:影 响 因 素

8、 漏检率 误检率数据库标引不全、漏标、误标 29.8% 11.5%检索语言专指词不足、词间关系层次错误 10.2% 35.7%检索式用词不当,组配错误 29.9% 26.9%程序功能欠缺,设备局限 25.0% 16.6%其他因素 5.1% 9.3%本章思考题1. 试述情报检索与科学研究二者间的关系。(材料第一题)2. 在个体研究阶段,最早出现的手工检索工具有哪些?(材料第二题)3. 19 世纪末-20 世纪初,研制并产生了哪些大型检索工具?(材料第三题)4. 二战以后,产生了哪些新的检索理论?(材料第四题)第二章 计算机检索方法与制定检索策略|1.布尔逻辑算符检索法答:是当今检索理论中最成熟的

9、理论之一,也是构造检索表达式最基本、最简单的匹配模式。布尔逻辑检索是通过布尔逻辑算符来实现的,这些运算符能把一些具有简单概念的检索词(或检索项)组配成为一个具有复杂概念的检索式,用以表达用户的检索要求。逻辑运算符有三种:与、或、非 逻辑与(and 或 *)是一种用于交叉概念和限定关系的组配。它可以缩小减缩范围,有利于提高查准率。例如:insulin and diabetes 凡是用 and 的检索式,and 两侧的检索词必须同时出现在同一条记录中,该记录才算命中。逻辑或(or 或 +)是一种用于并列关系的组配。它可以扩大检索范围,防止漏检,有利于提高查全率。例如:cancer or tumor

10、 凡是用 or 的检索式,or 两侧的检索词只要有一个在一条记录中出现,该记录就算命中。 逻辑非(not 或 -)是一种排斥关系的组配。用来从原来的检索范围中排除不需要的概念,有利于提高查准率。例如:solar energy not nuclear 凡是用 not 的检索式,not 前面的检索词必须在记录中出现而后面的检索词一定不能出现,该记录才算命中。2.三个提示提示 1:在使用“逻辑非”进行组配时特别注意,否则会出现漏检。如上例是查找有关太阳能并排除核能方面的文献,结果查到一篇有关一种替代核能燃料方面的文献。提示 2:在一个检索式中,可以同时使用多个逻辑运算符,构成一个复合逻辑检索式。复合

11、逻辑检索式中,运算优先级别从高至低依次是not、and、with、or,可以使用括号改变运算次序。 如(A or B)and C ,先运算(A or B) ,再运算 and C 。提示 3:在检索过程中,应根据课题的具体要求,选用不同的逻辑算符进行|组配,通过改变检索项的逻辑组配关系,可扩大或缩小检索范围。如,检索有关“汽轮机叶片制造”方面的文献A-汽轮机 B-叶片 C-制造检索式:A and B and C;A and B;B and C3.位置算符检索法又称邻接算符(adjacent operators) ,适用于两个检索词以指定间隔距离或者指定的顺序出现的场合。跟 and 运算符类似,但

12、比 and 运算符功能更具体。例如:查找“细菌对染料破坏”方面的文献常用位置运算符有(w) (n) (s) (f) (1) (W) (词间位置算符,含义为With)词序不能颠倒,两词之间不允许插入其它词,但允许有空格。 例如:Economy(W)Mathematics 4.截词(Truncation)检索法截词有多种用途:(1)词尾截断可得到该单词所提及的所有词语(单数和复数)(2)词间切断或通配符:可找到该单词的所有变化形式或不同拼法。? = 一个字符* = 一个或多个字符例如: 检索单复数和不同拼法等词语注意:截词检索时,不可截的太短,否则会检出无关概念。如,Com*5.检索限定字段限定包

13、括 TI、AB、DE、 AU;时间范围限定 PY; 分类限定 CC;语种限定 LA;文献类型 DT 等字段限定也是调整检索策略的一种重要手段。多数检索系统对不指定字段的检索词通常在所有字段(all field)中进行检索。如果想指定在文献的题目等特定字段中检索,就需要使用字段限制。字段限制适用于在已有一定数量输出记录的基础上,通过指定字段的方法,减少输出篇数,提高检索的查准率。例如:Tea and Breeding /TIAU = Zhou,G Z6.布尔逻辑检索式编写(1)逻辑运算符使用方法布尔逻辑检索式是检索策略的逻辑表达式,其表达形式实际上是上述各步骤结果的综合体现,即使用合适的逻辑算符

14、和位置算符,将各检索词进行组配,|使之确切地表达课题的主题概念,符合检索的需求。例 1:查找分别单独论述微型汽车发动机和摩托车发动机的文献,并要求排除那些同时论述这二个主题的文献” 。A-微型汽车 B-摩托车 C-发动机 检索式:(A and C or B and C)not(A and B and C)(A and C or B and C)not(A and B )例 2:查找论述太阳能或者风能的文献,但不要其中又论及水能的文献。 A-太阳能 B-风能 C-水能检索式:( A or B )not C例 3:电视中暴力行为对儿童的影响。A-电视 B-暴力行为 C-儿童。检索式:A and B

15、 and C 例 4:检索有关利用杀虫剂控制蚜虫方面的文献。A-insecticde B-aphidesC-control检索式:A and B and CA and B提问:哪个是最佳检索式?例 5: 查找三氧化二砷与空气污染方面的文献。A-三氧化二砷(As) B-空气 C-污染检索式: (Arsenic trioxide or As)and air and pollutionArsenic trioxide or As and air pollutionArsenic trioxide or As提问:在上述三个检索式中,哪个为最佳或最合理检索式?为什么?7.编写逻辑检索式一般原则答:用

16、and 连接检索词,将出现频率不高的词放在 and 的左边。用 or 连接检索词,将出现频率高的词放在 or 的左边。当用 and 和 or 两种算符,并且连续使用多个 or 算符,or 应放在 and 的左边(or 部分用括号) 。8.鲍纳查尔斯(C. Bourne)检索策略|答:最专指面优先策略(下位类 或同类) 积木型概念组策略(OR AND) 引文珠型增长策略(单篇文献 多篇文献) 逐次分馏策略(上位类 下位类)见示例:最专指面优先策略(提高查准率)例如:果蔬农药残留量的检测与分析(水果 or 蔬菜) and 农药残留量 and 检测 and 分析(2) (水果 or 蔬菜) and

17、农药?(4110)(水果 or 蔬菜) and 农药残留量 and 检测(38)(水果 or 蔬菜) and 农药?and 检测 and 分析(60) 积木型概念组策略(提高查全率)例如:检索氮磷钾对烟草产量和品质的影响S1 (N or P or K )S2 (Nitrogen or Phosphate or Potassium)S3 (Tobacco or Nicotiana)S4 (Quality or Yield)(S1 or S2)and S3 and S4引文珠型增长策略(扩大检索范围)例如:检索分子标记在植物育种中的应用植物 and 分子标记 and 育种相关词:抗病育种 抗病基因

18、 遗传标记基因工程 基因图谱 基因表达逐次分馏策略(缩小检索范围)例如,检索农作物病虫害控制方面的文献作物 and 病虫害(998) 稻瘟病 and 控制(49)小麦 and 锈病 and 防治(300 多篇)玉米 and 螟虫 and 防治(13)编写逻辑检索式小结:使用 and 算符越多,限制条件就越多,查准率较高;使用 or 算符越多,连接的相关词就越多,查全率也就越高;使用 not 算符去掉不相关的概念,可提高查准率。在检索式中不要连续使用多个 and 算符,以免限制过严而漏检文献,甚至查不到文献。9.位置算符使用方法例如:查找聚磷酸氨的制备方法方面的文献Ammonium(S)poly

19、phosphate and(manufasyure or preparation)152 篇Ammonium(S)polyphosphate(S)(manufasyure or preparation)17 篇Ammonium(S)polyphosphoric acid(S)(manufasyure or preparation)4篇Polyphosphoric(L)Ammonium(S)(manufasyure or preparation)1 篇Ammonium(S)polyphosph?(S)(manufasyure or preparation)38 篇10.制定检索策略检索策略由检索

20、标识和检索运算符(与、或、非、截断符、位置符、括弧等)组合而成。制定检索策略分初级检索、高级检索、专业检索三种类型。|如,中国期刊全文数据库(CNKI)检索类型1. 分析各个检索词之间的位置关系和逻辑组配关系。2. 分析检索词应该限定在哪个字段中检索(是在所有基本索引中检索还是限定在分类、主题、自由词、文摘还是其他辅助索引字段中检索) 。实例分析:(1)课题分析:直接从项目名称中确定检索概念例如:检索“聚乙烯的合成”文献主要概念:聚乙烯、合成检索式:聚乙烯 and 合成polyethylene and Synthesis(2)课题分析:找出隐含概念例如:检索“灌溉用的橡塑多孔管”文献Rubbe

21、r-Plastic Porous Pipe For Irrigation隐含概念:橡胶、塑料主要概念:橡胶、塑料、多孔管、灌溉检索式:(橡胶 or 塑料 or 橡塑) and 多孔管 and 灌溉(3)课题分析:泛指概念具体化例如:检索“唐山综合防灾的研究”文献主要概念:城市、地震、洪水、火灾、决策支持系统、专家系统检索式:城市 and (地震 or 洪水 or 火灾)and (决策支持系统 or 专家系统)(4)课题分析:排除重复无关的概念,避免漏检例如:检索“河豚毒素的液相色谱分析”文献主要概念:河豚毒素、液相色谱、分析由于液相色谱本身就是一种分析方法,因此将“分析”这一概念排除。检索式:

22、河豚毒素 and 液相色谱11.调整检索策略每一次检索之后都要对检索结果进行检查和评价,如果与需求不符就要修改和调整检索策略,重新进行检索。(1) 输出篇数过多时,原因主要有以下几点:对检索词限制条件过宽。包括字段限制,时间限制,分类限制等。主题概念太少或具有多义性导致误检。对所选的检索词截词截得过短。(2)输出篇数过少时,原因可能有以下几点:对检索词限制条件过窄。选用了不规范的主题词作为检索词,或者同义词没有充分考虑。例如,没有使用学名“马铃薯”而使用了俗名“土豆” 会造成漏检。上位概念或下位概念没有完整运用。例如, “燃料”是上位概念,下位概念可以有 “煤” 、 “油” 、 “煤气” 、“

23、天然气”等,这些概念在检索“燃料”时都应该加以考虑。本章思考题1. 计算机检索的基本方法有哪些?答:(1)布尔逻辑算符检索法逻辑与(and 或 *) 逻辑或(or 或 +) 逻辑非(not 或 -)|(2)位置算符检索法常用位置运算符有(w) (n) (s) (f) (1) (W) (词间位置算符,含义为 With)(3)截词(Truncation)检索法(4)检索限定2. 根据自己的专业或研究方向,拟定一个合理的布尔逻辑检索式(提问式) 。第三章 中外数据库检索方法1.中国知网(CNKI)文献总量: 5656 万篇,其中自然科学文献为 2441 万篇,社会科学文献为2540 万篇,国际学术文

24、献为 344 万篇。文献类型:有学术期刊、硕博学位论文、工具书、会议论文、年鉴、专著、专利文献、标准文献、科技报告和研究成果。2.库间引文链接 通过引文数据库的检索,引证文献、参考文献、同类文献成功链接,同时,实现了中国期刊全文数据库和中国优秀博硕士学位论文全文数据库之间的互引用链接,即期刊库如果引用了学位论文库的文章,期刊库检索结果中会将学位论文库的该篇文章作为参考文献提供链接,并可点击链接查看文章题录,进而获取原文,构建了库间的知识网络。 本章思考题1.中国知网平台有哪些作用?答:(1)跨库检索 中国期刊全文数据库;中国优秀博硕士论文全文数据库;中国重要会议论文全文数据库;中国重要报纸全文

25、数据库;中国图书全文数据库;中国引文数据库等 CNKI 系列源数据库实现了统一跨库检索,用户能够在一个界面下完成以上所有数据库的检索。(2)库间引文链接 通过引文数据库的检索,引证文献、参考文献、同类文献成功链接,同时,实现了中国期刊全文数据库和中国优秀博硕士学位论文全文数据库之间的互引用链接,即期刊库如果引用了学位论文库的文章,期刊库检索结果中会将学位论文库的该篇文章作为参考文献提供链接,并可点击链接查看文章题录,进而获取原文,构建了库间的知识网络。 (3)知识网络系统 通过文献之间、知识元之间、分类导航之间的交叉链接,构建起节点丰富、交织纵横的知识网络系统。文献之间的链接包括引证文献、参考

26、文献、同类文献等,知识元链接包括作者、机构、刊名、关键词、相关作者群、相关研究机构、相关关键词等,同时,还可方便查看其他相关类别下的文献。 (4)知识元链接 包括作者、机构、刊名、关键词以及相关作者、相关机构、相关关键词等设置链接,通过这些链接可检索知识网络中心配制的数据库的相应字段,获取检索结果。(5)引文链接 包括引证文献和参考文献链接。引文链接成功率接近 100%。引文链接功能,除了可以构建相关的知识网络外,还可用于个人、机构、论文、期刊等方面的计量与评价。 |(6)相似文献链接 即同类文献链接。基于相似检索技术,实时运算,提供内容相关的相似文献链接。特点:链接成功率约 100%;可实现

27、内容相似的文献间链接;还可实现跨学科关联,如不同主题,使用相似方法或技术的文献。中国知网(CNKI)检索平台作用分析:可扩检相关文献数量掌握相关研究机构掌握相关文献作者研究情况了解作者文献被引证情况通过期刊导航了解期刊出版状况及选刊投稿2.检索学位论文、科技报告、专利文献等特种文献应选择哪些数据库?第五章 ISI Web of Knowledge 进展与应用1. Web of Science 简介答:ISI (Institute for Scientific Information ) 美国科学情报研究所SCI (Science Citation Index ) 科学引文索引 JCR(Jour

28、nal Citation Reports ) 期刊引用报告 三大引文数据库: Science Citation Index introduced in 1963 Social Sciences Citation Index introduced in 1973 Arts & Humanities Citation Index introduced in 19782.引文(Citation)概念答:在文献甲中提到或描述了文献乙,并以文后参考书目或脚注的形式列出了文献乙的出处,其目的在于指出信息的来源、提供某一观点的依据、借鉴陈述某一事件等。引文通常也称为被引文献或参考文献,引证文献通常也称为来源

29、文献。3.H-index(h 指数):答:是美国加州大学物理学家乔治赫希(Jorge E. Hirsch)提出的,h 代表高引用次数(high citations) ,h 指数已经被公认为比平均引用率更科学的指标。所谓 h 指数,是指一个人有 n 篇论文分别被引用了至少 n 次。赫希认为 h 指数能够比较准确反映一个人的学术成就。一个人的 h 指数越高,则表明他的论文影响力越大,与其它统计方法不同的是,要确定一个人的h 指数相当容易,只要到 SCI 网站,查出某个人发表的所有 SCI 论文,让其按被引次数从高到低排列,往下核对,直到某篇论文的序号大于或等于论文被引次数,那个序号就是 h 指数。4.多层次的限定与精确的检索作用答:发现某研究领域的隐含的发展趋势:把握学科领域的最新动态 了解某特定课题在不同学科的分布情况获取某学科领域核心研究人员信息 5.影响因子(Impact Factor)答:指某期刊前两年发表的论文在统计当年的被引用次数与该期刊在前两年内发表的论文总数之比。又称作 2 年影响因子(IF2) 。影响因子这一评价期刊的重要指标是 SCI 创始人尤金,加菲尔德(Eugene Garfield)1972 年提出的,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 教案示例

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁