《文献数据库与计算机检.ppt》由会员分享,可在线阅读,更多相关《文献数据库与计算机检.ppt(54页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、文献数据库与计算机检索1.文献信息数据库2.计算机信息检索基础3.检索效果评价及其优化1.文献信息数据库 文献是记录知识的载体。数据库是结构化的数据集合,至少由一种文档组成并能够满足某种特定目的或特定数据处理系统需要的数据集合。当数据库记录的对象为文献信息时,就称为文献信息数据库。文献信息数据库的结构一个数据库通常由一个主文档(Master File)和若干个索引文档或称倒排文档(Inverted File)组成。文档是具有某种特征的全部记录的集合。记录是构成文档的基本单元,由各种反映 文献特征的字段组成。如一篇论文、一件专利、一本图书、一个标准的相关信息都能够成为文 档中的一条记录。字段是记
2、录的基本组成元素。一条记录的 常见字段通常包含题名字段、著者字段、主题 词字段、文献出处字段(如刊名等)多种字段。文献数据库中常见的字段和段码2022/12/11文献数据库的类型按数据库文献记载的详细度可分为书目型数据库(二次文献数据库):仅提供文献检索,读者根据其提供的线索查找文献原文。可以分为:题录型 文摘型EI SCI 中国科学引文索引文献数据库的类型按数据库文献记载的详细度可分为全文数据库:不仅提供文献的基本信息及线索,同时还提供原始文献本身的数据库。主要包括全文数据库、术语数据库、图像数据库等等。如:CNKI 万方 Elsevier IEL文献数据库的类型按数据库文献记载的详细度可分
3、为混合型数据库:数据中的数据,一部分只是提供参考数据库中的信息(文献的基本情况及线索);另一部分则可以提供全文数据库中的信息(原始文献本身)。如:EBSCO(ASPBSP)文献数据库的类型按文献数据库收录信息的学科范围可分为(1)专业性文献信息数据库(CA)(2)综合性文献信息数据库(中国期刊网)文献信息数据库的评价标准收录内容范围系统准确。揭示文献详略完备详细。更新速度快慢及时快速。检索字段多寡途径丰富。检索功能强弱高效完善。用户使用方便易学易用。维护服务质量及时到位。计算机信息检索基础计算机信息检索指利用计算机及相关软件和通信设施,对本地计算机、远程服务器及网上信息进行检索的过程或活动。随
4、着信息技术的快速发展及对各种文献信息的数字化处理,计算机文献信息检索已经成为文献信息检索的主要手段。计算机信息检索发展过程脱机检索阶段(50年代中期到60年代中期)联机检索阶段(60年代中期到70年代中期)光盘数据库检索阶段(70年代中期到80年代末)网络化检索阶段(90初年代至今)1)分析检索课题,明确检索要求(2)选择适当检索系统(数据库)(3)确定检索途径及检索词(4)构建检索提问式(5)上机检索并调整检索策略(6)输出检索结果(具体)计算机检索的一般程序计算机检索的一般程序主题分析明确检索需求及检索目标(1)检索信息的学科范围(2)检索信息的类型(3)检索的目的选择检索系统(数据库等)
5、(1)根据检索目的确定所需数据库的类型(2)根据信息需求的内容、专业范围选择数据库(3)根据记录来源选择数据库(4)根据熟悉程度选择数据库计算机检索的一般程序主题概念分析(注:是课题检索的重点和难点)检索目的(申报课题、开题报告、学术论文、成果查新、课程论文、商业需求以及其它需求类型等)文献类型(期刊论文、会议论文、科技报告、图书、专利、标准、网站等)?结果形式(全文、文摘、题录、数值、事实等)检索年限(如2000年以来的文献)语种(中文、外文;英文、日文)检索结果数量(100?50?)2.计算机检索基本技术布尔逻辑检索技术布尔检索技术是指利用布尔运算符连接各个检索词,然后由计算机进行相应逻辑
6、运算,以检索出所需信息的方法。常用算符及含义:AND(*)OR (+)NOT (-)布尔逻辑检索技术AND(*)接不相容的主题概念(或不同字段)检索结果同时出现连接的词限定,缩小范围,提高准确率。OR(+)?连接同义词,同族词,相关词检索结果至少含有其中一词或同时有扩大,检索范围,提高查全。NOT(-)缩小检索范围,起到减少文献输出量。布尔逻辑检索技术优先处理算符“()”逻辑算符OR和AND的使用方法,如果归纳成一个模式,比如有A、B、C、D四个检索词(其中A和B,C和D分别为同义概念),检索提问式为:(A OR B)AND(C OR D)即,同一组检索提问既含有OR算符,又含有AND算符,此
7、时须使用优先处理算符“()”,将OR算符前后的词放入括号中,计算机将优先运算括号内的算符。位置算符位置检索可要求检索词以用户所规定的相对位置出现。比如:以词组形式表达的概念;彼此相邻的两个或两个以上的词;被禁用词或特殊符号分隔的词以及化学分子式等。位置算符是调整检索策略的一种重要手段。输入:COMMUNICATION SATELLITE系统认为:COMMUNICATION AND SATELLITE结果:communication satellite,satellite communication,communication devices for satellite;communicatio
8、n links without satellite位置算符常用的位置算符及含义:(W)算符(WITH)表示两个检索词紧挨着,词序不能颠倒,中间不得插入其他词、字母或代码,但允许有空格或标点符号,也可用()表示。例:COMMUNICATION(W)SATELLITE (n W)算符(n WORD)表示两个检索词中间可插入n个词,但它们之间的顺序不可颠倒。(N)算符(NEAR)表示两个检索词必须相连,不得插入其他词,但词序可以颠倒。位置算符(n N)算符(n NEAR)表示两个检索词中间可以插入n个词,且词序可以颠倒。(S)算符(SUBFIELD)表示两个检索词必须出现在同一个子句子中,但两词的词
9、序和插入的词数不限。句子位置算符 (F)算符(FIELD)表示两个检索词必须同时出现在同一个字段内,但两词的词序和中间插入的词数不限。字段位置算符 (C)算符(CITATION)表示两个检索词必须出现在同一记录中,但两词的词序和所在的字段不限。(L)算符(LINK)表示两个检索词之间存在从属关系或限制关系,如果其中一个为一级主题词,另一个就为二级主题词。截词检索技术 截词检索是为扩大检索范围与增加检索结果而采用的一种检索技术。常件的截词符号及含义:“*”可代表多个字符“#”代表单个的字符一个“?”或者“n?”代表0个到9个额外的字符。加权检索技术加权检索是在检索提问式中,根据每个提问词在检索要
10、求中的重要程度,分别给予一定的加权数值加以区别,我们称这个数值为权数。同时再给出检索命中的阈值。当检索结果达到所设定的阈值时,系统将显示为命中记录。采用加权检索的目的在于提高检索结果的准确程度限制检索技术具体形式主要有:(1)字段限制检索(2)使用符号限制(3)进行范围限制(4)采用限制指令字段限制检索基本字段限制字段限制(TI,AB,DE,ID)基本字段限制的用法是在需要指定字段(题目、叙词、识别词和文摘)的检索词后加上后缀运算符“/”和段码。例如,检索策略“OPTICAL/TI AND FIBER/TI”的含义是指定在题目字段中查找含有“optical”和“fiber”两词的所有记录。字段
11、段码可以多个连用,段码之间加“,”即可。例如,检索策略“FIB?/TI,DE”的含义是指定在题目和叙词字段中查找以“fib”为词干的所有记录。字段限制检索辅助字段限制辅助字段运算符的用法是在需要指定字段的检索词(有时检索词须放在双引号内)之前加上段码和前缀运算符“=”。例如检索策略AU=“Robert,S.”的含义是在作者字段中查找含有“Robert,S.”的所有记录。下面是其他常用的辅助字段限制及其实例:指定著者单位字段 CS=SHANGHAI UNIVERSITY指定刊物名称字段 JN=APPLIED MATHEMATICS 指定语言字段 LA=ENGLISH 指定文献类型字段 DT=JO
12、URNAL3.检索式的调整检索表达式输入检索系统后,输出的检 索结果有时不一定能满足课题的要求:检出的篇 数过多,而且不相关文献 所占比例很大检出的文献数量太少,有时甚至为零,需要调整检索策略。调整检索策略对于输出篇数过多的情况a.选用了多义性的检索词;b.截词截得过短;c.输入的检索词太少;d.应该使用“与(AND)”的使用了“或(OR)”;e.优先运算符“()”使用错误。调整检索策略对于输出篇数过少的情况a.检索词拼写错误;b.遗漏重要的同义词或隐含概念;c.检索词过于冷僻具体;d.没有使用截词算符;e.位置算符和字段算符使用的过多;f.使用过多的“AND”算符。计算机检索实例检索需求查找
13、某概念的确切含义如:什么是“blog”查找某概念的背景知识如:谁最先发现青霉素查找某些事物的数值及量化指标特征型知一般通过事实型、数值型数据库和搜索引擎获得。查找某一学科的一般知识如:关于分子生物学有哪些专著查找学科专业领域的新进展如:有关纳米技术的研究综述查找课题相关的专业文献最常见的!文献数据库电子元器件的技术特性数据,可用有关的电子元器件类手册、产品目录、样本或书查找;查过去某年度某种电气电子类产品的产销、贸易、市场概况,可用有关年鉴类资料;查国内外哪些大学招收电气电子类研究生,可查大学类的机构名录或校方的招生简章资料;查“自动化”一词的概念与含义,可用百科全书、学科术语类解释辞典和相关
14、手册;查电子产品的电路图,可用相应的电路图集或手册;查钱学森的主要论著和贡献,可用名人录;等等。主题分析实例 直接从检索项目中获取相关概念例:项目“聚乙烯的合成(synthesis of polyethylene)”主要概念:聚乙烯、合成(synthesis、polyethylene)检索式:聚乙烯 and 合成 Synthesis and polyethylene主题分析实例 排除重复无关的概念项目“河豚毒素的液相色谱分析”从项目名称上看,其主要概念为“河豚毒素”、“液相色谱”和“分析”,但由于液相色谱本身就是一种分析方法,它隐含了“分析”这一概念主要概念:河豚毒素、液相色谱检索式:河豚毒素
15、and液相色谱主题分析实例 检索词之间存在部分与整体关系例:1.检索“欧洲能源”方面的文献按照“欧洲”;同时包括许多国家。英 法 德 意 2.国外综述 主题分析实例 隐性概念的处理课题:高温下使用的不锈钢“不锈钢”“耐热钢”主题分析实例 隐性概念的处理项目“灌溉用的橡塑多孔管”Rubber-Plastic Porous Pipe For Irrigation 橡塑多孔管也称为橡塑渗灌管,其主要原料为橡胶粉(由废旧轮胎制得)和塑料(如粉状聚乙烯)。隐含概念:橡胶、塑料 该产品主要用于农林、园艺等方面的灌溉。主要概念:橡胶、塑料、多孔管、灌溉检索式:(橡胶or塑料or橡塑)and多孔管and灌溉2
16、022/12/11主题分析实例 隐性概念的处理 文昌鱼的遗传多样性显性主题概念:文昌鱼 遗传多样 隐含主题概念:文昌鱼 -头索动物 遗传-基因 同义 近义词:基因-DNA主题分析实例 隐性概念的处理项目“唐山综合防灾的研究”由于唐山是一个城市,因此该项目实际上是“城市综合防灾的研究”。该项目针对的主要灾害是地震、洪水和火灾,所采用的研究手段是决策支持系统和专家系统。防灾:地震、洪水、火灾研究:决策支持系统、专家系统主要概念:城市、地震、洪水、火灾、决策支持系统、专家系统检索式:城市and(地震or洪水or火灾)and(决策支持系统or专家系统)主题分析实例 概念间逻辑关系的处理同义词、近义词是
17、或的关系上位词即扩检,如“教育心理学”下位词即缩检,如“智育心理”、“德育心理”、“美育心理”、“教学心理学”、“学习心理学”、“教师心理学”、“学生心理学”等。若多个下位词都用来检索,相对于一个上位词来说,一般是扩检。一个下位词相对于一个上位词来说,一般是缩检。检索词的选择 规范词 选择检索词时,一般应优先选择主题词作基本检索词,但为了检索的专指性也选用自由词配合检索。如查找“人造金刚石”的文献,很可能用“manmade(人造)”、“diamonds(金刚石)”作为检索词,但“人造”的实质是“人工合成”,检索词的范围可放宽至:synthetic(W)diamonds 合成金刚石;synthe
18、tic(W)gems 合成宝石;synthetic(W)materials 合成材料;synthetic(W)stones 合成石;synthetic(W)crystals 合成晶体;artificial(W)crystals 人造晶体;diamonds 金刚石。检索策略:1+(2+3+4+5+6)*7尽量使用代码不少文档有自己的各种代码,如世界专利索引(WPI)文档的国际专利分类号代码IC,世界工业产品市场与技术概况文档中的产品代码PC 和事项代码EC,化学文摘(CA)中的化学物质登记号RN 等。如查找“20 年来CA 收录的锡酸钡导电机理”的文献,就应该用化学物质登记号表示,即rn 120
19、09-18-6。其检索式可为:rn 12009-18-6*electric?(w)conduct?。而用如下检索式则不能保证文献查全:(barium(w)stannate+BaSn03)*eletrical(w)conductivity同义词尽量选全 检索时为保证查全率,同义词尽量选全。同义词选择应主要考虑以下几点:同一概念的几种表达方式,如化学分析有chemical analysis,analytical chemistry,chemical determination,composition measurement等。同一名词的单、复数、动词、动名词、过去分词形式等,如生产有product
20、,production,producing,produce,productive等,词根相同时,可用截词符解决。同义词尽量选全要考虑上位概念词与下位概念词,如水果榨汁,不仅要选fruit,也应选各种水果,如pear(梨)、orange(橙)、plum(李子)、peach(桃)、apple(苹果)、pineapple(菠萝)等,反之,如某一种水果保鲜则应参考水果保鲜。化学物质用其名称也要用其元素符号,如氖,Nitrogen 和N。植物和动物名,其英文和拉丁名均要选。注意选用国外惯用的技术术语查阅外文文献时,一些技术概念的英文词若在词表查不到,可先阅读国外的有关文献,再选择正确的检索词同义词尽量选
21、全表示研究方法、技术方法的名词术语,如分析(化学)、针刺手法、有限元法、结构功能法、力学性能试验等表示工艺方法、加工技术的名词术语,如铸造、锻造、热处理、焊接、酿造、取心钻进、爆破成型、激光切割等;激光加工技术在航空工业中的应用有关激光加工;在航空工业中的应用。第一组面:激光。从词表中可以选取(1)laser(激光)(2)laser bean(激光束)第二组面:激光加工技术。3-6 从词表中可以选取(3)laser annealing(激光热处理)(4)laser cutting(激光切削)(5)laser drilling(激光钻孔)(6)laser welding(激光焊接)7-10加工技
22、术(7)Suface alloying(表面合金化)(8)Surface hardening(表面硬化)(9)Remelting(再溶化)(10)Radiation hardening(表面硬化)第三组面:航空工业(11)aircraft(12)aircraft industry(13)aircraft equipment拟定检索式(1+2)*(7+8+9+10)+(3+4+5+6)*(11+12+13)注意:对于复合词可以用位置算符,截词符。检索效果评价的指标评价检索效果的常用指标有:查全率(Recallratio)用R表示查准率(Precisionratio)用P表示漏检率(Omissio
23、nratio)用O表示误检率(Fall-outratio)用F表示高查全率或查准率是人们在检索活动中通常所追求的目标。查全率 查全率是指被检出的相关文献量与系统文档中实有的相关文献量之间的比率。它是衡量信息检索系统收录内容及其用户检索结果的完整程度的指标。可用下式表示:被检出相关文献量查全率(R)=100%系统中相关文献总量 未被检出相关量文献漏检率(O)=100%系统中相关文献总量查准率 查准率是指检出的相关文献量与检出文献总量之间的比率。它是衡量信息检索系统收录内容及用户检索结果精确度的尺度。可用下式表示:检出相关文献量查准率(P)=100%检出文献总量 被检出无关文献量误检率(F)=10
24、0%检出文献总量影响用户查全率与查准率的不良因素(1)对检索目标把握不准确(2)对检索系统选择不洽当(3)检索词和逻辑组配不当(4)检索途径和方法选择不当(5)系统功能不熟悉、检索技能不熟练提高查全率的主要方法(1)准确把握检索对象及目的,选择合适的数据库。(2)降低检索词或分类号的专指度。(3)更多地采用学科分类途径来扩大检索范围。(4)减少逻辑“与”及逻辑“非”的使用。(5)增加逻辑“或”及截词检索技术的使用。(6)采用“全文检索”。(7)不限定检索对象的文献类型提高查准率的主要方法(1)准确把握检索对象及目的,选择合适的数据库。(2)提高检索词或分类号的专指度。(3)更多地采用专用名词及特性检索的途径。(4)选择逻辑“与”及逻辑“非”的使用。(5)减少或不采用逻辑“或”及截词检索技术的使用。(6)限定检索词出现的字段及在段落、文句中的位置。(7)不选“全文检索”。(8)限定检索对象的文献类型、时间段。