《文献信息检索技术.pptx》由会员分享,可在线阅读,更多相关《文献信息检索技术.pptx(69页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、检索的概念信息检索是指将信息按一定方式组织和储存起来,并针对信息用户的特定需求查找出所需信息内容的过程。文献检索(Retrieval):就是通过一种科学的方法和途径,在一定的文献信息集合中迅速、全面、准确的获取自己所需要的那部分信息。数据库:由计算机进行处理的一定数量同类信息的有序集合,是用来存储和查找文献的信息的电子化检索工具。第1页/共69页信息检索示意图:第2页/共69页l信息检索的实质是信息用户的需求和一定的信息集合的比较和选择的过程,即匹配的过程。也既是用户需求的主题概念和提问表达式同一定信息系统的系统语言相适应的过程,如果两者相适应取得一致,则所需信息被检中,否则,检索失败。l文献
2、检索重要的一种信息检索。信息检索的实质第3页/共69页信息检索的类型文献检索(书目信息检索):即检索结果是关于某主题知识的文献线索,它是通过二次文献,包括传统的以纸张为存储介质的现代计算机检索系统,找出所需的一次文献或三次文献。数据检索:就是满足数据需求的检索过程,如数理化等科学数据,经济数据,历史数据,地理数据等。事实检索:就是对特定的事件或事实的检索。事实内容包括大量的科学事件和社会事件。例如:我国建成最早的高速公路是哪条?何时建设?概念检索:就是查找特定概念的含义、作用、原理或使用范围等解释性内容或说明。最常见的概念检索是查找各种参考工具书,例如字词典、百科全书、名录、手册、指南等参考工
3、具书。第4页/共69页信息检索类型图:信息检索直接答案(数据、事实)间接答案(文献线索)参考性工具书检索性工具书文献检索数据检索事实检索概念检索第5页/共69页 信息检索的意义 信息与现代科技的发展 现代科技发展特点:高速化、综合化、专业化。信息检索意义 信息量急剧增长。信息的使用寿命缩短。充分利用信息资源,避免重复劳动。为人们更新知识、实现终身学习提供门径。第6页/共69页检索系统的著录 检索系统是有序的信息集合。每个信息都需要经过加工,把信息的特征著录即描述下来,成为一个条目,亦称记录。将一个个记录按一定序列编排起来便组成一个可供检索的系统。*按著录方式划分如下:目录 题录或索引 文摘 全
4、文第7页/共69页目录(CatalogueCatalogue)含义:目录是对文献的外表特征的著录。它通常以完整出版物(如一本书或一种刊或一个会议录的名称)作为著录的基本单位来报道和记录文献。著录内容:文献名称、著者、出版项与馆藏信息等内容。第8页/共69页按职能划分目录种类:出版发行目录 馆藏目录:按检索标目划分为 书名目录(Title Catalogue)著者目录(Author Catalogue)分类目录(Classified Catalogue)主题目录(Subject Catalogue)联合目录 资料来源目录,如IM、CA、BA目录(CatalogueCatalogue)第9页/共6
5、9页题录(TitleTitle)或索引(IndexIndex)概念:其一,是指检索工具,它揭示文献的外表特征和内容特征,即著录文献是以一个完整出版物的某一部分(如书的章节或刊中一篇论文题目)为著录单位。其二,是指检索途径(附录式索引),如,分类索引、主题索引、生物体索引、著者索引等。著录内容:论文题目、著者、文献出处(刊名、发表年月、卷、期、页码)及文种等。如,中目、IM、CNKI免费题录等。第10页/共69页文摘(Abstract,Excerpta,DigestAbstract,Excerpta,Digest)含义:文摘是指对文献内容选择重要部分以简练的形式作为摘要,并按一定的原则和方法编排
6、而成的一种检索工具。著录内容:同 文摘。如,中国医学文摘,中国药学文摘,中国生物学文摘,CA,BA,CBM,CMCC,MEDLINE/PubMed等。第11页/共69页根据摘要详简程度,文摘可分为:指示性文摘指示性文摘(简介,Indicative Abstract)是以最简短的语言,概略指示原文的研究对象、内容范围、研究目的及方法,一般在50-150个字。报道性文摘报道性文摘(Informative Abstract)内容详细,反映文献的中心内容、观点、数据及结论,一般在200300,500,1000字左右。文摘(Abstract,Excerpta,DigestAbstract,Excerpt
7、a,Digest)第12页/共69页全文(Full-textFull-text)全文检索是指以文献所含的全部信息作为检索内容的文献检索。中文:CNKI数据库、万方数据库、维普数据库外文:Sciencedirect数据库 wiley数据库 blackwell数据库 EBSCO数据库、Ovid系统 Springer电子全文期刊 Nature电子全文期刊 第13页/共69页检索系统的构成手工检索系统计算机(网络)检索系统篇名字段文摘字段基本索引字段叙词字段自由标引字段辅助索引字段第14页/共69页记录有多个字段组成记录,使数据库的信息单元文档数据库中一部分记录的集合,也使数据库的结构。一个数据库至少
8、包括一个顺排文档和一个倒排文档。检索语言检索系统的构成第15页/共69页顺排档:数据库中的记录往往是按时间顺序线性排列的,每条记录依次编有顺序号,这种文档称为顺排文档。例排档:是将顺排文档记录中的可检字段抽出,按字顺排列而成的字典文档称倒排文档。第16页/共69页顺排文档倒排文档(主题)001 汽车尾气中的 铅对环境的污染 主题词:汽车、尾气、铅、环境污染002 汽车的维修 主题词:汽车、维修003 汽车与运输 主题词:汽车、运输004 汽车噪音对环境的污染 主题词:汽车、噪音、环境污染环境污染 001 004汽车 001 002 003 004铅 001维修 002尾气 001运输 003噪
9、音 004环境污染汽车001004001002003004001004第17页/共69页数据库、文档、记录、字段之间的关系数据库 文档1 (顺排档)文档2 (倒排档、索引)文档n (倒排档)记录1 记录2 记录n 字段1 字段2 字段n 子字段1 子字段2 子字段n第18页/共69页Internet用户的增长(1994-2003)万人第19页/共69页用户获取信息的主要途径第20页/共69页电子资源的产生与发展:数据库增长情况,1975-1999数据库:301-11,681,增长39倍数据库生产者:200-3,674,增长18倍vendor:105-2,454,增长23倍数据条数:52mill
10、ion-12.86billionrecords,增长242倍(MarthaE.Williams)第21页/共69页电子资源(electronicresources),传统上也称为电子出版物,指一切以电子方式或机读方式生产和发行的信息资源。电子资源中的信息,包括文字、图片、声音、动态图像等,都是以数字代码方式存储在磁带、磁盘、光盘等介质上,通过计算机输出设备和网络传送出去,最终显示在用户的计算机终端上。网络资源在电子资源中占的比例越来越大。第22页/共69页电子资源的概念与类型参考数据库全文数据库事实数据库电子期刊电子图书电子报纸其它:FTP,新闻组、搜索引擎、各种网站第23页/共69页全文数据
11、库full-textdatabase,即收录有原始文献全文的数据库,以期刊论文、会议论文、政府出版物、各类统计报告、法律条文和案例、商业信息等为主按学科收录,综合性强,范围广第24页/共69页第25页/共69页事实数据库factualdatabases,指包含大量数据、事实的数据库,分为数值数据库、指南数据库、术语数据库等,相当于印刷型文献中的字典、辞典、手册、年鉴、百科全书、组织机构指南、人名录、公式与数表、图册(集)等。第26页/共69页第27页/共69页电子期刊electronicjournals或简称e-journal,包括:与纸本期刊并行的电子期刊,如著名的科学(Science)、自
12、然(Nature)、中国电子期刊杂志社的期刊等;纯电子期刊,如数字图书馆杂志(D-LibMagazine)周期短,可检索,服务功能多第28页/共69页第29页/共69页电子图书与报纸Electronicbook或e-bookElectronicnewspaper第30页/共69页第31页/共69页电子资源的产生与发展计算机检索主要经历了以下四个阶段:脱机检索阶段 联机检索阶段 光盘检索阶段 网络化检索阶段第32页/共69页脱机检索阶段脱机检索(OfflineRetrieval):即批处理检索(50年代-60年代)检索要求检索系统检索结果检索人员检索策略成批检索用户三点不足:1.地理上的障碍,指
13、用户与检索人员距离较远时,不便于检索要求的表达,也不便于检索结果的获取。2.时间上的迟滞,指检索人员定期检索,用户不能及时获取所需信息。3.封闭式的检索,指检索策略一经检索人员输入系统就不能更改,更不能依据机检应答来修改检索式第33页/共69页联机检索阶段联机检索(OnlineRetrieval):(60年代-80年代)终端设备通讯网络检索系统运行检索软件用户检索策略“人机对话”获取所需信息三个时期:60年代对联机信息检索进行了研究开发试验;70年代末进入了联机检索地区性应用阶段;80年代以后,随着空间技术和远程通讯技术的发展,使计算机检索进入信息计算机卫星通信三维一体的新阶段,即以信息、文献
14、不受地区、国家限制而真正实现全世界资源共享为目的的国际联机信息检索阶段。第34页/共69页著名的国际联机检索系统有美国的DIALOG系统、ORBIT系统、BRS系统以及MEDLARS系统,还有欧洲的ESA/IRS系统、英国的BLAESE系统等。这些系统很快发展成为国际性情报检索系统,数据库种类及其检索存储记录都在迅速增加,如:美国的Dialog系统,1984年就有200多个数据库,其中包括美国的医学索引、荷兰医学文摘、美国生物学文摘、美国化学文摘等,如今此联机检索系统仍然是世界上最有影响的联机检索系统。第35页/共69页第36页/共69页光盘检索阶段1983年,出现了一种新的存储器,CD-RO
15、M光盘。光盘检索具有储量极大而体积微小,要求设备简单,可随地安装,使用方便、易于操作,检索费用低(不需要昂贵的联机检索通讯费用),因可随时修改检索策略而具有很高的查全率和查准率等优点,因而至今仍被世界各地广泛应用。第37页/共69页国内外最常用的医学光盘数据库有:MEDLINE光盘BiologicalAbstracts光盘BiologicalAbstracts/RRM光盘ExcerptaMedica光盘ChemicalAbstractsIndex光盘LifeSciencesCollection光盘(生命科学数据库)ScienceCitationIndex(SCI)光盘(科学引文索引)全国报刊索
16、引光盘CAJ(中国学术期刊)第38页/共69页网络化检索阶段目前,90%的国际联机检索系统都已进入INTERNET,世界上许多国家(包括中国)都从INTERNET上获取重要的科技和经济信息资源,网络传输速度不断提高,已成为人们进行全球范围的合作、信息交流与资源共享的不可替代的通讯交流方式。第39页/共69页第40页/共69页顺排档:数据库中的记录往往是按时间顺序线性排列的,每条记录依次编有顺序号,这种文档称为顺排文档。例排档:是将顺排文档记录中的可检字段抽出,按字顺排列而成的字典文档称倒排文档。第41页/共69页顺排文档倒排文档(主题)001 汽车尾气中的 铅对环境的污染 主题词:汽车、尾气、
17、铅、环境污染002 汽车的维修 主题词:汽车、维修003 汽车与运输 主题词:汽车、运输004 汽车噪音对环境的污染 主题词:汽车、噪音、环境污染环境污染 001 004汽车 001 002 003 004铅 001维修 002尾气 001运输 003噪音 004环境污染汽车001004001002003004001004第42页/共69页数据库、文档、记录、字段之间的关系数据库 文档1 (顺排档)文档2 (倒排档、索引)文档n (倒排档)记录1 记录2 记录n 字段1 字段2 字段n 子字段1 子字段2 子字段n第43页/共69页第44页/共69页第45页/共69页 信息检索语言 检索语言概
18、念 检索的基本原理:是将用户的检索提问词与数据库文献记录中的标引词进行对比,当提问词与标引词匹配一致时,即为命中,检索成功。检索语言:是为沟通文献标引与文献检索而编制的人工语言,也是连接信息存储和检索两个过程中标引人员与检索人员双方思路的渠道,是用于文献标引和检索提问的约定语言。第46页/共69页检索语言(检索标识,Retrieval Retrieval LanguageLanguage)检索语言是一种在文献存储和检索过程中共同使用的语言。它的用途是描述文献特征,表达情报提问,并使两者能相互沟通。可分为规范化语言(受控语言)和非规范化语言(自然语言)。第47页/共69页规范化语言:是指对文献检
19、索用语的概念加以人工控制和规范,把检索语言中各种同义词、多义词、近义词、同形异义词等进行规范化处理,使每个检索词只能表达一个概念。例:IM的Subject Index;CA的CS、GS;中目的分类目次非规范化语言:它对检索用语中的各种同义词、多义词、近义词、同形异义词等不加处理,所以也叫自然语言,如关键词。例:CAKeyword Index检索语言第48页/共69页检索语言的类型划分:第49页/共69页 分类语言 是以学科体系为基础,用号码作为概念标识,按分类编排的检索语言。国内一般高校图书馆使用的分类语言表是中国图书馆图书分类法(第四版),简称中图法,是我国图书馆和情报单位普遍使用的一部综合
20、性的分类法。第50页/共69页 主题语言 主题语言是以语词作为概念标识,按字顺编排的检索语言。主题语言包括:标题词语言最早使用的一种主题语言。它以规范化的自然语义作为标识,来表达文献涉及的主题概念,并将全部标识按字母顺序排列。表达主题的词语称为标题词。单元词语言是从文献内容中抽选出来的最基本的词汇,将代表最一般、最基本的、不可再分割的概念单元的词作为单独标引文献的单位。叙词语言从自然语言中优选出来并经过规范化处理的名词术语。叙词语言是采用表示单元概念的规范化语词的组配来对文献内容主题进行描述的检索语言,也是目前使用最广泛的主题语言。关键词语言直接从文献题名、文摘或正文中抽取出来的未经规范化处理
21、的词。是一种用自然语言做标识的检索语言。第51页/共69页文献信息检索步骤 分析检索课题,明确检索要求 选择检索工具,选择检索途径 确定检索标识,确定检索运算 构筑检索提问,实施检索操作 获取初步信息,调整检索策略 获得满意结果。第52页/共69页用户评价结果输出具体操作制定检索表达式检索结果选择检索途径确定检索工具选择检索系统主题分析需求课题用户第53页/共69页文献信息需求主攻型需要解决某一关键问题,只要求检出某一主题、某一方面的文献信息资料。普查型需要全面系统收集某一个主题范围的文献资料。探索型对选择新课题与应用新技术的科技人员,需要掌握动态。第54页/共69页分析检索课题,确定检索词使
22、用本学科国际上通用的、国外文献出现的术语。分析出检索课题的内容实质,找出隐性的主题概念。以课题核心概念为主,排除无关概念,把重复概念进行归并。从相应的规范词表中选定所需要的检索词第55页/共69页选择检索系统网络数据库中文:CNKI数据库、万方数据库、维普数据库外文:pubmed、Highwire Sciencedirect数据库 wiley数据库 blackwell数据库 EBSCO数据库、Ovid系统 Springer电子全文期刊 Nature电子全文期刊 第56页/共69页逻辑算符(Logical OperatorLogical Operator)逻辑算符也称布尔算符(Boolean),
23、该运算符由英国数学家乔治布尔提出,用来表示两个检索词之间的逻辑关系,常用的有三种:与(AND)、或(OR)、非(NOT),如果一个检索式中含有多个逻辑算符,则它们的执行顺序将是“NOT”、“AND”和“OR”,需要先执行的部分可用括号标出,如(A+B)*C 第57页/共69页常用文献检索算符逻辑“与”and/*and/*&检索式“A and BA and B”表示文献中同时包含检索词A A和检索词B B的文献才是命中文献。如:查找“胰岛素治疗糖尿病”的检索式为 insulin(insulin(胰岛素)andand diabetes diabetes(糖尿病)。A AND B第58页/共69页逻
24、辑“或”OR/+OR/+检索式“A or B”表示包含检索词A的文献或者包含检索词B的文献或者同时包含检索词A和B的文献为命中文献。如:查找“肿瘤”的检索式为cancer(癌)oror tumor(瘤)oror carcinoma(癌)oror neoplasm(新生物)。A OR B常用文献检索算符第59页/共69页逻辑“非”NOT/-!检索式“A not B”表示包含检索词A同时不包含检索词B的文献为命中文献。如:查“动物的乙肝病毒(不要人的)”的文献的检索式为hepatitis B virus(乙肝病毒)notnot human(人类)。A NOT B常用文献检索算符第60页/共69页邻
25、近度算符 With 检索式“A with B”表示检索词A和检索词B不仅要同时出现在一条记录中,还要同时出现在一个字段里的文献才是命中文献.如:“drug withwith abuse”检索出的是同一个字段中同时出现这两个词的记录。常用文献检索算符第61页/共69页邻近度算符NearNear 检索式“A near B”表示检索词A和检索词B不仅要同时出现在一条记录的同一字段里,还必须在同一个子字段(一句话)里的文献才是命中文献。如:drug nearnear abuse检索出的是同一句话中同时出现这两个词的记录。(也可说成是两个词之间没有句号的文献)。常用文献检索算符第62页/共69页邻近度算
26、符Near#Near#其中“#”代表一个常数,检索式“A near#B”表示检索词A和检索词B之间有0#个单词的文献(A和B在同一记录、同一字段里)。在near后加一个数字,指定两个词的邻近程度,且不论语序 。如:information near2 retrieval表示检索词 information和retrieval同时出现在一个句子中,且这两个检索词之间的单词数不超过两个的那些文献为命中文献。常用文献检索算符第63页/共69页截词检索:截词是指在检索词的合适位置进行截断,然后使用截词符进行处理。特点是可节省输入的字符,又可预防漏检,提高查全率。截词符多采用通配符“?”或者“*”,可以用它
27、代表多个字符。例如:热点*,可以代表:热点问题、热点报道、热点新闻等。在搜索引擎中,截词检索多为前方一致检索。有的搜索引擎支持任意位置的通配符检索。注意有的数据库有其本身特定的通配符号,需要阅读其“帮助”得到准确的符号。常用文献检索算符第64页/共69页检索字段符,限定检索字段也就是指定检索词在记录中出现的字段,这是提高检索效率的又一措施。可分为两类:后缀式(Siffix)和前缀式(Prefix)。前者对应基本索引,反映文献的主题内容;后者对应辅助索引,反映文献的外部特征。常用文献检索算符第65页/共69页后缀式(Siffix)检索词 字段标识 第66页/共69页前缀式(Siffix)字段标识=检索词第67页/共69页注意:每个搜索引擎可以使用的布尔运算符是不同的,有的只允许使用大写的运算符,有的大小写通用,有的可支持符号操作,有的不支持或支持其中的一个等等。不同的逻辑算符的运算次序,在不同的检索系统中有不同的规定。在有括号的情况下,括号内的逻辑运算先执行。检索时需事先了解检索系统的规定,避免逻辑运算次序处理不当而造成错误的检索结果。同一个布尔逻辑提问式,不同的运算次序会有不同的检索结果。第68页/共69页谢谢您的观看!第69页/共69页