《知识发现与信息检索.ppt》由会员分享,可在线阅读,更多相关《知识发现与信息检索.ppt(132页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、知识发现与信息检索知识发现与信息检索 张小云张小云 20042004年年9 9月月1 1日日Tel:7885491 Email:Tel:7885491 Email:cn课程目标面对日益增长的Internet的信息和文献资源,如何通过一种有效的方法,以最少的时间与精力来获取自己所要的信息,并综合成章。这就是本课程所希望解决的问题。2分三部分:1.1.知识发现知识发现2.2.信息检索基本概念信息检索基本概念3.3.信息检索信息检索第一部分:知识发现第一部分:知识发现4 l知识经济时代,知识、知识创新与知识经济时代,知识、知识创新与知识知识资源利用问题资源利用问题引起社会的高度关注。引起社会的高度关
2、注。l 知识知识成为经济社会发展的首要资源,是成为经济社会发展的首要资源,是衡量国家能力的主要因素。知识作为一衡量国家能力的主要因素。知识作为一种创造财富的战略资源,随着现代信息种创造财富的战略资源,随着现代信息技术和国家信息化进程的迅速发展,以技术和国家信息化进程的迅速发展,以及科技、文化的进步在经济发展竞争中及科技、文化的进步在经济发展竞争中作用日益增强,人们对获取知识的能力作用日益增强,人们对获取知识的能力和和利用知识的水平利用知识的水平得到了空前的提高得到了空前的提高。2022/12/2951知识发现知识发现 5 伟伟大大的的科科学学家家牛牛顿顿说说过过:“假假如如说说我我比比别别人人
3、看看的的略略微微远远些些,那那是是因因为为我我站在巨人的肩膀上。站在巨人的肩膀上。”2022/12/2961知识发现知识发现 6塞塞缪缪尔尔约约翰翰逊逊(Samuel Samuel JohnsonJohnson)说说:知知识分成两类:识分成两类:一类是我们要掌握的学科知识;一类是我们要掌握的学科知识;另另一一类类是是要要知知道道在在哪哪儿儿可可以以找找到到有有关关知知识的信息。识的信息。Knowledge is of two kinds.We know a subject ourselves,or we know where we can find information upon it.1知
4、识发现知识发现7 知识资源利用创新知识资源利用创新知识资源利用创新知识资源利用创新必然成为知识资源的高度共享必然成为知识资源的高度共享必然成为知识资源的高度共享必然成为知识资源的高度共享乃至整个国家信息化发展战略的重要组成部分。乃至整个国家信息化发展战略的重要组成部分。乃至整个国家信息化发展战略的重要组成部分。乃至整个国家信息化发展战略的重要组成部分。美国和西方发达国家均视其知识为国家发展的重美国和西方发达国家均视其知识为国家发展的重美国和西方发达国家均视其知识为国家发展的重美国和西方发达国家均视其知识为国家发展的重要战略资源。要战略资源。要战略资源。要战略资源。我国将我国将我国将我国将“发展
5、国家知识与创新体系发展国家知识与创新体系发展国家知识与创新体系发展国家知识与创新体系”、“强化信息资强化信息资强化信息资强化信息资源共享源共享源共享源共享”作为基本国策,充分体现了这一战略资源作为基本国策,充分体现了这一战略资源作为基本国策,充分体现了这一战略资源作为基本国策,充分体现了这一战略资源及其知识资源共享的重要战略意义。及其知识资源共享的重要战略意义。及其知识资源共享的重要战略意义。及其知识资源共享的重要战略意义。必须大力提高人们获取与利用知识的能力,在更必须大力提高人们获取与利用知识的能力,在更必须大力提高人们获取与利用知识的能力,在更必须大力提高人们获取与利用知识的能力,在更大程
6、度上、更大规模上、更大范围内实现知识资大程度上、更大规模上、更大范围内实现知识资大程度上、更大规模上、更大范围内实现知识资大程度上、更大规模上、更大范围内实现知识资源的高度共享,充分满足人们在知识创新过程中源的高度共享,充分满足人们在知识创新过程中源的高度共享,充分满足人们在知识创新过程中源的高度共享,充分满足人们在知识创新过程中对知识的需求。对知识的需求。对知识的需求。对知识的需求。2022/12/2981知识发现知识发现 8 传传统统文文献献信信息息资资源源的的数数量量庞庞大大,类类型型多多样样,但但开开发发利利用用是是有有限限的的。传统的文献资源共享主要是信息物质载体的共享,即文献的共享
7、。这种共享由于受共享交易成本的限制,只能是在一定时间、空间范围内有限的共享。2022/12/2991知识发现知识发现 9 现现代代计计算算机机技技术术、网网络络技技术术的的发发展展,改改变变了了人人们们获获取取、利利用用和和交交流流知知识识的的方方式式,打打破破了了知知识识信信息息传传递递的的时时空空限限制制,使使知知识识信信息息的的交交流流、获获取取形形式式更更为为生生动动和和直直观观,为为知知识识信信息息服服务务提提供供了了崭崭新新的的信信息息环环境境,开开辟辟了了知知识识资资源源无无限限共共享的新天地。享的新天地。2022/12/29101知识发现知识发现 10 网络信息技术加快了知识的
8、传送,拓展了知识领域的广度。网络环境下信息和知识服务已不再局限于一个固定建筑实体形态,其服务边界不断扩大并日益模糊化,知识提供与传播形式呈现多向性、共享性、交互性、实时性等特点,社会知识需求的复杂性日益增加,查询、利用知识信息的手段趋于计算机化、网络化。2022/12/29111知识发现知识发现 11 知识的获得、组织与传播,通过异地共享和远程传播越来越显示出无比的优势。基于计算机网络的快速、虚拟知识空间,可构建一个具有扩展和辐射能力的开放化、立体化的知识资源共享保障服务系统。在这种现代技术网络环境之中,可最大限度地满足人们对知识信息的无时空障碍的知识需求,实现知识资源共享所应达到的一种高级境
9、界。2022/12/29121知识发现知识发现 12 为为了了使使人人们们进进入入网网络络环环境境下下知知识识资资源源高高度度共共享享的的境境界界,多多年年来来国国内内外外专专家家、学学者者和和企企业业在在知知识识资资源源共共享享方方式式的的设设计计和和服服务务技技术术的的实实现现上上不不断断改改革革创创新新,陆陆续续推推出出了了不不少少新新的的知知识识产产品品和和服服务务技术与模式:技术与模式:2022/12/29131知识发现知识发现 13 知识挖掘、个性化服务、知识可视化等。“知识服务”理念,成为当今知识资源共享模式设计的核心指导思想。在这种共享模式之下,人们从知识资源中获取的不仅仅是一
10、条条信息,而是一个个针对特定问题的解决方案,即知识。这样的知识资源共享方式,已经成为现代知识服务业所追求实现的高级境界。*2022/12/29141知识发现知识发现 14 基于“知识元”水平上的全文关联的、数据结构标准化的、人与资源可实时以多媒体信息交互的知识服务平台,无论数据库的物理位置何在,无论数据库专业性质和具体结构如何,都可使其在知识信息的内容上跨越数据库界限而浑然成为一体。人们在这个平台上可以用平台的各种个性化服务手段,从所有数据库中任意获取所需要的知识信息,并可在人与人的交流互动过程中得到新的知识。2022/12/29151知识发现知识发现 15第二部分第二部分:信息检索基本概念信
11、息检索基本概念16信息信息知识知识文献2信息检索基本概念信息检索基本概念172 21 1 信息信息定义物质存在的一种方式,一般指数据、消息中所包含的意义。可以使消息中所描述的事件的不定性减少。(*注:中国情报与文献工作词汇基本术语(GB48944-85)有关信息的定义。2信息检索基本概念信息检索基本概念18信信息息的的概概念念十十分分广广泛泛,围围绕绕信信息息而而出出现现的的信信息息资资源源、信信息息技技术术、信信息息系系统统、信信息息产产业业、信信息息化化社社会会和和社社会会信信息息化化等等相相关关术术语语不不胜胜枚枚举举。那那么么,什什么么是是信信息息,至至今今仍仍无无确确切切、统统一一的
12、的定定义义,站站在在不不同同的的角角度度旧旧有有不同的理解或解释。不同的理解或解释。2信息检索基本概念信息检索基本概念19 信信息息既既不不是是物物质质,也也不不是是能能量量,而而是是依依附附于于自自然然界界客客观观事事物物而而存存在在,只只要要有有物物质质存存在在,就有表征其属性的信息。就有表征其属性的信息。2022/12/29202信息检索基本概念信息检索基本概念20信信息息的的概概念念,实实际际上上就就是是客客观观事事物物运运动动状状态态、时时空空特特征征、能能量量大大小小、质质料料系系统统特特征征、相相互互联联系系方方式式等等一一切切反反映映事事物物客客观观属属性性的的总总称称。从从这
13、这种种意意义义上上看看,信信息息比比客客观观事事物物的的属属性性更更具具一一般般性性与与普普遍遍性性。2022/12/29212信息检索基本概念信息检索基本概念21 信信息息概概念念的的实实质质在在于于它它以以某某种种编编码码形形式式储储存存或或传传输输于于某某种种介介质质之之中中,如如储储存存在在书书本本、纸纸张张上上的的文文字字信信息息,记记录录在在唱唱片片、录录音音带带上上的的声声音音信信息息,印印制制在在画画报报、照照片片、录录象象带带上上的的图图像像(形形)信信息息,计计算算机机系系统统种种的的信信息息系系统统各各种种数数字字、数数据信息等。据信息等。2022/12/29222信息检
14、索基本概念信息检索基本概念22 例子:据说上古时期,诺亚的方舟在洪水中飘荡许久,当放出的飞鸽衔回一束橄榄,意味着带回了洪水已退的信息。2022/12/29232信息检索基本概念信息检索基本概念23 从自然界角度看,表征物质的属性:地从自然界角度看,表征物质的属性:地球昼夜的变化是一种信息,它反映出地球昼夜的变化是一种信息,它反映出地球绕太阳自转的运动特性和状态;山的球绕太阳自转的运动特性和状态;山的高度是一种信息,它反映出山的空间特高度是一种信息,它反映出山的空间特性;树干的年轮是一种住处它反映了树性;树干的年轮是一种住处它反映了树木成长的时间特性木成长的时间特性树龄等等。树龄等等。2022/
15、12/29242信息检索基本概念信息检索基本概念241 1)按信息的加工程度划分)按信息的加工程度划分l l零零次次信信息息资资源源指指尚尚未未被被记记录录下下来来,只只是是通通过过口口头头携携带带和和传传播播的的信信息息资资源源。零零次次信信息息资资源源的的出出现现和和传传递递带带有有极极大大的偶然性。其特点是鲜活、生命力旺盛。的偶然性。其特点是鲜活、生命力旺盛。l l一一次次信信息息资资源源 指指经经加加工工或或粗粗略略加加工工的的原原始始信信息息资资源源,如如正正在在研研究究或或创创造造过过程程中中产产生生的的信信息息,包包括括会会议议记记录录、论论文文报报告告、统统计计报报表表、专专利
16、利等等。其其特特点点是是比比较较零零散散,系系统统性性不不强强,半包括所有的主要内容。半包括所有的主要内容。l l二二次次信信息息资资源源指指在在一一次次信信息息资资源源基基础础上上加加工工整整理理而而成成的的信信息息资资源源,如如文文摘摘、索索引引、目目录录等等,它它们们是是引引导导和和使使用用一次信息资源必不可少的工具。一次信息资源必不可少的工具。l l三三次次信信息息资资源源通通过过二二次次信信息息资资源源提提供供的的线线索索,对对某某范范围围内内的的一一次次文文献献进进行行分分析析、研研究究加加工工而而成成的的信信息息资资源源,亦亦称称三三次次文文献献,包包括括综综述述、述述评评、专专
17、题题情情报报研研究究报报告告、百百科科全全书、年鉴、指南、手册、词典等。书、年鉴、指南、手册、词典等。2022/12/29252信息检索基本概念信息检索基本概念 252 2)按信息表现形式划分)按信息表现形式划分文字信息文字信息图像信息图像信息数值数据信息数值数据信息语音信息语音信息2022/12/29262信息检索基本概念信息检索基本概念 26信息交流渠道:信息交流渠道:正式渠道:信息是指由正式组织发布并经由正式组织渠道向外传播,如官方新闻发布会、正式报告、国家统计部门发布统计信息等。非正式渠道:非正式渠道信息指从正式渠道以外获取的信息。2022/12/29272信息检索基本概念信息检索基本
18、概念272.2知识知识是是人人类类的的主主观观世世界界对对客客观观世世界界概概括括和和反反映映,是是大大量量有有组组织织的的信信息息,是是关关于于事事实实和和思思想想的的有有组组织织的的陈陈述述。提提供供某某种种经经过过思思考考的的判判断断和和某某种种实实验的结果。验的结果。2022/12/29282信息检索基本概念信息检索基本概念28知识的来源:知识的来源:第第一一类类是是直直接接源源于于产产生生信信息息的的客客观观事事物;物;第第二二类类是是通通过过信信息息载载体体或或媒媒介介(文文献献、电电视视、广广播播、他他人人等等)的的传传递递、交交流流而间接获得。而间接获得。2022/12/292
19、92信息检索基本概念信息检索基本概念29据据经经合合组组织织(OCEDOCED)出出版版的的以以知知识识为为基基础础的的经经济济报报告对知识的分类:告对知识的分类:1 1)“知知事事(Know-whatKnow-what)”,关关于于事事实实方方面面的的知知识识,可可理理解解为为Know-whenKnow-when、Know-whereKnow-where;即即在在什什么么样样的的时时间间(Know-whenKnow-when)、什什么么样样的的地地点点或或条条件件下下(Know-where)Know-where)能解决什么样的问题;能解决什么样的问题;2 2)“知知因因(Know-whyKn
20、ow-why)”,自自然然原原理理和和规规律律方方面面的的科科学学理论,知识生产是在专门研究机构如实验室和大学完成的;理论,知识生产是在专门研究机构如实验室和大学完成的;3 3)“知知道道怎怎样样做做的的知知识识(Know-howKnow-how)”,做做某某些些事事的的技技艺艺和和能能力力,称称为为技技术术情情报报和和商商业业秘秘密密,其其典典型型是是企企业业开开发发和保存于其内部的技术诀窍或专有技术;和保存于其内部的技术诀窍或专有技术;4 4)“谁谁以以及及是是怎怎样样创创造造知知识识的的(Know-whoKnow-who)”侧侧重重创创造思想、方法、手段、过程以及特点等的了解。造思想、方
21、法、手段、过程以及特点等的了解。2022/12/29302信息检索基本概念信息检索基本概念302.32.3文献文献记录有知识的一切载体。记录有知识的一切载体。权威的定义主要权威的定义主要1 1)是是文文献献情情报报术术语语国国际际标标准准(草草案案)(ISOISODIS5127DIS5127):“为为了了把把人人类类知知识识传传播播开开来来和和继继承承下下去去,人人们们用用文文字字、图图形形、符符号号、声声频频、视视频频等等手手段段将将其其记记录录下下来来,或或写写在在纸纸上上,或或晒晒在在蓝蓝图图上上,或或摄摄制制在在感感光光片片上上,或或录录到到唱唱片片上上,或或存存贮贮在在磁磁盘盘上上。
22、这这种种附附着着在在各各种种载载体体上上的的记记录录统称为文献。统称为文献。”2 2)国国标标:各各种种媒媒介介和和形形式式的的信信息息集集合合,包包括括文文字字、声声像像印印刷品、电子信息、数据库等。刷品、电子信息、数据库等。2022/12/29312信息检索基本概念信息检索基本概念311 1)按文献出版类型划分)按文献出版类型划分a a图书图书b b期刊期刊c c政府出版物政府出版物d d科技报告科技报告e e专利文献专利文献f f会议文献会议文献g g学位论文学位论文h h技术标准和规范技术标准和规范i i产品样本说明书产品样本说明书j j技术档案技术档案2022/12/29322信息检
23、索基本概念信息检索基本概念 32按文献的存储载体分:按文献的存储载体分:印刷型缩微型声像型电子型2022/12/29332信息检索基本概念信息检索基本概念 33文献的构成要素文献的构成要素:A、文献信息是文献的内容B、符号系统是信息的携带者 C、载体是符号赖以依附的“寄主”D、记录方式是将文献的符号进入载体的方法和过程2022/12/29342信息检索基本概念信息检索基本概念 342022/12/29352信息检索基本概念信息检索基本概念 传传递递运运用后用后事事物物运运动动 知知识识新新的的信信息息信信息息产生产生人脑有序化人脑有序化用于实践用于实践文文献献记记录录在在载载体体上上35知知识
24、识是是有有组组织织的的大大量量的的信信息息,获获得得知知识识有赖于获得信息有赖于获得信息;信息是知识得以形成和传播的中介,而不是知识本身,知识是经过精心研究、领会后的有用信息,是人类对信息加工处理后的产物。2022/12/29362信息检索基本概念信息检索基本概念 36第三部分:信息检索第三部分:信息检索373.13.1概述概述3.1.13.1.1信息检索概念信息检索概念信信 息息 检检 索索Information Retrieval/Access:是从任何信息集合中识别和获取所需信息的过程及其所采取的一系列方法和策略。从原理上看,它包括存储与检索检索两方面。*2022/12/29383信息检
25、索信息检索 38文献检索原理是:将检索提问标识与存贮在检索工具中文献检索原理是:将检索提问标识与存贮在检索工具中的标引标识相比较,两者一致或信息标识包含着检索提的标引标识相比较,两者一致或信息标识包含着检索提问标识,则含有该标识的信息就从检索工具中输出;问标识,则含有该标识的信息就从检索工具中输出;对信息的著录是按一定规则对信息的外表特征和内容特对信息的著录是按一定规则对信息的外表特征和内容特征加以简单明确的表述,信息的标引是对其内容按一定征加以简单明确的表述,信息的标引是对其内容按一定的分类表或主题词表给出分类号或主题词;的分类表或主题词表给出分类号或主题词;检索过程则是按同样的主题词表或分
26、类表及组配原则分检索过程则是按同样的主题词表或分类表及组配原则分析课题,形成检索提问标识,根据检索工具所提供的检析课题,形成检索提问标识,根据检索工具所提供的检索途径,从信息集合中查找与检索提问标识相符的信息索途径,从信息集合中查找与检索提问标识相符的信息特征标识的过程。(如下图)特征标识的过程。(如下图)2022/12/29393信息检索信息检索393信息检索信息检索信信息息源源信息信息的选的选择与择与收集收集信息信息特征特征标标识识语语言言检索工具检索工具匹配匹配检索式检索式提问提问检检索索结结果果数据库数据库用用户户信信息息需需求求检索检索提问提问检索提问式40What?Where?Ho
27、w?41检索是信息组织的反变换过程。信息组织的目的是将零散的信息组成一个有序的体系,检索的目的则是迅速从这个体系中搜寻所需的信息。3信息检索信息检索42信息检索分类信息检索分类1)按存储和检索的内容划分为:文献信息检索文献信息检索数据信息检索数据信息检索事实数据检索事实数据检索 ReferencebookDatabase:NumericDatabase(数字)数字)PropertyDatabase(特性)特性)Textual-numericDatabase(文本数字)文本数字)Full-textDatabase(全文)全文)TerminologicalDatabase(专业)专业)Graphi
28、cDatabase(图形)图形).*2022/12/29433信息检索信息检索43对对应应于于信信息息检检索索方方法法的的操操作作主主体体,检索方法可分为:手工检索;机器检索。3信息检索信息检索44信息检索特征:信息检索特征:1)有确定的目标;2)有一个可能的信息解的集合;3)有一定的线索(即启发信息);4)搜索过程是针对一定的目标、遵循一定的线索,不断缩小搜索范围的求解过程。2022/12/29453信息检索信息检索45从信息资源管理的角度讲,信息检索是从已存储的信息资源中检索出与用户提问相关的文献、知识、事实、数据的逻辑运算和技术操作过程的总和,以文献检索为本源。2022/12/29463
29、信息检索信息检索46也就是说,这是一种从大量集合的文献中查找出主题及其属性符合用户要求的情报过程。查找的对象不一定就是文献,有时也可能是正在研究中的项目,或正在进行某项工作的人员与机构,或图书馆的藏书目录等,但基本原理是一致的。47信息检索能力(信息技能):信息检索能力(信息技能):寻求有关新知识的能力 具体表现为以下6种技能:2022/12/29483信息检索信息检索48 1)明确任务(Task Definition):了解问题的症结,确定所需信息和目的,分清任务的轻重缓急;2)信息查询策略(Information Seeking Strategies):了解各种信息源,能够作出评价并确定优
30、先查找的次序;2022/12/29493信息检索信息检索49 3)查找和检索(Location and Access):确定信息藏址,从信息源中找出信息;4)信息利用(Use of Information):能够读懂(或听懂、理解)查出的信息,了解信息在满足需求中的特定价值;2022/12/29503信息检索信息检索50 5)信息综合(Synthesis):能够组织信息,提供信息产品(论文、报告等);6)信息评价(Evaluation):评价查找结果和解决问题的过程(效率)。2022/12/29513信息检索信息检索51 检检索索者者一一方方面面要要弄弄清清文文献献的的组组织织编编排排方方式式
31、,要要具具有有“解解构构”能能力力;另另一一方方面面要要善善于于分分析析提提问问,善善于于将将信信息息需需求求转转化化为为可可检检索索的的概概念念术术语语。这这是是一一个个双双向向分分析析和和匹匹配配的的过过程程,是是一一个个以以满满足足用用户户信信息息需需求求为为目目标标,以以用用户户提提问问为为线线索索,不不断断缩缩小小检检索索范范围围并并查找用户所需信息的过程。查找用户所需信息的过程。2022/12/29523信息检索信息检索52信息检索方法:信息检索方法:检索方法的运用离不开各种检索工具(如目录、索引、文摘等),检索技术的利用则离不开相关硬件和软件。它们共同构成了联结信息资源体系和用户
32、信息需求的纽带与桥梁。2022/12/29533信息检索信息检索53 对应于信息组织方法,信息对应于信息组织方法,信息检索方法可分为:字顺(如题名、著者等)检索方法;类号检索方法;主题检索方法;*2022/12/29543信息检索信息检索54 检索点检索点:主题主题 subjectsubject 分类分类 classificationclassification 著者著者 authorauthor 名称名称 titletitle 号码号码 code,code,coden coden .2022/12/29553信息检索信息检索55 主题途径:主题途径:是是根根据据文文献献所所论论述述的的主主题
33、题,利利用用主主题题语语言言编编制制的的主主题题索索引引而而进进行行的的信信息息检检索索。主主题题索索引引大大多多按按字字母母排排列列方方式式,因因此此,检索也要用相应的方式。检索也要用相应的方式。2022/12/29563信息检索信息检索56 分类途径(classificationclassification):是根据文献所论述的主题内容,利用分类是根据文献所论述的主题内容,利用分类语言的学科专业体系进行的检索。大多数语言的学科专业体系进行的检索。大多数检索工具都采用分类语言作为正文编排体检索工具都采用分类语言作为正文编排体系的依据,分类目次通常不采用字顺排列系的依据,分类目次通常不采用字顺
34、排列类目和检索类目,而是按照学科专业角度类目和检索类目,而是按照学科专业角度的层层逻辑划分建立分类类目体系。检索的层层逻辑划分建立分类类目体系。检索时要选择合适的分类类目。时要选择合适的分类类目。2022/12/29573信息检索信息检索57 著者途径:作作者者(Author)/团团体体著著者者(Corporate Author/AuthorsAffiliation)检检索索中中,著著者者是是一一个个广广义义的的概概念念,是是对对文文献献内内容容负负有有责责任任的的作作者者、编编者者、译译者者等等,可可以以是是个个人人、团团体体、机机构构、组组织织,甚甚至至还还包包括括著著者者的的单单位位。通
35、通过过著著者者途途径径进进行行检检索索,主主要要可可利利用用著著者者索索引引。所所有有著著者者索索引引都都采采用用字字顺顺排排列列方方式式,如如果果著著者者是是个个人人,就就以以个个人人姓姓名名字字顺顺排排列列,如如果果著著者者是是机机构构,就以机构名称字顺排列。因此,检索也应该按相应的途径就以机构名称字顺排列。因此,检索也应该按相应的途径。2022/12/29583信息检索信息检索58 题名途径(Title):检索中,文献题名是一个广泛的概念,包括文献篇名、图书书名、期刊刊名。常见的题名索引主要有篇名索引、书名索引、刊名索引等。题名索引通常按字顺排检方式,因此,检索也应该采取相应的途径。20
36、22/12/29593信息检索信息检索59 序号途径:许许多多文文献献除除普普通通外外表表特特征征外外,还还具具有有序序号号特特征征,如如,专专利利文文献献有有专专利利号号、标标准准文文献献有有标标准准号号、馆馆藏文献有索书号。藏文献有索书号。序序号号索索引引一一般般按按照照文文献献序序号号的的大大小小顺顺序序排排列列,如如文文献献序序号号纯纯粹粹由由数数字字组组成成,就就按按数数字字大大小小生生序序排排列列,如如果果序序号号包包含含数数字字和和字字母母,就就按按数数字字大大小小和和字字母母顺顺序序升升序序排排列列。如如果果前前面面是是字字母母后后面面是是数数字字混混合合组组成成的的序序号号,
37、就就先先按按字字母母顺顺序序排排列列,字字母母相相同同,再再按按后后面面的的数数字字大大小小排排列列。因因此此,序序号号检检索索也应按照同样方法。也应按照同样方法。2022/12/29603信息检索信息检索60直检法:专业核心期刊跟踪常规法:顺查法,倒查法,抽查法追溯法:参考文献,引用目录综合法:分段法,循环法,交替法3信息检索信息检索61u常用法常用法顺查法:顺查法:从远及近查,用于了解某一事物发展的全过程,倒倒查法:查法:由近及远查,重点为近期抽查法:抽查法:查找某一段时间的文献3信息检索信息检索62 检索词检索词/语言语言:Searching Language&ThesaurusSear
38、ching Language&Thesaurus描述检索系统中信息特征与表达用户信息提问的一种专门描述检索系统中信息特征与表达用户信息提问的一种专门语言,语言,是为沟通文献信息用户和文献信息之间的语言,理论上讲,是用于文献标引和检索提问的约定语言。非规范词非规范词(非受控词非受控词 自由词自由词)uncontrolled,free-uncontrolled,free-term/term/自然语言自然语言 natural Language natural Language F规范词规范词(受控词受控词)controlled/controlled/人工语言人工语言 Artificial Langu
39、age Artificial Language 主题词表主题词表2022/12/29633信息检索信息检索63 按照表达文献主题概念的语词形式,有分类语言和主题语言。描述文献信息内容特征的语言描述文献信息内容特征的语言:标题词语言标题词语言 Subject HeadingSubject Heading单元词语言单元词语言 UnitermUniterm叙词语言叙词语言 DescriptorDescriptor关键词语言关键词语言 KeywordKeyword分类语言分类语言 2022/12/29643信息检索信息检索64 例如规定:aircraft 表示“飞机”而不用airplane;plane
40、;aeroplane。作到文献存储和检索的一致性。这些规范化词的集合构成了词表。2022/12/29653信息检索信息检索65检索效果检索效果F查全率查全率 R(Recall ratio)R(Recall ratio)F R=R=检出的相关文献量检出的相关文献量/检索系统中相关文献总量检索系统中相关文献总量*100%*100%F查准率查准率 P(Precision ratio)P(Precision ratio)F P=P=检出的相关文献量检出的相关文献量/检出的文献总量检出的文献总量*100%*100%3信息检索信息检索66检索方式检索方式 (1)(1)命令检索命令检索(command se
41、arch)command search)算符算符(operator)operator)检索式检索式(statement formula)statement formula)(2)(2)菜单检索菜单检索(menu search)menu search)提示提示 选项选项 填空填空2022/12/29673信息检索信息检索 67 检索技术检索技术 (1)(1)常用算符常用算符 F 逻辑算符逻辑算符 (booleanboolean operator)operator)2022/12/29683信息检索信息检索68 常用的布尔逻辑算符有三种常用的布尔逻辑算符有三种:分别是逻辑或分别是逻辑或OR,+逻辑
42、与逻辑与AND,*,+*,+逻辑非逻辑非NOT,-。2022/12/29693信息检索信息检索69 (1)逻辑或“OR”逻辑或(A OR B)检索出凡含有检索词A或者含有检索词B或者同时含有检索词A和B的信息资源。逻辑或“OR”可以扩大信息的检索范围,使用它相当于增加检索词主题的同义词与近义词,能提高检索的查全率。*E 概念大小、关系2022/12/29703信息检索信息检索70 (2)逻辑与“AND”逻辑与(A AND B)检索出同时含有检索词A和检索词B的信息。如果A和B无关,则没有命中文献,Q=0;如果A和B有一定相关性,则有MQ0,或NQ0;这表明,逻辑与“AND”可以缩小信息的检索范
43、围,提高检索的查准率。*t2022/12/29713信息检索信息检索71(3)逻辑非“NOT”逻逻辑辑非非(A A NOT NOT B B)检检索索出出含含有有检检索索词词A A而而不不含含有有检检索索词词B B的信息资源。的信息资源。如果如果A A与与B B无关,则无关,则Q=MQ=M;如果如果A A与与B B有一定相关性,则有一定相关性,则Q QM M;如如果果A A与与B B 密密切切相相关关,则则当当M MN N时时,Q=M-NQ=M-N,当当M MN N时时,Q=0Q=0;因因此此,逻逻辑辑非非“NOT”NOT”可可以以用用来来排排除除不不希希望望出出现现的的检检索索词词,它它与与逻
44、逻辑辑与与“AND”AND”的的作作用用类类似似,能能够够缩缩小小命命中中信信息的范围,提高检索的查准率。息的范围,提高检索的查准率。*W W 2022/12/29723信息检索信息检索72信息检索过程和检索策略信息检索过程和检索策略无论是作为一种方法还是一种技术,信息检索都表现为一种过程,该过程始于用户的信息提问而终于检索结果的输出。检检索索策策略略是针对一定的检索目标,围绕信息检索过程而制订的具体实施计划或实施方案,其实质是对检索过程的科学规划,与检索方法和检索技术相比较,检索策略更为具体,更为实用,更富于可操作性。3.信息检索信息检索733信息检索信息检索开始开始提问提问弄清(明确)问题
45、的实质弄清(明确)问题的实质提问的分析综合处理提问的分析综合处理用情报检索语言表达提问,编制提问检索式和检索提问式用情报检索语言表达提问,编制提问检索式和检索提问式切题文献和信息的检索形成检索结果显示检索结果分析结果与提问的相关性结果不相关不相关相关相关74维药老鼠瓜抗风湿性关节炎有效部位的新维药老鼠瓜抗风湿性关节炎有效部位的新药研究药研究 The study concerning with Capparis spinosa L.as a new medicine 75检索词检索词#1老鼠瓜老鼠瓜或或槌果藤槌果藤或或野西瓜野西瓜Capparis spinosaCapparis spinosa
46、L.L.#2#2 类风湿性关节炎类风湿性关节炎 Rheumatoid arthritis or RARheumatoid arthritis or RA检索式检索式#1*#2#1*#276聚聚合合物物光光漂漂白白及及其其在在光光波波导导器器件件制制备备技技术术中中的的研究研究Studyonphotobleachingofpolymeranditsapplicationinfabricatingofopticalwaveguides77检索策略:检索词:检索词:#1光漂白photobleaching;#2聚合物polymer(PMMA/DR1、Poly-3BCMU和 polydiacetylen
47、e);#3波导光栅waveguide grating;#4、非线性光学 the third order nonlinearities;#5单光束扫描法z-scan;#6、双光束扫描法two beam scan technique#7非线性定向耦合器nonlinear directional coupler;#8 光栅耦合器chirped grating coupler;检索式:#1*(#2+#3+#4+#5+#6+#7+#8)78精氨酸基因工程菌中试发酵工艺研究检索词:检索词:1.精氨酸 arginine 2.基因工程菌 gene-engineering strain 3.黄色短杆菌 brev
48、ibacterium flavum 4.大肠杆菌 escherichia coli 5.合成 component or synthesis or synthetiae 6.发酵 fermentation检索式:检索式:1*(2+3+4+5+6)79计算机检索的特点计算机检索的特点信息量大信息量大信息及时信息及时检索功能强检索功能强检索效率高检索效率高3信息检索信息检索80确定检索点/词检索课题用户 主题分析选择检索系统 选择数据库制定检索式计算机处理结果检验 词表NY81数据库检索数据库检索网络资源检索网络资源检索3信息检索信息检索823.23.2数据库检索数据库检索 3.2.13.2.1数据
49、库的基本概念数据库的基本概念 数据库的定义数据库的定义:至少由一种文档组成至少由一种文档组成,能满足特定目能满足特定目的的或特定数据处理系统需要的数据的的或特定数据处理系统需要的数据集合集合.3信息检索信息检索83 3.2.3.2.2.2.数据库的类型数据库的类型 (1)(1)参考数据库参考数据库F书目数据书目数据(bibliographic database)bibliographic database)目录数据库目录数据库(catalog database)catalog database)文摘索引数据库文摘索引数据库(abstract/index abstract/index datab
50、ase)database)F指南数据库指南数据库(directory database)directory database)3信息检索信息检索84 (2)(2)源数据库源数据库(source database,data bank)source database,data bank)数值数据库数值数据库(numeric database)文本文本-数值数据库数值数据库(text-numeric database)全文数据库全文数据库(full-text database)3信息检索信息检索85有3.2.3四个必要的层次:字段(field)记录(record)文档(file)数据库(databa