网络信息检索基础知识.ppt

上传人:wuy****n92 文档编号:80414867 上传时间:2023-03-23 格式:PPT 页数:120 大小:3.98MB
返回 下载 相关 举报
网络信息检索基础知识.ppt_第1页
第1页 / 共120页
网络信息检索基础知识.ppt_第2页
第2页 / 共120页
点击查看更多>>
资源描述

《网络信息检索基础知识.ppt》由会员分享,可在线阅读,更多相关《网络信息检索基础知识.ppt(120页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、网络信息检索基础知识、方法网络信息检索基础知识、方法与技巧与技巧n主讲人:杨淑萍主讲人:杨淑萍 硕士硕士n郑州大学图书馆参考咨询部郑州大学图书馆参考咨询部 n电话:电话:6778167767781677第一讲第一讲 网络信息检索基本知识网络信息检索基本知识n网络信息资源的概念网络信息资源的概念n网络资源的发展过程网络资源的发展过程n网络信息资源的类型网络信息资源的类型n网络信息检索的概念网络信息检索的概念n网络信息检索的发展历程网络信息检索的发展历程n网络信息资源的检索方法与检索技术网络信息资源的检索方法与检索技术网络资源的概念n网络资源网络资源:指一切以数字形式生产、发行并指一切以数字形式生

2、产、发行并通过网络检索、获取和利用的信息资源。通过网络检索、获取和利用的信息资源。数字形式是以能被计算机识别的、不同序数字形式是以能被计算机识别的、不同序列的列的“0”“0”和和“1”“1”构成的形式。网络资源构成的形式。网络资源中的信息包括文字、图片、声音、动态图中的信息包括文字、图片、声音、动态图象等,以数字代码的方式存储在磁带、磁象等,以数字代码的方式存储在磁带、磁盘等介质上,通过计算机输出设备和网络盘等介质上,通过计算机输出设备和网络传送出去,最终显示在用户的计算机终端传送出去,最终显示在用户的计算机终端上。上。网络资源的产生与发展网络资源的产生与发展n19501950年代:电子管计算

3、机的产生,人们开年代:电子管计算机的产生,人们开始研究计算机情报检索系统始研究计算机情报检索系统n19601960年代初:最早的数据库伴随着美国化年代初:最早的数据库伴随着美国化学文摘社(学文摘社(CASCAS)开始发行)开始发行“化学题录化学题录”(Chemical Title)Chemical Title)而产生,同期出现的而产生,同期出现的还有美国医学图书馆的还有美国医学图书馆的“医学索引医学索引”(Index MedicusIndex Medicus)。)。19651965年大约有年大约有2020多多个数据库可以提供使用,但使用范围不大,个数据库可以提供使用,但使用范围不大,内容主要以

4、书目、文摘、索引为主。内容主要以书目、文摘、索引为主。网络资源的产生与发展(一)19651965年年-1990-1990年代:由于集成电路技术、硬盘技年代:由于集成电路技术、硬盘技术、数字通信技术、分组交换网技术的发展。开术、数字通信技术、分组交换网技术的发展。开始有了数据库联机检索系统(如始有了数据库联机检索系统(如DIALOGDIALOG、MEDLINEMEDLINE等),等),19751975年提供使用的联机数据库已年提供使用的联机数据库已有有300300个左右,其生产和运作模式也由政府行为个左右,其生产和运作模式也由政府行为转向商业行为,用户群也由政府机构扩展到更多转向商业行为,用户群

5、也由政府机构扩展到更多的图书馆和科研机构。到的图书馆和科研机构。到8080年代末数据库的数量年代末数据库的数量已达到已达到36003600多个,数据库容量增加,出现了光盘多个,数据库容量增加,出现了光盘介质,全文数据库迅速增加、出现了数值数据库介质,全文数据库迅速增加、出现了数值数据库和事实数据库。这一时期是联机检索系统发展的和事实数据库。这一时期是联机检索系统发展的鼎盛时期。鼎盛时期。网络资源的产生与发展(二)网络资源的产生与发展(二)n1990年代以来:网络和信息处理技术的发展,使得基于互联网开发的电子资源及其检索系统飞速发展,很多数据库商逐步把电子资源移植到WWW上。数据库发展的一个主要

6、特点之一是多媒体。又出现了电子期刊、电子图书、电子报纸以及其他动态信息。内容涉及商业、新闻/综合、科技/工程、法律、医学/生命科学、人文科学、社会科学及各种交叉学科。网络资源的类型n按网络资源的性质和功能划分n按网络资源的生产途径和发布范围划分n按网络资源的载体划分n按网络资源的学科划分按网络资源的加工程度划分n零次信息:网上学术信息中的新闻信息和动态信息这两零次信息:网上学术信息中的新闻信息和动态信息这两大类可以考虑与传统大类可以考虑与传统“零次信息零次信息”相匹配(当然性质相匹配(当然性质不完全相同)不完全相同)n一次信息:就是原始文献,如全文信息。一次信息:就是原始文献,如全文信息。n二

7、次信息:对一次信息进行加工、整理,便于利用一次二次信息:对一次信息进行加工、整理,便于利用一次文献的信息资源,只提供题名、来源、文摘等体露信息。文献的信息资源,只提供题名、来源、文摘等体露信息。如文摘型数据库如文摘型数据库,中文生物医学期刊目次数据库、中文生物医学期刊目次数据库、工程索引数据库工程索引数据库EI等。等。n三次信息:指对二次信息进行综合分析、加工、整理的三次信息:指对二次信息进行综合分析、加工、整理的信息资源,如信息资源,如WebCrawler(元搜索引擎)元搜索引擎)按网络资源的生产途径和发布范围划分n商用网络电子资源(正式出版物):电子期刊、全文数据库、电子图书、参考数据库n

8、网络公开学术资源:学术网站、学科资源导航、搜索引擎/分类指南等n特色资源(灰色资源):古籍特藏、学位论文、教学课件等n其他:FTP资源、BBS。按网络资源的载体划分n文摘、索引数据库n电子图书 n电子期刊n电子会议录n电子版专利(中国专利、美国专利)n电子版工具书(如网络版的大不列颠百科电子版工具书(如网络版的大不列颠百科全书、汉语词典等)全书、汉语词典等)按网络资源的学科范围划分n理工(如)理工(如)n人文人文n社会科学(新华社多媒体社会科学(新华社多媒体n医学医学(Medline、医学全文)、医学全文)n农业(农业(CNKI农业专辑)农业专辑)n经济(国研网数据库、中国咨讯行数据库)经济(

9、国研网数据库、中国咨讯行数据库)n法律法律(Lexsis、nexsisn综合等综合等(CNKI、学位论文数据库、书生数字图书、学位论文数据库、书生数字图书馆)馆)按信息的有偿性划分按信息的有偿性划分n分为付费和免费量大类。分为付费和免费量大类。n付费的网络资源大多技术含量高、整理有序、具有很高的利用价值和参考价值。如,Dialog、CNKI等大型数据库系统。免费或试用数据库。如美国专利数据库。免费资源免费资源付费资源付费资源网络资源的检索n网络信息检索的发展历程n网络资源检索的概念n网络资源检索系统的构成、功能模块n网络资源检索系统的特点n网络数据库检索的概念n网络数据库检索的特点n检索语言n

10、网络资源检索系统评价网络信息检索的发展历程n伴随着网络资源的出现,网络信息检索也随之发展起来。在信息检索活动中,手工检索曾是最基本最常用的检索手工检索曾是最基本最常用的检索方法方法,从检索原理看,手工检索与计算机检索是基本一致的,而且计算机检索就是在手工检索基础上发展起来的。随着计算机技术、网络通讯技术和信息存储技术的飞速发展,传统手工检索过渡到了计算机检索。进入传统手工检索过渡到了计算机检索。进入2020世纪世纪9090年代,互联网的发展使人类社会信息的存储、传年代,互联网的发展使人类社会信息的存储、传递、交流和利用发生了革命性的变化,递、交流和利用发生了革命性的变化,互联网上的信息互联网上

11、的信息资源呈现爆炸性增长,传统相对独立的联机检索系统纷资源呈现爆炸性增长,传统相对独立的联机检索系统纷纷变成了互联网上的一个站点,纷变成了互联网上的一个站点,计算机检索由此进入了计算机检索由此进入了网络信息检索阶段。网络信息检索阶段。网络信息资源检索的概念n网络信息检索:网络信息检索:就是利用计算机、高速信息网络等信息技术存储和检索信息的过程。即人们通过联网计算机,并使用特定的检索指令、检索词、检索提问和检索策略,从网络资源中检索出所需要的信息,并可以在终端设备显示、下载、保存或打印。n网络信息检索的实质是网络信息检索的实质是“匹配运算匹配运算”,即用户输入的检索提问与检索系统中存储的信息特征

12、标识及其逻辑组配关系进行比对、组配,并把相符合的信息调出来的过程。简单的说也就是一个信息查找的过程。需要人、计算机(和网络)共同作用来完成的。n 网络信息资源检索系统的物理构成 n(1)服务器服务器n服务器是检索系统的核心部分,在检索过程中需要处理大量的指令和数据。这需要服务器具有较高的运算速度和处理能力,并且具有相当大的信息存储容量。n服务器决定了系统的检索速度和存储容量,而软件部分的作用则是充分发挥硬件的功能,主要进行信息的存储、处理、检索以及整个系统的运行管理。服务器软件和硬件的组成反映了整个信息检索系统的检索能力。(如CNKI服务器)(2)通信网络通信网络 n通信网络是终端与服务器之间

13、的桥梁,其作用是确保信息传递的畅通无阻;而且通讯网络的性能决定着网络信息检索的速度和效率。n国际上大型联机检索系统的主机与本地区数据通信网络相联,在网络上有端口,检索用户通过网线和网络设备检索数据库信息。(3)检索终端检索终端n检索终端是用户与检索系统传递信息进行“人机对话”的装置,有电传终端(如电话)、数电传终端(如电话)、数传终端和微机终端等。现在基本上都是微机终端。传终端和微机终端等。现在基本上都是微机终端。n常用的微机终端,由计算机、打印机以及调制解调器组成。n调制解调器的作用主要是把终端的信息在传输前加载到一个载波信号上(称之为调制)(称之为调制),接受端在接收信号时通过检测收到的信

14、息偏离精确载波信号的程度,分离出原先发送的信号(称之为解调),以解决信息传输过程中的衰减问题。(4)软件)软件n软件的作用是充分发挥硬件的功能,进行信息的存储、处理检索以及整个系统的运行管理。n操作系统软件:WindowsXP、2000,WindowsNT等。n数据库管理系统软件:SQLserver2000、Oracle,Sybase等。n数据库检索软件和阅读软件:AcrobatReader(阅读PDF格式文件、sreader(超星),vip(维普),CAJ(CNKI中国学术期刊数据库)。(5)数据资源数据资源n按内容划分,包括网络数据库、联机馆藏目录苦、电子出版物(电子图书、电子期刊、电子报

15、纸)、政府机构信息(包括有关组织机构的宗旨、业务范围、人员、最新信息分布、各种法律、法规、政策信息等)、网络综合信息(包括购物、生活、商务、休闲娱乐等)。网络资源检索系统的功能模块n信息采集模块信息采集模块n信息存储模块信息存储模块n标引著录模块标引著录模块n规范模块(著录后形成规范模块)规范模块(著录后形成规范模块)n内容发布模块内容发布模块n检索模块检索模块n服务模块(如下载、浏览、保存、打印)服务模块(如下载、浏览、保存、打印)n管理模块管理模块网络信息检索的特点(一)n(1)信息检索空间的拓宽,可以检索因特网上的各信息检索空间的拓宽,可以检索因特网上的各类资源,检索这不必预先知道某种资

16、源的具体地类资源,检索这不必预先知道某种资源的具体地址。址。(2 2)检索快捷)检索快捷:处理速度快、运算准确、可靠性高。n(3)多元灵活:多元灵活:可以采用逻辑运算和限制检索等功能,使检索词之间能够灵活地进行组配。n(4)交互式作业方式:能够从用户命令中获取交互式作业方式:能够从用户命令中获取指令,即时相应用户要求,执行相应操作,并具指令,即时相应用户要求,执行相应操作,并具有良好的信息反馈功能。用户在检索过程中可以有良好的信息反馈功能。用户在检索过程中可以及时调整检索策略,并能及时获得联机检索帮助及时调整检索策略,并能及时获得联机检索帮助和指导。和指导。网络信息检索的特点(二)n(5)(5

17、)更新迅速、及时更新迅速、及时:如许多动态类资源,可以随时更新。n(6)(6)资源共享资源共享:利用本地计算机可以查询、获取网上丰富的信息资源,每个联网计算机都可以成为网上的信息源,实现资源共享。n(7 7)用户界面友好、操作简便)用户界面友好、操作简便:网络信息检索对用户屏蔽了各个局域网间的物理差异,使用户在透明的系统平台上,使用自己熟悉或方便的检索界面、检索指令进行检索查询,并以自己所需的格式显示或输出、打印、保存自己检索到的信息资源,大大方便了用户检索、使用。n(8)由于网络资源杂乱无序,检索结果冗余信息多。网络数据库检索的概念n在学术信息资源检索中,用的较多的是网络数据在学术信息资源检

18、索中,用的较多的是网络数据库,网络数据库是库,网络数据库是指用户在自己的客户端上,通过互联网和浏览器界面对数据库进行检索,这一类检索系统都是基于互联网的分布式特点开发和应用的,即:数据库分布式存储,不同的数据库分布在不同的数据库生产者的服务器上;用户分布式检索,任何地方的终端都可以访问并存储数据;数据分布式处理,任何数据都可以在网上的任何地点进行处理。网络数据库检索系统的特点n(1)(1)检索快捷检索快捷:处理速度快、运算准确、可靠性高。n(2)(2)多元灵活:多元灵活:可以采用逻辑运算和限制检索等功能,使检索词之间能够灵活地进行组配。n(3)(3)信息量大,数量多,一次可以检索各个年代范围的

19、资源。n(4)(4)更新迅速、及时更新迅速、及时:如许多动态类资源,可以随时更新,又如美国OCLC网络的First Search检索系统,新刊出版后3天内,即可出现。网络数据库检索系统的特点n(5)5)资源共享资源共享:利用本地计算机可以查询、获取网上丰富的信息资源,实现资源共享。n(6)(6)方式多样方式多样:可以提供网络订购、直接获取全文等多种服务,可按要求输出。n(如题录格式、文摘格式、全文格式等)n(7 7)用户界面友好、操作简便)用户界面友好、操作简便:网络信息检索对用户屏蔽了各个局域网间的物理差异,使用户在透明的系统平台上,使用自己熟悉或方便的检索界面、检索指令进行检索查询,并以自

20、己所需的格式显示或输出、打印、保存自己检索到的信息资源,大大方便了用户检索、使用。网络数据库检索系统的特点n另外还有以下特点:另外还有以下特点:n检索针对性强,检索效果好(相对一般网络搜索)检索针对性强,检索效果好(相对一般网络搜索)n形式多媒体化,服务形式更直观形式多媒体化,服务形式更直观n响应速度快响应速度快n客户端客户端/网关服务器网关服务器/服务器检索模式提高了检索效率服务器检索模式提高了检索效率n信息组织模式超链接化信息组织模式超链接化n检索功能强,通过检索功能强,通过WWWWWW提供检索,易学易用提供检索,易学易用n数据库的购买费用较高数据库的购买费用较高n用户界面基于用户界面基于

21、WWWWWW开发,方便友好开发,方便友好n应用程序与数据服务器隔离应用程序与数据服务器隔离,使得数据库数据安全性好。,使得数据库数据安全性好。检索语言(retrieval language)n检索语言的概念和作用n检索语言的类型检索语言的概念和作用n检索语言检索语言(retrieval language):是信息存储与检索过程中用于描述信息特征和表达用户信息提问的一种专门语言。检索的运算匹配就是通过检索语言的匹配来实现的。是人与检索系统对话的基础。n作用:对文献的外部特征和内部特征进行多层次描述,提供多种检索途径,以方便用户从不同角度检索查找。检索语言的类型n人工语言:是根据信息检索的需要而由

22、人工创制人工语言:是根据信息检索的需要而由人工创制的,采用规范词(的,采用规范词(controlled term),用来),用来专指某个概念,可以将同义词、近义词、相关词、专指某个概念,可以将同义词、近义词、相关词、多义词及缩略词规范在一起,由人工控制。人工多义词及缩略词规范在一起,由人工控制。人工语言包括:分类检索语言(分类号)、主题检索语言包括:分类检索语言(分类号)、主题检索语言和代码检索语言(化学物质登记号)。语言和代码检索语言(化学物质登记号)。n自然语言自然语言:检索用词是从信息内容本身抽取的,检索用词是从信息内容本身抽取的,主要依赖于计算机自动抽词技术完成主要依赖于计算机自动抽词

23、技术完成。自然语言检索自然语言检索人工语言人工语言网络资源获取途径:网络资源获取途径:途径途径之一:搜索引擎之一:搜索引擎n工作原理:由网络搜索软件(Robot、Spider、Worm等)自动定期遍历各类网站,自动搜集网页信息进行索引建库并提供全文检索。不仅可以快速地搜集全球各网站的信息,还及时发现新的网站内容并剔除已废弃的网站网页,及时更新完善自身数据库。数据库规模可以做得相当庞大,数据的时效性也可以得到有力保障,大大提高了网络信息的查全率、及时性及有效性。n优点:信息量大;信息更新速度快;方便普通用户使用。n缺陷:信息噪音较大。网络资源获取途径网络资源获取途径网络检索工具网络检索工具n途径

24、之一:搜索引擎途径之一:搜索引擎n第一代第一代:以网络、网页的数量:以网络、网页的数量 多少为标准,结果多少为标准,结果不按相关性排序,代表为不按相关性排序,代表为Lycos,Lycos是搜索引是搜索引擎中的元老,是最早提供信息搜索服务的网站之擎中的元老,是最早提供信息搜索服务的网站之一。一。n第二代:第二代:以以检检索索结结果的果的质质量量为为目目标标,检检索思想、索思想、方法方法发发生生转变转变,检检索索结结果排序并果排序并进进行超行超链链分析,分析,代表代表为为GoogleGoogle、Baidu Baidu。n第三代第三代:未来:未来趋势趋势智能化搜索工具,智能化搜索工具,进进行概念分

25、行概念分析。析。根据检索提问,进行智能化分析与搜索,并根据检索提问,进行智能化分析与搜索,并对检索结果进行分析、筛选、排序、链接和提示对检索结果进行分析、筛选、排序、链接和提示等。等。Google主页主页网络资源获取途径之二:网络资源获取途径之二:网网络络地址地址n一个城市如果没有街道、门牌号,要找到一个地方很难,网络也如此。n在国际互联网上有成千百万台主机,为了区分它们,给每台主机都分配了一个专门的“地址”作为标识,称为IP地址。每个IP地址的长度为32位(bit),每段数字范每段数字范围为围为1 1254Bit254Bit,段与段之间用小数点分隔。如n由于IP地址是数字型的,使用起来不方便

26、,于是人们又发明了另一套字符型的地址方案,即域名地址。入网的每台主机都具有类似于下列结构的域名:如,如,。在掌握网络地址的情况下,可以利用地址栏进行检索,直接、简便。商都商都信息港信息港域名域名网络资源获取途径之三:网络资源获取途径之三:主题指南(主题指南(Subject Subject DirectoryDirectory,网络目录,网络目录)n(如搜弧 雅虎Yahoo!)n工作原理工作原理:将网络信息利用人工分类的方法组织成一个树状目录结构,用户根据主题类目和子类目逐层深入查找所需信息。n优点:搜集的信息经过人工筛选,质量较高,结果更具有参考价值。n缺陷:信息量小;类目不易确定;信息更新速

27、度慢。n例如:搜狐于1998年推出中国首家大型分类形式的主题指南。18个部类、近10万条链接构成的树型网页结构。每日页面浏览量超过800万,可以查找网站、网页、新闻、网址、软件、黄页等信息。主题指南主题指南主题指南主题指南网络资源获取途径之四:网络资源获取途径之四:网网络导络导航航n网络导航就是通过一定的技术手段,为网站的访问者提供一定的途径,使其可以方便地访问到所需的内容。n相当于传统图书馆信息部门的目录索引。n网络导航网络导航有许多类,重点学科导航是其中有许多类,重点学科导航是其中一类。如各高校重点学科导航,北大、清一类。如各高校重点学科导航,北大、清华。华。学科学科导航导航网络资源获取途

28、径之五:网络资源获取途径之五:网网络络资源链接、超链接资源链接、超链接n检索到某一信息资源,往往有许检索到某一信息资源,往往有许多相关链接、推荐连接、热点连多相关链接、推荐连接、热点连接等,顺链而下,可以查找到许接等,顺链而下,可以查找到许多相关有价值信息。多相关有价值信息。相关链接相关链接网络资源获取途径之六:网络资源获取途径之六:网络数据库网络数据库n网络数据库(免费、购买使用)网络数据库(免费、购买使用)n免免费费资资源源,如如网网络络期期刊刊(数数字字图图书馆)、数据库书馆)、数据库n购买的如:购买的如:CNKI CNKI、万方学位论文、万方学位论文数据库、数据库、EI EI、SCI

29、SCI 等中外文数据等中外文数据库。库。网络资源获取途径之七:其他方法与途径网络资源获取途径之七:其他方法与途径n网络会议、专业博克网站。网络会议、专业博克网站。n免费纯网络期刊网站,如神州学人、数字图书馆杂志免费纯网络期刊网站,如神州学人、数字图书馆杂志()()n网络地址的获得网络地址的获得:网络指南、因特网适用网址速查网络指南、因特网适用网址速查 国外电力常用网址名录中国工商网址黄页中国外电力常用网址名录中国工商网址黄页中国医学网址、国医学网址、“中国精彩网址中国精彩网址”、“企业网址大全企业网址大全”等或运用网页地址历史记录、收藏夹直接进入相关站点,等或运用网页地址历史记录、收藏夹直接进

30、入相关站点,可以省去输入网址的时间。可以省去输入网址的时间。n如如果果不不知知道道网网址址,还还可可以以直直接接输输入入汉汉语语、或或拼拼音音名名称称即即可。可。神州学人月刊简介(纯电子期刊)神州学人月刊简介(纯电子期刊)神州学人杂志历经14年的发展,围绕着“加强对广大在外留学人员进行爱国主义教育,鼓励他们回国工作或以适当方式为国服务,为我国改革开放和社会主义现代化建设事业做贡献”的办刊宗旨,经过多年的探索,其主要内容框架已基本形成,即:走近中国了解祖国的窗口;留学视野联络感情的纽带;学人园地表达情思的园地;留学服务提供服务的媒体。网络信息检索中的一些常用基本概念网络信息检索中的一些常用基本概

31、念初级检索初级检索n初级检索初级检索是面向一般读者提供的检索方式。利用初级检索系统能进行快速方便查询,适用于不熟悉多条件组合查询的普通用户。它为用户提供了详细的导航内容,最大范围的选择空间。对于一些简单查询,建议使用该检索系统。该查询的特点是方便快速,执行效率较高,但查询结果有很大的冗余,会检索出一大批检索者所不期望的结果。如果能在检索结果中进行二次检索或配合高级检索命中率会大大提高。简单检索界面简单检索界面网络信息检索中的一些常用基本概念网络信息检索中的一些常用基本概念高级检索高级检索n高级检索包括布尔逻辑检索、位置检索、截词检索、限制检索等。利用高级检索系统能进行快速有效的组合查询,优点是

32、查询结果冗余少,命中率高。缺点是必须掌握一定的检索技术。对于命中率要求较高的查询,建议使用该检索系统。高级检索界面高级检索界面检索入口检索入口网络信息检索中的一些常用基本概念网络信息检索中的一些常用基本概念检索入口检索入口n检索入口检索入口,又称检索途径(或可检字段),是用户作为检索依据的文献特征,包括文献的内容特征和外部特征。这些特征在数据库中以字段的形式表现,所以检索入口也称检索字段。全文数据库中常用的检索途径有:关键词、刊名、作者、题名、分类号、文摘、分类号、任意字段。读者可根据所掌握的文献特征情况及检索目的选择适当的检索入口。网络信息检索中的一些常用基本概念网络信息检索中的一些常用基本

33、概念检索范围检索范围 n为了提高检索效率和满足特定需求,用户检索时可以先设定检索范围。用户常设的检索范围有:学科范围、期刊范围、时间范围、语言范围、地域或国家范围等,在下一节的数据库检索中我们将具体介绍如何选择检索范围。网络信息检索中的一些常用基本概念网络信息检索中的一些常用基本概念二次检索二次检索n所谓二次检索二次检索就是在前次检索的基础上进行的再次检索,一般的二次检索的结果与第一次检索存在一定的关联性;通过二次检索可以缩小检索范围,优化检索结果。网络信息检索中的一些常用基本概念网络信息检索中的一些常用基本概念全文阅读全文阅读器器/浏览器浏览器n全文阅读器全文阅读器是一种用于打开具有某些特定

34、格式的全文的一种浏览软件。由于有些数据库的全文使用的是特定格式的文件,必须由相应的阅读器进行阅读,所以,在使用相应的数据库时,必须先下载相应的阅读器,才能阅读全文。如Acrobat Reader(阅读PDF格式文件)、CAJ、维普浏览器等。第二讲:网络信息资源的检索方法、技术与第二讲:网络信息资源的检索方法、技术与技巧技巧n检索方法就是通过课题分析,制定正确的检索策略,优化检索过程,提高检索效率,全面、准确、方便、快捷地帮助用户找到所需要的信息。n检索过程包括:课题分析-选择相关的信息资源-构造检索式,选择检索途径-调整检索策略-评价检索结果网络资源检索方法及具体步骤(一)网络资源检索方法及具

35、体步骤(一)n1 1、分析要检索的课题主要内容,确定学科范围、分析要检索的课题主要内容,确定学科范围、检索主题和关键词。检索主题和关键词。n2 2、根据课题分析,选择合适的数据库。、根据课题分析,选择合适的数据库。n3 3、设计合理的检索式,提高查准率。检索式是、设计合理的检索式,提高查准率。检索式是检索策略的具体体现,它控制着检索过程,是否检索策略的具体体现,它控制着检索过程,是否合理关系到能否检索到最相关的信息。针对不同合理关系到能否检索到最相关的信息。针对不同的搜索引擎、数据库、不同的信息需求,有不同的搜索引擎、数据库、不同的信息需求,有不同的检索策略,其检索式的构造也各有不同。设计的检

36、索策略,其检索式的构造也各有不同。设计合理的检索式成为控制和提高检索质量的关键。合理的检索式成为控制和提高检索质量的关键。网络资源检索方法及具体步骤(二)网络资源检索方法及具体步骤(二)n4 4、输入检索词、输入检索词n5 5、选选择择检检索索字字段段:选选择择与与检检索索条条件件相相应应的的检索字段。检索字段。n6 6、阅阅读读、分分析析检检索索结结果果,优优化化、修修改改检检索索策略。策略。n7 7、打印或下载检索结果、打印或下载检索结果。网络信息资源的检索技术n布尔逻辑检索布尔逻辑检索n位置算符检索位置算符检索n截词检索(截词检索(truncation)truncation)n词根检索词

37、根检索(stemming)(stemming)n字段检索字段检索(field serch)(field serch)n全文检索全文检索n其他检索技术其他检索技术布尔逻辑检索n运用布尔逻辑算符(运用布尔逻辑算符(boolean operators)boolean operators)对检索对检索词进行逻辑组配,表达两个概念之间的逻辑关系。词进行逻辑组配,表达两个概念之间的逻辑关系。ANDAND、OROR、NOTNOTnOROR:逻辑或,常用:逻辑或,常用“+”“+”号表示,满足其中之一。号表示,满足其中之一。nANDAND:逻逻辑辑与与,常常用用“*”“*”号号表表示示,两两个个条条件件同同时时

38、满足。满足。nNOTNOT:逻逻辑辑非非,常常用用“-”“-”号号表表示示,满满足足前前者者,同同时排除后者。时排除后者。位置算符检索n运用位置算符表示两个检索词间的位置邻运用位置算符表示两个检索词间的位置邻近关系即两个概念间的实际物理位置关系。近关系即两个概念间的实际物理位置关系。这种检索技术通常只出现在西文数据库中。这种检索技术通常只出现在西文数据库中。n位位置置算算符符如如SAMESAME,用用SAMESAME算算符符连连接接的的检检索索词词的的位位置置更更近近,一一般般应应出出现现在在记记录录的的同同一一个个检检索索字字段段中中。如如 water water same same con

39、trol control 截词检索(truncation)n用截词符用截词符“*”“$”“?”“*”“$”“?”加在检索词的前后或加在检索词的前后或中间以检索一组概念相关或同一词根的词。主要中间以检索一组概念相关或同一词根的词。主要用于西文数据库,用于扩大检索范围。用于西文数据库,用于扩大检索范围。n后截断:如后截断:如librar*librar*n中截断:如中截断:如organi$ation-organi$ation-organisation,organizationorganisation,organizationn前截断不常用:如前截断不常用:如*magnetic electro-*ma

40、gnetic electro-magneticmagnetic词根检索(stemming)n检索时输入一个词,系统会自动检索出同检索时输入一个词,系统会自动检索出同一词根的一组词,如一词根的一组词,如gene,gene,可检出可检出genegene、geneticgenetic等,这需要系统预选配置词根表等,这需要系统预选配置词根表全文检索全文检索n直接对原文细节进行检索,可深入到语言直接对原文细节进行检索,可深入到语言细节中,多用在全文数据库和搜索引擎中。细节中,多用在全文数据库和搜索引擎中。其他检索技术n括号():表示运算的优先级别括号():表示运算的优先级别n“”“”表示精确检索表示精确

41、检索n检索限定:排序、时间、文种、文献类型检索限定:排序、时间、文种、文献类型等、结果是否为全文等。等、结果是否为全文等。n大小写敏感大小写敏感n禁用词:禁用词:in in、of of、on on、thethe、a a等等。字段检索字段检索n指检索词出现的字段,也称检索入口,检索时系统只对指定字段进行匹配,提高了检索效率和查准率。网络信息资源的检索功能网络信息资源的检索功能n浏览检索(浏览检索(browse)browse)n索引检索索引检索(index)(index)n简单检索(简单检索(simple searchsimple search、basic searchbasic search、q

42、uick searchquick search、easy searcheasy search)n高级检索高级检索(advance search(advance search、expert searchexpert search、guide search)guide search)n二次检索二次检索(refined search)(refined search)n命令检索命令检索(command search)(command search)n自然语言检索自然语言检索(natural language search)(natural language search)网络信息检索的基本技巧之一:网

43、络信息检索的基本技巧之一:恰当选用数据资源恰当选用数据资源n恰当选用数据资源(检索工具)恰当选用数据资源(检索工具)n对于信息检索而言,重要的是在检索对于信息检索而言,重要的是在检索前正确的选择数据资源。只有如此,前正确的选择数据资源。只有如此,才能保证最终检索结果在一定程度上才能保证最终检索结果在一定程度上的查全率、查准率。的查全率、查准率。n正确地了解、认识、熟悉各类检索系正确地了解、认识、熟悉各类检索系统,是恰当选用数据库的前提。统,是恰当选用数据库的前提。网络信息检索的基本技巧之二:网络信息检索的基本技巧之二:利用系统检索提示利用系统检索提示n大多数计算机检索系统、网站都提供一些大多数

44、计算机检索系统、网站都提供一些介绍文件,如介绍文件,如about usabout us(关于我们)、(关于我们)、HelpHelp(帮助)和(帮助)和 FAQ FAQ(经常提问的问题)、(经常提问的问题)、Search TipSearch Tip(检索提示)等,仔细阅读这(检索提示)等,仔细阅读这些文件,对于了解系统的设计、数据库覆些文件,对于了解系统的设计、数据库覆盖的范围、检索的具体要求都非常重要。盖的范围、检索的具体要求都非常重要。n不要因为追求检索的速度而忽视了这一环不要因为追求检索的速度而忽视了这一环节。节。网络信息检索的基本技巧之三:网络信息检索的基本技巧之三:充分利用检索条件充分

45、利用检索条件n在使用大型期刊文献数据库时,由于有完善的检在使用大型期刊文献数据库时,由于有完善的检索功能,应充分应用布尔逻辑检索方法,选择利索功能,应充分应用布尔逻辑检索方法,选择利用各种检索入口,设计合理完善的检索式。用各种检索入口,设计合理完善的检索式。n有些信息检索系统,常常提供检索的表达条件或有些信息检索系统,常常提供检索的表达条件或检索限制,使用时只需从给定的条件中选择需要检索限制,使用时只需从给定的条件中选择需要的项目即可,如查找的年代、资料的类型、是否的项目即可,如查找的年代、资料的类型、是否需要全文等。需要全文等。n正确选择各项内容,让计算机较好地理解用户的正确选择各项内容,让

46、计算机较好地理解用户的检索意图是十分必要的。通过这些选项,计算机检索意图是十分必要的。通过这些选项,计算机会更加精确地把检索结果呈现出来。会更加精确地把检索结果呈现出来。网络信息检索的基本技巧之四:网络信息检索的基本技巧之四:尝试进行多次试检尝试进行多次试检n由于网络数据库的多样性,各个检索系统由于网络数据库的多样性,各个检索系统所包含的范围、检索提问式不尽相同,因所包含的范围、检索提问式不尽相同,因此,当一次检索失败后,不要轻易放弃,此,当一次检索失败后,不要轻易放弃,可以对检索词进行新的排列组合,添加或可以对检索词进行新的排列组合,添加或删除检索词,添加或改变检索逻辑符,或删除检索词,添加

47、或改变检索逻辑符,或用同义词代替,再次进行查找,一般会得用同义词代替,再次进行查找,一般会得到较好的检索结果。到较好的检索结果。n还可以更换不同的数据库,运用不同的搜还可以更换不同的数据库,运用不同的搜索引擎,得到满意的检索结果。索引擎,得到满意的检索结果。网络信息检索的基本技巧之五:网络信息检索的基本技巧之五:选择恰当、合适的查询词选择恰当、合适的查询词 n搜搜索索技技巧巧,最最基基本本同同时时也也是是最最有有效效的的,就就是是选选择择合合适适的的查查询询词词。选选择择查查询询词词是是一一种种经经验验积积累累,在在一一定定程程度度上上也也有有章章可可循循:表表述述准准确确:网网站站或或数数据

48、据库库会会严严格格按按照照您您提提交交的的查查询询词词去去搜搜索索,因因此此,查查询询词词表表述述准准确确是是获获得得良良好好搜搜索索结结果果的的必必要要前前提提。一一类类常常见见的的表表述述不不准准确确情情况况是是,脑脑袋袋里里想想着着一一回回事事,搜搜索索框框里里输输入入的的是是另另一一回回事事。另另一一类类典典型型的的表表述述不不准准确确,是是查查询询词词中中包包含含错错别别字字。查查询询词词的的主主题题关关联联与与简简练练。目目前前的的搜搜索索引引擎擎并并不不能能很很好好的的处处理理自自然然语语言言。因因此此,在在提提交交搜搜索索请请求求时时,您您最最好好把把自自己己的的想想法法,提提

49、炼炼成成简简单单的的,而而且且与与希希望望找找到的信息内容主题关联的查询词。到的信息内容主题关联的查询词。n还是用实际例子说明。某三年级小学生,想查一些关于时间的名人还是用实际例子说明。某三年级小学生,想查一些关于时间的名人名言,他的查询词是名言,他的查询词是“小学三年级关于时间的名人名言小学三年级关于时间的名人名言”。n这个查询词很完整的体现了搜索者的搜索意图,但效果并不好。可这个查询词很完整的体现了搜索者的搜索意图,但效果并不好。可改为:改为:“时间时间 名人名言名人名言”或或“时间名言时间名言”。网络信息检索的基本技巧之六:掌握网络信息检索的基本技巧之六:掌握“扩检扩检”与与“缩检缩检”

50、方法,提高检索效率方法,提高检索效率 n信息检索过程是不断调整检索策略的过程,也是进行扩信息检索过程是不断调整检索策略的过程,也是进行扩检或缩检的过程。当检索结果中相关信息或所需要的信检或缩检的过程。当检索结果中相关信息或所需要的信息太少或没有时,需要进行扩检,反之就需要进行缩检。息太少或没有时,需要进行扩检,反之就需要进行缩检。n扩检主要方法扩检主要方法 :n多搜索引擎、多库检索。据有关资料介绍,目前国外多搜索引擎、多库检索。据有关资料介绍,目前国外大型搜索引擎在大型搜索引擎在WebWeb上仅能收录覆盖上仅能收录覆盖1/31/3的公开的公开WebWeb页面,页面,任何大型搜索引擎也不可能将公

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁