《计算机基础信息检索PPT.ppt》由会员分享,可在线阅读,更多相关《计算机基础信息检索PPT.ppt(41页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、青岛大学公共计算机基础教学中心第第第第7 7章章章章 信息检索信息检索信息检索信息检索 7.1.1 7.1.1 信息检索的概念信息检索的概念信息检索的概念信息检索的概念信信息息检检索索(Information Information RetrievalRetrieval)是是指指信信息息按按一一定定的的方方式式组组织织和和存存储储起起来来,并并根根据据信信息息用用户户的的需需要要找找出出有有关关信信息息的的过过程程和和技技术术。信信息息检检索索的的全全称称是是信信息息存存储储与与检检索索(Information Information Storage Storage RetrievalRetr
2、ieval),其其过过程程如如图图7.17.1所所示示。2020世世纪纪5050年年代代以以前前,信信息息的的存存储储和和传传播播主主要要是是以以纸纸介介质质为为载载体体,信信息息检检索索活活动动主主要要围围绕绕着着相相关关文文献献的的获获取取和和利利用用展展开开,因因此此“文文献献检检索索”成成为为信信息息检检索索的的同同义义词词而而被被广广泛泛地地使使用用。2020世世纪纪5050年年代代以以后后,信信息息传传播播与与存存储储呈呈多多元元化化发发展展,人人们们不不再再拘拘泥泥于于载载体体研研究究信信息息检检索索,开开始始更更多多地地使使用用“情情报报检检索索”这这一一术术语语。近近年年来来
3、,由由于于英英文文词词汇汇“Information”Information”既既可可以以翻翻译译为为信信息息,又又可可以以翻翻译译为为情情报报,而而汉汉语语中中信信息息一一词词要要比比情情报报的的含含义义更更为为丰丰富富,因因此此人人们们更更倾倾向向于于使使用用信信息息检检索索这一术语。这一术语。7.1 信息检索概述青岛大学公共计算机基础教学中心第第第第7 7章章章章 信息检索信息检索信息检索信息检索 7.1.1 信息检索的概念信息检索的概念7.1 信息检索概述青岛大学公共计算机基础教学中心第第第第7 7章章章章 信息检索信息检索信息检索信息检索 7.1.1 7.1.1 信息检索的概念信息检索
4、的概念信息检索的概念信息检索的概念信信息息检检索索包包括括两两个个层层次次的的含含义义:广广义义的的信信息息检检索索和和狭狭义义的的信信息息检检索索。广广义义的的信信息息检检索索包包括括信信息息的的存存储储和和查查找找两两个个过过程程,如如图图7.17.1所所示示的的全全部部过过程程就就是是广广义义的的信信息息检检索索。信信息息的的存存储储就就是是将将大大量量无无序序的的文文献献信信息息进进行行搜搜集集、整整理理、归归类类,采采用用规规范范的的方方法法进进行行编编排排,编编制制出出各各种种检检索索系系统统。信信息息查查找找必必须须先先有有信信息息存存储储,而而信信息息存存储储就就是是为为了了更
5、更快快捷捷地地查查找找信信息息。信信息息查查找找则则是是信信息息存存储储的的逆逆向向过过程程,是是人人们们根根据据特特定定需需要要,运运用用已已有有的的检检索索系系统统,有有序序查查询询并并找找出出符符合合要要求求的的信信息息。狭狭义义的的信信息息检检索索是是指指信信息息的的查查找找过过程程,只只包包括括图图7.17.1中中的的后后半半部部分分,本书中讨论的信息检索就是狭义的信息检索。本书中讨论的信息检索就是狭义的信息检索。7.1 信息检索概述青岛大学公共计算机基础教学中心第第第第7 7章章章章 信息检索信息检索信息检索信息检索 7.1.2 7.1.2 信息检索的类型信息检索的类型信息检索的类
6、型信息检索的类型n n1.1.根据检索对象划分根据检索对象划分根据检索对象划分根据检索对象划分n n根据检索对象的不同,信息检索分为文献检索、事实检索和数根据检索对象的不同,信息检索分为文献检索、事实检索和数据检索三种。据检索三种。n n(1 1)文献检索。文献检索以文献为检索对象,查找含有用户)文献检索。文献检索以文献为检索对象,查找含有用户所需信息的文献。文献检索是一种相关性检索而非确定性检索,所需信息的文献。文献检索是一种相关性检索而非确定性检索,系统不直接回答用户所提出的问题本身,它提供的是与用户信系统不直接回答用户所提出的问题本身,它提供的是与用户信息需求相关文献的线索或原文。息需求
7、相关文献的线索或原文。n n(2 2)事实检索。事实检索以特定的事实为检索对象,是存储)事实检索。事实检索以特定的事实为检索对象,是存储有关课题(如机构、人物等)的指示性描述,或关于某一事件有关课题(如机构、人物等)的指示性描述,或关于某一事件发生的时间、地点、经过等信息,并将其查找出来的检索,属发生的时间、地点、经过等信息,并将其查找出来的检索,属于确定性检索。于确定性检索。n n(3 3)数据检索。数据检索以数据为检索对象,属于确定性检)数据检索。数据检索以数据为检索对象,属于确定性检索,它是将经过选择、整理、鉴定的数据存入数据库中,根据索,它是将经过选择、整理、鉴定的数据存入数据库中,根
8、据需要查出可回答某一问题的数据的检索。例如,查找公式、数需要查出可回答某一问题的数据的检索。例如,查找公式、数据、图表、成分、性能等都属于数据检索的范畴。据、图表、成分、性能等都属于数据检索的范畴。7.1 信息检索概述青岛大学公共计算机基础教学中心第第第第7 7章章章章 信息检索信息检索信息检索信息检索 7.1.2 7.1.2 信息检索的类型信息检索的类型信息检索的类型信息检索的类型n n2.2.按检索方式划分按检索方式划分按检索方式划分按检索方式划分n n按检索方式的不同,信息检索可以分为手工检索、机械检索和计算机检索按检索方式的不同,信息检索可以分为手工检索、机械检索和计算机检索三种方式。
9、三种方式。n n(1 1)手工检索。手工检索就是以人工的方式直接查找所需的信息,多利用)手工检索。手工检索就是以人工的方式直接查找所需的信息,多利用各种检索工具的印刷版来实现,例如印刷的目录、题录、文摘、索引等。各种检索工具的印刷版来实现,例如印刷的目录、题录、文摘、索引等。手工检索直观,不需要辅助设备,但速度慢、漏检严重。手工检索直观,不需要辅助设备,但速度慢、漏检严重。n n(2 2)机械检索。机械检索也称机电式检索,是指运用打孔机、分类机及光)机械检索。机械检索也称机电式检索,是指运用打孔机、分类机及光电感应设备等进行的检索。机械检索过分依赖设备,成本较高,检索效果电感应设备等进行的检索
10、。机械检索过分依赖设备,成本较高,检索效果和质量都不太理想。和质量都不太理想。n n(3 3)计算机检索。计算机信息检索是将大量的文献资料或数据进行加工整)计算机检索。计算机信息检索是将大量的文献资料或数据进行加工整理,按一定格式存储在数据库中,利用计算机对数据库进行检索的信息检理,按一定格式存储在数据库中,利用计算机对数据库进行检索的信息检索方式。与手工检索相比,计算机检索速度快、效率高、查全率高、不受索方式。与手工检索相比,计算机检索速度快、效率高、查全率高、不受时空限制、检索结果输出方式多样。时空限制、检索结果输出方式多样。n n除上述两种主要的分类方式外,信息检索还有另外多种分类方式。
11、例如按除上述两种主要的分类方式外,信息检索还有另外多种分类方式。例如按照检索对象的信息组织方式可以分为全文检索、超文本检索和超媒体检索;照检索对象的信息组织方式可以分为全文检索、超文本检索和超媒体检索;按照检索对象的形式可分为文本检索和多媒体检索;按照检索要求可分为按照检索对象的形式可分为文本检索和多媒体检索;按照检索要求可分为强相关检索和弱相关检索;按检索的时间跨度可分为定题检索和回溯检索。强相关检索和弱相关检索;按检索的时间跨度可分为定题检索和回溯检索。7.1 信息检索概述青岛大学公共计算机基础教学中心第第第第7 7章章章章 信息检索信息检索信息检索信息检索 7.1.3 7.1.3 信息检
12、索模型信息检索模型信息检索模型信息检索模型n n1.1.布尔检索模型布尔检索模型布尔检索模型布尔检索模型n n布尔检索模型是基于集合论和布尔代数的一种简单检索模型。布尔检索模型是基于集合论和布尔代数的一种简单检索模型。由于集合是一个相当直观的概念,所以布尔检索模型为信息检由于集合是一个相当直观的概念,所以布尔检索模型为信息检索系统的普通用户提供了一种易于掌握的框架。在布尔检索模索系统的普通用户提供了一种易于掌握的框架。在布尔检索模型中,查询被描述为具有精确语义的布尔表达式。因为该模型型中,查询被描述为具有精确语义的布尔表达式。因为该模型的简单性和易于表示的形式方法,在很长一段时间内都受到重的简
13、单性和易于表示的形式方法,在很长一段时间内都受到重视。视。n n然而,布尔检索模型的缺点也是相当明显的。首先,该模型的然而,布尔检索模型的缺点也是相当明显的。首先,该模型的检索策略是基于二值决策准则,即一个文档只被判别为相关的检索策略是基于二值决策准则,即一个文档只被判别为相关的或无关的,而没有任何等级变化,难以提高检索性能,因此布或无关的,而没有任何等级变化,难以提高检索性能,因此布尔检索模型主要用于实现数据检索模型,而不是信息检索模型;尔检索模型主要用于实现数据检索模型,而不是信息检索模型;其次,这种方法将构造一个合适的查询的责任推到用户身上,其次,这种方法将构造一个合适的查询的责任推到用
14、户身上,用户必须详细规划自己的查询,其复杂程度不亚于编写程序,用户必须详细规划自己的查询,其复杂程度不亚于编写程序,普通用户无法用布尔表达式描述他们的查询请求。于是一些研普通用户无法用布尔表达式描述他们的查询请求。于是一些研究人员改进了布尔模型,提出了向量空间模型。究人员改进了布尔模型,提出了向量空间模型。7.1 信息检索概述青岛大学公共计算机基础教学中心第第第第7 7章章章章 信息检索信息检索信息检索信息检索 7.1.3 7.1.3 信息检索模型信息检索模型信息检索模型信息检索模型n n2.2.向量空间模型向量空间模型向量空间模型向量空间模型n n向量空间模型是一种基于代数理论的检索模型。在
15、向量空间模型中,一个向量空间模型是一种基于代数理论的检索模型。在向量空间模型中,一个文档被描述成由一系列关键词组成的向量,每一个关键词都是这个向量空文档被描述成由一系列关键词组成的向量,每一个关键词都是这个向量空间中的一维。同样道理,来自用户的查询也可以用向量来表示。当进行一间中的一维。同样道理,来自用户的查询也可以用向量来表示。当进行一个查询时,向量空间模型将计算查询和文档表示之间的相似度,例如可以个查询时,向量空间模型将计算查询和文档表示之间的相似度,例如可以用两个向量之间的欧氏距离或两个向量之间的余弦夹角表示二者之间的相用两个向量之间的欧氏距离或两个向量之间的余弦夹角表示二者之间的相似度
16、,然后对检出的文档按照相似度进行降序排列,以实现文档与查询项似度,然后对检出的文档按照相似度进行降序排列,以实现文档与查询项的部分匹配,于是查询结果集中文档的排列顺序要合理的多。的部分匹配,于是查询结果集中文档的排列顺序要合理的多。n n与布尔检索模型相比,向量空间模型改善了检索性能,其部分匹配的策略与布尔检索模型相比,向量空间模型改善了检索性能,其部分匹配的策略允许所检索的文档与查询条件相近似,同时还能够按照文档与查询的相似允许所检索的文档与查询条件相近似,同时还能够按照文档与查询的相似度对文档进行排序。但在向量空间模型中,各索引项之间是互相独立的,度对文档进行排序。但在向量空间模型中,各索
17、引项之间是互相独立的,无法对文档中的索引项提供相关性信息,而在实际中,需要考虑各索引项无法对文档中的索引项提供相关性信息,而在实际中,需要考虑各索引项之间的相关性才能得到满意的查询结果。之间的相关性才能得到满意的查询结果。n n向量空间模型适合一般的文档集的相似性排序,通过查询扩展或相关反馈,向量空间模型适合一般的文档集的相似性排序,通过查询扩展或相关反馈,可以改善模型产生的结果集。向量空间模型与其他检索模型相比较,即使可以改善模型产生的结果集。向量空间模型与其他检索模型相比较,即使不是最优的,其性能也相当好的,因此该模型是目前普遍采用的信息检索不是最优的,其性能也相当好的,因此该模型是目前普
18、遍采用的信息检索模型。模型。7.1 信息检索概述青岛大学公共计算机基础教学中心第第第第7 7章章章章 信息检索信息检索信息检索信息检索 7.1.3 7.1.3 信息检索模型信息检索模型信息检索模型信息检索模型n n3.3.概率检索模型概率检索模型概率检索模型概率检索模型n n概率检索模型是一种基于概率论的检索模型,试图在一个概率框架内处理概率检索模型是一种基于概率论的检索模型,试图在一个概率框架内处理信息检索问题。概率检索模型假设给定一个用户的查询,则有一个只包含信息检索问题。概率检索模型假设给定一个用户的查询,则有一个只包含相关文档且不包含无关文档的理想结果集,如果能够给出这个理想结果集相关
19、文档且不包含无关文档的理想结果集,如果能够给出这个理想结果集的描述,检索文档时就十分方便了。最初我们并不能精确给出理想结果集,的描述,检索文档时就十分方便了。最初我们并不能精确给出理想结果集,但猜测允许我们产生一个初步的对理想结果集的概率描述,用于检索出初但猜测允许我们产生一个初步的对理想结果集的概率描述,用于检索出初始的文档集,然后引入用户的交互,以改善理想结果集的概率描述。始的文档集,然后引入用户的交互,以改善理想结果集的概率描述。n n用户浏览检索出文档,并决定哪些文档是相关的,哪些是无关的。然后信用户浏览检索出文档,并决定哪些文档是相关的,哪些是无关的。然后信息检索系统利用这个信息,修
20、改理想结果集的描述。通过多次重复这个过息检索系统利用这个信息,修改理想结果集的描述。通过多次重复这个过程,不断修改描述并逐步接近理想结果集的真实描述。程,不断修改描述并逐步接近理想结果集的真实描述。n n从理论上讲,概率检索模型检出的文档将按照相关的概率降序排列,这符从理论上讲,概率检索模型检出的文档将按照相关的概率降序排列,这符合我们的查询要求。但在该模型中,需要最初将文档分为相关的和无关的合我们的查询要求。但在该模型中,需要最初将文档分为相关的和无关的两个集合,并且与向量空间模型一样,各索引项之间是独立的,无法对文两个集合,并且与向量空间模型一样,各索引项之间是独立的,无法对文档中的索引项
21、提供相关性信息。档中的索引项提供相关性信息。7.1 信息检索概述青岛大学公共计算机基础教学中心第第第第7 7章章章章 信息检索信息检索信息检索信息检索 7.1.4 信息检索效果的评价信息检索效果的评价n n检索效果(检索效果(Retrieval EffectivenessRetrieval Effectiveness)是指用户利用检索系统实施)是指用户利用检索系统实施检索的有效程度,也是某次检索满足用户信息需求的程度,它检索的有效程度,也是某次检索满足用户信息需求的程度,它直接反映了检索系统的性能和本次检索的成败。判定信息检索直接反映了检索系统的性能和本次检索的成败。判定信息检索效果的主要标准
22、包括查全率、查准率、漏查率、误查率等。效果的主要标准包括查全率、查准率、漏查率、误查率等。n n1.1.查全率查全率查全率查全率n n查全率(查全率(Recall RatioRecall Ratio)又称检全率,是指用户进行某次检索时,)又称检全率,是指用户进行某次检索时,系统检索出的所有信息量与检索系统中相关信息总量的比率,系统检索出的所有信息量与检索系统中相关信息总量的比率,具体可用下面的公式表示:具体可用下面的公式表示:7.1 信息检索概述青岛大学公共计算机基础教学中心第第第第7 7章章章章 信息检索信息检索信息检索信息检索 7.1.4 信息检索效果的评价信息检索效果的评价n n2.2.
23、查准率查准率查准率查准率n n查准率(查准率(查准率(查准率(Precision RatioPrecision Ratio)又称检准率,是指用户进行某次检索时,系统检)又称检准率,是指用户进行某次检索时,系统检)又称检准率,是指用户进行某次检索时,系统检)又称检准率,是指用户进行某次检索时,系统检索出的符合课题需要的相关信息量与检索出的信息总量的比率,具体可用索出的符合课题需要的相关信息量与检索出的信息总量的比率,具体可用索出的符合课题需要的相关信息量与检索出的信息总量的比率,具体可用索出的符合课题需要的相关信息量与检索出的信息总量的比率,具体可用下面的公式表示:下面的公式表示:下面的公式表示
24、:下面的公式表示:n n3.3.漏查率漏查率漏查率漏查率n n漏查率(漏查率(漏查率(漏查率(Omission RatioOmission Ratio)又称漏检率,是指用户进行某次检索时,系统)又称漏检率,是指用户进行某次检索时,系统)又称漏检率,是指用户进行某次检索时,系统)又称漏检率,是指用户进行某次检索时,系统未检索出的相关信息量与检索系统中相关信息总量的比率,具体可用下面未检索出的相关信息量与检索系统中相关信息总量的比率,具体可用下面未检索出的相关信息量与检索系统中相关信息总量的比率,具体可用下面未检索出的相关信息量与检索系统中相关信息总量的比率,具体可用下面的公式表示:的公式表示:的
25、公式表示:的公式表示:7.1 信息检索概述青岛大学公共计算机基础教学中心第第第第7 7章章章章 信息检索信息检索信息检索信息检索 7.1.4 信息检索效果的评价信息检索效果的评价n n4.4.误查率误查率误查率误查率n n误查率(误查率(误查率(误查率(Miss RatioMiss Ratio)又称误检率,是指用户进行某次检索时,系统检索)又称误检率,是指用户进行某次检索时,系统检索)又称误检率,是指用户进行某次检索时,系统检索)又称误检率,是指用户进行某次检索时,系统检索出的不相关信息量与检索出的信息总量的比率,具体可用下面的公式表示:出的不相关信息量与检索出的信息总量的比率,具体可用下面的
26、公式表示:出的不相关信息量与检索出的信息总量的比率,具体可用下面的公式表示:出的不相关信息量与检索出的信息总量的比率,具体可用下面的公式表示:7.1 信息检索概述青岛大学公共计算机基础教学中心第第第第7 7章章章章 信息检索信息检索信息检索信息检索 7.2.1 Internet7.2.1 Internet网络信息检索方法网络信息检索方法网络信息检索方法网络信息检索方法n n1.1.网络浏览网络浏览网络浏览网络浏览n n网络浏览是网络浏览是InternetInternet上发现和检索信息的最原始方法。在日常上发现和检索信息的最原始方法。在日常的网络阅读中,人们都有过意外发现有用信息的体验,尤其是
27、的网络阅读中,人们都有过意外发现有用信息的体验,尤其是网页中提供的超链接,使用户可以在网页中提供的超链接,使用户可以在InternetInternet中中“顺链而行顺链而行”,从一个网页转到另一个网页。追踪某个网页的相关链接有些,从一个网页转到另一个网页。追踪某个网页的相关链接有些类似于传统文献检索中的类似于传统文献检索中的“追溯检索追溯检索”,即根据文献后所附的,即根据文献后所附的参考文献追溯相关文献,一轮一轮地不断扩大范围。这种方式参考文献追溯相关文献,一轮一轮地不断扩大范围。这种方式可以在很短时间内获得大量相关信息,但也可能会偏离检索目可以在很短时间内获得大量相关信息,但也可能会偏离检索
28、目标,因此搜索的结果可能带有某种偶然性和片面性。标,因此搜索的结果可能带有某种偶然性和片面性。n n严格地说,网络浏览并不是一种真正的网络信息检索方法。当严格地说,网络浏览并不是一种真正的网络信息检索方法。当我们在网络浏览中发现有价值的信息后,应及时收藏这些信息我们在网络浏览中发现有价值的信息后,应及时收藏这些信息页面,为今后的使用提供方便。页面,为今后的使用提供方便。7.2 Internet网络信息检索青岛大学公共计算机基础教学中心第第第第7 7章章章章 信息检索信息检索信息检索信息检索 7.2.1 Internet7.2.1 Internet网络信息检索方法网络信息检索方法网络信息检索方法
29、网络信息检索方法n n1.1.网络浏览网络浏览网络浏览网络浏览n n网络浏览是网络浏览是InternetInternet上发现和检索信息的最原始方法。在日常上发现和检索信息的最原始方法。在日常的网络阅读中,人们都有过意外发现有用信息的体验,尤其是的网络阅读中,人们都有过意外发现有用信息的体验,尤其是网页中提供的超链接,使用户可以在网页中提供的超链接,使用户可以在InternetInternet中中“顺链而行顺链而行”,从一个网页转到另一个网页。追踪某个网页的相关链接有些,从一个网页转到另一个网页。追踪某个网页的相关链接有些类似于传统文献检索中的类似于传统文献检索中的“追溯检索追溯检索”,即根据
30、文献后所附的,即根据文献后所附的参考文献追溯相关文献,一轮一轮地不断扩大范围。这种方式参考文献追溯相关文献,一轮一轮地不断扩大范围。这种方式可以在很短时间内获得大量相关信息,但也可能会偏离检索目可以在很短时间内获得大量相关信息,但也可能会偏离检索目标,因此搜索的结果可能带有某种偶然性和片面性。标,因此搜索的结果可能带有某种偶然性和片面性。n n严格地说,网络浏览并不是一种真正的网络信息检索方法。当严格地说,网络浏览并不是一种真正的网络信息检索方法。当我们在网络浏览中发现有价值的信息后,应及时收藏这些信息我们在网络浏览中发现有价值的信息后,应及时收藏这些信息页面,为今后的使用提供方便。页面,为今
31、后的使用提供方便。7.2 Internet网络信息检索青岛大学公共计算机基础教学中心第第第第7 7章章章章 信息检索信息检索信息检索信息检索 7.2.1 Internet7.2.1 Internet网络信息检索方法网络信息检索方法网络信息检索方法网络信息检索方法n n2.2.使用搜索引擎检索信息使用搜索引擎检索信息使用搜索引擎检索信息使用搜索引擎检索信息n n搜索引擎作为主要的搜索引擎作为主要的InternetInternet网络信息检索工具,能够网络信息检索工具,能够向用户提供关键词、词组或自然语言检索,在网络信向用户提供关键词、词组或自然语言检索,在网络信息检索中具有重要的地位。在进行信息
32、检索时,由户息检索中具有重要的地位。在进行信息检索时,由户提出检索要求,搜索引擎代替用户在数据库中进行查提出检索要求,搜索引擎代替用户在数据库中进行查找,并将检索结果反馈给用户。一般情况下,搜索引找,并将检索结果反馈给用户。一般情况下,搜索引擎具有布尔检索、词组检索、截词检索、字段检索等擎具有布尔检索、词组检索、截词检索、字段检索等多种功能。利用搜索引擎实施检索省时省力、简单方多种功能。利用搜索引擎实施检索省时省力、简单方便、检索速度快、能及时获取新增网络信息。但由于便、检索速度快、能及时获取新增网络信息。但由于搜索引擎使用计算机程序自动进行信息的加工、处理,搜索引擎使用计算机程序自动进行信息
33、的加工、处理,检索软件的智能性不是很高,会造成检索的准确性不检索软件的智能性不是很高,会造成检索的准确性不是很理想,与人们的检索需求及对检索效率的期望存是很理想,与人们的检索需求及对检索效率的期望存在一定的差距。在一定的差距。7.2 Internet网络信息检索青岛大学公共计算机基础教学中心第第第第7 7章章章章 信息检索信息检索信息检索信息检索 7.2.1 Internet7.2.1 Internet网络信息检索方法网络信息检索方法网络信息检索方法网络信息检索方法n n3.3.使用网络资源指南检索信息使用网络资源指南检索信息使用网络资源指南检索信息使用网络资源指南检索信息n n开发网络资源指
34、南的目的是可实现对网络信息资源的智能性查找。为了对开发网络资源指南的目的是可实现对网络信息资源的智能性查找。为了对InternetInternet上的信息资源加以组织和管理,使大量有价值的信息纳入一个有序上的信息资源加以组织和管理,使大量有价值的信息纳入一个有序的组织体系,便于用户全面掌握网络资源的分布,专业人员基于对网络信的组织体系,便于用户全面掌握网络资源的分布,专业人员基于对网络信息资源的产生、传递与利用机制的广泛了解,以及对网络信息资源分布状息资源的产生、传递与利用机制的广泛了解,以及对网络信息资源分布状况的熟悉,使用采集、组织、评价、过滤、控制、检索等各种手段,开发况的熟悉,使用采集
35、、组织、评价、过滤、控制、检索等各种手段,开发出用于快速检索信息的网络资源指南。出用于快速检索信息的网络资源指南。n n网络资源指南会根据网络信息的主题内容进行分类,并以等级目录的形式网络资源指南会根据网络信息的主题内容进行分类,并以等级目录的形式进行组织。在进行组织。在InternetInternet上,综合性的网络资源指南广受欢迎,最著名的就是上,综合性的网络资源指南广受欢迎,最著名的就是YahooYahoo目录;而专业性的网络资源指南也很普遍,几乎每一个学科专业、目录;而专业性的网络资源指南也很普遍,几乎每一个学科专业、重要课题、研究领域的网络资源指南都可以在重要课题、研究领域的网络资源
36、指南都可以在InternetInternet上找到,例如中国高上找到,例如中国高等教育文献保障系统等教育文献保障系统CALISCALIS(http:/http:/)就是一个含有多学科的网络资源指)就是一个含有多学科的网络资源指南。南。n n但使用网络资源指南也存在着很大的局限性,由于对网络资源指南的管理但使用网络资源指南也存在着很大的局限性,由于对网络资源指南的管理和维护跟不上网络信息的增长速度,因此其中收录信息的范围不够全面,和维护跟不上网络信息的增长速度,因此其中收录信息的范围不够全面,新颖性、及时性不够强,同时用户还要受开发人员分类思想的限制。新颖性、及时性不够强,同时用户还要受开发人员
37、分类思想的限制。7.2 Internet网络信息检索青岛大学公共计算机基础教学中心第第第第7 7章章章章 信息检索信息检索信息检索信息检索 7.2.1 Internet7.2.1 Internet网络信息检索方法网络信息检索方法网络信息检索方法网络信息检索方法n n4.4.使用在线数据库检索信息使用在线数据库检索信息使用在线数据库检索信息使用在线数据库检索信息n n使用使用InternetInternet上的在线数据库进行查询,是用户获取学术性信息的最有效方上的在线数据库进行查询,是用户获取学术性信息的最有效方法。目前,法。目前,InternetInternet上在线数据库有很多,比较著名的有
38、维普数据库、上在线数据库有很多,比较著名的有维普数据库、CNKICNKI中国期刊网、万方数据库资源系统、超星数字图书馆等。中国期刊网、万方数据库资源系统、超星数字图书馆等。n n5.5.使用其他类型的网络信息检索工具使用其他类型的网络信息检索工具使用其他类型的网络信息检索工具使用其他类型的网络信息检索工具n n在在InternetInternet发展的初期,相继开发了一系列的网络信息查询工具。例如,使发展的初期,相继开发了一系列的网络信息查询工具。例如,使用用TelnetTelnet远程登录到各类图书馆的公共目录系统、信息服务机构的综合信息远程登录到各类图书馆的公共目录系统、信息服务机构的综合
39、信息系统等进行查询;使用分布式数据库检索系统系统等进行查询;使用分布式数据库检索系统ArchieArchie在在FTPFTP文件服务器中查文件服务器中查询信息;使用询信息;使用USENETUSENET新闻组在新闻组在InternetInternet上读取新闻组消息并开展讨论;使上读取新闻组消息并开展讨论;使用基于菜单驱动的用基于菜单驱动的InternetInternet信息查询工具检索文本信息;使用广域信息查询信息查询工具检索文本信息;使用广域信息查询工具工具WAISWAIS在在InternetInternet上检索信息资源。上检索信息资源。n n需要注意的是,由于需要注意的是,由于WWWWW
40、W系统的快速发展,成为系统的快速发展,成为InternetInternet网络信息发布的网络信息发布的主流,随着时间的不断推移,在上述网络信息查询工具中,有些还在继续主流,随着时间的不断推移,在上述网络信息查询工具中,有些还在继续使用,有些已无人问津。使用,有些已无人问津。7.2 Internet网络信息检索青岛大学公共计算机基础教学中心第第第第7 7章章章章 信息检索信息检索信息检索信息检索 7.2.2 Internet7.2.2 Internet搜索引擎搜索引擎搜索引擎搜索引擎n n1.1.搜索引擎的工作原理搜索引擎的工作原理搜索引擎的工作原理搜索引擎的工作原理n n搜索引擎通常由搜索器、
41、索引器、检索器、数据库和用户接口五个部分组成。搜索引擎通常由搜索器、索引器、检索器、数据库和用户接口五个部分组成。n n搜索器是一个自动运行的程序,人们通常也将其称为蜘蛛(搜索器是一个自动运行的程序,人们通常也将其称为蜘蛛(SpiderSpider)、机器人)、机器人(RobotRobot)、网页爬行者()、网页爬行者(Web CrawlerWeb Crawler)等,搜索器的功能是在)等,搜索器的功能是在InternetInternet中自动漫游,中自动漫游,发现信息并生成信息摘要。它日夜不停地运行,尽可能多、尽可能快地搜集各种类发现信息并生成信息摘要。它日夜不停地运行,尽可能多、尽可能快地
42、搜集各种类型的新信息,同时还要定期更新已经搜集过的旧信息,避免无效链接的出现。型的新信息,同时还要定期更新已经搜集过的旧信息,避免无效链接的出现。n n索引器也称标引器,它的主要功能是对搜索器捕获的信息进行分析,从中抽取出索索引器也称标引器,它的主要功能是对搜索器捕获的信息进行分析,从中抽取出索引项,建立文档的索引表。索引器的标引方法因系统的不同而异,大多数都采取自引项,建立文档的索引表。索引器的标引方法因系统的不同而异,大多数都采取自动标引技术,可以建立对动标引技术,可以建立对WWWWWW网页内容的全文索引,也可以按某些分类或特征从网页内容的全文索引,也可以按某些分类或特征从网页中抽取信息。
43、网页中抽取信息。n n数据库是搜索引擎所包含信息资源的集合,它不仅存放搜索器从网络中收集的信息数据库是搜索引擎所包含信息资源的集合,它不仅存放搜索器从网络中收集的信息摘要,同时还存放了索引器对这些信息摘要建立的索引项,以备将来用户查询时使摘要,同时还存放了索引器对这些信息摘要建立的索引项,以备将来用户查询时使用。用。n n检索器是根据用户的查询要求在信息数据库中快速匹配文档,对将要输出的结果进检索器是根据用户的查询要求在信息数据库中快速匹配文档,对将要输出的结果进行排序,并实现某种用户相关性的反馈机制。行排序,并实现某种用户相关性的反馈机制。n n用户接口供用户输入查询,显示匹配结果。主要目的
44、是方便用户使用搜索引擎,高用户接口供用户输入查询,显示匹配结果。主要目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效及时的信息。效率、多方式地从搜索引擎中得到有效及时的信息。7.2 Internet网络信息检索青岛大学公共计算机基础教学中心第第第第7 7章章章章 信息检索信息检索信息检索信息检索 7.2.2 Internet搜索引擎搜索引擎n n1.1.搜索引擎的工作原理搜索引擎的工作原理搜索引擎的工作原理搜索引擎的工作原理n n在在搜搜索索引引擎擎中中,首首先先利利用用搜搜索索器器从从InternetInternet上上收收集集各各网网络络站站点点的的摘摘要要信信息息,再再使
45、使用用索索引引器器对对网网页页上上的的某某些些关关键键词词建建立立索索引引,并并存存放放到到本本地地数数据据库库中中。当当用用户户在在检检索索时时,通通过过搜搜索索引引擎擎的的用用户户接接口口访访问问摘摘要要信信息息数数据据库库,检检索索器器根根据据用用户户的的查查询询条条件件快快速速检检索索出出文文档档,并并对对将将要要输输出出的的结结果果进进行行排排序序和和相相关性处理,最后再通过用户接口将检索结果反馈给用户。关性处理,最后再通过用户接口将检索结果反馈给用户。7.2 Internet网络信息检索青岛大学公共计算机基础教学中心第第第第7 7章章章章 信息检索信息检索信息检索信息检索 7.2.
46、2 Internet7.2.2 Internet搜索引擎搜索引擎搜索引擎搜索引擎n n2.2.搜索引擎的基本检索功能搜索引擎的基本检索功能搜索引擎的基本检索功能搜索引擎的基本检索功能n n搜索引擎使用输入的检索关键词进行检索。一般地,可以将搜索引擎的检索功能分搜索引擎使用输入的检索关键词进行检索。一般地,可以将搜索引擎的检索功能分为基本检索功能和高级检索功能两类。搜索引擎支持的基本检索功能主要有字符串为基本检索功能和高级检索功能两类。搜索引擎支持的基本检索功能主要有字符串检索、布尔逻辑检索、截词检索、字段限制检索等。检索、布尔逻辑检索、截词检索、字段限制检索等。n n(1 1)布尔逻辑检索)布
47、尔逻辑检索n n搜索引擎大都支持布尔逻辑检索,即用布尔算符搜索引擎大都支持布尔逻辑检索,即用布尔算符ANDAND、OROR、NOTNOT连接检索关键词连接检索关键词进行逻辑运算。例如检索关键词进行逻辑运算。例如检索关键词“计算机计算机AND AND 数码相机数码相机”表示查询既含有计算机表示查询既含有计算机又含有数码相机的信息内容,而检索关键词又含有数码相机的信息内容,而检索关键词“计算机计算机OR OR 数码相机数码相机”则表示查询含则表示查询含有计算机或含有数码相机的信息内容。需要注意的是,不同的搜索引擎对逻辑检索有计算机或含有数码相机的信息内容。需要注意的是,不同的搜索引擎对逻辑检索支持
48、的程度不同,逻辑运算符的表示也不相同,使用时应参考具体的搜索引擎。支持的程度不同,逻辑运算符的表示也不相同,使用时应参考具体的搜索引擎。n n(2 2)字符串检索)字符串检索n n字符串检索是一种精确的查找方式,它将一个字符串当成一个独立的运算单元进行字符串检索是一种精确的查找方式,它将一个字符串当成一个独立的运算单元进行严格地匹配。字符串检索不仅规定了检索关键词中各个具体的检索词及其相互的逻严格地匹配。字符串检索不仅规定了检索关键词中各个具体的检索词及其相互的逻辑关系,而且规定了检索词之间的位置关系。几乎所有的搜索引擎都支持字符串检辑关系,而且规定了检索词之间的位置关系。几乎所有的搜索引擎都
49、支持字符串检索,而且都采用双引号索,而且都采用双引号“”“”来代表字符串。例如在搜索引擎中使用字符串来代表字符串。例如在搜索引擎中使用字符串“计算机计算机软件软件”作为检索关键词,就等于告诉搜索引擎只检索网页中含有作为检索关键词,就等于告诉搜索引擎只检索网页中含有“计算机软件计算机软件”的的信息内容,而忽略哪些包含有信息内容,而忽略哪些包含有“计算机软件行情计算机软件行情”的信息内容。的信息内容。7.2 Internet网络信息检索青岛大学公共计算机基础教学中心第第第第7 7章章章章 信息检索信息检索信息检索信息检索 7.2.2 Internet7.2.2 Internet搜索引擎搜索引擎搜索
50、引擎搜索引擎n n(3 3)截词检索)截词检索n n截词检索是能够有效防止漏检的检索技术,尤其在西文检索中应用更加广截词检索是能够有效防止漏检的检索技术,尤其在西文检索中应用更加广泛。截断技术可以扩大检索范围,具有方便用户、增强检索效果的特点,泛。截断技术可以扩大检索范围,具有方便用户、增强检索效果的特点,但一定要合理使用,否则会造成误检。大多数搜索引擎都支持截词功能,但一定要合理使用,否则会造成误检。大多数搜索引擎都支持截词功能,一般提供右截断,有些搜索引擎采用自动截词,有的搜索引擎则是在一定一般提供右截断,有些搜索引擎采用自动截词,有的搜索引擎则是在一定条件下才能截词。常用的截词符有条件下