《第五章 因特网信息检索 1.ppt》由会员分享,可在线阅读,更多相关《第五章 因特网信息检索 1.ppt(42页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、因特网信息检索图书馆:刘锋本课内容l一、网络信息资源概述一、网络信息资源概述l二、网络信息检索二、网络信息检索l三、网络信息检索策略与技巧三、网络信息检索策略与技巧l四、网络信息检索的发展趋势四、网络信息检索的发展趋势常用常用术语(一)(一)超文本超文本(Hypertext)是用超链结的方法,将各种不同空间的文字信息组织在一起的网状文本,这种文本与文本之间的链接关系就称为超链接。超文本的格式有很多,目前最常使用的是超文本标记语言(HyperTextMarkupLanguage,HTML)及富文本格式(RichTextFormat,RTF)。超媒体超媒体(HyperMedia),是超文本利用引用
2、链接其他不同类型(内含声音、图片、动画)的文件,这些具有多媒体操作的超文本和多媒体在信息浏览环境下的结合,它是超级媒体的简称。意指多媒体超文本(MultimediaHypertext),即以多媒体的方式呈现相关文件信息。浏览器浏览器(Browser)是Web页浏览的客户应用程序,是一种在窗口环境下浏览互联网资源并获得信息的多媒体工具。有了浏览器,用户才能够在因特网的大海中航行。常用常用术语(二)(二)(TCP/IP协议)TCP(TransportControlProtocol)指传输控制协议,IP(InternetProtocol)指网际协议。互联网连接了世界上不同国家与地区无数不同硬件、不同
3、操作系统与不同软件的计算机,数据在传输过程中很容易丢失或传错。为了保证这些计算机之间能够畅通无阻地交换信息,INTERNET采用统一的通信协议TCP/IP协议,它能保证数据迅速可靠传输。TCP/IP协议实际是一个协议集合。我们最常见的协议有http(超文本传输协议):WWW客户机和服务器用于在网上传输、响应用户请求的协议。常用常用术语(三)(三)网络地址与域名(IP地址和DN)IP地址:互联网上连接了无数的计算机(主机),用户如何找到一个特定的主机呢?人们根据IP协议给每一个主机分配一个编码,这个编码称为IP地址。它可用四组由圆点分割的数字表示。如,我校图书馆网站的IP地址:http:/210
4、.44.146.11域名(Domainname):IP地址难于记忆,也可以用域名来表示主机。DNS:域名服务器(DomainNameServer)。常用常用术语(四)(四)URL:统一资源定位符(UniformResourceLocator)WWW是World Wide Web(环球信息网环球信息网)的缩写,也可以简称为Web,中文名字为“万维网”。SMTP:简单邮件传输协议(SimpleMailTransferProtocol)SMTP是一种提供可靠且有效电子邮件传输的协议。SMTP是建模在FTP文件传输服务上的一种邮件服务,主要用于传输系统之间的邮件信息并提供来信有关的通知。NNTP:网络
5、新闻传输协议(网络新闻传输协议(Network News Transfer Protocol Overview)一、网络信息资源概述一、网络信息资源概述(一)、网络信息资源网络信息资源的定义 通过计算机网络可以利用的各种信息资源的总和。即以数字化形式记录的,以多媒体形式表达的,分布式存储在网络计算机的磁介质、光介质以及各类通信介质上,并通过计算机通信方式进行传递的信息内容的集合。(载体、表达形式、组织结构、传播手段)一、网络信息资源概述一、网络信息资源概述(二)、网络信息资源的特点(二)、网络信息资源的特点1、信息量大、传播广泛2、信息类型多样、内容丰富3、信息时效性强、变化频繁4、信息分散无
6、序、但关联程度高5、信息缺乏管理、良莠不齐一、网络信息资源概述一、网络信息资源概述(三)、网络信息资源的类型(三)、网络信息资源的类型1、按采用的网络传输协议划分(1)WWW信息资源也称Web信息资源,采用超文本传输协议(HyperTextTransferProtocol,HTTP)在WWW客户端和服务器端之间传输,建立在超文本、超媒体等技术的基础上,集文本、图像、图形、声音等为一体,以网页的形式存在Internet上。(2)Telnet信息资源是指在远程登录协议Telnet(TelecommunicationNetworkProtocol)的支持下,用户计算机经由Internet与远程计算机
7、连接,并在权限允许的范围内检索和使用远程计算机的各种硬件、软件资源。Telnet方式是实现与远程计算机连接的最快方式。(Dialog、OCLC、OPAC)一、网络信息资源概述一、网络信息资源概述(3)FTP信息资源FTP信息资源是借助于文件传输协议(FileTransferProtocol,FTP),以文件方式在联网计算机之间传输的信息资源。FTP协议的主要功能是实现文件从一个系统到另一个系统的完整拷贝,资源类型广泛。(4)用户服务组信息资源 网上各种各样的用户服务组是Internet上最受欢迎的信息交流形式,包括新闻组(UsenetNewsgroup)、电子邮件组(Listserv)、邮件列
8、表(MailingList)、专题讨论组(DiscussionGroup)等。用户服务组资源是一种最丰富、自由、最具开放性的资源,其信息交流的广泛性、直接性是其他任何类型的信息资源都无法比拟的。(论坛、邮件交流)一、网络信息资源概述一、网络信息资源概述2、按信息资源组织形式划分(1)文件方式(2)超文本/超媒体方式超文本/超媒体方式是一种新型的信息组织方式,不仅注重所要管理的信息本身,而且更加注重信息之间关系的建立与表示,是将网络信息按照相互关系非线性存储在节点(Node)上,节点间以链路(Link)相连,形成一个可任意连接的、有层次的、复杂的网状结构。超文本是以线性和静态的文本信息的文本为处
9、理对象,超媒体是超文本与多媒体技术的结合,将文字、图表、声音、图像、视频等多媒体信息以超文本方式组织。(3)数据库方式(4)网站集网络信息提供、网络信息组织、网络信息服务于一体,一般综合了文件方式、超文本/超媒体方式和数据库方式来组织信息和提供信息的检索。一、网络信息资源概述一、网络信息资源概述3、按网络信息资源的内容划分、按网络信息资源的内容划分(1)网络数据库)网络数据库(联机、光盘数据库)(联机、光盘数据库)(2)网络出版物)网络出版物(电子图书、电子期刊等)(电子图书、电子期刊等)(3)社会信息)社会信息(政策、新闻、娱乐信息等)(政策、新闻、娱乐信息等)(4)软件资源)软件资源(各种
10、应用程序)(各种应用程序)(5)其他类型的信息)其他类型的信息(论坛、电子公告、网(论坛、电子公告、网络日志)络日志)二、网络信息检索二、网络信息检索l(一)、网络信息检索的定义(一)、网络信息检索的定义l狭义:是指网络信息的查找,即以Internet为检索平台和媒介,利用相应的网络检索工具或检索系统,运用一定的网络检索技术与策略,从有序的网络信息集合中查出所需信息的过程。l广义:包括网络信息整序和网络信息查找。l网络信息整序是将与Internet相连的信息按一定的规则进行搜集、分析和标引,并以数据库方式、主题树方式或者其他方式组织、排序和存储。二、网络信息检索二、网络信息检索(二)、网络信息
11、检索的特点(二)、网络信息检索的特点1、检索范围涵盖整个Internet2、传统检索方法与全新网络检索技术相结合3、用户界面友好且操作方便4、用户透明度高5、信息检索效率不高二、网络信息检索二、网络信息检索(三)、网络信息检索的一般方法(三)、网络信息检索的一般方法1、浏览方式(1)随意浏览(2)分类体系浏览2、查询方式:通过输入检索条件,从大量的信息集合中检索信息的方式。二、网络信息检索二、网络信息检索(四)、网络信息检索技术(四)、网络信息检索技术1、全文检索技术 全文检索(FullTextRetrieval)技术,就是以信息资料的内容,如文字、声音、图像等为主要处理对象,而不是其外在特征
12、来实现信息检索的技术,出现于20世纪50年代末。二、网络信息检索二、网络信息检索(四)、网络信息检索技术(四)、网络信息检索技术2、多媒体信息检索技术 (1)基于内容的图像检索技术(2)基于内容的视频检索技术(3)基于内容的音频检索技术二、网络信息检索二、网络信息检索(四)、网络信息检索技术(四)、网络信息检索技术3、智能检索技术采用人工智能计算机技术进行信息检索的技术采用人工智能计算机技术进行信息检索的技术 (1)机器学习技术(2)知识发现技术(3)自然语言理解技术(4)智能代理技术二、网络信息检索二、网络信息检索(四)、网络信息检索技术(四)、网络信息检索技术4、数据挖掘技术 数据挖掘(数
13、据挖掘(Data Mining)技术也称为数据库中的知)技术也称为数据库中的知识发现技术,是指从大型数据库或数据仓库中提取人们识发现技术,是指从大型数据库或数据仓库中提取人们感兴趣的知识,这些知识是隐含的、事先未知的潜在有感兴趣的知识,这些知识是隐含的、事先未知的潜在有用信息,提取知识一般可表示为概念、规则、规律、模用信息,提取知识一般可表示为概念、规则、规律、模式等形式。式等形式。(1)Web内容挖掘(从文档内容或其描述中抽取知识)(从文档内容或其描述中抽取知识)(2)Web结构挖掘(从组织结构和连接关系中推导知识)(从组织结构和连接关系中推导知识)(3)Web使用记录挖掘(从(从Web访问
14、记录中挖掘)访问记录中挖掘)二、网络信息检索二、网络信息检索(四)、网络信息检索技术(四)、网络信息检索技术5、自动标引和分类技术 自动标引技术自动标引技术是指由计算机代替人工完成文本的内容分析,并赋予词语标识的技术,可分为抽词标引和赋词标引两种。抽词标引抽词标引:主要指利用原文本信息中的自然语言直接标引,不加任何处理。赋词标引:是指使用已建词表中的主题词(或叙词)替代文本信息中的关键词来表达文本主题内容概念的标引过程。即使用受控语词进行标引,这是一种受控语言标引。目前网上采用的是词频加权统计法(标引词=主题词+权值)自动分类技术自动分类技术:利用计算机信息技术按照一:利用计算机信息技术按照一
15、定的分类体系或标准进行自动分类标记,它定的分类体系或标准进行自动分类标记,它主要用于实现信息特征的聚类和归类,即将主要用于实现信息特征的聚类和归类,即将具有相同或相近特征的信息对象集中在一起。具有相同或相近特征的信息对象集中在一起。而将不同特征者尽可能归于不同的类别中,而将不同特征者尽可能归于不同的类别中,从而实现快速检索。(外文本预处理、文从而实现快速检索。(外文本预处理、文本表示和特征提取)本表示和特征提取)二、网络信息检索二、网络信息检索(五)、网络信息检索工具的类型(五)、网络信息检索工具的类型1、WWW信息资源检索工具(1)网络资源指南(2)搜索引擎(3)信息门户(4)搜索软件二、网
16、络信息检索二、网络信息检索(五)、网络信息检索工具的类型(五)、网络信息检索工具的类型2、非WWW信息资源的检索工具(1)FTP信息资源的检索工具(2)Telnet信息资源的检索工具(3)用户服务组信息资源的检索工具三、网络信息检索策略和技巧三、网络信息检索策略和技巧(一)、网络信息检索策略(一)、网络信息检索策略1、分析检索课题、分析检索课题(1)明确检索目的(2)明确课题的检索范围(3)确定检索项2、选择检索工具、选择检索工具(1)明确不同类型网络信息检索工具的适用范围(2)了解主要检索工具的特点和功能(3)重视检索工具的分类浏览功能在学术信息检索中的应用(4)注意多种网络检索工具的组合使
17、用3、实施检索、实施检索(1)了解检索工具的检索规则(2)确定检索词(3)构造检索式(4)选择和处理检索结果三、网络信息检索策略和技巧三、网络信息检索策略和技巧(二)、网络信息检索技巧(二)、网络信息检索技巧1、提高检索效率的措施、提高检索效率的措施(1)提高查全率少用逻辑“与”、多用逻辑“或”、降低检索词的专指度等(2)提高查准率2、提高检索速度的措施、提高检索速度的措施(1)建立收藏夹分类体系(2)采用缓存措施(3)设置启动页面(4)减少信息媒体的装载四、网络信息检索的发展趋势四、网络信息检索的发展趋势1、网络信息检索的智能化、网络信息检索的智能化因特网的飞速发展,对检索工具的智能化程度提
18、出了更高的要求。智能化程度高的检索工具在竞争中将明显地处于有利的地位。目前,除了新兴的自动标引、自动文献、自动跟踪、自动漫游等智能化检索技术正在逐步走向完善外,网络专家们又推出了智能浏览器、学习智能体、知识共享智能体等最新的网络信息高度智能化检索技术2、网络信息检索的个性化网络信息检索的个性化(1)收录内容特色化(2)个性化检索设置(3)个性化检索界面(4)个性化信息推送四、网络信息检索的发展趋势四、网络信息检索的发展趋势3、网络信息检索的可视化、网络信息检索的可视化由于图像表达方式的生动、形象、准确和多维揭示等特点,人们便将一些抽象、不可见的概念、关系等用图像形式来表达,将其可视化。可视化检
19、索就是把文献信息、用户提问、各类检索模型以及利用检索模型进行检索的过程,展示在一个可视化空间中,并向用户提供信息检索服务。4、网络信息检索的多样化网络信息检索的多样化(1)网上检索信息的多样化(2)网络检索工具的多样化四、网络信息检索的发展趋势四、网络信息检索的发展趋势(3)检索功能的多样化针对网络信息分布无序、难以规范化和结构化、内容特征抽取复杂等特点,网络信息检索工具的功能也将进一步向多样化方向发展。检索功能的多样化具体体现在以下几个方面:一是检索角度的多样化。目前网络信息检索工具提供的检索点主要有文件名、文件标题、作者、网址名、日期等可检字段。从这些角度还不足以充分满足网络信息检索的需要
20、,目前,专家们正尝试着从信息的表现形式(如图表、图形、声音、影像等)、内容性质(如理论、实验、产品综述、方法、新技术的应用等)、数字符号(如温度、频率、化学符号等)等角度进行网络信息检索。二是检索途径的多样化。既可以满足一般用户的浏览检索,又可以满足专业用户的专指检索。三是检索手段的多样化。作为一个整体,网络信息检索工具具有的检索手段主要有:布尔检索、词语检索、截词检索、字段检索、概念检索、邻近度检察、区分大小写等。当前,检索工具普遍支持的是布尔检索和截词检索。四是检索结果输出形式的多样化。为了满足用户的不同需要,检索结果趋向多样化的输出形式,它可以按照详简程度、相关程度、词语顺序等多种形式排
21、列,也可以在返回的结果中进行二次检索,还可合并返回结果、删除重复的链接等。四、网络信息检索的发展趋势四、网络信息检索的发展趋势(4)系统维护的动态化网上信息资源具有很强的动态性特征,其产生、更新、消失往往不易预测,这就要求网络信息检索工具系统本身也要有很强的动态性。每个网络检索工具都是由索引及检索机制两个基本部分构成的。索引的更新频率决定了检索结果的时效性。目前,大多数索引为每周更新一次,也有每月甚至更长时间更新一次的。为了提高检索结果的时效性,现在很多检索工具都在准备进一步加快索引的更新频率,以便尽可能缩小检索工具信息库与网上信息的时差,用最短的搜索周期将已经发生变化的网页信息加以标引,追加
22、到数据库中,并及时剔除已成死链的链接。另外,为了适应网上信息的快速变化,一些专家正在研究如何更及时地将检索工具构建的知识组织体系和术语系统进行动态性的更新维护。搜索引擎搜索引擎有人说,会搜索才叫会上网,搜索引擎在我们日常生活中的地位已是举足轻重。你也许是个刚买了“猫”兴冲冲地要上网冲浪,也许已经在互联网上蛰伏了好几年,无论怎样,要想在浩如烟海的互联网信息中找到自己所需的信息,都需要一点点技巧。本课内容l一、搜索引擎及其发展历史搜索引擎及其发展历史l二、搜索引擎的原理二、搜索引擎的原理l三、搜索引擎的种类三、搜索引擎的种类l四、搜索引擎的用法四、搜索引擎的用法l五、常用搜索引擎指南五、常用搜索引
23、擎指南一、搜索引擎及其发展历史搜索引擎及其发展历史l一、什么是搜索引擎一、什么是搜索引擎l搜索引擎(SearchEngines)是一个对互联网上的信息资源进行搜集整理,然后供你查询的系统,它包括信息搜集、信息整理和用户查询三部分。l搜索引擎的主要任务是搜索其他网站上的信息,并将这些信息进行分类并建立索引,然后把索引的内容放到数据库中,当用户向搜索引擎提交搜索请求的时候,搜索引擎会从数据库中找出匹配的资料反馈给用户,用户再根据这些信息访问相应的网站,从而找到自己需要的资料。l二、搜索引擎发展史二、搜索引擎发展史l1990年以前,没有任何人能搜索互联网。l1990年至今:lYahoo、Google
24、、北大天网、Baidul北大天网是国家九五重点科技攻关项目中文编码和分布式中英文信息发现的研究成果,由北大计算机系网络与分布式系统研究室开发,于1997年10月29日正式在CERNET上提供服务。2000年初成立天网搜索引擎新课题组,由国家973重点基础研究发展规划项目基金资助开发,收录网页约6000万,利用教育网优势,有强大的ftp搜索功能。lBaidu2000年1月,超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士)在北京中关村创立了百度(Baidu)公司。2001年8月发布B搜索引擎Beta版(此前Baidu只为其它门户网站搜狐新浪Tom等提供搜索引擎
25、),2001年10月22日正式发布Baidu搜索引擎。Baidu虽然只提供中文搜索,但目前收录中文网页超过9000万,可能是最大的的中文数据库。Baidu搜索引擎的其它特色包括:网页快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、新闻搜索、Flash搜索、信息快递搜索。2002年3月闪电计划(BlitzenProject)开始后,技术升级明显加快。二、搜索引擎的原理二、搜索引擎的原理l搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。真正意义上的搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜
26、索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。l现在的搜索引擎已普遍使用超链分析技术,除了分析索引网页本身的内容,还分析索引所有指向该网页的链接的URL、AnchorText、甚至链接周围的文字。所以,有时候,即使某个网页A中并没有某个词比如“信息与计算信息与计算”,但如果有别的网页B用链接“信息与计算信息与计算”指向这个网页A,那么用户搜索“信息与计算信息与计算”时也能找到网页A。而且,如果有越多网页(C、D、E、F)用名为“信息与计算信息与计算”的链接指向这个网
27、页A,或者给出这个链接的源网页(B、C、D、E、F)越优秀,那么网页A在用户搜索“信息与计算信息与计算”时也会被认为更相关,排序也会越靠前。l搜索引擎的原理,可以看做三步:从互联网上抓取网页建立索引数据库在索引数据库中搜索排序。从互联网上抓取网页从互联网上抓取网页利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。建立索引数据库建立索引数据库由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链
28、接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。在索引数据库中搜索排序在索引数据库中搜索排序当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。l搜索引擎的Spider一般要定期重新访问所有网页l互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,
29、排序算法也各不相同。互联网上有大量的内容,是搜索引擎无法抓取索引的,也是我们无法用搜索引擎搜索到的。l你心里应该有这个概念:搜索引擎只能搜到它网页索引数据库里储存的内容。你也应该有这个概念:如果搜索引擎的网页索引数据库里应该有而你没有搜出来,那是你的能力问题,学习搜索技巧可以大幅度提高你的搜索能力。三、搜索引擎的种类三、搜索引擎的种类l一、目录索引搜索引擎目录索引搜索引擎(SearchIndex/Directory)l目录索引搜索引擎中的数据是各个网站自己提交的,它就像一个电话号码薄一样,按照各个网站的性质,把其网址分门别类排在一起,大类下面套着小类,一直到各个网站的详细地址,一般还会提供各个
30、网站的内容简介。用户不使用关键字也可进行查询,只要找到相关目录,就完全可以找到相关的网站(注意:是相关的网站,而不是这个网站上某个网页的内容)。这类搜索引擎往往也提供关键字查询功能,但在查询时,它只能够按照网站的名称、网址、简介等内容进行查询,所以它的查询结果也只是网站的URL地址,不能查到具体的页面。由于这类搜索引擎的数据一般由网站提供,因此它的搜索结果并不完全准确,并不是严格意义上的搜索引擎。l二、全文检索搜索引擎二、全文检索搜索引擎(SearchEngine)l这类搜索引擎通过一种称为“蜘蛛”的程序自动在网络上提取各个网站的信息来建立自己的数据库,并向用户提供查询服务,是一种真正意义上的
31、搜索引擎。如yahoo、Google、baidu等。l全文检索搜索引擎数据库中的数据来源分两种:l一是定期搜索,也就是每隔一段时间搜索引擎就主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,就会自动提取网站的信息和网址加入自己的数据库。l二是网站提交的信息,即网站所有者主动向搜索引擎提交地址,搜索引擎会在一定时间内派出“蜘蛛”程序搜索所提交的网站的相关信息,并存入自己的数据库中。l总的说来,这些数据都是“蜘蛛”程序搜索到的网页上的具体内容,其搜索结果也能精确到具体网页。三、小结三、小结l其实,如今的搜索引擎和目录索引已经开始相互融合,全文检索搜索引擎也提供目录索引服务。而像Yahoo!这样的目录索引也开始和Google的搜索引擎合作,从而扩大搜索范围。