第4章网络信息资源检索.ppt

上传人:可****阿 文档编号:69827971 上传时间:2023-01-09 格式:PPT 页数:23 大小:219KB
返回 下载 相关 举报
第4章网络信息资源检索.ppt_第1页
第1页 / 共23页
第4章网络信息资源检索.ppt_第2页
第2页 / 共23页
点击查看更多>>
资源描述

《第4章网络信息资源检索.ppt》由会员分享,可在线阅读,更多相关《第4章网络信息资源检索.ppt(23页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第4章 网络信息资源检索第第4章章 网络信息资源检索网络信息资源检索4.1 网络信息资源概述网络信息资源概述4.2 搜索引擎搜索引擎4.3 开放存取开放存取第4章 网络信息资源检索4.1 网络信息资源概述网络信息资源概述第4章 网络信息资源检索4.1.1 网络信息资源的定义和特点1.网络信息资源的定义网络信息资源是指通过计算机网络可以利用的各种信息资源的总和,即以数字化形式记录的,以多媒体形式表达的,分布式存储在网络计算机的存储介质以及各类通信介质上,并通过计算机网络通信方式进行传递的信息内容的集合。网络信息资源将原本相互独立、分布于世界各地的数据库、信息中心、文献中心等联结在一起,形成一个内

2、容与结构全新的信息整体。2.InternetInternet是世界上规模最大、覆盖面最广、信息资源最为丰富的计算机信息资源网络。它将遍布全球的各个国家和地区的计算机系统连接而成了一个计算机互联网络。从技术角度看,Internet是一个以TCP/IP作为通信协议连接各国、各地区、各机构计算机网络的数据通信网络;从资源角度来看,它是一个集各部门、各领域的各种信息资源为一体的,供网络用户共享的信息资源网络。3.网络信息资源的特点网络信息资源是通过网络生产和传播的数字化资源。在Internet这个信息媒体和交流渠道的支持下,网络信息资源日益成为人们获取信息的首选。1)信息量大、传播广泛第4章 网络信息

3、资源检索2)信息类型多样、内容丰富3)信息时效性强、动态、不稳定4)信息分散无序、但关联程度高5)信息价值差异大、难于管理4.1.2 网络信息资源的类型1按网络传输协议划分1)WWW信息资源WWW信息资源是建立在超文本、超媒体技术以及超文本传输协议(Hyper Text Transfer Protocol,HTTP)基础上的集文本、图形、图像、声音于一体,以直观的图形界面来展现和提供信息的网络资源形式。WWW其实是Internet中一个特殊的网络区域,这个区域是由网上所有超文本格式的文档(网页)集合而成的。超文本文档里既有数据又有包含指向其他文档的“链”(link),使得不同文档里的相关信息连

4、接在一起。通过这些“链”,用户在WWW上查找信息时,可以从一个文档跳到另一个文档,而不必考虑这些文档在网络上的具体地点。WWW信息资源是Internet信息资源的最主要、最常见的形式。2)TELNET信息资源TELNET信息资源是指在远程登录协议的支持下,用户计算机经Internet登录远程计算机,使自己的本地计算机暂时成为远程计算机的一个终端,进而可以实时访问,并在权限允许的范围内实时使用远程计算机系统中的各种硬件资源和软件资源。第4章 网络信息资源检索3)FTP信息资源信息资源文件传输协议(File Transfer Protocol,FTP)的主要功能是利用网络在本地与远程计算机之间建立

5、连接,从而使不同操作系统的计算机之间实现文件传送。FTP一般在组织或机构内部比较常见,使用的网络信息资源可为任何类型,不过目前以应用程序软件和多媒体信息资源为主。目前,FTP仍是发布、共享、传递软件和长文件的主要方法。4)新闻组信息资源新闻组(Usenet Newsgroup)是一种利用网络环境提供专题讨论服务的应用软件,是Internet服务体系的一部分。在此体系中,有众多的新闻组服务器,它们接收和存储有关主题的消息供用户查阅。5)电子邮件信息资源电子邮件(Electronic Mail,E-mail)是借助网络传递信息的现代化通信方式。6)Gopher信息资源Gopher是一种基于菜单的网

6、络服务程序,能为用户提供广泛、丰富的信息。通过Gopher,用户无需知道信息的存放位置和掌握相关的操作命令就能快速找到并访问所需的网络资源。7)WAIS信息资源信息资源广域信息服务器是一种双层客户机/服务器结构的网络全文信息资源和检索体系,允许用户在不同结构的远程数据库之间传输和检索信息。第4章 网络信息资源检索2.按照网络信息资源的组织方式划分信息组织是将无序状态的特定信息,根据一定的原则和方法,使其成为有序状态的过程。其目的在于将无序信息变为有序信息,方便人们有效利用和传递信息。面目前使用较为普遍的方式主要有以下四种。1)文件方式文件(File)是一种较为古老的信息组织方式,适用于网络信息

7、资源。文件方式简单方便,适合存储文本、程序、图形、图像、图表、音频、视频等非结构化信息。因此,文件本身只能作为信息单位成为其他信息组织方式的管理对象。2)超文本/超媒体方式超文本/超媒体方式是一种新型的信息管理组织方式,不仅注重所要管理的信息本身,而且更加注重信息之间关系的建立与表达。超文本方式以线性和静态的文本信息为处理对象,超媒体方式是超文本与多媒体技术的结合,将文字、图表、声音、图像、视频等多媒体信息以超文本方式组织管理。3)数据库方式数据库是对大量的规范化数据进行管理的技术。它将要处理的数据经合理分类和规范化处理后,以记录形式存储于计算机中,用户通过关键词及其组配查询,就可以找到所需信

8、息或其线索。利用数据库技术组织信息资源可在很大程度上提高信息的有序性、完整性和安全性,提高对大量的结构化数据的处理效率。第4章 网络信息资源检索4)网站网站(WebSite)一般综合采用文件、超文本/超媒体和数据库等方式将内容相关的信息组织到主页和从属页面中。它们既是信息资源开发的要素,又是网络中的实体。3按照网络信息资源的内容划分1)网络数据库网络数据库是借助Internet,以Web为检索平台提供信息检索服务的数据库,它是数据库技术和Web技术相结合的产物。2)网络出版物网络出版物是以数字代码形式将文字、图像、声音、视频等信息存储在磁、光、电介质上,通过Internet高速传播,并通过计算

9、机或者类似设备阅读使用的出版物。3)社会信息社会信息是机构和个人发布的的数据、资料、新闻和服务等多方面的的信息。4)软件资源软件资源主要是指通过网络提供给用户使用的各种应用程序。它们以文件形式存在,帮助用户实现某些应用功能。5)其他类型的信息其他类型的信息包括网络论坛交流信息、电子公告、网络日志等存在于Internet上的信息。第4章 网络信息资源检索4.1.3 网络信息检索的一般方法网络信息资源存储在连接到网络的主机和服务器中,如果知道资源的地址,就可通过浏览器或其他方式利用这些信息。1.网上浏览网上浏览需要从一个相关网站或网页出发,通过超文本文档中的链接找到一批新的相关网站或网页,在浏览这

10、些网页后,再从这些网站或网页提供的链接找到下一批相关网站,如此循环下去,像滚雪球一样不断扩大搜索范围。2.网络资源指南网络资源指南是专业人员对网络信息资源进行采集、评价、组织、过滤和控制,从而开发出的可供用户浏览和检索的多级主题分类体系。网络资源指南的局限性在于管理和维护跟不上网络信息的增长和更新,收录范围不够全面,各网站的分类体系不统一。3.搜索引擎利用搜索引擎是较为普遍的网络信息检索方式。利用搜索引擎检索的优点是简单方便,检索速度快、范围广,能及时获取新增信息。其缺点在于检索准确性不理想。4.RSS阅读工具RSS是一种用于发布和获取网络内容的XML格式的工具。使用RSS阅读工具,用户可以轻

11、松地订阅所需信息。第4章 网络信息资源检索4.2 搜搜 索索 引引 擎擎第4章 网络信息资源检索4.2.1 搜索引擎概念搜索引擎是根据一定的策略,运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。当用户输入关键词查询时,搜索引擎会告诉用户包含该关键词信息的所有网址,并提供通向该网络的链接。搜索引擎既是用于检索的软件,又是提供查询、检索的网站。所以,搜索引擎也可称为Internet上具有检索功能的网页。4.2.2 搜索引擎基本工作原理看似简单的搜索引擎背后涉及包括数据结构、索引、算法、知识表示、自然语言处理、信息检索、人工智能、计算机网络、分布式处理、数

12、据库、数据挖掘等多个方面的内容。通常,搜索引擎主要包括信息采集、信息加工、信息检索与检索结果提供这几个部分。其中,信息采集模块(搜集器)以一定的策略在因特网等信息源中采集相关信息。信息加工模块是对收集到的网页资源进行标引、建立索引、编制摘要、完成分类等过程。即由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息,并根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。信息检索模块根据用户的检索提问对检索项与索引项进行匹配运算以获取对应的检索结果集。第4章 网络信息资源检索检索结果提供是在进行必要

13、的相关分析后以超链形式给出检索结果,即由页面生成系统将搜索结果的链接地址和页面内容、摘要等内容组织起来提供给用户。事实上,搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。真正意义上的搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,将这些结果按照与搜索关键词相关度的高低,依次排列并呈现。4.2.3 搜索引擎的发展历史纵观搜索引擎的发展历史,一般来说,可根据其在不同时期的研发重点和

14、性能的不同分为三代。第一代搜索引擎以早期的Yahoo、AltaVista和Infoseek等为代表,这类搜索引擎的特征是基于人工分类目录搜索。以Google、DirectHit等为代表的搜索引擎一般称为第二代搜索引擎。第二代搜索引擎的主要特征是运用“符号计算”,基于关键词搜索以及以关键词组合为基础的全文搜索和模糊搜索。与第一代搜索引擎相比,基于关键词搜索的优势是使用方便,搜索速度快,直接搜索内容,这是第一代搜索引擎无法比拟的。目前,搜索引擎已进入了一个空前繁荣的时期,现今的搜索引擎不仅索引规模大,而且更多地结合了自然语言理解、个性化等智能化技术,有人亦称这一时期的搜索引擎为第三代搜索引擎。第4

15、章 网络信息资源检索4.2.4 发展中的搜索引擎作为Internet必不可少的核心技术之一,搜索引擎技术是人们利用海量网络资源的重要工具。目前的搜索引擎,对于不同的用户,如果基于相同的关键词进行搜索,得到的结果基本相同。事实上,已经有人指出,整合搜索、社区搜索和移动搜索等正在成为今后发展的趋势。1.整合搜索用户通过网络搜索获得海量信息是基于信息抓取技术,属于刚性搜索。整合搜索不是简单地把搜索结果罗列在一起,而是经过页面搜索、垂直搜索之后,在更高层次上为用户提供最佳搜索结果,即通过将其他搜索产品的结果整合到网页搜索中,使结果信息内容更加丰富、形式更为多媒体化。整合搜索的前提是基于对关键字的智能分

16、析判断。2.社区搜索社区搜索代表一种理念,即把大众的智慧汇集起来给需要的人(搜索)使用,许多志同道合的人汇集在一起分享思想。3.移动搜索随着手机等移动终端的逐渐普及,移动搜索已经成为获取信息资源的重要方式。移动搜索是基于移动网络的搜索技术的总称,用户可以通过SMS、WAP、IVR等多种接入方式进行搜索,获取互联网信息、移动增值服务及本地信息等信息服务内容。第4章 网络信息资源检索4.垂直搜索垂直搜索是一种专业化的搜索引擎,它是在普通网页搜索引擎的基础上进一步将网页分类细化。垂直搜索引擎是针对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式。其特点就是“专、精、深”,且

17、具有行业特色,即与通用搜索引擎的海量信息无序化相比,垂直搜索引擎则更加专业、具体和深入。4.2.5 搜索引擎类型搜索引擎按不同的分类原则可以有多种分类方式。如按信息标引的方式,搜索引擎可以分为目录式搜索引擎、机器人搜索引擎和混合式搜索引擎;按信息查询的方式,搜索引擎可分为浏览式搜索引擎、关键词搜索引擎、全文搜索引擎、智能搜索引擎;按语种,搜索引擎又可以分为单语种搜索引擎、多语种搜索引擎和跨语言搜索引擎等;按工作方式或者检索机制来划分,搜索引擎主要可分为目录型搜索引擎、索引型搜索引擎和元搜索引擎3种类型。1.目录型搜索引擎目录型搜索引擎(Search Index/Directory),也被称为网

18、络资源指南,是浏览式的搜索引擎。目录型搜索引擎层次结构清晰、易于查找。目录型搜索引擎一般比较适合于查找综合性、概括性的主题概念或类属明确的课题。2.索引型搜索引擎基于关键词检索的索引型搜索引擎是名副其实的搜索引擎。索引型搜索引擎的索引数第4章 网络信息资源检索据库的容量非常庞大,收录、加工信息的范围广、速度快,能向用户及时提供最新信息。但由于标引过程缺乏人工干预,加之检索代理软件的智能化程度不是很高,导致其检索准确性不是很高。索引型搜索引擎比较适合于检索特定主题的信息以及较为专深、具体或类属不明确的课题。3.元搜索引擎元搜索引擎(Meta Search Engine,MSE)是一种将多个独立的

19、搜索引擎集成到一起,提供统一的用户查询界面,将用户的检索提问同时提交给多个独立搜索引擎,检索其共享的独立搜索引擎的资源库,再经过聚合、去重和排序等处理,将最终检索结果一并提供给用户的网络检索工具。4)网站网站(WebSite)一般综合采用文件、超文本/超媒体和数据库等方式将内容相关的信息组织到主页和从属页面中。它们既是信息资源开发的要素,又是网络中的实体。4.2.6 常用搜索引擎1.目录型搜索引擎著名的目录型搜索引擎有Yahoo、Galaxy、搜狐、新浪、Open Directory、Infoseek、The WWW Virtual Library、BUBL LINK、AOL Search和蓝

20、帆等。然而,目前只有数量很少的目录搜索引擎仍在提供服务,其中Galaxy(http:/)是比较有名的一家。第4章 网络信息资源检索除了提供分类目录浏览外,Galaxy还提供关键词的简单检索。在Galaxy主页中的文本输入框中输入检索的关键词,单击Go按钮,可以选择“目录搜索”、“网站搜索”和“链接搜索”等实施检索。2.索引型搜索引擎1)百度(http:/)百度是全球最大的中文搜索引擎,1999年底由李彦宏、徐勇创建于美国硅谷,2000年开始在中国发展。2000年5月,百度首次为门户网站硅谷动力提供搜索技术服务,之后迅速占领中国搜索引擎市场,成为最主要的搜索技术提供商。2001年8月,百度发布了

21、B搜索引擎Beta版,从后台服务转向独立提供搜索服务,并且在中国首创了竞价排名商业模式。2001年10月22日,百度正式发布Baidu搜索引擎。2005年8月5日,百度在美国纳斯达克上市,成为2005年全球资本市场上最为引人注目的上市公司,百度由此进入一个崭新的发展阶段。除网页搜索外,百度还提供MP3音乐、新闻、地图、影视等多样化的搜索服务,创造了以贴吧、知道、百科、空间为代表的搜索社区。百度还为各类企业提供竞价排名推广业务,以及关联广告服务。(1)网页搜索。(2)视频搜索。百度视频是百度汇集互联网众多在线视频播放资源而建立的庞大视频库。(3)图片搜索。第4章 网络信息资源检索(4)MP3搜索

22、。(5)新闻搜索。(6)地图搜索。(7)常用搜索。(8)百度的搜索技巧。输入多个词语搜索(不同字词之间用一个空格隔开,相当于逻辑“与”),可以缩小检索范围,获得更精准的搜索结果。在百度查询时不需要使用逻辑符号“AND”或“+”,百度会在空格隔开的词语之间自动添加逻辑“与”运算符。减除无关资料(逻辑“非”)。有时候,搜索结果中某一方面的不相关内容特别多,这时可以利用“减除无关资料”功能,缩小查询范围,提高命中率。百度支持“-”功能,用于有目的地删除某些无关网页,但减号之前必须留一空格。并行搜索(逻辑“或”)。使用“A|B”来搜索“或者包含词语A,或者包含词语B”的网页。相关检索。百度的“相关搜索

23、”,会列出和当前搜索很相似的一系列检索词。当搜索结果不理想时,用户可以通过参考别人进行过的搜索,来获得一些启发。百度快照。如果无法打开某个搜索结果,或者打开速度特别慢,可以使用“百度快照”。第4章 网络信息资源检索 专业文档搜索。在指定网站内搜索。在标题中搜索。在url中搜索。利用“inurl:”命令,可以限制只搜索url中含有这些文字的网页。高级搜索。如果对百度各种查询语法不熟悉,可以使用百度的高级搜索。2)AltaVistaAltaVista最早由DEC公司于1995年12月推出,目前隶属于Overture公司。AltaVista曾经被认为是功能最完善、搜索精度较高的全文搜索引擎之一,大量

24、的创新功能使它迅速到达了当时搜索引擎的顶峰。AltaVista是第一个支持自然语言的搜索引擎,具备了基于网页内容分析的智能处理能力。3)Lycos(http:/ Network服务的成员之一。Lycos借助于自动搜索软件收集网页、人名、企业名录、多媒体、音乐/MP3、讨论组、新闻、产品信息等多种类型的资源,搜索结果精确度较高,尤其是搜索图像和音频文件的功能很强。4)Excite(http:/www.E Jeeves公司。第4章 网络信息资源检索3.元搜索引擎1)MetaCrawler(http:/)2)Dogpile(http:/)3)万维搜索引擎(http:/)4.垂直搜索引擎(专业性搜索引

25、擎)1)图像搜索引擎万维网上的图像信息有多种形式,如图像、图形、位图和动画等。对于这些信息的查找,既可以利用Yahoo!、百度、Google、Lycos和AltaVista等综合性搜索引擎的图片检索功能,也可以访问一些搜集各种图像资料的专业资料库和俱乐部网站。2)地图搜索引擎地图搜索引擎是面向公众提供电子地图服务的网站,是检索全国乃至世界地图信息的重要工具。3)视频搜索搜索感兴趣的视频,可以利用百度视频搜索(http:/)、天线视频(http:/)、雷搜(http:/)、搜狗视频搜索(http:/)、有道视频搜索(http:/)和爱问视频搜索(http:/)等。4)读书搜索引擎第4章 网络信息

26、资源检索搜索图书全文,查找感兴趣的图书,可以利用Google 图书搜索(http:/)、百度图书搜索(http:/)、读秀图书搜索(http:/)和中搜联盟图书搜索(http:/ 以前,求职或者招聘信息通常通过纸媒、电视和广播等途径传播。网络兴起以后,有许多专业招聘网站。7)法律搜索引擎了解有关法律法规内容,可以利用我的法律搜索引擎(http:/)和百度法律搜索(http:/)。8)P2P搜索P2P(peer-to-peer)意为对等网络,是与C/S相对应的网络运作模式,其显著特点是整个网络不存在中心节点(或中心服务器),其中的每一个节点(Peer)同时具有信息消费者、信息提供者和信息通信等三

27、方面的功能。第4章 网络信息资源检索4.3 开开 放放 存存 取取第4章 网络信息资源检索随着计算机技术和网络技术的发展,科研人员从事科学研究的手段和技术越来越先进,科研成果的数量和质量都大幅度提高,科研人员发布科研成果、进行学术交流的愿望比以往更为迫切。4.3.1 开放存取的含义开放存取(Open Access,OA)是国际科技界、学术界、出版界、图书馆界为推动科研成果自由传播而发起的运动,其目的是促进科学信息的广泛传播,促进学术信息的交流与出版,提升科学研究的公共利用程度,保障科学信息的长期保存。开放存取是一种新的学术信息交流的方法,作者提交作品不是为了得到直接的金钱回报,而是为了作品的传

28、播和利用。6月20日正式发表的关于开放存取出版的百斯达宣言(Bethesda Statement on Open Access Publishing)认为开放存取的作品必须满足以下两个条件:(1)文献作者或著作权人授权世界范围的所有用户,可以合理地在任何数字媒体上免费、无条件地获取他们的文献。用户可以公开地复制、利用、扩散、传递和演示这些文献,可以创作和传播基于这些文献的新作品,可为个人使用打印出少量复本。(2)作品的完整版本、所有附件和上述授权声明要以适当的标准电子格式,应立即存储在至少一个网络数据库中。这一概念从开放存取作品的角度来定义开放存取,强调开放存取作品必须具备的两个要素。4.3.

29、2 开放存取的特点第4章 网络信息资源检索1.学术信息交流方便快捷2.学术信息易于获取3.开放存取内容丰富、形式多样4.学术信息可以自由传播4.3.3 开放存取主要实现途径开放存取是基于开放存取理念,通过网络向用户免费提供信息所采用的各种方式和方法。一般认为,开放存取的途径包括开放存取期刊、开放存取知识库、个人Web站点(Personal Websites)、电子书(Ebooks)、邮件列表服务(Listservs)、论坛(Discussion Forums)、博客(Blogs)、维基(Wikis)、RSS种子(RSS feeds)、P2P的文档共享网络(File Sharing Networ

30、ks)等多种形式。1.开放存取期刊开放存取期刊就是能在因特网上自由获取的学术性网络期刊。开放存取期刊允许用户进行阅读、下载、复制、分发、打印、检索链接到全文,用于编制索引、作为软件数据使用或者其他合法目的,除需要上网之外,没有其他的经济、法律以及技术障碍。开放存取期刊之所以能够为广大网络用户免费使用,关键在于其独特的付费模式即现在最流行的作者付费模式。2.开放存取知识库开放存取知识库(OA Archives or Repositories)包括基于学科的开放存取知识库和基于机构的开放存取知识库。第4章 网络信息资源检索开放存取知识库的资源不是依靠同行评审来保证质量的,它主要通过限定学科范围,并依靠机构和作者的水平来进行衡量。开放存取知识库的内容既包括预印本(Preprints),也包括后印本(Postprints)。除了电子文本(Eprints)格式的资料外,开放存取还包括各种课件甚至多媒体声像资料等数字化资源。开放存取知识库的免费使用程度由作者控制。作为最主要的开放存取实现方式之一,开放存取知识库的发展前景令人看好。其运行费用低廉,适用软件众多,操作使用方便,一般依靠大学或者研究机构,多方处于一种共赢的局面,确保了其良好的发展基础。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 工作计划

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁