《元搜索引擎讲稿.ppt》由会员分享,可在线阅读,更多相关《元搜索引擎讲稿.ppt(28页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、元搜索引擎第一页,讲稿共二十八页哦开发元搜索引擎,主要的理由是:开发元搜索引擎,主要的理由是:1)元搜索能够分散处理负载,增加检索的范围。元搜索能够分散处理负载,增加检索的范围。Web 数据量太大,而且增长迅猛,单个引擎的容量,处数据量太大,而且增长迅猛,单个引擎的容量,处理能力难以扩展到很大的规模,所以每个引擎只能包含一理能力难以扩展到很大的规模,所以每个引擎只能包含一部分部分 Web 文档。文档。2)元搜索具有较好的扩展性,可以加入多个成员引擎。元搜索具有较好的扩展性,可以加入多个成员引擎。它使得各个成员引擎规模变小,性能更好,这样成员引擎的检它使得各个成员引擎规模变小,性能更好,这样成员
2、引擎的检索响应时间短,还可以使得检索的内容保持最新。索响应时间短,还可以使得检索的内容保持最新。3)有些有些 web 站点的内容不能用数据采集器抓取站点的内容不能用数据采集器抓取,只有用该,只有用该站点提供的站点提供的 API 访问。访问。4)检索更有效,用户为了找到满意的检索结果可能访问多个检索更有效,用户为了找到满意的检索结果可能访问多个搜索引擎搜索引擎,直到找到结果位置,而元搜索引擎可以帮助用,直到找到结果位置,而元搜索引擎可以帮助用户自动完成这个任务。户自动完成这个任务。第二页,讲稿共二十八页哦2 元搜索引擎的结构元搜索引擎的结构 元搜索引擎是搜索引擎的集成,类似多数据库的集成和机元搜
3、索引擎是搜索引擎的集成,类似多数据库的集成和机群系统的体系结构。群系统的体系结构。第三页,讲稿共二十八页哦 问题:问题:在元搜索引擎的环境下,如何快速,有效在元搜索引擎的环境下,如何快速,有效的把分布在各个成员引擎的匹配用户检索条件文档的把分布在各个成员引擎的匹配用户检索条件文档返回给用户呢?返回给用户呢?假如用户发出一个检索请求,元搜索引擎首先要做假如用户发出一个检索请求,元搜索引擎首先要做的是选择用哪个或哪些成员搜索引擎,把检索请求发到最的是选择用哪个或哪些成员搜索引擎,把检索请求发到最有希望找到用户检索结果的搜索引擎,这样可以提高效率有希望找到用户检索结果的搜索引擎,这样可以提高效率和检
4、索精度,减少处理无用或相关程度低的文档的数量。和检索精度,减少处理无用或相关程度低的文档的数量。第二个选择是在成员搜索引擎检索返回结果文第二个选择是在成员搜索引擎检索返回结果文档集中选择相关度高的文档。档集中选择相关度高的文档。第四页,讲稿共二十八页哦第五页,讲稿共二十八页哦1)检索界面检索界面 成员引擎有各自不同检索界面,简单的只采用单个关键成员引擎有各自不同检索界面,简单的只采用单个关键词,复杂的可以指定任意的多个关键词之间的布尔条件或词词,复杂的可以指定任意的多个关键词之间的布尔条件或词间距。间距。检索项可以是关键词,短语,甚至句子,如检索项可以是关键词,短语,甚至句子,如 Google
5、Google对检索句对检索句子的效果很好,检索项的大小和引擎的索引结构相关。子的效果很好,检索项的大小和引擎的索引结构相关。最常见的是关键词外加分类的检索,如最常见的是关键词外加分类的检索,如 Yahoo,Sina,Yahoo,Sina,Infoseek Infoseek 等,分类一般按数据的形式分为:图片,软件,音频,视等,分类一般按数据的形式分为:图片,软件,音频,视频等,按内容分政治,经济,文化,娱乐,体育等。频等,按内容分政治,经济,文化,娱乐,体育等。为了适应各个成员引擎的界面,可以采用交或并的方法,在翻译为了适应各个成员引擎的界面,可以采用交或并的方法,在翻译查询时交的方法需要给成
6、员引擎填缺省值,并的方法针对特定的引擎查询时交的方法需要给成员引擎填缺省值,并的方法针对特定的引擎要做取舍要做取舍。第六页,讲稿共二十八页哦2 2)搜索引擎选择)搜索引擎选择 提供系统中可用的搜索引擎的列表让用户自己来选提供系统中可用的搜索引擎的列表让用户自己来选择。择。获取各个成员引擎内容的表示和查询匹配,选择最相关的获取各个成员引擎内容的表示和查询匹配,选择最相关的前前n n个引擎进行查询。这种方法很大程度取决于引擎内容个引擎进行查询。这种方法很大程度取决于引擎内容的表示。的表示。第七页,讲稿共二十八页哦3)查询分发:把来自检索界面的查询串翻)查询分发:把来自检索界面的查询串翻译成特定的引
7、擎的串。译成特定的引擎的串。4)结果合并:)结果合并:如果成员引擎的相关函数不同,没有可如果成员引擎的相关函数不同,没有可比性,则逐个取返回结果队列的头部,如果比性,则逐个取返回结果队列的头部,如果成员引擎的相关函数相同,返回结果的权值成员引擎的相关函数相同,返回结果的权值具有可比性,可以按查询与引擎的相关系数具有可比性,可以按查询与引擎的相关系数加权各个返回队列,用多路最优归并算法合加权各个返回队列,用多路最优归并算法合并结果形成全局有序队列。并结果形成全局有序队列。结果合并过程中还要除去重复的文档,方结果合并过程中还要除去重复的文档,方法是取每个文档的索引纪录中摘要部分的前法是取每个文档的
8、索引纪录中摘要部分的前 20 字节和时间,如果都相同则认为是重复字节和时间,如果都相同则认为是重复的,应去掉。的,应去掉。第八页,讲稿共二十八页哦6.2 元搜索引擎的特征元搜索引擎的特征拥有经过选择的搜索引擎。拥有经过选择的搜索引擎。统一的检索提问式(需要进一步的转换才统一的检索提问式(需要进一步的转换才可以提交给不同的搜索引擎)可以提交给不同的搜索引擎)搜索时间用户设定搜索时间用户设定检索方式存在差异(顺序、并行)检索方式存在差异(顺序、并行)提供更多的检索方式(词组、自然语言)提供更多的检索方式(词组、自然语言)结果显示(数据算法、界面表现)结果显示(数据算法、界面表现)第九页,讲稿共二十
9、八页哦6.3 元搜索引擎分类元搜索引擎分类 简单元搜索引擎简单元搜索引擎复杂元搜索引擎复杂元搜索引擎桌面型元搜索引擎桌面型元搜索引擎基于基于WebWeb的元搜索引擎的元搜索引擎第十页,讲稿共二十八页哦6.3.1简单元搜索引擎简单元搜索引擎提供一个搜索引擎的列表,用户可以选择所提供一个搜索引擎的列表,用户可以选择所用的搜索引擎。例如用的搜索引擎。例如好东西网址好东西网址第十一页,讲稿共二十八页哦6.3.2桌面型元搜索引擎桌面型元搜索引擎以程序的方式提供给用户,运行在用户的以程序的方式提供给用户,运行在用户的机器上。如飓风搜索通,整合了近百个各机器上。如飓风搜索通,整合了近百个各类搜索引擎,包含简
10、体中文,繁体中文,类搜索引擎,包含简体中文,繁体中文,软件,音乐软件,音乐MP3MP3,股票,新闻,购物搜索,股票,新闻,购物搜索,购书搜索等的全方位互联网信息检索工具,购书搜索等的全方位互联网信息检索工具,完全兼容及嵌入完全兼容及嵌入IEIE,符合浏览及搜索习惯,符合浏览及搜索习惯,搜索结果可以单个或全部分类保存。搜索结果可以单个或全部分类保存。第十二页,讲稿共二十八页哦飓风搜索通使用飓风搜索通使用第十三页,讲稿共二十八页哦6.3.3 基于基于Web的元搜索引擎的元搜索引擎 基于基于WebWeb的元搜索引擎以的元搜索引擎以WebWeb的方式为用户提供元搜索的方式为用户提供元搜索服务。元搜索引
11、擎分为并行处理式和串行处理式两大类。服务。元搜索引擎分为并行处理式和串行处理式两大类。并行处理式元搜索引擎将用户的查询请求同时转送给并行处理式元搜索引擎将用户的查询请求同时转送给它调用链接的多个独立型搜索引擎进行查询处理。它调用链接的多个独立型搜索引擎进行查询处理。串行处理式元搜索引擎将用户的查询请求依次转送给串行处理式元搜索引擎将用户的查询请求依次转送给它调用链接的每一个独立型搜索引擎进行查询处理。它调用链接的每一个独立型搜索引擎进行查询处理。第十四页,讲稿共二十八页哦常用的元搜索引擎及其检索方法常用的元搜索引擎及其检索方法 w1.Ixquick(http:/)(1)概述)概述 Ixquic
12、k 由一家荷兰公司Surfboard Holding BV于1998年在纽约建立。Ixquick 自称是“世界最强大的搜索转移引擎”。利用Ixquick 进行搜索时,用户实际上是在同时利用多个流行的搜索引擎展开搜索。Ixquick的中文搜索界面如图3-13所示。第十五页,讲稿共二十八页哦图3-13 Ixquick检索页面 第十六页,讲稿共二十八页哦常用的元搜索引擎及其检索方法常用的元搜索引擎及其检索方法 w1.Ixquick(http:/)(2)Ixquick的检索功能的检索功能 搜索。强力搜索。全球搜索。全面精确的检索结果。强力精选。借助Ixquick的删除重复结果功能,可以让随后的搜索只显
13、示新结果,而不显示已经阅读过或拒绝过的结果。第十七页,讲稿共二十八页哦图3-14 Ixquick检索结果页面 第十八页,讲稿共二十八页哦w2.MetaCrawler(http:/)(1)概述)概述 MetaCrawler是1994年由华盛顿大学的Erik Selberg和Oren Etzioni开发的,是最早的一个多元型搜索引擎,曾被评为综合性能最优良的多元搜索引擎。2000年加入InfoSpace Network服务,隶属于InfoSpace公司。MetaCrawler除了支持调用Google、Yahoo!、Ask Jeeves、About、FindWhat、Altavista、Overtu
14、re等12个独立的搜索引擎外,还可以同时在9个源搜索引擎中进行并行查找,本身还提供涵盖近20个主题的目录检索服务。MetaCrawler提供的资源包括网页(Web)、图像(Images)、音频(Audio)、视频(Video)、黄页(Yellow Pages)、白页(White Pages)等多种类型。常用的元搜索引擎及其检索方法常用的元搜索引擎及其检索方法 第十九页,讲稿共二十八页哦w3.MetaCrawler(http:/)(2)检索功能)检索功能 MetaCrawler的主要检索功能包括:允许用户选择检索工具;将用户的检索请求转换成成员搜索引擎的检索指令;对检索结果进行转换、查重和排序等
15、。MetaCrawler的检索界面简洁、直观,操作简便,有基本检索和高级检索2种检索方式。简单检索。高级检索。结果显示。MetaCrawler检索结果包括资源题名链接、摘要、资源所在数据库的URL地址以及源搜索引擎的注释等。常用的元搜索引擎及其检索方法常用的元搜索引擎及其检索方法 第二十页,讲稿共二十八页哦第二十一页,讲稿共二十八页哦元搜索引擎w4.iTools!,wURL:http:/ w 收收录录范范围围:集集中中了了Yahoo!,AltaVista、GONetwork、NorthenLight等等著著名名搜搜索索引引擎擎以以及及Ask Jeeves、Excite、Google、G、Hot
16、bot、LookSmart、Lycos、A共共12个常用引擎。个常用引擎。第二十二页,讲稿共二十八页哦第二十三页,讲稿共二十八页哦w5.Dogpile(http:/)(1)概述)概述 Dogpile创建于1996年1月,早期的Dogpile只提供晨报新闻检索,后来逐步发展成为网络上最受欢迎的元搜索引擎之一。它是唯一一家与所有主要搜索站点签署搜索服务协议的公司,现在属于InfoSpace公司。Dogpile是目前性能较好的元搜索引擎之一,可以调用Google、Yahoo!、AskJeeves、About、LookSmart、Teoma、Overture等26个主流Web搜索引擎、Usenet搜索
17、引擎和FTP搜索引擎,其中,Web搜索引擎14个。Dogpile采用独特的并行和串行相结合的查询方式:首先并行地调用3个搜索引擎,如果没有得到10个以上的结果,则并行地调用另外3个搜索引擎,如此重复直到获得至少10条结果为止。常用的元搜索引擎及其检索方法常用的元搜索引擎及其检索方法 第二十四页,讲稿共二十八页哦wDogpile(http:/)(2)检索功能)检索功能 Dogpile的搜索技术十分先进,即使是高级运算符和连接符,它也能将其转换为符合每个搜索引擎的语法。可以使用“*”作为通配符,支持逻辑运算符NOT、AND、OR和括号。Dogpile具有智能化的检索程序和易用界面,支持关键词检索和
18、主题目录浏览检索,关键词检索还提供基本检索和高级检索2种检索方式。简单检索。高级检索。定制偏好(Preferences)。结果显示。常用的元搜索引擎及其检索方法常用的元搜索引擎及其检索方法 第二十五页,讲稿共二十八页哦w6.万纬搜索(万纬搜索()(1)概述)概述 万纬搜索是上海万纬信息技术有限公司依托上海交通大学的技术力量自主开发的一个比较优秀的中文元搜索引擎。这是一个含中国自主版权的Web基础应用系统,其架构和功能已达到美国同类产品的水平。万纬搜索不仅集成了目前最权威的6家中文搜索引擎,分别是中文Yahoo!、中文Google、百度、北大天网、新浪GB和搜狐,而且该搜索引擎还收录了目前位于世
19、界技术前沿的2家英文搜索引擎,分别是Google和Yahoo!,用户可以根据需要自由选择其中多个搜索引擎进行同步检索。常用的元搜索引擎及其检索方法常用的元搜索引擎及其检索方法 第二十六页,讲稿共二十八页哦w万纬搜索(万纬搜索()(2)检索功能)检索功能 简单检索。高级搜索。结果显示。在获得初步检索结果的基础上,用户还可以进行进一步的“精确查找”。常用的元搜索引擎及其检索方法常用的元搜索引擎及其检索方法 第二十七页,讲稿共二十八页哦w7.其他多元型搜索引擎网址介绍其他多元型搜索引擎网址介绍 (1)Mamma,网址是http:/。(2)S,网址是http:/。(3)SurfWax,网址是http:/。(4)ByteSearch,网址是http:/。(5)InfoGrid,网址是http:/。(6)Ithaki,网址是http:/ 第二十八页,讲稿共二十八页哦