《金德宪文献综述.doc》由会员分享,可在线阅读,更多相关《金德宪文献综述.doc(17页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、本科毕业设计文献综述(2010届)题目:基于Lucene搜索核心的网络信息搜索网站学生姓名 金 德 宪 指导教师 刘 志 专业班级 软件工程(专升本) 所在学院 计算机科学与技术学院 提交日期 2010年 3 月 基于Lucene搜索核心的网络信息搜索网站摘要:本文是关于网络信息搜索系统的设计与实现的一篇文献综述,先介绍项目的核心成分-搜索引擎的构成与设计思想,然后介绍项目的国内外研究现状及难点以定位项目开发的一个大环境,明确当前同类项目的研究情况。接着本文简述网络信息搜索系统的基本结构和系统开发中需要运用的关键技术。关键词:搜索引擎,lucene,网络蜘蛛,spring,hibernate1
2、、引言随着互联网的迅猛发展,基于互联网的各种应用也应运而生。互联网上的信息也越来越多,因此迫切要求一种信息检索工具。1991 年,XWAIS 提供了一个界面友好的信息搜索系统,但是这个系统要求很特殊的文件格式。在同一年出现了另外一个信息检索系统GOPHER,GOPHER 一时成为最为流行的检索工具。由于GOPHER 基于字符界面,一般的互联网用户还是很少使用它。真正让互联网普及的转机出现在1993 年。当年美国国家计算机安全协会NCSA推出第一个基于HTML语言的可以浏览图形的浏览器Mosaic。它使得普通的用户可以轻松地使用互联网。1994 年,美国网景公司推出免费浏览器Netscape。这
3、使得以HTML 为格式的信息迅速膨胀。是年,Yahoo 公司创立,它提供基于目录的信息检索服务。而真正意义上的搜索引擎创建于1994 年春天的Lycos,当时Michael Mauldin 将John Leavitt 的“网络蜘蛛”(spider)程序接入到其索引程序中1。在随后的几年里,互联网和 web 技术的进一步发展,网上的信息越来越多,据1999 年的估计,到1999 年底,至少有1600 万台主机联入因特网,网上的网页数量已经达到10 亿,而且正在以每月近千万的数量增长,甚至有人预言Web页面的数量每隔100 到120 天要翻一翻。国内外的调查结果都表明,当前互联网上仅次于收发电子邮
4、件的第二大应用就是在网上搜索信息,而这种搜索绝大多数都是通过专门的、高度复杂的搜索引擎实现的。现在大多数的搜索引擎以搜索文字信息为主。随着网络带宽的不断加大,多媒体信息在网上迅速增加。这就对多媒体信息的检索提出了要求。多媒体信息检索主要是指基于音频的检索、基于图片的静态图象检索和基于视频的动态图象检索。现在研究得较多的是图象检索。由于在搜索过程中很难表达图象信息,所以现有的图象搜索引擎通过对图象信息的文字表达来进行检索。文字信息不能充分表达图象信息,而且对于用户来说,不可能在查询时候很精确地用文字对图象进行合理的描述,所以查询的精度非常低。由于用户一次搜索反馈的过程一般不会超过3 次,所以机器
5、学习的过程也不能超过3 次就让用户得到所需要查找的信息。微软中国研究院的研究人员提出通过机器学习的方法让用户在3 次反馈之内得到比较精确的结果6。2、网络信息搜索引擎的分类搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。n 全文搜索引擎全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、 WiseNut等,国内著名的有百度(Bai
6、du)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条 件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。从搜索结果来源的 角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并 自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的7家引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos 引擎。n 目录索引目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链
7、接列表而已。用户完全可以不用进行关键词 (Keywords)查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo雅虎。其他著名的还有Open Directory Project(DMOZ)、LookSmart、About等。国内的搜狐、新浪、网易搜索也都属于这一类。 n 元搜索引擎 (META Search Engine)元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有“搜星搜索引擎”。在搜索结果排列方面,有
8、的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。除上述三大类引擎外,还有以下几种非主流形式:1) 集合式搜索引擎:如HotBot在2002年底推出的引擎。该引擎类似META搜索引擎,但区别在于不是同时调用多个引擎进行搜索,而是由用户从提供的4个引擎当中选择,因此叫它“集合式”搜索引擎更确切些。2) 门户搜索引擎:如AOL Search、MSN Search等虽然提供搜索服务,但自身即没有分类目录也没有网页数据库,其搜索结果完全来自其他引擎3) 免费链接列表(Free For All Links,简称FFA):这类网站一般只简单地滚动排列
9、链接条目,少部分有简单的分类目录,不过规模比起Yahoo等目录索引来要小得多。23、网络信息搜索引擎的构成搜索引擎根据用户的查询请求,按照一定的算法从索引数据库中查找对应的信息返回给用户。为了保证用户查找信息的精度和新鲜度,搜索引擎需要建立并维护一个庞大的索引数据库。一般搜索引擎主要由网络蜘蛛、索引与搜索引擎软件等部分组成。 网络蜘蛛 也称“爬行者(Crawler)”,是一个功能很强的程序。它会定期根据预先设定的地址去查看对应的网页,如网页发生变化则重新获取该网页,否则根据该网页中的链接继续去访问。网络蜘蛛访问页面的过程是对互联网上信息遍历的过程,为了保证网络蜘蛛遍历信息的广度,一般事先设定一
10、些重要的链接,然后对这些链接进行遍历,在遍历过程中不断记录网页中的链接,不断遍历下去,直到访问完所有的链接。 索引 网络蜘蛛将遍历得到的页面存放在临时数据库中。为了提高检索的效率,需要建立索引。索引一般按照倒排文件的格式存放。如果有时索引不能及时更新,网络蜘蛛带回的新信息就不能被使用搜索引擎的用户查到了。因此,新信息更新周期 = 网络蜘蛛停止的时间 + 网络蜘蛛遍历的时间 + 索引建立的时间 搜索引擎软件 该软件用来筛选索引中无数的网页信息,挑出符合查询要求的网页并把它们分级排序,与查询关键字关联越大的排得越前,然后将分级排序后的结果显示给查询用户。根据专家的评测,目前主要的搜索引擎返回的相关
11、结果的比率不足 45,而且由于机制、范围、算法等的不同,导致同样一个检索请求在不同搜索引擎中的查询结果的重复率不足34。因此,要想获得一个比较全面、准确的结果,就必须反复调用多个搜索引擎15,16.。元搜索引擎的出现,在一定程度上解决了这些问题。4、国内外研究现状及难点早在Web出现之前,互联网上就已经存在许多旨在让人们共享的信息资源了。为了便于人们在分散的FTP资源中找到所需的东西,1990年加拿大麦吉尔大学(University of McGill)计算机学院的师生开发了一个软件,Archie。它通过定期搜集并分析FTP系统中存在的文件名信息,提供查找分布在各个FTP主机中文件的服务。Ar
12、chie能在只知道文件名的前提下,为用户找到这个文件所在的FTP服务器的地址。尽管所提供服务的信息资源对象(非HTML文件)和我们所讨论搜索引擎的信息资源对象(HTML网页)不一样,但基本工作方式是相同的(自动搜集分布在广域网上的信息,建立索引,提供检索服务),因此人们公认Archie为现代搜索引擎的鼻祖3。1993年Matthew Gray开发了World Wide Web Wanderer,它是世界上第一个利用HTML网页之间的链接关系来监测Web发展规模的“机器人”(robot)程序。刚开始时它只用来统计互联网上的服务器数量,后来则发展为能够通过它检索网站域名。鉴于其在Web上沿超链接“
13、爬行”的工作方式,这种程序有时也称为“蜘蛛”(spider)。现代搜索引擎的思路源于Wanderer,不少人在Matthew Grey工作的基础上对它的蜘蛛程序做了改进。1994年7月,Michael Mauldin将John Leavitt的蜘蛛程序接入到其索引程序中,创建了大家现在熟知的Lycos,成为第一个现代意义的搜索引擎。在那之后,随着Web上信息的爆炸性增长,搜索引擎的应用价值也越来越高,不断有更新、更强的搜索引擎系统推出。这其中,特别引人注目的是Google,虽然是个姗姗来迟者(1998年才推出),但由于其采用了独特的PageRank技术4,使它很快后来居上,成为当前全球最受欢迎
14、的搜索引擎。NEC美国研究所的Steve Lawrence和C. Lee Giles 1998年和1999年连续两年在自然和科学杂志上撰文对搜索引擎技术的研究进行评述。著名的信息检索会议TREC也从1998年开始增加了 Web Track课题,以考察Web文档与其它类型文档在检索性质上的不同之处,并将测试在大规模的Web库(如100G字节)上进行信息检索的算法性能。由美国Infornotics公司主办的搜索引擎国际会议从1996年开始,每年举行一次,对搜索引擎技术进行总结、讨论和展望,参加者有著名的搜索引擎公司、大学和研究机构的学者,对搜索引擎技术起到了很好的推动作用。另外像IEEE主办的国际
15、万维网会议、人机交互会议已有越来越多关于搜索引擎技术研究的文章发表。国内先后有北京大学、清华大学、国家智能研究中心等高校和研究单位对搜索引擎技术开展研究,并开发出了几个较好的系统。如北京大学计算机系的项目组在陈葆珏教授的主持下于1997年10月在CERNET上推出了天网搜索1.0版本 (),在系统规模及系统性能方面达到了国外中型搜索引擎系统的技术水平,为国内用户提供了很好的互联网搜索服务,受到了用户的好评。在这之后,几位在美国留学的华人学者回国创业,成立了百度公司,于2000年推出了“百度”商业搜索引擎,并一直处于国内搜索引擎的领先地位。 5、网络信息搜索引擎的发展趋势网络信息搜索引擎应该在自
16、然语言处理、数据挖掘和机器学习技术、基于内容的多媒体查询技术、多通道用户界面(语音、自然语言、多媒体)方面有所突破6。有人指出基于关键字的查询很难表达很多复杂的概念6,而且常常得到太多不相关的结果(浪费时间和精力)。为了让大多数用户方便地使用搜索,要求搜索引擎具有处理自然语言输入的功能,而且作为面向全球服务的搜索引擎必须面对不同语言的用户,即未来的搜索引擎应该具有满足对多种语言输入的功能。Ask Jeeves 巧妙地将用户提问转化为系统已知的问题,然后对已知的问题进行回答。这样就降低了对自然语言理解技术的依赖性。Google 自动检测用户所在的位置,然后给出对应风格的文字界面。随着语音识别技术
17、和多媒体技术的发展,未来的搜索引擎应该可以利用语音作为输入,可以搜索的内容也不再局限于文字信息,而可以拓展到多媒体信息。由于人们各自感兴趣的领域不同,各自对词意的理解也不尽相同,不同的用户对同一个检索请求得到的检索结果有不同的评价。一个理想的搜索引擎应该对不同的用户在相同的检索请求下有不同的检索结果,即对用户具有自适应能力。这可以通过两种方案实现:其一,需要系统在检索请求提交数据库之前智能化地调整查询表达式和查询域,既查询预处理;其二,在查询结果返回的时候,智能化地对搜索结果进行预处理后再返回给用户。综上所述,未来搜索引擎将有如下主要发展趋势:自然语言,精度更高自然语言的输入将更加方便用户的使
18、用,更易于用户与搜索引擎的交互。自然语言更能贴切地表达用户的查询需求,这将有利于提高查询的精度。现有的一些搜索引擎如Infoseek和Google 通过对网上的超链结构进行分析来提高搜索结果的精度。Directhit(现被Ask Jeeves收购)则通过分析用户的点击行为来提取用户的兴趣。将搜索引擎与网站目录相结合也是提高搜索结果表达的一种有效手段。多种语言搜索多语言搜索可以是集中式的多语言搜索,也可以是分布式的(按照不同语言的的分布来分布搜索引擎,即搜索引擎的本地化)多语言搜索。集中式多语言搜索的搜索引擎将多种语言的处理和搜索引擎索引数据放在同一个地方上。分布式多语言搜索引擎将搜索引擎按照语
19、言习惯、地理位置分布在不同的区域,一个搜索引擎负责处理一种或类似的几种语言。善解人意,学习个人喜好搜索引擎通过不断地学习,来掌握用户的喜好。通过对用户搜索习惯、用户兴趣的掌握,达到改进搜索结果的目的。多通道输入和多媒体输出用户可以通过声音、图象、视频作为查询的输入,查询的内容也不再局限于文字信息,而是多媒体信息。个性化和本地化新一代搜索引擎应该考虑人的性别、年龄、地域等方面的差别,给出个性化的搜索结果。随着因特网在全球的迅速普及,综合性的搜索引擎已经不能满足很多非本地区用户的信息需求。近来,Yahoo、Excite 等公司不断推出各国、各地区的本地搜索网站,搜索的本地化已经是必然趋势。6、 系
20、统实现技术方法研究6.1 全文搜索引擎lucene6.1.1 Lucene简介Lucene是apache软件基金会jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,它为数据访问和管理提供了简单的函数调用接口,可以方便的嵌入到各种应用中实现针对应用的全文索引检索功能。Lucene的APl接口设计得比较通用,输入输出结构都很像数据库的表、记录和字段,所以很多传统的应用的文件、数据库等都可以比较方便的映射到Lucene的存储结构或接口中。总体上看,可以先把Lucene当成一个支持全文索引
21、的数据库系统。6.1.2 Lucene系统结构Lucene作为一个优秀的全文检索引擎,其系统结构运用了大量的面向对象的设计思想。首先是定义了一个与平台无关的索引文件格式,其次通过抽象将系统的核心组成部分设计为抽象类,具体的平台部分设计为抽象类,此外与具体平台相关的部分比如文件存储也封装为类,经过层层的面向对象编程的处理,最终达成了一个低耦合、高效率、容易二次开发等的检索引擎系统。Lucene系统其结构如图1所示。图 1 Lucene系统结构我们可以从图1清楚地看到,Lucene系统是由基础结构封装、索引核心、对外接口3大部分组成。其中直接操作索引文件的索引核心又是系统的重点,索引的最后结果就是
22、产生许多的索引文件,这些索引文件构成索引库。Lucene系统将所有源码分为了7个模块(在Java语言中以包即package来表示),各个模块(包)完成特定的功能。在Lucene系统的这7个包中,核心类包主要有3个(org.apache.lucene.Analysis、org.apache.lucene.index、org.apache.lucene.search): org.apache.lucene.analysis该模块主要用于切分词。切分词的工作由Analyzer的扩展类来实现,Lucene自带了Stan.dardAnalyzer类,我们可以参照该类的实现写出自己的切分词分析器类,如中文
23、分析器等。 org.apache.lucene.index该模块主要提供库的读写接口。通过该包可以创建库、添加删除记录及读取记录等。 org.apache.lucene.search该模块主要提供了检索接口。通过该包,我们可以输入条件,得到查询结果集,与org.apache.lucene.queryParser包配合还可以自定义查询规则,像Google一样支持查询条件问的与、或、非、属于等复合查询。62 Spring框架Spring 框架是一个分层架构,由 7 个定义良好的模块组成。Spring 模块构建在核心容器之上,核心容器定义了创建、配置和管理 bean 的方式,如图 2 所示。图 2.
24、 Spring 框架的 7 个模块组成 Spring 框架的每个模块(或组件)都可以单独存在,或者与其他一个或多个模块联合实现。每个模块的功能如下: 核心容器:核心容器提供 Spring 框架的基本功能。核心容器的主要组件是 BeanFactory,它是工厂模式的实现。BeanFactory 使用控制反转 (IOC) 模式将应用程序的配置和依赖性规范与实际的应用程序代码分开。 Spring 上下文:Spring 上下文是一个配置文件,向 Spring 框架提供上下文信息。Spring 上下文包括企业服务,例如 JNDI、EJB、电子邮件、国际化、校验和调度功能。 Spring AOP: 通过配
25、置管理特性,Spring AOP 模块直接将面向方面的编程功能集成到了 Spring 框架中。所以,可以很容易地使 Spring 框架管理的任何对象支持 AOP。Spring AOP 模块为基于 Spring 的应用程序中的对象提供了事务管理服务。通过使用 Spring AOP,不用依赖 EJB 组件,就可以将声明性事务管理集成到应用程序中。 Spring DAO:JDBC DAO 抽象层提供了有意义的异常层次结构,可用该结构来管理异常处理和不同数据库供应商抛出的错误消息。异常层次结构简化了错误处理,并且极大地降低了需要编写 的异常代码数量(例如打开和关闭连接)。Spring DAO 的面向
26、JDBC 的异常遵从通用的 DAO 异常层次结构。 Spring ORM:Spring 框架插入了若干个 ORM 框架,从而提供了 ORM 的对象关系工具,其中包括 JDO、Hibernate 和 iBatis SQL Map。所有这些都遵从 Spring 的通用事务和 DAO 异常层次结构。 Spring Web 模块:Web 上下文模块建立在应用程序上下文模块之上,为基于 Web 的应用程序提供了上下文。所以,Spring 框架支持与 Jakarta Struts 的集成。Web 模块还简化了处理多部分请求以及将请求参数绑定到域对象的工作。 Spring MVC 框架:MVC 框架是一个全
27、功能的构建 Web 应用程序的 MVC 实现。通过策略接口,MVC 框架变成为高度可配置的,MVC 容纳了大量视图技术,其中包括 JSP、Velocity、Tiles、iText 和 POI。Spring 框架的功能可以用在任何 J2EE 服务器中,大多数功能也适用于不受管理的环境。Spring 的核心要点是:支持不绑定到特定 J2EE 服务的可重用业务和数据访问对象。毫无疑问,这样的对象可以在不同 J2EE 环境 (Web 或 EJB)、独立应用程序、测试环境之间重用。Spring在精简项目的代码量方面做出了非常出色的工作,将大量需要重复书写的代码提取出来,进行切面编程。配置文件的灵活性也使
28、项目的灵活性得到的加强,可以在不改变代码的情况下,而只改变其中的配置文件实现整个系统的改变。6.3 Hibernate框架Hibernate18是一种Java语言下的对象关系映射解决方案,它是一种自由、开源的软件。它用来把对象模型表示的对象映射到基于SQL的关系模型结构中去,为面向对象的领域模型到传统的关系型数据库的映射,提供了一个使用方便的框架。Hibernate不仅管理Java类到数据库表的映射(包括从Java数据类型到SQL数据类型的映射),还提供数据查询和获取数据的方法,可以大幅度减少开发时人工使用SQL和JDBC处理数据的时间。它的设计目标是将软件开发人员从大量相同的数据持久层相关编
29、程工作中解放出来。无论是从设计草案还是从一个遗留数据库开始,开发人员都可以采用Hibernate。下面从Hibernate的体系结构与Hibernate API两方面对Hibernate进行介绍。(1) hibernate体系结构简介图3 Hibernate体系结构图图3中对象的说明如下:SessionFactory:针对单个数据库映射关系经过编译后的内在镜像,是线程安全的,它是生成Session的工厂。Session:表示应用程序与持久存储层之间交互操作的一个单纯种对象,此对象生存期很短。其隐藏了JDBC连接,也是Transaction的工厂。持久对象及集合:带有持久化状态的、具有业务功能的
30、单线程对象,此对象生存期很短。这些对象可能是普通的JavaBeans/POJO,唯一特殊的是他们正与(仅仅一个)Session相关联。一旦这个Session被关闭,这些对象就会脱离持久化状态,这样就可被应用程序的任何层自由使用。瞬态(transient)和脱管(detached)的对象及其集合:那些目前没有与session关联的持久化类实例。他们可能是在被应用程序实例化后,尚未进行持久化的对象,也可能是因为实例化他们的Session已经被关闭而脱离持久化的对象。事务Transaction:应用程序用来指定原子操作单元范围的对象,它是单线程了,生命周期很短。Hibernate作为模型/数据访问层
31、。它通过配置文件(hiberante.cfg.xml或hibernate.properties和映射文件(*.hbm.xml)把java对象或持久化对象(Persistent Obeject,PO)映射到数据库中的数据表,然后通过操作PO,对数据库中的表进行各种操作。(2) Hibernate API简介Hibernate API中的接口可分为以下几类:(a) 提供访问数据库的操作的接口,包括Session、Transaction、Query接口。(b) 用于配置Hibernate的接口,Configuration(如下在Spring应用中,将由Spring来完成Hibernate的相关配置)
32、。(c) 间接接口,使应用程序接受Hibernate内部发生的事件,并作出相应的回应,包括:Interceptor、LifeCycle、Validatable。(d) 用户于扩展Hibernate功能的接口,如UserType、CompositeUserType接口。Hibernate内部还封装了JDBC、JTA(Java Transaction API)和JNDI(Java Naming And Directory Interface)。其中,JDBC提供底层的数据访问操作,只要用户提供了相应的JDBC驱动程序,Hibernate可以访问任何一个数据库系统。JTA和JNDI使Hibernat
33、e能够和J2EE应用服务器集成。具体接口间的协作如图4所示。图4 Hibernate核心接口6.5 AJAX技术AJAX21全称为“Asynchronous JavaScript and XML”(异步JavaScript和XML),是指一种创建交互式网页应用的网页开发技术。主要包含了以下几点技术:基于web标准(standards-based presentation)XHTML+CSS的表示;使用DOM(Document Object Model)进行动态显示及交互;使用XML和XSLT进行数据交换及相关操作;使用XMLHttpRequest进行异步数据查询、检索;使用JavaScript
34、22将所有的东西绑定在一起。类似于DHTML或LAMP,AJAX不是指一种单一的技术,而是有机地利用了一系列相关的技术。使用Ajax的最大优点,就是能在不更新整个页面的前提下维护数据,这使得Web应用程序更为迅捷地回应用户动作,并避免了在网络上发送那些没有改变过的信息23。7、总结与展望随着网络信息量的爆炸式增长,人们查找信息越来越难。搜索引擎的出现在一定程度上解决了这种矛盾。相信基于优秀网络信息搜索引擎的搜索系统的不断出现,必将给人们的生活带来更多的便利。参考文献:1 文坤梅,卢正鼎,叶卫国,金莉.搜索引擎中页面更新策略的分析与改进J. 华中科技大学计算机科学与技术学院,2002 30(12
35、).2 张卫丰,徐宝文,周晓宇,许蕾,李东. Web搜索引擎综述J. 南京: 东南大学计算机科学与工程系, .3 谭正中. 搜索引擎技术、现状、以及未来发展趋势的文献综述.4 张校乾,金玉玲,侯丽波.一种基于Lucene检索引擎的全文数据库的研究与实现J. 大连:大连理工大学计算机系, 16024, 2005(2).5 向晖,郭一平,王亮. 基于Lucene的中文字典分词模块的设计与实现J. 向晖,王亮 (华中科技大学控制科学与工程系,武汉,), 郭一平 (华中科技大学图书馆,武汉,),2006(8).6 余栋柱,任江涛. 网络搜索引擎中检索系统的设计与实现D. 中山大学 软件工程, .7 刘
36、刚,于力超. 搜索引擎中网络蜘蛛的设计与实现D. 湖南 长沙:湖南师范大学数学与计算机科学学院, , 2007 15(4).8 张颖江,张健.基于动力粒子群算法的网络蜘蛛搜索策略研究D. 湖北工业大学,2008.9 林海霞,原福东,陈金森,刘俊峰.一种改进的主题网络蜘蛛搜索算法J. 燕山大学,信息科学与工程学院,河北,秦皇岛, 2007 43(10).10 张万松,张晓龙. 网络蜘蛛垂直搜索算法的改进与实现D. 哈尔滨工程大学, 2008.11 Wang Su, Du Junping. RESEARCHON VERTICAL SEARCH ENGINE OF INTELLIGENT TOURI
37、SM SYSTEM. Beijing Key Lab of Intelligent Telecommunication Software and Multimedia, School of Computer Science and Technology, Beijing University of Posts and Telecommunications, Beijing , China.12 Candy Schwartz. Web Search Engines. Graduate School of Library and Information Science, Simmons Colle
38、ge, 300 The Fenway, Boston, MA 02115-5898. E-mail: cschwartzsimmons.edu13 DARIO BONINO, FULVIO CORNO, LAURA FARINETTI, ALESSIO BOSCA. Ontology Driven Semantic Search. Dipartimento di Automatica ed Informatica Politecnico di Torino Corso Duca degli Abruzzi, 10129 Torino., ITALY.14 E. Selberg, O. Etzi
39、oni, Multi-Engine Search And Comparison Using The MetaCrawler, Proceedings of the Fouth World Wide Web Conference 95, Boston USA. Dec. 1995.15 Aleassanndro Marchetto,Filippo Ricca,Paolo Tonella.A case study-based comparison of web testing techniques applied to ajax web applicationsJ.International Jo
40、urnal on software Tools for Technology Transfer(STTT),2008,10(12):477-492.16 David Hopkins.Improving the Quality of Teaching and LearningJ.Support for Learning,1997(12):162-165.17 Roberto Latorre,Francisco Lopez,Antonio E.Martinez.Sharing of procompiled database statements in J2EE applicationJ.Software:Practice and Experience,2005(35):301-311.18 Nathaniel T.Schutta,Ryan Asleson.Pro Ajax and Java FrameworksM.Apress,2006.19 吴凤祥,孙新胜,苑迎春. Java中基于TCP/IP的Socket编程J. 河北农业大学信息科学与技术学院,河北保定, 2004 27(2).20 魏振钢,张东华. Ajax框架在J2EE架构中的研究与应用D. 中国海洋大学, 2008.