搜索引擎排序算法的分析与研究论文.doc-淘文阁

资源描述

《搜索引擎排序算法的分析与研究论文.doc》由会员分享，可在线阅读，更多相关《搜索引擎排序算法的分析与研究论文.doc（100页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、 .学校代码：10254密级：论文编号：海事大学SHANGHAI MARITIME UNIVERSITY硕士学位论文MASTER DISSERTATION论文题目：搜索引擎排序算法的分析与研究学科专业：计算机应用技术指导教师：完成日期：81 / 100毕业设计（论文）原创性声明和使用授权说明原创性声明本人重承诺：所呈交的毕业设计（论文），是我个人在指导教师的指导下进行的研究工作与取得的成果。尽我所知，除文中特别加以标注和致的地方外，不包含其他人或组织已经发表或公布过的研究成果，也不包含我为获得与其它教育机构的学位或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人或集体，均已在文中作了明

2、确的说明并表示了意。作者签名：日期：指导教师签名：日期：使用授权说明本人完全了解大学关于收集、保存、使用毕业设计（论文）的规定，即：按照学校要求提交毕业设计（论文）的印刷本和电子版本；学校有权保存毕业设计（论文）的印刷本和电子版，并提供目录检索与阅览服务；学校可以采用影印、缩印、数字化或其它复制手段保存论文；在不以赢利为目的前提下，学校可以公布论文的部分或全部容。作者签名：日期：学位论文原创性声明本人重声明：所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的容外，本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献

3、的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名：日期：年月日学位论文使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，同意学校保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权大学可以将本学位论文的全部或部分容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。涉密论文按学校规定处理。作者签名：日期：年月日导师签名：日期：年月日指导教师评阅书指导教师评价：一、撰写（设计）过程1、学生在论文（设计）过程中的治学态度、工作精神优良中与格不与格2、学

4、生掌握专业知识、技能的扎实程度优良中与格不与格3、学生综合运用所学知识和专业技能分析和解决问题的能力优良中与格不与格4、研究方法的科学性；技术线路的可行性；设计方案的合理性优良中与格不与格5、完成毕业论文（设计）期间的出勤情况优良中与格不与格二、论文（设计）质量1、论文（设计）的整体结构是否符合撰写规？优良中与格不与格2、是否完成指定的论文（设计）任务（包括装订与附件）？优良中与格不与格三、论文（设计）水平1、论文（设计）的理论意义或对解决实际问题的指导意义优良中与格不与格2、论文的观念是否有新意？设计是否有创意？优良

5、中与格不与格3、论文（设计说明书）所体现的整体水平优良中与格不与格建议成绩：优良中与格不与格（在所选等级前的画“”）指导教师：（签名）单位：（盖章）年月日评阅教师评阅书评阅教师评价：一、论文（设计）质量1、论文（设计）的整体结构是否符合撰写规？优良中与格不与格2、是否完成指定的论文（设计）任务（包括装订与附件）？优良中与格不与格二、论文（设计）水平1、论文（设计）的理论意义或对解决实际问题的指导意义优良中与格不与格2、论文的观念是否有新意？设计是否有创意？优良中与格不与格3、论文（设计说明书）所体现的整体水平优良中

6、与格不与格建议成绩：优良中与格不与格（在所选等级前的画“”）评阅教师：（签名）单位：（盖章）年月日教研室（或答辩小组）与教学系意见教研室（或答辩小组）评价：一、答辩过程1、毕业论文（设计）的基本要点和见解的叙述情况优良中与格不与格2、对答辩问题的反应、理解、表达情况优良中与格不与格3、学生答辩过程中的精神状态优良中与格不与格二、论文（设计）质量1、论文（设计）的整体结构是否符合撰写规？优良中与格不与格2、是否完成指定的论文（设计）任务（包括装订与附件）？优良中与格不与格三、论文（设计）水平1、论文（设计）的理论意义或对解决实

7、际问题的指导意义优良中与格不与格2、论文的观念是否有新意？设计是否有创意？优良中与格不与格3、论文（设计说明书）所体现的整体水平优良中与格不与格评定成绩：优良中与格不与格（在所选等级前的画“”）教研室主任（或答辩小组组长）：（签名）年月日教学系意见：系主任：（签名）年月日论文独创性声明本论文是我个人在导师指导下进行的研究工作与取得的研究成果。论文中除了特别加以标注和致的地方外，不包含其他人或其他机构已经发表或撰写过的研究成果。其他同志对本研究的启发和所做的贡献均已在论文中作了明确的声明并表示了意。作者签名：日期：论文使用授权声明本人同意海事大

8、学有关保留、使用学位论文的规定，即：学校有权保留送交论文复印件，允许论文被查阅和借阅；学校可以上网公布论文的全部或部分容，也可以采用影印、缩印或者其他复印手段保留论文。的论文在解密后遵守此规定。作者签名：导师签名：日期：摘要随着现代科技的进步，互联网得到了飞速的发展，逐渐成为人们日常学习、生活、工作中最重要的获取知识和信息的工具。进入21世纪以来，网络信息成几何级数的增长，快速精确查找需要的信息变得越来越难，这使得发展搜索引擎技术成为一种必要，它能帮助人们快速有效地获取信息。本文介绍了搜索引擎的概念与其发展历史、搜索引擎的分类、结构与工作原理、搜索引擎的评价标准、常用的中英文搜索引擎，以

9、与搜索引擎排序算法作了简单的介绍。如何使广大网民快速找到所要的知识和信息资源，成为搜索引擎技术研究的重点。本文针对一些已有算法：PageRank算法、HillTop算法、Direct Hit算法等存在的不足，即PageRank算法平均分配权威值；Hilltop中利用“专家页面”不合理，容易产生Spam；Direct Hit算法处理重复点击、与新页面不理想的问题，提出改进算法的思路。针对PageRank算法权威值的计算，引入非均衡分配的思想，改进PageRank算法平均分配权威值的问题；引入社区发现技术来改进算法，该算法利用社区作为“专家页面”，不仅可以改善Hilltop算法找“专家页面”不合理

10、的现象，而且对于Direct Hit算法处理新页面不理想、用户重复点击等问题也能起到一定的效果。关键词：搜索引擎，排序算法，社区发现技术，PageRank，HillTop，Direct HitABSTRACTWith the progress of the information technology, Internet develops fast and becomes an important means of obtained the knowledge and information which may be usedin peoples study, daily life and w

11、ork. Since we enter into 21th century, the information of internet increased at a geometric progression. Querying information become more and more difficult, it becomes a need of developing the search engine technologies. It can help people acquire information quickly and effectively.This paper intr

12、oduce the conception and the developing history, classify, structure and operating principles of the search engine. At the same time, it describes the common Chinese and English, the evaluation standard of the search engine and introduces the common algorithm step by step.How to make the searching b

13、e quick is the main point of the search engine researching.This paper according to some existing algorithm and puts forward improving ways to solve the shortcomings of the existing algorithms. Such as the PageRank algorithms PR values which is equal division, HillTop algorithm easily generate the sp

14、am because of utilizing the expert pages illegitimacy and non-ideal processing methods for repeat spot bowling of the Direct Hit algorithm. We induct the unbalance idea for PageRank algorithmsproblems of not equal division， and the discovery technology of community to settle the standing problems of

15、 HillTop algorithm utilize the expert pages illegitimacy and non-ideal processing methods for repeat spot bowling of the Direct Hit algorithm. This algorithm could be help for reducing the adverse effects caused by these algorithms.At last, we summarize the work of this paper and predict the future

16、development of the search engine algorithm. Maozhong Fu (Computer Application) Directed by Prof. Maoting GaoKeyword: Search Engine, sorting algorithm, the technology of the community discovery, PageRank, HillTop, Direct Hit目录第一章绪论11.1 研究背景和意义11.2 搜索引擎的发展历史21.2.1 搜索引擎的起源21.2.2 搜索引擎的现状31.2.3 搜索引擎的未来

17、41.3 搜索引擎排序算法的演进61.3.1 搜索引擎排序算法的起源和现状61.3.2 搜索引擎排序算法存在的问题71.4本文的组织框架与所做工作7第二章搜索引擎概述92.1搜索引擎的分类92.1.1按所覆盖容92.1.2按是否有人参与92.1.3按检索层次102.2搜索引擎的结构与工作原理122.2.1搜索引擎组成结构122.2.2搜索引擎工作原理142.3常用搜索引擎152.3.1常用中文搜索引擎152.3.2常用英文搜索引擎172.4搜索引擎的评价标准192.5本章小节20第三章搜索引擎常用排序算法与相关技术213.1搜索引擎常用的排序算法213.1.1词频位置加权排序算法213.1

18、.2 PageRank 算法223.1.3Direct hit 算法243.1.4Bayesian算法253.1.5 Web Query算法263.1.6Hilltop算法263.1.7 HITS算法273.1.8竞价排名273.2 搜索引擎的相关技术283.2.1SEO技术283.2.2 Spam作弊技术313.3 本章小结34第四章利用社区发现技术改进排序算法354.1PageRank算法与其改进分析354.1.1 PageRank算法优缺点分析354.1.2 PageRank算法改进思路364.2另两种常用算法与其改进思路384.2.1HillTop算法384.2.2Direct Hi

19、t算法404.3利用社区发现技术改进排序算法414.3.1什么是社区发现技术414.3.2利用社区发现技术改进排序算法的过程424.3.3算法总结444.4实验过程454.3.1实验环境454.3.2过程描述464.3.3实验结果464.3.4实验评价484.5结果分析504.6本章小结50第五章工作总结与展望515.1 工作总结515.2 展望51致53参考文献54攻读硕士期间发表论文和参加科研情况58一、发表的论文58二、参加的科研项目58第一章绪论本章首先介绍了本课题的研究背景和意义，其次论述了搜索引擎的发展与其未来，以与搜索引擎排序算法发展过程以与存在的问题，最后对本文的工作安排和

20、论文结构做了详细的说明。1.1 研究背景和意义随着信息技术的进步，互联网作为信息的载体得到了飞速的发展，成为人们学习、工作、生活中获取知识和信息的主要来源。根据美国因特网监测公司“网器 ( Netcraft ) ”28日宣布1，截止2月底，全球互联网数量超过1.6亿，较一个月前增加了450万，达162662053。据国外权威通讯社报道，数量在2005年增加了1700万，在2006年增加了2740万。美国、德国、中国、国和日本的发展速度最快。过去两年间，博客与网上购物的兴起和创建操作的简单化等因素结合在一起，使得数量猛增。现有搜索引擎给人们带来了很多方便的同时，也逐渐暴露了自身的一些问题，这些弊

21、端主要表现在以下方面：1) 网络信息量过于庞大，网络错综复杂，没有特定的网络模型，描述不便。2) 检索结果信息过多，有用信息不全。3) 检索结果缺乏个性化，不能满足不同用户的需求。4) 不同国家的搜索引擎差别较大，对不同语言的适应性较差。5) 多媒体信息检索还不完善。6) 网页的更新速度远远快于索引数据库的更新。7) 垃圾网页过多，许多虚假广告、不健康信息、错误信息充斥互联网。8) 广告的比例较大，干扰正常的浏览。如何快速准确的查找用户所需的信息成为互联网急需解决的问题，这就为搜索引擎技术的发展提供了土壤。现有的排序算法有很多，如PageRank算法2、HillTop算法3、Direct Hi

22、t算法4等，但是没有一个是完美无缺的。本文在介绍搜索引擎与其相关技术的基础上，结合已有的排序算法，提出了自己的解决思路，以改善搜索引擎排序算法的质量，使用户能够快速准确的找到所需信息，同时也为以后排序算法的研究提供一个有价值的参考。本文是在市教委科研项目“基于统计学习的数据挖掘技术研究”（项目编号：06FZ007）的支持下，开展搜索引擎排序算法的分析与研究。1.2 搜索引擎的发展历史搜索引擎是用于帮助互联网用户查询信息的搜索工具，它以一定的策略在互联网中搜集、发现信息，对信息进行理解、提取、组织和处理，并为用户提供检索服务，从而起到信息导航的作用。下面将介绍搜索引擎的发展历程。1.2.1 搜索

23、引擎的起源简单地说，搜索引擎起源于传统的信息全文检索理论5，即计算机程序通过扫描每一篇文章中的每一个词，建立以词为单位的排序文件，检索程序根据检索词在每一篇文章中出现的频率和每一个检索词在一篇文章中出现的概率，对包含这些检索词的文章进行排序，最后输出排序的结果。在早期的时候，互联网上面的搜索引擎和今天人们常用的搜索引擎有所不同，早期的搜索引擎更像是如今很多中文的“ICP(Internet Content Provider)”，把因特网中的资源服务器的地址收集起来，由其提供的资源类型的不同而分成不同的目录，再一层层地进行分类。人们要找自己想要的信息可按他们的分类一层层进入，就能最后到达目的地，找

24、到自己想要的信息。这其实是最原始的方式，只适用于因特网信息并不多的时候，因为如果信息一旦多起来，查找的时候所花费的时间就很长了。1990年，互联网还没有得到全面的推广，但是，通过网络传输文件已经比较普遍，真正意义上的搜索引擎是1994年创立的Lycos(.lycos./)，他由MichaelMauldin将JohnLeavitt的Spider程序6接入其索引程序中产生的。互联网搜索引擎除了需要有全文检索系统之外，还要有所谓的“蜘蛛”(Spider)系统7，即能够从互联网上自动收集网页的数据搜集系统。“蜘蛛”系统是John Leavitt开发的，并且由Michael Mauldin将这个系统融合

25、到了Lycos搜索引擎里面去，它能够将搜集所得的网页容交给索引和检索系统处理，就形成了现在常见的互联网搜索引擎系统。当然，一个完整的搜索引擎系统还需要有一个检索结果的页面生成系统，也就是要把检索结果高效地组装成万维网页面。概括起来说搜索引擎是为查询而生的，用户需求的不断更新、发展是搜索引擎技术不断进步的动力。1.2.2 搜索引擎的现状经过了多年的发展，现在的搜索引擎功能越来越强大，提供的服务也越来越全面，当你登录某一个，在互联网上搜索各个的某一类容，比如，输入“猪流感”，希望得到最新、最全面的信息，你需要等待多长时间？几年前，人们希望十几秒，最多30秒钟就能得到结果，而现在的期望值是12秒，也

26、就是说，伴随点击鼠标的“咔哒”一声，显示屏的页面已经变了，排在最前面的十几、二十条信息的标题已经出现在你的面前。除了速度的不断提升之外，搜索引擎目前的特点可概括为以下几个方面：1) 目录型和检索型的搜索引擎相互结合8由于目录型和检索型的搜索引擎有各自的优点和缺点，目前它们谁也无法完全取代谁，于是很多搜索站点都同时提供这两种类型的服务。例如Yahoo是目录型搜索引擎的代表，但同时它也提供基于关键词的检索服务；而Infoseek则主要是一个检索型的搜索引擎，但它同时也建立了一个由人工编辑的小型目录。2) 多样化和个性化的服务绝大多数搜索引擎现在都提供多样化的服务，以吸引更多的用户，商业搜索引擎尤其

27、注重这一点。以Sohu为例，用户可以从它的首页上查看新闻、理财信息、公共交通、浏览黄页，可以进行网上购物、交易、交友，或者使用免费E-Mail和网上聊天等服务。近期许多搜索引擎已开始提供个性化的服务，例如Yahoo的“My Yahoo”、Infoseek9的“Personalized start page”、Lycos的“My Lycos”等，它们允许用户为自己定制起始页面，并选择感兴趣的容和经常使用的服务放在该页面上。3) 强大的查询功能与最早的搜索引擎相比，现在的搜索引攀在查询功能方面己经有了很大的改进。除了简单的AND、OR和NOT逻辑外，不少搜索引擎还支持相似查询，例如AltaVist

28、a、Northern light、Lycos等支持短语查询，AltaVista的高级搜索功能支持NEAR 逻辑等。域搜索也是一项很实用的功能，它允许用户把查询围限制在网页的某个域中，例如标题、URL、图像标记或等，AltaVista、Northern light、Infoseek和百度等搜索引擎都支持对网页的不同域进行搜索。但是在搜索引擎快速发展的同时，其自身也存在着一些问题：1) 提供的查询方式相当有限，与用户的交互性差，信息检索质量不高。2)仅支持单个关键词或者一组关键词与其逻辑运算符组成的查询，而并不支持自然语言搜索或语义搜索。3)不能利用历史信息进行搜索。用户的每次搜索都是从头开始，而

29、不是从原有的查询结果中作进一步选择。4)呈现方式单一、呆板。多数搜索引擎只返回一个长长的搜索结果列表，其中可能有数以万计的包含关键词的网页，但这些网页是否以与在多大程度上与用户的搜索意图相关，则不得而知。1.2.3 搜索引擎的未来互联网信息的快速发展促进了搜索引擎技术的不断进步，呈现出一个喜人的应用前景，未来的搜索引擎不仅要满足用户简单的查询需求，更要能动态的适应信息和用户不断改变所带来的更高的要求，搜索引擎以后的发展将致力于以下几个方面：1) 十分注意提高信息查询结果的精度，提高检索的有效性用户在搜索引擎上进行信息查询时，并不十分关注返回结果的多少，而是看结果是否和自己的需求吻合。对于一个

30、查询，传统的搜索引擎动辄返回几十万、几百万篇文档，用户不得不在结果中筛选。解决查询结果过多的现象目前出现了几种方法：一是通过各种方法获得用户没有在查询语句中表达出来的真正用途，包括使用智能代理跟踪用户检索行为，分析用户模型，使用相关度反馈机制，使用户告诉搜索引擎哪些文档和自己的需求相关(与其相关的程度)，哪些不相关，通过多次交互逐步求精；二是用正文分类(TextCategorization)技术将结果分类，使用可视化技术显示分类结构，用户可以只浏览自己感兴趣的类别；三是进行站点类聚或容类聚，减少信息的总量。2) 重视交叉语言检索的研究和开发交叉语言信息检索是指用户用母语提交查询，搜索引擎在多种

31、语言的数据库中进行信息检索，返回能够回答用户问题的所有语言的文档。如果再加上机器翻译，返回结果可以用母语显示。该技术目前还处于初步研究阶段，主要的困难在于语言之间在表达方式和语义对应上的不确定性。但对于经济全球化、互联网跨越国界的今天，无疑具有很重要的意义。3) 自然语言理解技术自然语言理解是计算机科学中的一个引人入胜的、富有挑战性的课题。从计算机科学特别是从人工智能的观点看，自然语言理解的任务是建立一种计算机模型，这种计算机模型能够像人那样理解、分析并回答自然语言。以自然语言理解技术为基础的新一代搜索引擎，人们称之为智能搜索引擎。由于它将信息检索从目前基于关键词层面提高到基于知识(或概念)

32、层面，对知识有一定的理解与处理能力，能够实现分词技术、同义词技术、概念搜索、短语识别以与机器翻译技术等。因而这种搜索引擎具有信息服务的智能化、人性化特征，允许网民采用自然语言进行信息的检索，为他们提供更方便、更确切的搜索服务。 4) 个性化的搜索10一种搜索引擎是否具有智能，是否能够满足用户的需求，要看它是否可以分析用户的个人特点并制定相应的“对策”，给出最合适的排序。个性化搜索引擎很强大，对抓取和用户的搜索行为进行分析，通过他们的算法，可以实现不同的人在搜索同样关键词的时候，根据不同人的各种属性（地域、年龄、性别、爱好、职业、历史搜索等等）分别得到最适合他们的结果；可以根据用户各自的差异和特

33、点，提供最适合该用户的网页呈现，划分具有共同爱好、特性的用户群体。浏览器可以在客户端自动获取分析用户各自感兴趣的信息，实现个性化的搜索。如现在流行的Google为用户提供个性搜索(Individual Search)服务，用户在使用高级搜索的时候可以设置检索词所在的位置，如正文、标题、仅在URL、或者文本等等，还可以通过逻辑关系限制检索，如可以含有、一定含有、一定不含有等等，以与对于检索的时间围、地域围做出限制。Baidu也提供了个性搜索功能，除Google所提供的功能外，用户还可以设置检索结果的性质，可以设置只返回媒体类型，或者某些特定领域的页面，还可以选择进行检索的数据库，以与结果的显示排

34、列方式等等。然而这种定制服务的方式，还是给用户增添了许多麻烦，它要求用户须按照指定的操作来进行搜索才能获得更加满意的结果，然而即便是这样也无法实现真正的个性化服务，同样的操作下，仍然会给出一样结果集。5) P2P对等网络 P2P是peer-to-peer的缩写，意为对等网络。其在加强网络上人的交流、文件交换、分布计算等方面大有前途。长久以来，人们习惯的互联网是以服务器为中心，人们向服务器发送请求，然后浏览服务器回应的信息。而P2P所包含的技术就是使联网电脑能够进行数据交换，但数据是存储在每台电脑里，而不是存储在既昂贵又容易受到攻击的服务器里。网络成员可以在网络数据库里自由搜索、更新、回答和传送

35、数据。所有人都共享了他们认为最有价值的东西，这将使互联网上信息的价值得到极大的提升。1.3 搜索引擎排序算法的演进过程1.3.1 搜索引擎排序算法的起源和现状从搜索引擎的发展历史可以看出其搜索结果是由一个从无序到有序，再到按用户需要排序的过程。早期的搜索引擎只是简单地从数据库中取得数据，然后按照数据被检索出的自然顺序返回给用户。之后的搜索引擎应用了关键词的相关性，对于用户提交的关键词，如果它出现的位置越重要，在文档中的出现频率越高，则认为此网页与检索词的相关性越高，越能满足用户的需求。这些基本上是沿用了图书情报界的研究成果。而现在的搜索引擎大部分都用到了分析技术，它是应用了文献引文索引机制的思

36、想，即某个人的论文被别人引用的次数越多、引用它的论文质量越高，那么，他的论文就是一篇好的论文。当前流行的搜索引擎如Google、百度都用到了分析，它的结果可以反映网页的重要程度，但并不代表用户对网页的需求程度。对搜索引擎排序技术的研究有很多，1998年斯坦福大学的博士研究生Sergey Brin 和 Lawrence Page提出了网络分析的一个新算法 PageRank，该算法是建立在随机冲浪者模型上的。同年J.Kleinberg提出了Hits算法，该算法专注于改善泛指主题检索的结果。R.Lempel和S.Moran提出了SALSA11 ( Stochastic Approach for Li

37、nk-StructureAnalysis)算法，D. Cohn和 H. Chang提出了Phits算法。随后Hits的变种算法相继提出，如Monika R.Henzinger和Krishna Bharat 提出了HillTop算法，IBM Almaden研究中心的Clever工程组提出了ARC (Automatic Resource Compilation)算法，Allan Borodin等提出Hub平均(Hub-Averaging-Kleinberg)算法12等，这两种算法都是基于概念模型的。2001年1月康柏系统研究中心的Krishna Bharat和多伦多大学的GeorgeA.Mihai

38、la提出了HillTop算法，该算法利用专家网页对网页进行评判。2004年10月斯坦福大学的Z.Gyongyi和Hector Garcia-Mo-lina提出了TrustRank算法13，该算法通过选择不可能作弊的站点，用这些站点对其他网页进行评判。2005年5月A. Benczur和K. Csalogany在第一届AIRWeb 学术会议上提出 SpamRank 算法14，该算法判断出一些肯定是作弊的站点，与TrustRank算法思路正好相反。现代搜索引擎的搜索结果不仅仅考虑信息的本身，还融合了关键词和检索出文档的相关性，使其更为贴近用户需求。另外，搜索引擎对排名采用了多因素的融合，这些因素有

39、域名因素、文档和页面信息、因素、搜索结果因素、用户数据因素等。1.3.2 搜索引擎排序算法存在的问题上面提到了很多排序算法，但是没有一个是十全十美的，每个算法往往致力于解决某个方面的问题，其他方面可能有所欠缺，现在也有很多综合的排序算法方面的研究，但仍然难以达到预期的效果。虽然单一的网页排序已经有了比较成熟的算法，但是，目前还没有一个搜索引擎的排序结果能完全符合用户的需求，还存在以下方面的问题：1) 一些在页面的标题、锚文本、正文或者Html中恶意堆砌关键词，而没有用户所需的容。搜索引擎分析网页的时候，会给这些关键词较高的权重。当用户搜索这些关键词的时候，这些页面就可能以高的排名返回给用户。目

40、前的搜索引擎虽然对此做出了相应对策，但从搜索结果来看，依然存在这个问题。2) 分析出现以后，出现了很多作弊行为，管理员可以通过制造大量虚假来提升其站点排名，他们还可以通过和其他交换来增加链入的URL数目，人为提高了自己站点的反向数。3) 尽管目前搜索引擎的排序方法在一定时间都会更新一次，来防止一些管理员的作弊，但目前Spam页面的大量存在使得搜索引擎往往不能返回相关性比较好的结果。1.4 本文的主要工作与组织结构本文首先介绍了搜索引擎的发展历史，排序算法的现状与存在的问题；其次综述网络搜索引擎的工作原理、结构以与分类评价标准。在此基础上对现有的排序算法进行研究，发现不足之处如：PageRank

41、平均分配权威值、Hilltop中利用“专家页面”不合理，容易产生Spam、Direct Hit算法不易处理重复点击的作弊行为，然后针对这些缺点引入非均衡分配的思想来改进PageRank算法，利用社区发现技术来减少HillTop算法和Direct Hit算法中不利因素对排序结果的影响，以此来改善排序的质量，有效降低Spam的在排名中的影响，防止网页作弊，使排序结果更合理，从而更好的满足用户的需求。本文的结构按如下的方式进行组织：第一章，绪论。提出选题的意义和背景，介绍了搜索引擎的发展历史，然后着重研究了互联网的信息特征和目前搜索引擎的不足之处，引出了本文将要改善的地方排序技术，简述了搜索引擎排序

42、算法的现状，最后概括了本文将要研究的容。第二章，搜索引擎概述。本章主要介绍搜索引擎的分类方法，与其结构与工作原理，然后综述了现在流行的中外搜索引擎，最后阐述了搜索引擎的评价标准，如查全率和查准率，覆盖率，死率和响应时间等。第三章，搜索引擎常用排序算法与相关技术。主要分析了现在流行的排序算法，如词频位置加权算法、PageRank算法、Direct hit 算法、HillTop算法等。其次介绍了搜索引擎的相关技术，包括SEO技术15与Spam作弊技术16。第四章，利用社区发现技术改进排序算法。针对PageRank平均分配权威值、Hilltop中提取“专家页面”不够合理，容易产生Spam、Direc

43、t Hit算法重复点击的问题，提出改进排序算法的思路，并加以比较，分析。第五章，总结展望。总结本文所做的工作，展望未来搜索引擎排序技术的发展，提出下一步工作的思路。第二章搜索引擎概述本章首先概述了搜索引擎分类方法并作了简单的介绍，其次对搜索引擎工作原理与结构，搜索引擎的每一个组成部分进行了详细的描述，最后阐述了搜索引擎的评价标准。 2.1 搜索引擎的分类实际上，通常意义上的搜索引擎只是信息检索系统的前端，面向用户的一端，而整个信息检索还包括后端的收集、索引信息等功能模块。由于Web信息检索系统很多，功能上也有差异，人们在充分利用这些便利搜索工具的同时，也会感到无所适从，无从选择。据统计，各种各

44、样的网络信息搜索工具已经有上千种。从不同的角度，其分类也各不一样。2.1.1按所覆盖容如果按搜索引擎所覆盖容的围来分，可分为通用型、专业型和特殊型搜索引擎。1) 通用型搜索引擎所采用的信息资源极为广泛，对资源的主题围和数据类型基本没有限制。所以它适用于各种用户，人们可以利用它来检索几乎任何方面的容。如Google就是这类工具。2) 专业型搜索引擎17往往是着重某一主题围的信息资源，比如专门用于收集医药的Healthy MedicalWorld Search以与法律的搜索引擎LawCrawler等等，这类搜索引擎对于该专业信息的收集与查询，其查全率和查准率是极高的。3) 特殊型搜索引擎往往是指那些用来检索某一类型信息或数据的搜索工具，比如搜索的Switchboard，查询地图的Webseek、搜索FTP文件的Archie和Files等等。2.1.2按是否有人参与如果从是否有人参与来分，可分为人工搜索引擎和智能搜索引擎。1) 人工搜索引擎主要是

展开阅读全文