《个性化信息检索论文.doc》由会员分享,可在线阅读,更多相关《个性化信息检索论文.doc(40页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、哈尔滨华德学院毕业设计(论文)摘 要随着Internet网络信息的快速发展,个性化信息服务已经越来越成为信息检索领域的热点,对于不同背景不同兴趣爱好的人,要想找到自己想要的信息这是一项巨大的挑战,个性化信息检索满足了这一要求,而其中最难的就是用户兴趣模型的建立,能够有效识别用户兴趣偏好是个性化服务的关键技术;用户兴趣偏好挖掘需要解决的问题包括收集用户信息、如何收集这些信息、收集到信息如何组织、表示和存储;如何在收集到的信息基础上,采用合理的技术和模型进行分析和处理以获取用户检索偏好;用户的信息和兴趣如何自适应的跟踪、学习与更新等问题。我所设计的中心思想是,用户注册登录到个性化搜索引擎,根据用户
2、注册的兴趣信息以及用户提交的检索查询词来反映用户的兴趣,从而返回用户感兴趣的内容。关键词:个性化搜索引擎;用户兴趣挖掘;用户模型Abstract With the rapid development of Internet,the number of accessible Web page has been expontial growth on the Internet. For differentpeople of different interests, In order to findthe information they want,this isa huge challenge.
3、Personalized information retrievalto meetthis requirement,and it isthe most difficult of theuserinterest modelestablishment,this page designs indentify general user preference categories but also indentify user prefereece category that belong to different catetory query.This paper research the metho
4、d of user preference mining. The central ideaof my design,user login and registerto thepersonalized search engine,toreflect the userinterestbased on userregistrationinformationandinterest inthe users retrievalquery words,whichreturns theuser interested content.Keywords:Personalized searchengine user
5、interest mining user model目 录摘要IAbstractII第1章 绪论11.1 课题背景11.2 目的和意义11.3 国内外研究现状2第2章 搜索引擎概述62.1 个性化搜索引擎62.2 搜索引擎的工作原理72.3 搜索引擎的发展8第3章 用户兴趣挖掘83.1 用户兴趣挖掘流程93.1.1用户信息采集93.1.2用户信息表达方法103.1.3用户兴趣分析建模11第4章 个性化搜索系统总体设计134.1 系统总体设计144.1.1网络爬虫程序144.1.2用户端154.2 系统数据库设计16第5章 系统实现195.1 系统流程设计19第6章 系统测试22结论27致谢28
6、参考文献29附录1 译文31附录2 英文参考资料34-37-第1章 绪论1.1 课题背景随着Internet技术的迅速发展,网络中的信息量也大大的增多,这使得许多的用户能够享受丰富的网上资源信息,然而在如此多的信息量面前,不同的用户的需求也会有所不同,这与用户的个人信息以及背景、喜好都息息相关。传统的检索系统已经无法满足这些用户的需求。因此,如何有效的识别用户类别偏好,如何有效的提取用户的个人以及兴趣信息就十分的有必要。解决这些问题的关键在于从传统的用户单一提交搜索关键词获取到所需页面变成用户主动的像浏览器提交个人信息,用户个人的兴趣取向,结合用户提交的检索关键词,通过算法分析,总结出用户的兴
7、趣度,返还给用户感兴趣的页面信息。个性化服务要首先满足用户的需要,学习到网民的兴趣所向,个性化搜索系统通过学习用户兴趣,来满足用户的所需,个性化的搜索能够从分提高用户的体验,从而吸引来更多的使用用户。个性化服务实现兴趣对应、按需求服务、信息推荐出去并减少用户的负担,个性化搜索服务首先需要建立用户个人信息库,只有用户的个人信息能够很好的表达出来时,个性化的搜索系统才能够更多地被运用。1.2 目的和意义根据有效统计,中国网民规模已经达到了相当庞大的数量,搜索引擎的应用是用户主要的信息获取渠道之一。使用率在不断的升高。搜索引擎的发展经历了目录海量搜索、删出垃圾网页、专业、定向、高准确性和匹配性等几个
8、阶段,但搜索引擎的整体框架和所使用的技术并没有根本性的改变。而搜索引擎缺乏个性化的弊端却日益突出,具体表现在网络信息日益增长,种类繁多,而传统搜索引擎对所有用户提供相同的界面和服务,并且检索的结果成千上万、良莠不齐,用户为找到真正感兴趣的信息,这就需要消耗大量的时间和精力。不同的个体体现出的特征和行为习惯都有所不同,人们所喜爱的事物也有所不同,他们对检索关键词的理解也不尽相同,不同的用户对于缩减入的同一个词语的反应也不同。因为一些内在或外在的因素,用户在输入同一个词时,得到的返回页面都是一样的,这样会使用户很难满足自己的需求。用户在键入关键词时,会有很多的前提条件,但由于个体的差异,用户在想要
9、得到自己想要得到的页面信息时就出现了困难。 本课题通过提取用户个人的注册信息,用户的兴趣信息,开发并实现了一个基于用户兴趣的个性化搜索引擎,提高搜索效率。 其中,在本文中需要考虑到的问题:搜索引擎源数据的获取:即如何从如此大量的网络资源中获取到信息,如何采集用户的兴趣,例如用户喜好的兴趣类别进行归纳总结,借助一些算法,生成用户兴趣模式,而在这其中最难办到的就是学习算法的采用,即如何设计一个简单明了,又条理清晰的学习算法来计算出用户对某一兴趣的兴趣度,这其中会涉及到很多的知识,例如中文分词技术,自动聚类技术,页面分类技术以及数学建模等等。1.3 国内外研究现状在早期建立的个性化服务,建模技术并没
10、有得到应有的重视,大量的研究集中在实现个性化服务的一个特定的技术,如推荐技术,信息检索技术,用户聚类技术等,用户建模技术是在这些技术进行了简单介绍,但随着个性化服务的发展和研究的深入,研究者逐渐实现个性化服务,质量不仅取决于推荐技术,具体的检索技术,兴趣也取决于用户的利益可以计算描述,后者是更重要的。因此,近年来,对用户建模技术的研究开始传播,作为个性化服务中的基础技术来研究。 目前,国外的一些大学研究机构易经研究出简单的用户兴趣模型了,例如Syskill&Webert,它是一个web导航工具,是针对单用户的系统,它可以搜集用户对当前浏览页面的评价,通过这些评价过的web页面,逐渐学习用户的兴
11、趣模型。系统要求用户一开始要提交自己感兴趣的主题,在浏览的过程中,系统不能检测用户新的兴趣主题生成,必须由用户手动提交新的兴趣主题,但随着评价页面的增多,个性化模型也都会不断的更新,能够适应用户的兴趣变化。Letizia系统通过收集用户在浏览器上的浏览行为,采用启发式的规则集,对记录的浏览行为建模,从而产生用户的个性化模型。系统不要求用户进行显示评价,主要通过分析用户的浏览行为来收集用户的兴趣取向。Personal WebWatchers属于个性化推荐系统,系统通过记录用户浏览的页面以及观察用户对超链接的选择,推断用户浏览过的页面属于感兴趣的兴趣类,反之属于不感兴趣的类别,分别作为训练的正例或
12、反例,而后通过计算单字与类别的互信息,选择反映用户模型的关键字,构建用户模型。国内的研究者对用户建模也展开了一些研究,一些文献中提出根据用户提交的实例文档,通过考察特征、段落和类别的表达能力构建用户兴趣模型。或者是将用户多个感兴趣的类别组合到一起的用户建模技术。不过总的来说,作为个性化服务的基础和核心技术,用户建模技术还处于起步间断,还没有形成完整的体系,还有许多的关键技术需要解决。与此同时,用户模型是推荐系统产生个性化搜索和推荐的主要知识源,其捕捉用户真实偏好的能力在很大程度上决定了推荐的成功与否。从应用要求看,用户模型应当包含个体用户的兴趣模型和群体用户的行为模型。显然,个体用户兴趣模型侧
13、重于个体用户的兴趣发现和描述问题;群体用户行为模型侧重于群体用户访问行为以及群体用户和资源对象或资源项目之间的关系或特征模式分析。基于用户兴趣模型,可以开展兴趣资源推荐,即针对当前访问的某个特定用户,主动将跟该用户兴趣内容一致或相似的资源对象呈现出来。基于群体用户的访问行为和用户兴趣模型可以开展协同资源推荐,帮助用户发现新的、可能感兴趣的资源。对社交网络研究提供应用价值。随着个性化服务的发展和研究深入,研究者逐渐意识到个性化服务的质量取决于用户兴趣和偏好等技术,尤其是用户模型质量直接关系到个性化服务和个性化推荐技术的质量。本文研究了怎么能够通过用户提交个人信息来学习用户兴趣进行个性化搜索,进一
14、步改进查询精确度。意识到个性化搜索中用户兴趣挖掘研究的重要性问题后,大量重要技术问题需要强调。首先,本文需要开发一个能够合理表明用户搜索历史的用户兴趣模型。用户兴趣能够通过他的点击历史进行学习。其次设计一个有效的方法,通过分析用户点击历史来学习用户兴趣类别偏好。最后要考虑排序机制。很明显,用户查询是最有效的能够表明用户搜索意图的信息。绝大多数现有搜索系统仅仅依靠查询来满足用户信息,但是,由于查询串较短,存在歧义问题等等。有效解决该问题的方法是使用用户提供相关反馈文档即用户对该信息满意的文档,通过相关反馈方法改进用户兴趣模型。相关反馈方法对于改进检索精确度十分有效。总之,用户兴趣挖掘大体分为显式
15、用户兴趣挖掘和隐式用户兴趣挖掘两种方法。显式用户兴趣挖掘是通过用户注册信息或用户提交检索关键词来进行挖掘,要求用户对推荐的资源进行反馈和评价,从而达到学习的目的,优点是实现简单,无需对系统进行训练,可以快速得到用户兴趣;缺点是完全依赖用户,用户很难准确、全面描述自己的兴趣及其兴趣度。隐式用户兴趣挖掘又可以分为日志挖掘和内容及其相关反馈方法。具体的日志挖掘是在大规模日志基础上进行相关分析,分析用户上网行为特点,例如:浏览时间、保存、收藏、鼠标滚动、翻页等相关行为。优点是通过挖掘用户日志,可以推测用户兴趣,基本不依赖用户。缺点是浏览行为表示方法难于统一。相关反馈方法是通过用户在浏览过程中对页面标注
16、感兴趣程度来进行挖掘兴趣,优点实现简单,可以动态更新用户兴趣;缺点是依赖用户与系统的交互,降低了个性化服务质量,移动设备例如掌上电脑、移动电话、个人数字助、无线网络的个性化技术将是个性化搜索技术未来课题研究的挑战。目前看来,个性化搜索以及个性化的一切服务的有关研究虽看起来突飞猛进,但具体来讲,个性化的服务还没有达到一个普及的地步,用户在使用传统的搜索引擎去挖掘网上的信息资源时,得到的一切都是千人一面的结果,随着网络信息量的不断增加,用户在使用传统搜索引擎的体验也大大降低了,用户不能有效的根据自己的喜好得到自己想要的搜索结果。因此,国内外的专家以及学者都在近几年的时间里努力研究个性化服务的相关技
17、术,例如个性化推荐系统、个性化的微博系统、个性化的搜索引擎,总之,软件已经越来越向着面向用户而发展,一切都是为了用不同的用户能得到不同的自己想要的使用体验,个性化的服务在国外已经有所小成,但是国内由于研究起步时间较晚,现在还处于出级阶段,个性化的服务已经不仅仅是专家学者需要探讨研究的问题,它也是需要我们这些本专业的学生能够积极地去探索,去发现,并努力研究的课题,个性化的服务会使用户的服务体验达到一个新的高度,用户能够根据个人的喜好自由选择自己喜欢的类型,自己想要的搜索结果,总之,个性化的服务是未来搜索引擎以及诸多软件发展的必然趋势。第2章 搜索引擎概述2.1 个性化搜索引擎个性化搜索引擎是一个
18、基于用户的检索关键词和个人兴趣的信息的搜索引擎,根据用户的搜索历史,返回用户感兴趣的页面。这些用户的搜索历史,曾经所得到的的网站表示搜索结果,书签等。掌握这些用户信息对于搜索引擎的分析上很有帮助,在用户搜索新的关键词时,可以返回更有针对性的搜索结果,从而提高用户体验。这是对于技术和互联网的一些策略以及发现的信息的理解,信息的提取与处理,为用户提供服务的网络搜索的搜索引擎有不同的分类方法。按照信息内容的划分,搜索引擎可分为综合型搜索引擎,专业搜索引擎和特殊的搜索引擎;根据搜索工具划分,搜索引擎可以分为单一的搜索引擎,元搜索引擎和集成搜索引擎;根据信息组织模式的分类,搜索发动机可分为目录式搜索引擎
19、,全文搜索引擎和混合搜索引擎。以下是按信息的组织方式划分的三类搜索引擎:(l)目录式搜索引擎,或称按主题查询型搜索引擎,是将信息分门别类,按照传统的分类方式分为各级目录。它的特点是质量和匹配精度较高,不足之处是搜索范围较小,查全率较低。(2)全文搜索引擎,或称按关键字查询型搜索引擎,对各网站的每个页面中的每个词进行搜索。它的特点是信息量很大,查全率较高。不足的是它提供的信息太多,反而降低了查准率。(3)混合型搜索引擎是针对全文和目录搜索引擎的缺点而设计的。使用户在分类目录中浏览,保证了一定的查准率,又可以使用户进行全文检索,查找特定资源。2.2 搜索引擎的工作原理搜索引擎大致可分为网络爬虫、索
20、引器、检索器和用户接口四个部分组成。网络爬虫又称为网络机器人网络爬虫,又称网络机器人,它不停的从网络上下载文档并抽取出新的链接,循环的实现对万维网的遍历。它在一个完整的运行周期内可以下载超过千万的网页,并将这些文档保存在本地文本数据库,最后由索引器负责完成页面内容的全文索引。本程序中便会使用到网络爬虫程序。为分析收集回来的网页索引,提取相关的信息(包括网页的URL,编码类型,页面包含关键词,关键词位置,生成时间,大小,和其他网页的链接关系),根据一定的相关度算法进行大量复杂的计算,得到每个网页和超链中的每一个关键词的相关性,然后利用这些信息建立网页索引数据库。查询器:从用户的角度来看,查询算法
21、是一个搜索引擎的检索质量的最重要的决定因素。各种基本的数据库查询的搜索引擎索引数据库的使用,如网页的全文索引的数据库,HTML标签库,超链接分析的基础上,查询多个数据源的历史数据库,实现快速、准确的匹配用户输入的关键词。用户接口提供一系列的查询选项以满足不同的查询要求。一般的搜索引擎系统都支持布尔表达式操作、搜索域名范围限制、查询网页的语种,甚至可以选择文档的类别。合理的设置查询选项可以大大的减少搜索结果中的无效内容,提高查询效率。本系统所采用的爬虫程序,根据所键入的网址,来爬去相关网址上的页面信息,包括网页的链接、网页的标签信息、网页的元信息等等,最后根据爬取到的信息在控制台程序部分的分析器
22、里进行页面的筛选分类,将处理完的页面进行索引建立,存储到用户的页面数据库中,等用户使用本系统时,系统会从数据库中抓取出页面作为返回结果返还给用户。但爬虫程序在运行时需要大量的时间去挖掘数据,这是一个弊端。2.3 搜索引擎的发展万维网搜索结果,目前几乎是在一个列表的形式体现出来的,查询的质量不平衡,组织结构不合理,但由于技术是有效的,成熟的,在未来一段时间内,这一技术也将在搜索领域占据绝对重要的地位。为了进一步提高检索质量,未来的搜索引擎应该在以下几个方面有所突破:在输入方面,使用自然语言输入,使用更方便,用户交互,使得用户和搜索引擎更容易合作,能够更大程度地表达用户的查询要求,这有助于提高查询
23、的准确度。在返回的结果上,应充分发挥搜索结果的预处理能力,在集成方面,考虑到人的个性差异,年龄,性别,地理方面的个体差异。一方面,搜索引擎通过不断的学习来掌握用户的喜好,通过挖掘搜索习惯和感兴趣的内容,自动选择合适的成员搜索引擎的搜索目的。另一方面,对用户输入的查询其他方式,如语音,图像,视频等,实现智能查询转换函数,从而得到预想的结果。专业搜索引擎是一个很好的概念,不仅是网络资源可挖深比一般的搜索引擎更广泛,搜索的负担会很小。本章小结本章主要对于搜索引擎作了一个简单的概述,对于搜索引擎的基本分类,搜索引擎的大致组成以及搜索引擎的工作原理,搜索引擎各部分的功能以及重要性进行了简单明了的阐述。同
24、时,对于搜索引擎的发展前景作了展望,搜索引擎的飞速发展使得用户在浏览网页信息时变得更加容易,在广大网民的支持和有关专家的努力研究下,搜索引擎会步入一个崭新的篇章,从传统意义上简单的实现用户与网上信息的交互沟通变得更加智能化、个性化、专业化。第3章 用户兴趣挖掘个性化搜搜索引擎中一个重要的模块就是用户兴趣模型的构建,而用户兴趣模型构建的重点在于挖掘用户兴趣喜好类别。如何采纳一个好的学习算法表示用户兴趣类别就十分的具有难度。采用资源分类方法来表示用户的兴趣类别,本文应爬虫程序中分析其的分类技术在用户兴趣模型中,有效识别用户兴趣类别偏好。用户输入检索关键词给搜索引擎,搜索引擎返回搜索结果,如果用户对
25、某一类感兴趣,用户会对该类的文档进行浏览,通过用户键入的检索关键词以及用户注册时填写的兴趣类信息,通过用户模型将查询映射到对应类别体系。用户兴趣模型有效识别用户兴趣偏好类别后,对与之相关的资源进行推荐、信息过滤等相关技术起到良好作用。3.1 用户兴趣挖掘流程 用户兴趣挖掘的大致过程可分为用户信息数据的采集、用户信息的表达方法、用户兴趣分析建模以及用户兴趣更新与学习四个方面。首先用户需要有信息数据的采集工作,获取到用户信息后,就需要合理的表示用户的信息,经过分析用户兴趣偏好来构建用户的兴趣模型,最后根据用户的兴趣变化规律,需要对用户兴趣进行更新学习。3.1.1用户信息采集用户通过搜索引擎查询,然
26、后查看相关文档,需要网络爬虫系统根据用户点击的URL下载网页信息,然后通过正文抽取,抽取正文内容。用户信息的采集有多种方法包括:用户自主提供,客户端软件跟踪,服务器端跟踪学习与信息挖掘等。用户模型数据获取方法大体可以包括显式信息挖掘和隐式信息挖掘:显式信息的收集由用户给搜索系统提供相关信息表达其兴趣、偏好、检索意图以及对检索结果做出的评价和反馈的信息。显式信息是由用户主观能动提供给系统的信息,这些信息可能包括:用户背景信息主要包括用户提供的性别、年龄、学历、专业和职务等。这些信息有利于了解用户的兴趣背景,并针对某些特定的领域,使用统计信息对用户进行聚类或分类,来挖掘用户潜在的检索偏好和意图。用
27、户兴趣偏好是指在特定的兴趣分类的体系框架下,由用户选定的自己感兴趣的信息类别。这种方法能够快速的收集用户的兴趣信息,比较准确地反映用户的需求和兴趣。用户检索意图不再仅仅局限在一个关键字或几个关键字的逻辑组合,还可以引入更符合用户习惯的自然语言查询,增加用户表达其检索意图的途径,让用户提供尽可能多的语言信息。评价与反馈即基于相关反馈的技术,通过用户对返回的部分结果进行标定来确定用户的兴趣类别偏好,然后对搜索结果重新排序。隐式信息挖掘是指通过对用户的浏览行为进行跟踪而得到的隐式信息。提出隐式用户兴趣挖掘,过程包括挖掘用户行为、表示用户行为特征、构建用户模型和识别用户兴趣模式。隐式信息的收集需要监视
28、用户在WEB页面的行为,例如采集用户在某一页面停留的时间、文档的长度、用户访问的URL地址和URL路径的历史等数据,形成日志文件,通过分析该日志文件总结出用户的特征数据。研究表明一定时间段的WEB访问日志中蕴含了用户的稳定兴趣。这种方法对用户透明,但用户数据的收集往往需要一段较长的时间。实验数据采用爬虫程序收集网上信息到数据库中,可收集各个搜索引擎中的网上资料。3.1.2用户信息表达方法为了收集和存储用户信息,跟踪用户的兴趣与行为,有必要为每个用户建立一个用户描述文件。用户描述文件用来定义用户信息在计算机内的表达和存储形式,刻画用户的兴趣特征与用户之间的关系。用户信息表达方法为用户建模服务,如
29、何有效表达用户信息是用户建模的核心技术问题,用户搜索上网首先通过搜索引擎提交查询串,搜索引擎系统返回给用户相关文档,用户浏览相关文档。本文将相关文档放入用户兴趣库,最后形成用户兴趣模型。用户兴趣随着时间变化会发生变化。例如用户对某类关注度很高,那么用户在该类的兴趣就会升高;人的情绪、环境等因素也影响用户兴趣变化,如果情绪低落等,用户在某类的兴趣可能减小,启发本文要进行用户兴趣更新学习。具体过程如图3-1 所示。网 页 文 档用 户兴 趣模 型搜 索引 擎系 统互联网资源用户兴趣库图3-1 用户兴趣表示3.1.3用户兴趣分析建模用户模型是用来表示和存储在计算机用户的形式化定义,描述用户兴趣特征和
30、用户兴趣之间的关系,不同的用户模型的个性化服务系统有其自身的特点,采用用户模型的形式往往与他们的数据源集合关联。作为宏道用户使用静态信息来描述用户背景;描述基于超链文件的加权关键词向量个人WebWatcher方法;基于关键词和表达语境关系的加权语义网,描述用户显式和隐式反馈信息;PVA使用类型继承。在该领域的知识来表达个人观点,描述代理日志信息;siteseer使用用户的书签和目录结构来描述自定义目录类型。在一般情况下,从内容的用户模式可以分为两类基于兴趣和行为的基础。用户的兴趣模型可以表示为一个加权矢量模型,类型层次结构模型,加权语义网模型,书签和目录基于用户模型结构;基于行为可以在浏览模式
31、或用户访问模式表达。 用户兴趣模型能否准确有效地捕捉和描述用户兴趣并及时跟踪反映其变化,将直接或间接决定过滤成功与否, 由此可见用户模型的重要性。用户兴趣模型是推荐系统中的一个模块,是在计算机中建立的对用户兴趣特征的描述,能获取、表示、存储和修改用户兴趣偏好。能进行推理,对用户进行分类和识别,帮助系统更好的理解用户特征和类别,理解用户的需求和任务,从而更好的实现用户所需要的功能。也就是说用户兴趣建模是从有关用户兴趣和行为的信息如访问内容、浏览行为、下载行为、背景知识等中归纳出可计算的用户兴趣表示的过程。用户兴趣建模的目的是为采集到的用户信息提供形式化的描述手段;为基于用户信息的分析和挖掘提供理
32、论和方法;指导用户信息在个性化信息检索中的应用。目前基于内容的用户兴趣分析技术多为相关性分析技术,通过建立的用户兴趣模型来计算用户查询和被检索文档的相关程度,达到个性化检索和排序的目的。拟采取的研究方式内容分析模型以向量空间模型为基础,研究基于用户访问的文本内容的形式化描述手段和方法,并探索该模型在个性化信息检索中的应用,通过融合语言模型和相关性模型改进向量模型忽视特征共现的缺点,解决实际应用中初始数据稀疏对用户模型的影响。同时用户建模通过向量空间模型构建,可以把用户预先给定的相关信息即用户通过填表或上传直接给定文本信息,或通过用户在网络上的访问行为隐式获取的文本信息,以及把用户输入的Quer
33、y表示特征权重的向量空间,其中每个特征的权重通过TF*IDF进行计算。然后采用向量空间夹角实时计算信息流与用户模型的相关度,最后通过排序或设定阈值获得相关信息。用户的兴趣并不是固定的,用户模型是不固定的,用户会因为一些个人因素或外部因素,个人兴趣也发生了改变,用户模型应该考虑更新模块。这要求用户模型根据用户的变化来自适应变化,随时间的变化,用户兴趣的变化遵循一定的规则。本章小结本章主要对用户兴趣挖掘过程进行了介绍,用户兴趣挖掘过程可以分为用户兴趣获取,建立用户信息和用户模型的表达模式分析,用户模型更新。其中,用户信息的数据采集是收集用户的在线信息,浏览的用户的喜好,用户偏好行为识别;用户信息表
34、达为用户兴趣建模服务的步骤,有效清晰的表达用户信息是构建高效用户兴趣模型的前提条件;用户兴趣分析与建模是核心部分,只有合理的用户兴趣模型才能反映出用户的需求。第4章 个性化搜索系统总体设计搜索技术中融入用户兴趣信息的采集,首先开发一个基于用户的个性化搜索引擎系统。该系统能个性化的完成用户的搜索行为,生成用户兴趣模式优化搜索结果,优先返回用户感兴趣的网页内容。总体来说此系统的设计至少应一该满足以下几点功能要求:用户注册登陆、用户兴趣录入,得到搜索返回结果。生成特定用户兴趣模式,优化搜索结果,优先返回用户感兴趣的网页内容,提高检索效率。4.1 系统总体设计 主要分为两大部分,一个是控制台程序,一个
35、是用户端,而每一部分都有其各自的功能,这些功能的详细说明将在本章稍后阐明。4.1.1网络爬虫程序网络爬虫是一个自动提取网页的程序,它是从万维网搜索引擎进行网页下载,是搜索引擎的重要组成部分。传统爬虫从一个或多个初始网页URL中得到初始的网页,在网页的抓取过程中,不断从当前页的提取新的URL队列,直到满足系统必须停止条件。聚焦爬虫的工作过程是更复杂的,根据一定的网页分析算法过滤无关链接需要,保留有用的链接和放置在队列中等待的URL捕获。然后,它将根据一定的搜索策略选择的网页URL的队列中检索,并重复这个过程,直到达到系统停止状态。此外,所有被蜘蛛抓取的网页将被存储,分析和筛选,并建立了索引,以便
36、查询和检索;对聚焦爬虫,通过这种方法得到的分析结果也可能是后反馈给在爬行过程的指导。网络爬虫的组成:在网络爬虫的体系框架中,主要由控制器,解析器,资源信息库三部分的资源基础组成。该控制器的主要工作是在多线程中分配工作任务负责执行。分析器的主要工作是下载页面,页面处理,主要是一些JS脚本标签,CSS代码内容,空间特征,HTML标签,内容处理,基本的工作是由解析器来完成。资源数据库用于存储下载的网站资源,一般由大型数据库,如Oracle数据库,并建立了索引。控制器控制器是网络爬虫的中央控制器,它主要是负责根据系统传过来的URL链接,分配一线程,然后启动线程调用爬虫爬取网页的过程。解析器解析器是负责
37、网络爬虫的主要部分,其负责的工作主要有:下载网页的功能,对网页的文本进行处理,如过滤功能,抽取特殊HTML标签的功能,分析数据功能。资源库主要是用来存储网页中下载下来的数据记录的容器,并提供生成索引的目标源。中大型的数据库产品有:Oracle、Sql Server等。4.1.2用户端本程序用户端主要是用户搜索界面,用户的登录,用户的注册的信息,用户在注册信息时,所键入的兴趣选择信息,以及用户提交搜索关键词,最后,用户得到经过筛选之后与自己兴趣相关的搜索结果。用户端使用的是显示兴趣挖掘用户的行为习惯,根据用户的所选择兴趣来表示用户的真实兴趣,根据用户的键入检索关键词和用户所选择的兴趣来为用户选择
38、相关的页面内容。下面通过个性化搜索的功能模块图来表示个性化搜索系统的相关功能,以及各模块的组成部分。程序功能模块图如图4-1所示。个性化搜索用户端控制台网 络 资 源 重 写网 络 资 源 下 载网 络 资 源 分 析生 成 索 引网 络 资 源 存 储 用 户 登 录 用 户 注 册用 户 兴 趣 录 入提 交 检 索 关 键 词返 回 用 户 查 询 结 果图4-1功能结构图 4.2 系统数据库的设计数据库中含有四张表:用户信息表、兴趣信息与兴趣名称映射表、页面信息表、用户兴趣映射表。接下来分别作介绍。 1.用户与用户兴趣映射表 主要存储指定用户的所选兴趣信息,包括了用户ID,兴趣ID两方
39、面的字段信息。如表4-1所示。表4-1用户与用户兴趣映射表字段名称字段类型字段说明UserIDint用户idIntrestIDint 兴趣id2.页面信息表 主要是存储页面的各种信息,包括了网页id、网页主题、网页链接、网页内容、网页元信息等字段信息。如表4-2所示。表4-2 页面信息表字段名称字段类型字段说明IDint网页idTitleNvarchar(MAX)网页主题UrlNvarchar(MAX)网页链接ContentNvarchar(MAX)网页内容MetaNvarchar(MAX)页面元信息 3.用户信息表 主要是存储用户的个人信息,包括用户登录名、用户密码、用户显示名称等字段信息。
40、如表4-3所示。 表4-3 用户信息表字段名称字段类型字段说明UseNameNvchar(50)用户登录姓名PasswordNvchar(50)用户密码NickNameNvchar(50)用户显示名称4.兴趣id与兴趣名称映射表 主要是存储兴趣类别的信息,包括兴趣id,兴趣名称等字段信息。如表4-4所示。表4-4 兴趣id与兴趣名称映射表字段名称字段类型字段说明IDint兴趣idNameNvchar(50)兴趣名称如上的四张表为个性化搜索系统的数据库表,其核心部分是用户的ID,根据用户的ID,表间关系联系起来,用户ID联系着用户在注册时所选择的兴趣ID,兴趣ID联系着兴趣类的名称,从而形成了用
41、户兴趣映射,根据这个映射,搜索系统可以优先返回用户选择的兴趣类以及检索关键词指向的页面资源。数据库E-R图如图4-2所示。属于属于1属于1n111图4-2 E-R图本章小结本章主要对系统的总体设计进行了阐述,系统主要分为控制台部分和系统的用户端部分,对于各部分的功能进行了说明,控制台部分主要用来抓取网上的资源信息,用户端部分实现用户通过兴趣搜索得到想要的结果页面。同时,本章结尾处对于系统使用的数据库4张表进行了展示。第5章 系统实现5.1 系统流程设计根据用户登录与否,程序时所得到的结果也会有所不同,用户若不登录,则不会出现兴趣选择;相反,若用户提前登陆本系统,用户会先行进行兴趣选择,用户在使
42、用本系统时,系统会根据指定用户的兴趣选择来选择有限返还给用户的网页内容。以下是系统各功能模块的运作流程:(1)用户注册、登录访问本搜索引擎的用户可以以访客,已注册用户身份来完成搜索功能,并且本系统可以对注册用户可以优先返还用户所选兴趣的内容。如图5-1所示。开始用户注册用户登录数据库中是否存在该用户? 否密码是否一致? 是 否 是通过验证结束 5-1 用户注册、登录流程图(2)用户搜索以下是用户搜索的流程图。用户提交关键词后,系统实现搜索功能,得到返回的搜索结果并且这些搜索结果会依据用户兴趣规则及时优化处理,争取达到优先返回用户感兴趣的网页内容的效果。以下是用户搜索流程图,如图 5-2所示。开
43、始用户登录用户输入检索关键词用户是否已选择感兴趣的类? 是 否用户进行兴趣选择根据用户兴趣返还搜索结果结束 图5-2 用户搜索流程图如上图所示,用户输入检索关键词后,系统会判断用户感兴趣类别的记录,若没有,则会返回用户注册界面,若有则会直接根据该关键词返回给用户相关的页面,并根据用户之前在注册时选择的兴趣类,返回给用户感兴趣的内容。本章小结本章主要对系统各部分的运行过程做了简要的阐述,系统中用户的登录,注册等功能,以及用户在登陆与不登陆的执行步骤都不一样,用户在登录注册后键入搜索关键字后系统所返回的内容都是不一样的,系统会优先返回用户在注册是与用户自身所选兴趣有关的页面,这样会显得更加个性化一
44、些。用户在注册时会有选择兴趣类的选项,该选项中的兴趣类将会决定用户在今后使用本系统时,系统所返回的搜索结果。同时,本系统所使用的一切网上资源,都是通过控制台部分的爬虫程序在网页上抓取到网上的网页资源,网络信息则是由控制台部分的网络查询分析器将抓取到的网站资源进行分门别类,最后建立索引,汇总到用户的网站资源数据库表项中,用户在使用本系统后,就会根据各自选择的兴趣类,得到不同的搜索结果集。第6章 系统测试本章将演示系统运行的界面以及用一些实验数据测试系统的运行过程。首先演示本系统的控制台部分:如下图为爬虫程序启动,系统所需要的页面都是通过此爬虫程序从网上爬取到的,在这里用在淘宝网上抓取页面为例。爬
45、虫程序的启动页面如图6-1所示。图6-1 控制台启动界面爬虫程序启动后,输入想要抓取的网站链接,按下回车键,爬虫程序就会开始运行并从所输入的网站中抓取页面信息,,将抓取到的页面保存到数据库中。 其抓取的信息包括网页链接、网页主题、网页的标签以及网页的元信息这些对于建立索引起着至关重要的作用。爬虫程序的运行界面如图6-2所示。图6-2 控制台运行界面接着打开用户端的界面,如图6-3所示。图6-3 程序主界面 打开程序的主界面后,需要用户进行登录注册个人信息以及个人的兴趣选择,注册信息登录名为xiaoli,系统所显示的用户名为“小李”,设置密码并选择用户个人感兴趣的类别,体育类。用户注册界面如图6-4所示。图6-4 用户注册界面用户注册完个人信息后,系统会将用户注册的信息添加到用户个人新信息数据库中,并跳转到用户的登陆界面,允许用户进行登录。在用户进行注册时,最好能将个人所喜欢的兴趣类别选中,这样更有利于用户在今后的搜索过程中容易的得到自己想要的搜索结果。用户登录界面