《2022年如何通过垂直搜索引擎构建自己的学术搜索引擎 .pdf》由会员分享,可在线阅读,更多相关《2022年如何通过垂直搜索引擎构建自己的学术搜索引擎 .pdf(6页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、如何通过垂直搜索引擎构建自己的学术搜索引擎课题背景随着因特网的发展,网上信息资源日益丰富且呈现出以下特点:(1)信息量大而且分散;(2)自治性强;(3)信息资源多种多样;(4)不一致和不完整性。这些给信息挖掘带来了挑战。一方面使其实用性不断加强,越术越多的人从网上获取信息:另一方面,人们经常会感到通过一般的搜索引擎难以找到自己想要的信息,对于具体专业或某一领域的内容尤其如此,如学术文献.所以,要从Internet上获取有价值的专业信息,就必须有专门的搜索引擎来获取专业性的信息。垂直搜索引擎 是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分
2、字段抽取出需要的数据进行处理后再以某种形式返回给用户。垂直搜索是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。学术搜索引擎学术搜索引擎顾名思义就是搜索学术资源的引擎,资源以学术论文、国际会议、权威期刊、学者为主,随着新一代搜索引擎的快速发展,学术搜索引擎应具备个性化、智能化、数据挖掘分析、学术圈等特色。23垂直搜索引擎的结构本文根据常用的搜索结构,有机地将分类目录
3、式搜索引擎和基于查询串的搜索引擎结合起来,设计了一个垂直搜索引擎的体系结构,如图所示。其各部分功能简述如下:l、爬虫软件:也称为 spider,crawler 和robot 等,定向搜索各类信息前名师资料总结-精品资料欢迎下载-名师精心整理-第 1 页,共 6 页 -十名的网站,并负责将这些Web 文档搜集到原始数据库中。2、索引器:负责对原始数据库的文档构造索引,并且存储在索引数据库中。索引是检索的有利工具,好的索引机制会导致检索效率的提高。3、检索器:是垂直搜索引擎的核心。检索器利用索引数据库中的索引来查找与用户查询相匹配的文档,计算各个文档和查询关键词的相关度,并将相关度大于阈值的文档按
4、照相关度递减的顺序排列,返回给用户。4、用户接口:提供可视化的查询输入和结果输出界面。一般来说,在输出界面中,垂直搜索引擎将检索结果展示为一个线形的文档列表,其中包含了文档的标题和超链等信息。从图 可以看出:垂直搜索引擎系统包括搜集子系统、索引子系统和检索子系统三个组成部分。名师资料总结-精品资料欢迎下载-名师精心整理-第 2 页,共 6 页 -231 搜集子系统搜集子系统的功能是在互联网中漫游、发现和搜集信息。它常常是一个计算机程序(也称为 spider,crawler 和robot 等),日夜不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上信息更新很快,所以还要定
5、期访问已经搜集过的旧信息,以避免死链接和无效链接。由于互联网中存在海量信息而且复杂多变,Web 搜集器的实现常常采用分布式、并行计算技术,以提高信息发现和更新速度。本文设计的 web 搜集器能够根据某一类信息需求,从互联网上的各个信息网站(主要是独立制作发布信息的网站),收集围绕着某个(或某类)主题的相关信息资料。它是垂直搜索引擎的核心部分名师资料总结-精品资料欢迎下载-名师精心整理-第 3 页,共 6 页 -232索引子系统索引予系统包括索引器和索引数据库。索引器将原始数据库的内容重新组织,建立索引数据库,以提高检索效率索引子系统如图27 所示。索引予系统的第一步就是为原始网页建立索引,实现
6、图2-7中索引网页库;接下来对索引网页库进行分析,它包括提取正文信息和把正文信息切分为索引项两个阶段;最后将网页到索引项的映射转化为索引项到网页的映射,形成倒排文件(包括倒排表和索引项表),同时将网页中包含的不重复的索引项汇聚成索引项表。2321索引网页库索引网页库的任务就是完成给定一个URL,在原始网页库中定位到该URL 所指向的记录旧。如果不对网页库建立索引信息,可以通过顺序查找的方法完成URL 到指定记录的过程,但是会消耗大量的 I O,数据量增大的时候不能满足垂直搜索引擎的快速响应要求,所以需要创建索引。对原始网页集R,索引网页库算法描述如图28所示。网页索引文件以 ISAM(索引顺序
7、访问模式)存储。这种结构可以保证数据的紧凑性和 O(1)的检索能力。为节省空间,索引文件中的每一行记录不保存文档的长度,因为文档长度可以通过后续文档起始位置偏移和当前文档起始位置偏移的差获得。URL 索引文件以 ISAM 存储,包含了 URL 的摘要和文档编号。为了能够快速地给指定的 URL 找到对应的文档编号,URL 索引文件按照 URL 摘要排序,这样就名师资料总结-精品资料欢迎下载-名师精心整理-第 4 页,共 6 页 -可以根据二分查找算法在URL索引文件中查找到对应的文档编号。2322分析网页分析网页包括提取正文信息和把正文信息切分为索引项两个阶段。形成的结果是文档号到索引项的对应关
8、系表。每条记录中包括文档编号,索引项编号,索引项在文档中的位置信息。提取正文信息是本文研究的重点之一,垂直搜索引擎采用的是基于语法的信息抽取技术,详细内容将在第三章介绍。得到网页正文信息,调用分词程序,获得正向索引。垂直搜索引擎采用的分词算法全二分最大匹配快速分词算法将在第五章详细介绍。2323建立倒排文件垂直搜索引擎面临大量的用户检索请求(几十几千点击秒),要求垂直搜索引擎在检索程序的设计上要高效,尽可能地将大运算量的工作在索引建立时完成,使检索时的运算尽量的少。一般的数据库系统不能快速响应如此大量的用户请求,本文采用倒排索引技术。创建倒排索引包括建立正向索引和反向索引。分析完网页后,得到以
9、网页编号为主键的正向索引表。当索引建立完成后,得到索引项到网页的编号的反向索引。这是一个表的重组的过程。倒排文件机制是一种面向索引项的机制,利用它可以提高检索速度。倒排文件结构由索引项和索引项出现情况两部分组成。对于每个索引项,都必须有一个列表(称为词汇表)来记录索引项在所有文本中出现的位置。名师资料总结-精品资料欢迎下载-名师精心整理-第 5 页,共 6 页 -233检索子系统检索子系统包括检索器和用户接口。用户接口在接收用户的查询请求后,将它转发给检索器,检索器根据查询项和索引数据库的内容,找到匹配的网页后,进行排序,然后通过用户接口返回给用户。24本章小结本章首先介绍基于查询串方式的搜索引擎和分类目录式搜索引擎的整体结构,然后在此基础上,设计了垂直搜索引擎的系统结构,并介绍了各部分应完成的工作。其中涉及的关键技术:Web 搜集器、信息抽取技术、中文分词和检索技术方面的内容名师资料总结-精品资料欢迎下载-名师精心整理-第 6 页,共 6 页 -