文化交流-淘文阁

资源描述

《基于Web挖掘技术的网络搜索引擎系统探讨,搜索引擎论文.docx》由会员分享，可在线阅读，更多相关《基于Web挖掘技术的网络搜索引擎系统探讨,搜索引擎论文.docx（9页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、基于Web挖掘技术的网络搜索引擎系统探讨,搜索引擎论文内容摘要：针对当下网络信息的发展需求呈现爆炸式增长，对网络搜索引擎提出了更高层次要求。采用理论结合实践的方式方法，首先Web信息检索挖掘技术做了扼要概念，其次对基于Web挖掘的网络搜索引擎技术的应用进行了分析，提出了一种给予Web挖掘的个性化搜索引擎，并对各系统模块的功能及实现方式进行研究，分析结果表示清楚，此种系统具有很强的检索灵敏性，而且还能实现个性化查询结果，能够知足信息时代，信息数据挖掘和检索的需求，值得大范围推广应用。本文关键词语: Web挖掘;网络搜索引擎;应用; 0 引言在信息化大数据时代，信息检索是一项非常重要的内容，很

2、多信息数据被储存在数据库或者信息池中，需要采用高效、先进的网络搜索引擎技术才能从海量的信息数据库中快速找到所需的信息和数据，为用户提供必要的个性化信息检索支持，在提升信息数据检索效率和准确性的基础上，知足对用户对个性化数据检索的新要求。基于此，开展Web挖掘及其在网络搜索引擎中的应用分析研究就显得尤为必要。 1 Web信息检索挖掘技术 Web信息搜索引擎是很多网络搜索引擎的基础，很多网络上常用的搜索引擎都是从Web信息搜索引擎上发展来的。Web信息检索系统多为双层C/S构造，固然当前网络搜索引擎信息检索实现方式不尽一样，但大多包括五大部分：Robot、信息分析器、信息索引器、信息检索器、用户接

3、口，详细的构造示意图如此图1所示。 2 基于Web挖掘技术的网络搜索引擎系统 2.1 系统的总体构造及主要流程本系统搜索引擎的构造示意图如此图2所示。图1 Web搜索引擎构造示意图图2 网络搜索引擎的系统构造从图2中能够清楚看出，本系统在运行中，要想完成信息检索，至少需要牵涉下面三个步骤：第一步，网页搜索。网页搜索在本系统中起到的主要作用是对网络信息中各项数据、信息等进行搜集，主要由系统中“搜集器来完成网页搜索任务。详细的运行方式为：通过Robot程序的自动化运行，来检索Web网页中规定格式的全部信息，检索完成之后，自动下载到原始数据库中，不断累积网络信息。常用的信息搜索方式有两种

4、，一种是定期搜集，另一种是增量搜集。在网页搜索中，无论多先进的搜索引擎，都无法搜集到Web网页上的全部信息，比方：系统磁盘已满、检索时间到达设定时间，都会自动停止检索，为保证网页搜索的质量，将那些比拟重要的数据和信息全部检索出来，必须找到搜索效率、质量和时间的平衡点，这就需要“控制器来起作用，以便顺利完成网页搜集任务1。第二步，预处理。预处理也是本系统稳定运行的关键，主要作用是将网页搜集到达信息集合，转换为搜索引擎系统能够辨别和应用的数据构造形式。主要通过“索引器来完成相关任务，当前在Web网络中，常用的数据构造形式为inverted file格式，是一种以本文关键词语为检索对象的索引构

5、造形式，在数据库中包含着含量的数据，主要录入本文关键词语就能快速检索出和本文关键词语互相关联的信息，在预处理中牵涉的内容主要包括下面几个方面：(1)快速提取本文关键词语：从网页源文件中找到能够代表各项内容的本文关键词语；(2)消除镜像网页：所谓镜像网页，指的是网页内容完全一样，没有添加任何转载网页的信息，消除重复内容能够更好地提升信息检索速度；(3)链接分析：在本系统中包含大量的文档，主要内容是人们最近比拟关注的信息内容，既能展示出各网页之间的关系，可以以很好地判定网页的重要性程度；(4)计算网页重要程度：在Web网页搜索引擎中，多采用pagerank值，作为判定网页信息重要性程度的主要指标。

6、第三步，查询服务。主要内容是将检索的网页信息快速显示给检索客户，并根据用户需求，对查询结果进行排序，构成列表返回给用户。 2.2 系统中的主要技术本系统在信息检索中牵涉的内容比拟多，华而不实主要内容有四项，包括：数据预处理、挖掘算法施行、形式分析和可视化，为保证本系统能够高效、稳定运行，需要用到的主要技术包括下面几种：第一种，统计分析技术。对Web日志进行统计中可获得有关站点使用的各项基本信息，包括：页面访问次数、日平均访问人数以及用户最喜欢的网页。除此之外，利用统计分析技术，还能对那些有限的错误进行分析，比方：一旦发现用户存在非法登录问题，会立即启动预警系统，避免不法分子入侵本系统，影

7、响系统运行的安全性，利用Web Trends技术，可实现Web网页各项数据和内容的有效统计，提升应用效果2。第二种，检索结果相关性排序技术。本系统具有极强的检索能力，而且Web网络也是当前全球范围内应用最广泛的网络系统，利用检索引擎可为用户提供海量的检索结果，但通常情况下，用户大多只会简单的阅读最前面的部分结果，为给客户提供愈加方便的检索结果，需要对搜索结果进行相关度排序，以便将相关的文档，尽可能地现实在客户眼前，以便为用户提供愈加个性化、人性化的结果。当前Web挖掘及其在网络搜索引擎相关排序方式各不一样，但基本都采用Web文档内容。本系统在运行中，考虑到用户所查询的词条在文档中的影响因素包

8、括：词条频度、逆文档频率、词条位置等，这些因素普遍具有很强局限性，通常情况下，相关度高的页面，不一定都是用户喜欢的页面，甚至一些Web网页制作人员，甚至利用这些因从来欺骗客户，以提升页面的排序。第三种，聚类技术。聚类技术也是本系统运行的关键技术，通过聚类分析技术，可将类似度比拟高的用户和相关数据进行归类，进而为客户提供愈加有效的数据服务。比方：在Web日志挖掘中，聚类分析通常集中在用户聚类和页面聚类中，可实现类似阅读器行为的用户归类，此种归类方式方法，可为用户提供个性化的Web页面内容。页面聚类技术的核心内容是将内容相关的页面进行合理归类，通过本系统，可利用这些信息为检索用户提供所需的超链接

9、服务。为便于用户阅读，在本系统设计和建设中，可将聚类技术应用到Web检索结果的可视化输出上3。所谓聚类指的是将文档集合分为若干个簇，要尽量保证一样一簇的文档内容具有较高的类似度，而不同簇之间的类似度要尽量小，用户查询的文档，通常比拟靠近聚类，并远离和用户查询不相关的文档。第四种，分类技术。分类也本系统运行中的关键技术，在Web日志挖掘中，分类技术应用的关键是将用户配置文件，直接归属给指定的用户类别。其他关键技术相比，分类技术应用的关键是能够准确描绘叙述已经知道用户的类别，可通过指导性归纳学习算法进行合理分类，比方：决策树分类法、贝叶斯分类法、SVM法等，都是比拟常用的分类技术。第五种，序列

10、形式。当前Web挖掘及其在网络搜索引擎技术被广泛应用于电子商务中，在详细应用经过中，可先对事务进行合理的划分，再根据详细的分析需求，合理选择方位形式发现技术，对搜索引擎而言，Web挖掘就是根据用户的实际需求，来总结每位用户检索行为，这也是本系统信息检索的关键，搜索引擎可利用Web挖掘技术，愈加全面的了解和把握用户的检索行为。比方：本系统在运行中，通过Web使用挖掘技术能够对日志文件进行全面系统的分析，并对系统检索的时间、检索的内容、检索的途径等进行阅读和分析4。再对日志进行挖掘，就能发现很多用户的潜在的行为形式，进而帮助用户构成愈加有效的查询结果，大大提升了本系统运行的质量和效率。第六种，搜

11、索结果反应技术。此项技术也是本系统运行的关键技术，主要作用是将Web挖掘及其在网络搜索引擎检索到的结果及时反应给用户。应用此项技术，可促使本系统具有构造反应功能，详细情况如此图3所示。图3 搜索构造反应示意图从图3中能够看出，本系统能够对用户的查询请求进行系统分析，实现逐步求精。主要牵涉的步骤包括下面内容：第一步，Web挖掘及其在网络搜索引擎系统中的检索器先根据客户的要求，给出查询请求q的检索结果集合s。第二步，信息检索用户对检索结果集合s中文档的相关度进行系统化评估，同时将结果反应给系统。那些被用户标记为“相关的检索结果，可组成正反应集合s+，而那些被用户标记为“不相关的检索结果

12、，则组成了负反应集合s-5。第三步，本系统可根据用户的反应多数用户需要检索的内容q进行修正，比方：在矢量空间索引模型中，就能够将正反应集合中的文档矢量增加到查询矢量上，而且还能减去负反应集合中的最不相关的若干文档矢量。第四步，要重复第一步、第二步、第三步，直到检索出用户满意的结果为止。 3 结束语在信息时代，各行各业都实现了网络信息化，为人们获取信息资源提供了新的技术支持，同时也对网络搜索引擎提出了更高层次的要求，Web挖掘是数据信息检索的关键技术，Web挖掘技术愈发先进和完善，为实现网络个性化及快速检索提供先进的技术支持，Web挖掘及其网络搜索引擎已经成为大数据时代，全球范围内研究的热

13、门话题。综上所述，本文采用理论结合实践的方式方法，分析了Web挖掘及其在网络搜索引擎的应用，提出了一种给予Web挖掘的个性化搜索引擎，并对各系统模块的功能及实现方式进行分析，分析结果表示清楚，此种系统具有很强的检索灵敏性，而且还能实现个性化查询结果，能够知足信息时代，信息数据挖掘和检索的需求，值得大范围推广应用。希望我们国家网络信息检索事业稳定发展有一定参考和借鉴。以下为参考文献 1邹能峰,郑浩然NetRD:-种利用Bing搜索结果补充文献挖掘证据集的工具J北京生物医学工程,2022,38(4):377-383. 2严国莉,王保林，王新增,等基于查询子意图进行匹配的多样性搜索创新研究J.信息系统工程2022(9):19-21. 3唐国维,赵璨,李井辉,等.依托百度搜索引擎的舆情信息搜索系统研究J.计算机与数字工程2022,47(11):2785-2790. 4朱凡微.吴明晖颜晖融入课程思政理念的搜索引擎技术课程设计与教学实践J.计算机教育,2020,304(4)-14-17. 5张莹莹刘秀磊，白雪瑞.等搜索引擎的情报感悟与刻画功能协同研究J北京信息科技大学学报(自然科学版),2022,34(6):19-24.

展开阅读全文