《DNS数据挖掘与搜索引擎技术相结合提升网络安全.docx》由会员分享,可在线阅读,更多相关《DNS数据挖掘与搜索引擎技术相结合提升网络安全.docx(9页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、DNS数据挖掘与搜索引擎技术相结合提升网络安全 2011年6月21日 15:42 电信技术 作者:杨世标 王晶晶 梅汝鹏 1 前言随着网络应用的日益普及和复杂化,互联网信息呈现爆炸式增长,已经渗透到日常生活的方方面面,安全事件不断出现,信息手段日益翻新,网络与信息安全越来越成为人们关注的重点。如何快速、准确和全面地查找存在安全隐患的网站和页面,对提高网络安全级别、净化网络环境有着重要意义。当前针对网站的安全监控主要是借助于第三方网关探针在硬件上实施部署,这种方式的不足之处在于以下4个方面。(1)采用网络抓包方式,只能检测IDC机房内部的IP,属于被动检测,需要网站有访问时才能检测到。(2)只能
2、部署在IDC网关出口处,硬件成本较高。(3)无法针对专线用户进行检测。(4)无法对动态ADSL线路的网站进行检测。针对以上问题,广东联通提出了使用搜索引擎技术结合DNS数据挖掘实现对网络信息安全全面、准确的防控方案,其原理及意义如下。利用搜索引擎技术结合DNS服务器日志数据分析,实现海量域名数据挖掘,形成全球域名基础数据库,通过对海量的域名信息自动获取、特征匹配、智能分类、敏感词提取、自动安全评级、热点信息追踪、舆情分析、并建立网站黑名单等,实现对网站信息的安全监控。搜索引擎技术和DNS数据挖掘的相互弥补可以保证域名基础数据的完整性与实时性,降低部署成本,通过对扫描域名网站的分类和分级可实现对
3、指定类别、特征的网站的定向扫描,提高扫描的针对性与准确性,并缩短扫描周期。2 技术介绍 2.1搜索引擎技术2.1.1搜索引擎技术搜索引擎技术是仅次于门户的互联网第二大核心技术,要用到信息检索、人工智能、计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多领域的理论和技术,具有综合性和挑战性。伴随互联网的普及和网上信息的爆炸式增长,它越来越引起人们的重视。搜索引擎技术的作用表现为如下几个方面。(1)可以作为定向收集网络数据的一种方式,实现途径是通过网络蜘蛛进行抓取。(2)可以实现对网站及网页数据的分析,为用户搜索互联网信息提供基础数据和数据索引。(3)可以作为研究网民行为的有效
4、工具,通过收集用户网上登录、搜索、社区行为等信息,对用户的上网行为习惯等进行分析。2.1.2网络蜘蛛技术网络蜘蛛是一个自动抓取网页的程序,为搜索引擎从互联网上下载网页内容,并对内容进行数据挖掘,提取出所需要数据,是搜索引擎技术的核心。传统网络蜘蛛从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,同时分析页面上的其他信息,获取系统所需信息,并存储到数据库中,直到满足系统的一定停止条件时停止抓取。网络蜘蛛从抓取方式上可分为通用蜘蛛和聚焦蜘蛛。常见的搜索引擎所用的蜘蛛都属于通用蜘蛛,特点是追求数据的完整性及覆盖的全面性。聚焦蜘蛛是为
5、了满足特定范围的数据需求,进行定向地抓取。2.2 DNS服务器数据挖掘目前市场上主流的DNS服务器一般采用Unix/Linux+BIND解决方案,BIND在DNS服务软件领域保持着80%以上的市场占有率,Unix平台也以其出色的性能在网络服务领域占据重要的位置。通过对DNS访问日志的分析,提取出所有被访问网站的域名和IP地址等信息,对域名基础数据库进行补全,并通过接口找到网站的具体物理位置,分析网站是否已在工业和信息化部备案供工作人员查询。根据DNS服务器的种类及配置的区别,其日志数据的格式也各有不同,对此需要针对不同的DNS服务器日志提供不同的日志分析模块进行处理。2.3搜索引擎技术与DNS
6、数据挖掘结合的域名信息采集 搜索引擎技术预PNS数据挖掘相结合的域名信息采集系统如图1所示。网络蜘蛛终端服务器通过部署网络蜘蛛系统收集大量域名信息,提交至域名基础数据库。DNS服务器将实时的DNS日志提交至数据分析服务器,数据分析服务器通过数据处理提取出最近访问的域名信息,将域名等信息提交至域名基础数据库。蜘蛛抓取域名和DNS收集域名两者结合实现了全面性和实时性的互补,能够显著提高域名信息收集的完整性。3 设计方案 3.1 网络蜘蛛系统3.1.1网络蜘蛛的瓶颈与解决方案网络蜘蛛的理想状态是能够快速、有效地遍历整个待抓取区域的网页内容,蜘蛛的效率主要受网络延时、抓取算法、抓取策略、数据存取方案及
7、蜘蛛本地运行效率等因素的限制。(1)网络延时是影响蜘蛛运行效率最重要的因素,蜘蛛需要不断从互联网下载数据,进行分析,如果网络状况不理想,蜘蛛的抓取速度会受严重的影响。网络蜘蛛从设计上应该支持分布式抓取,这样可以把网络压力分散到不同的区域。(2)抓取算法的选择对蜘蛛的运行效率是至关重要的,目前较先进的智能型蜘蛛大都采用最佳优先搜索或广度优先+抓取策略。(3)抓取策略的选取是判断一个网站是否有必要继续抓取的关键,通过制定抓取策略,可以尽早结束某一网站的抓取,避免不必要的、盲目的抓取。抓取策略在聚焦型蜘蛛中是很常见的。(4)数据存取方式也是重要组成部分,如何高效地存取抓取的数据、处理数据并发,是一个
8、必要的研究课题。(5)蜘蛛程序应该能够支持多线程、多进程并行抓取,从而能更加有效地利用网络空闲资源,并能够快速稳定地对已经抓取到的数据进行分析处理。3.1.2聚焦型网络蜘蛛的设计方案由于网络数据数量庞大,即使最强的搜索引擎也只能抓取到其中的一小部分数据,聚焦型网络蜘蛛与传统蜘蛛的重要区别就是支持智能选择机制,而智能选择机制的核心是数据反馈机制,采用聚焦搜索方式,扫描可以更具针对性,扫描结果更加精确,可以有效利用有限的硬件资源最大可能地抓取所需要的信息。一个良好的蜘蛛系统不仅具有高效的数据抓取能力,而且应该具有智能的分析机制,可以自动计算出最佳爬行路径并能够根据指定条件进行定向抓取。3.1.3聚
9、焦型网络蜘蛛系统流程聚焦型网络蜘蛛系统流程如图2所示。蜘蛛从URL数据容器中获取到下一个待抓取的URL,通过一系列过滤策略进行过滤,抓取到页面内容,然后通过调用SpiderPlug进行数据分析处理,通过数据处理策略及PR策略对数据进一步分析,分析完成后,将数据提交到数据审计模块,经审计后提交到缓存模块,最后由缓存处理模块提交到数据容器。蜘蛛系统的数据抓取模块、数据分析模块、数据存取模块互相独立,可根据需要进行单独配置。3.1.4聚焦型网络蜘蛛系统部署聚焦型网络蜘蛛系统部署情况如图3所示。网络蜘蛛系统支持分布式,多终端、多进程、多线程并行抓取,各个终端可以运行在不同地域。这种部署方式提高了系统的
10、并发处理能力,能够更有效地利用网络带宽,把数据处理的压力从服务器转移到各个终端,而各个终端相互并行协同工作,互不影响。通过这种系统架构,系统的抓取能力及数据处理能力得到成倍的提升。3.2 DNS服务器日志挖掘模块DNS服务器日志分析流程如图4所示。通过对网络爬虫进行域名和网站数据的采集能够准确地抓取到网络上大部分的域名,但仅通过爬虫来收集域名数据仍有部分不足,原因如下。(1)如果域名无外部链接,则爬虫无法按正常途径抓取到该域名。(2)如果网站域名外链较少或者较隐蔽,爬虫抓取到的机率就会降低。对于以上问题,通过提取DNS日志对域名信息进行补全,解决方案如下。DNS日志分析服务器实时提取DNS查询
11、日志,然后对数据进行分析处理,提取出用户访问的域名,通过排重过滤等数据处理,将域名提交到域名基础数据库,作为域名基础数据源。通过爬虫和DNS结合的方式对域名数据进行收集,能够确保域名数据的完整。3.3系统架构 DNS数据挖掘与搜索引擎相结合的系统架构如图5所示。图5 系统架构4 应用效果 4.1 领先的爬虫技术广东联通开发的分布式爬虫引擎组件采用广度优先算法结合抓取策略,具有稳定高效、高并发性、高智能等特点,能够对指定地区、指定类型、指定后缀的网站进行定向抓取与数据分析,通过条件设定可提高爬虫系统的抓取针对性与抓取效率。采用该爬虫引擎进行域名信息的采集测试,单个蜘蛛客户端进程每天可以发现新域名
12、50万以上,并可以长时间稳定、高速、高效率运行。而同行业的整个系统每天发现的新域名仅数万,不及广东联通单个客户端发现数量的1/10,经过一个月的抓取,采集了2 000多万的域名。4.2 完整的网站域名基础信息数据库广东联通通过搜索和DNS日志数据挖掘可采集有效的域名数据库,并对每一网站进行归类、关键词提取及网站分级的处理,从而可根据网站类别和等级对网站进行不同级别的监控与扫描,使扫描覆盖面更全,针对性更强。域名反查系统根据用户需要可支持多种条件进行筛选。(1)按IP段进行查询,如可查询10.3.3.110.3.5.255的域名。(2)按地区进行查询,如可查询“深圳联通”所有域名。(3)按域名后
13、缀进行查询,如可只查询 .com的域名。(4)按类型进行查询,如可选择只查询WAP类型的网站。4.3 DNS域名分析组件通过分析DNS日志信息,提取用户访问的域名,可以对蜘蛛抓取不到的部分域名进行补全,能够较高地提升域名数据的全面性。4.4 系统效率广东联通省内互联网网站检测发现率达到99%以上,且对新检测出的域名在30 min内和工业和信息化部网站备案接口(接口状态正常)完成ICP备案信息验证;对检测出的网站,比对关键字词典,在2 h内完成初次内容检测报告,并在12 h内完成网页内容变化重检测;对检测出的网站,比对Web、WAP网站漏洞特征库,在2 h内完成初次内容检测报告,并在12 h内完成网页内容变化重检测,极大地提高了广东联通网络信息安全的维护效率。5 结束语通过搜索引擎技术在网站域名数据采集中的实际应用,结合DNS数据挖掘,不仅能够完成对网站域名数量的提高,而且可以对网站域名进行智能分类、安全等级测评、特征提取、舆情监控等处理。本项目可广泛应用于各大数据中心、基础运营商,该技术的使用将会大大提高区域内的网络安全级别,对降低部署成本、提高网络监管力度、净化网络环境、提升网络安全级别有着重要的现实意义。