基于机器学习的日志解析系统设计与实现-钟雅.pdf-淘文阁

资源描述

《基于机器学习的日志解析系统设计与实现-钟雅.pdf》由会员分享，可在线阅读，更多相关《基于机器学习的日志解析系统设计与实现-钟雅.pdf（5页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、Journal of Computer AppHcafions计算机应用，2018，38(2)：352356ISSN 10019081CODEN JYUDU20180210http：wwwjocacn文章编号：10019081(2018)020352-05 DOI：1011772jissn1001-90812017071786基于机器学习的日志解析系统设计与实现钟雅12，郭渊博12(1信息工程大学网络空间安全学院，郑州450001； 2数学工程与先进计算国家重点实验室，郑州450001)(通信作者电子邮箱1 183316762qqcorn)摘要：针对现有日志分类方法只适用于格式化的日志，且性能

2、依赖于日志结构的问题，基于机器学习方法对日志信息解析算法LDgsig进行了扩展改进，并设计开发了一个集数据处理与结果分析于一体的日志解析系统，包括原始数据预处理、日志解析、聚类分析评价、聚类结果散点图显示等功能，在VAST 2011挑战赛的开源防火墙日志数据集上进行了测试。实验结果表明，改进后的算法在归类整理日志事件时的平均准确性达到85以上；与原k舀ig算法相比，日志解析精度提高了50，同时解析时间仅为原先的25，可用于大数据环境下高效准确地对多源非结构化El志数据进行解析。关键词：日志解析；机器学习；聚类；异常检测；LOgSig算法中图分类号：TP309 文献标志码：ADesign and

3、 implementation of log parsing system based on machine learningZHONG Yal一GUO Yuanb012(1Cyberspace Surity College，Information Engineering触椰如Zhenszhou Henan 450001，China；2 State Key Laboratory of Mathematical Engineering and Advanced Computing,Zhengz知u ttenan 450001，Chna)Abstract：Focusing on the probl

4、em that the existing log classification method is only applicable to the formative log，andthe performance is closely related to the structure of the log，the existing log parsing algorithm LOssig(Log Signature)wasextended and improved based on machine learning，and a log clustering analysis system Was

5、 designed by combining dataprocessing and result analysis in one， including raw data preprocessing，log analysis， clustering analysis and evaluation，scatter diagram display of resultsThis system was tested on the open source firewall log data set in VAST 201 1 challengeThe experimental results show t

6、hat the average accuracy of the improved algorithm in the classification of the event log reachesmore than 85；compared witll the original Logsig algorithm，the log parsing accuracy is improved by 50，and the parsingtime is only 25of the original algorithmThe proposed algorithm Can be used to analyze m

7、ulti-source unstructured log dataefficiently and accurately in large data environmentKey words：log parsing；machine learning；clustering；anomaly detection；Lossig(Log Signature)algorithm0 引言为了保证系统与系统信息安全，日志几乎内建于所有的系统中，它被用于记录系统运行时产生的信息，如日常操作、网络访问、系统警告、系统错误等事件的相关属性与信息。这些信息对了解系统的运行情况起着非常重要的作用，因此常用于异常检测。随着

8、计算机系统规模与复杂性的增长，日志数量随之增加，开发者或维护者能够根据丰富的日志信息监视系统运行时的行为，并以此进一步跟踪寻找系统异常问题的源头；但是由于计算机系统庞大，并且大多数系统日志是非结构化的原始文本，当实际问题出现时，面对这些规模庞大的日志数据，测试者往往束手无策。如何在最短时间内高效又精准地对海量日志数据进行解析并提取有用信息成为一个亟待解决的重要问题。近年来，日志解析得到了越来越多的关注与快速发展悼J。在传统的日志解析方法中，开发者通常根据自己的认知手动检查系统问题或者创建正则表达式来定期维护，但是，这类方法对专家经验知识依赖性强，通常不具备从历史经验中主动学习知识的能力，当新的

9、格式日志出现时，解析规则很容易就变得过时，因此，灵活多变的自动日志解析方法成为一种需求。近些年，越来越多的研究者致力于对日志进行自动化解析。Nagappan等p o提出了一种具有线性运行时间与空间的离线日志解析方法；PrewettH o提出了一种基于规则的方法处理控制台日志；薛文娟1提出了一种基于层次聚类的日志分析方法；马文等旧。设计了一种基于频繁模式增长(Frequent PatternGrowth，FPGrowth)算法的安全日志分析系统。但是这些方法仍存在如下缺陷：1)只适用于严格的格式化、结构化日志，其性能严重依赖日志信息的格式与结构特征；2)依赖于源程序对日志文本的约束，适用性不强；

10、3)日志格式的非结构性导致解析精度不高；4)对日志管理员要求较高，相关规则需要日志管理员预先写成脚本，管理员需要对系统或者代码有深刻的理解，否则难以写出有效的脚本。针对以上问题，主要有两种主流日志解析方法：基于聚类的方法和基于启发式的方法。基于聚类的El志解析方法以日收稿日期：201707-20；修回日期：201709-05。基金项目：国家自然科学基金资助项目(61501515)。作者简介：钟雅(1995一)，女，湖南岳阳人，硕士研究生，主要研究方向：信息安全；郭渊博(1975一)，男，陕西周至人，教授，博士生导师。博士，CCF高级会员，主要研究方向：网络攻防对抗。万方数据第2期钟雅等：基

11、于机器学习的日志解析系统设计与实现 353志关键字提取(Log Keywords Extraction，LKE)和LogSig(LogSignature)为典型代表J。它们首先计算日志之间的距离，然后采用聚类技术组成不同的日志集群(簇)，最后，事件模板从每一个集群(簇)中生成。基于启发式的日志解析方法则以简单日志聚类工具(Simple Log ClusteringI钿l，SLCT)为典型代表。每一个日志位置的每个项被计数，然后选择出现频繁的项来组成事件候选者，最后，候选者被选择作为13志事件。以上两种方法中，LKE方法因为其自身特点不能应用于数据量较大的处理任务中；SLCT虽然也能实现高解析精

12、度，但是在系统异常问题检测时，它处理的解析结果通常会带来更多的错误警报。本文主要结合LogSig算法相关理论知识，设计并开发了一个可从非结构原始日志文本中生成系统日志事件的日志解析系统。该系统包括原始数据预处理、日志解析、聚类分析评价和聚类结果散点图显示四大功能，系统处理的结果可转换为日志数据挖掘任务与网络入侵检测所需的日志事件序列。该系统在VAST 201 l挑战赛的开源防火墙日志数据集上进行了测试，结果显示其日志解析平均精度可达85以上。实验表明，对原始LogSig算法增加数据预处理步骤后，与原始hgs远算法相比，解析精度提高了60；同时，通过与聚类结果评价模块相结合，用户能够更加直观地观

13、察本系统日志解析效率。1 日志解析系统11 日志解析日志是由不变部分与可变部分组成的纯文本，大多数系统日志是非结构化的原始文本。日志解析的主要目的是把原始日志文本中的不变部分从可变部分分离出来并形成一个良h)13志模板与事件分类同1 日占解析实例Fig 1 Example of log parsing12聚类分析聚类分析又称群分析，是一种无监督学习方法。它按照事物的某种属性，将一组样本对象划分成簇，使簇内样本对象具有尽可能高的相似性，而簇间对象具有尽可能小的相似性。其主要目的是将若干无标记对象进行划分，使之成为有意义的聚类。聚类分析预先不知道目标数据集存在多少类，需要以某种距离度量为基础，对所

14、有的对象进行聚类，使得同一聚类之间距离最小，而不同聚类之间距离最大。聚类分析可在几乎无任何相关数据先验信息可用的情况下分析数据点的内在关系以作进一步研究。如图2中以二维空间的来表示样本对象，图2(a)表示的是一组输出对象，图2(b)则是所期望的聚类I訇2聚类不例Fig2 Example of clustering13聚类结果评估聚类评价包括聚类过程评价和聚类结果评价两个方面。前者主要考察聚类算法的属性，后者只需要考虑给定的聚类结果是否合理与有效。一般比较常见的聚类结果评价(聚类评价指标)分为外部度量、内部度量和相对度量三大类。内部度量利用数据集的固有特征和量值来评价聚类算法结果，通常用于数据集

15、结构未知、无标签的聚类评价；相对度量侧重于聚类算法的有效性。本文中数据集结构已知，且侧重聚类算法的精度，故采用外部度量作为聚类评价指标。外部度量假设聚类算法的结果是基于一种人工预先指定的结构，这种结构反映了人们对数据聚类结构的一种直观认识，对每个数据项进行人工标注，聚类结果与人工越吻合越好。外部度量的常用指标有F_me鹊ure和Rand index。14 LogSig日志解析算法bgsig日志解析算法由Tang等o提出，其目的主要是选取文本日志信息中具有代表性的签名组成系统事件模板，进而将日志分成不同类。算法能处理各种类型的日志数据，并实现较高的解析精度。2 日志解析系统设计基于规则匹配的方法

16、是最常见的日志解析方法曲J，操作者主要通过正则表达式从日志中提取模式，而后对抽取模式进行简单的分类。此类系统维护较为困难，但相比传统文本模式，它在一定程度上提高了解析效率与精度。研究发现，LogSig算法并没有明确原始日志文本的处理，这样导致日志项对生成与遍历日志项对的时间开销较大；同时，日志信息中个别无关日志项会影响日志分类，降低日志解析精度。因此，本文考虑将模式匹配与LogSig算法相结合，在其基础上基于机器学习原理进行扩展，改进日志解析算法，增加数据预处理功能和聚类结果评价，并设计开发了一个日志解析系统。为了便于用户使用与后期维护，该系统分为原始数据预处理模块、日志解析模块、聚类结果评价

17、模块和聚类结果散点图模块，它们的主要功能如下：1)数据预处理模块主要对原始日志数据进行相关处理以提高解析效率与精度；2)日志解析模块主要实现LogSig算法，完成日志项对生万方数据354 计算机应用第38卷成、13志聚类和日志模板生成；3)聚类结果评价模块则利用聚类的评估指标精度(Precision)、F measure、Rand index对本系统功能进行评估；4)聚类结果散点图模块则采用散点图形式直观反映日志解析的外部度量参数。21数据预处理模块数据预处理是数据挖掘前的准备工作，它既能保证挖掘数据的有效性和正确性，又能通过对数据格式和内容进行调整，从而使数据更符合挖掘的需要0|。其主要任

18、务是根据背景知识中的约束性规则对数据进行检查，通过清理和归纳等操作，生成供数据挖掘算法使用的目标数据。随着存储技术的发展，收集到的日志与实际有效日志之间的矛盾日渐突出；同时，未处理的原始日志必然导致日志解析代价增加，因此，本文将数据预处理与LogSig算法相结合。数据预处理模块是提高解析精度的关键，也是本文系统的创新点。211位置固定无关项的去除原始日志数据中通常有一些固定不变的项，且它们在每条日志中出现的位置一样，如日志数据集中代表日志产生日期的201104-14；或者虽然变化，但是属性一样，如08：00：00与08：00：06虽然不同但都是时间。这些项不仅对日志分类没有帮助，而且会造成代价

19、的增加。212位置不定无关项的去除日志中还有一些项，它们的属性一样，但是出现位置并不固定，因此不能通过去除位置固定无关项的方法去除，如IP地址、端口号等。所以，本文考虑通过拆分每一条日志，利用匹配子串的原理采用正则表达式来去除。22日志解析模块日志解析模块是本系统的核心部分，也是主要难点。一个好的同类事件评判标准往往能达到一个好的聚类结果。该模块采用具体函数值作为评判划分同一类事件的衡量标准，通过不断迭代提高分类精确度。基本步骤包括项对的生成、日志聚类以及13志事件模板的生成。221项对的生成日志以空格为拆分符可拆分成个字符串，每一个字符串为日志的一个项，每两个项组成一个项对，一条日志的所有项

20、对为第1项依次与后面的第2，3，项组合为一1个项对(1，2)、(1，3)、(1，4)、(1，J7、r)，第2项依次与后面的第3，4，JI，项组合为一2个项对(2，3)、(2，4)、(2，5)、(2，J7、r)，第N一1项与后面的第项组合为1个项对(N一1，N)。将每条日志信息转换成多组项对。具体来说，基于预处理部分每条日志，文中采用遍历方式，日志中每两个项组成一个项对。222日志聚类日志聚类是日志解析的核心步骤。聚类的目的是将原始13志文本中同一类日志事件分为一类，从而用一个日志事件模板来描述它。查阅相关文献发现，机器学习中聚类方法的中心思想能满足本文研究的需求(详见本文12节)。根据聚类算法

21、原理，首先将原始日志分成k组，然后基于日志的项对，计算每条日志从一个组到另一个消息组后的潜在函数的值，其计算公式为：妒(c)=J、r(r，c)p(r，c)2 (1)其中：在日志文本c中，对于一个项对rR(c)，N(r，C)指的是C中包含项对r的日志数量，p(r，C)=N(r，c)I C I表示在C中含有项对r的日志部分所占比率。通过比较当前日志移动前后潜在函数的值以确定日志是否移动，若函数值增大，则更新日志分组消息，通过不断迭代，选择更大的潜在函数值，直到最后一次迭代中，没有任何一条日志有日志潜在值的增加，则可将当前分组确定为日志事件归类的最终分组。223 日志事件模板生成消息签名是在每组中每

22、条日志都具有高匹配得分的序列项。日志事件模板生成操作中，首先需要构建Et志信息签名。具体实现方法为：保存日志信息划分组中每条日志每个项出现的频率，选择每组中出现次数超过一半的项作为候选项，即消息签名；然后，将每条日志中含有的候选项组成日志事件候选，每组中出现频率最高的日志事件候选为当前组的最终日志事件模板输出。23聚类结果评价模块聚类的典型形式化目标函数是为了实现高的集群(簇)内相似性(群(簇)内的文件是相似的)和低的集群(簇)间相似性(不同集群的文件不一样)。这是聚类质量的一个内部标准，但良好的内部标准分数并不一定是转化成应用中良好效果的必要条件。内部标准的另一种选择是直接评估应用程序的利益

23、。最直接的聚类搜索结果评估方法就是衡量用户采用不同聚类算法找到答案所花费的时间，但它的花费很大，特别是在需要大量研究时更为突出。因此，在聚类结果评价模块采用外部度量作为聚类评价指标，这里主要选取：准确率(Precision)、综合评价标准F measure和Rand index。本文实验中通过运行程序50次来避免聚类自身性质带来的误差。231 Precision准确率是检索出的相应文档占检索出的总文档数量的比率，衡量的是系统的查准性。采用信息检索与统计学分类的准确率与召回率(Recall)思想，数据所属的类t可以看作集合l中等待查询的项，以是簇c。的大小，心是簇中类t的数量“。对于类t与簇q的

24、准确率计算公式如下：Precision(t，C)=帆肌 (2)结合本文研究的任务要求，此处将其转化为：Precision=TP(TP+FP) (3)其中：TP(True Positive)为被正确划分正例的个数，即两个相似样本划分到同一集群(簇)；FP(False Positive)为被错误划分为正例的个数，即两个不同样本划分到同一集群(簇)。232 F measure簇索引与统计任务中，准确率与召回率越高越好，但是两者通常情况下是相互矛盾的，这就需要综合考虑它们，最常见的方法就是F_measure，它是Precision与Recall的加权调和平均“。其计算公式如下： Fmeare(t，q)

25、=1(b2瓦+1忑)Pr丽ecisiion丁(t,函Ck)忑Rec丽all(t,Ck)(4)其中Reeall的计算公式为：万方数据第2期钟雅等：基于机器学习的日志解析系统设计与实现 355Recall(t，CI)=虬Nk同样按任务要求可转换为：(5)Recall=TP(TP+FN) (6)其中，刚(False Negatives)为被错误划分为负例的个数即两个相同样本划分到不同集群(簇)。233 Rand indexRand index副通常用来衡量聚类结果与样本数据外部标准类之间的一致程度，其计算公式如下：Rand_index=(TP+TN)(TP+FP+TN+FN)(7)其中，TN(Tr

26、ue Negatives)为被正确划分为负例的个数，即两个不同样本划分到不同集群(簇)。Rand_index范围为0，1，其数值越大，代表两种划分的一致性越高，聚类准确性越高，聚类结果与真实情况越吻合。24聚类结果散点图模块为了更加直观地展示系统对日志解析任务的解析精度，本文设计了聚类结果散点图模块。该模块主要调用pythonmatplotlib模块相关函数来显示解析后的Precision、Fmeasure与Rand index的散点图。x轴为当前实验次数。y轴为本次实验的Precision、F-measure与Rand indexo3 系统测试本章主要对系统结果进行定向分析，采用anacon

27、da运行系统，利用VAST 201l挑战赛的开源防火墙日志数据集分析数据预处理部分的划分簇数、正则表达式对日志解析精度的影响。31平均解析精度实验分别采用包含400，800，l 200条13志的三个样本数据进行实验，测量50次解析任务后的平均Precision、F_measure以及Rand index。结果如图3和表1所示。图3显示，在本组实验中，聚类评价值数据较为集中，且基本都在85以上。表l数据显示，不管日志数量大小，无论是使用分类指标Precision还是聚类指标Fmeasure、Randindex衡量，日志解析系统50次实验的平均解析精度均能达到90以二，1OO09Sl型o9008S

28、080l 00O 95趔o90O85080100095趔090085080实验次数(a)400条样例实验次数(b)800条样仞实验次数(c)1 200条样例图3不同日志数量样例实验结果Fig3 Experimental results of different number of log samples裹1 50次实验的平均日志解析准确率 Tab1 Average log parsing accuracy of raty experiments32划分簇数对聚类结果的影响划分簇的大小决定最终日志事件模板的个数，本文通过分析真实事件个数为14的400条日志样例，分别设置明显少于真实事件个数(6)

29、、明显高于真实事件个数(26)以及接近真实事件个数(16)的划分簇数，而其他参数项相同来研究划分簇数对解析精度Fmeasure、Precision、Rand index的影响。表2为不同划分簇下的平均评价。表2数据显示，划分簇数会影响日志解析精度，尤其是当事件个数明显小于真实事件个数时，日志解析精度相比接近事件真实值的划分簇数，其三项指标Precision、Fmeasure、Rand index都有明显降低。日志事件明显大于真实日志事件个数时，日志的解析精度相比接近事件真实值的划分簇数的精度Precision有些许升高，这是因为随着日志事件个数的增加，同一类事件分到同一个划分簇的几率加大；但是

30、其F_measure、Rand index都有所降低，总体而言三项指标差距不是很大。通过比较解析运行时间发现，划分簇数为26时，其平均运行时间为划分簇数为16时运行时间的14倍。这是因为当日志事件个数增加时，其用于日志聚类过程的花费将相应增加。所以，综合以上结果，划分簇数接近真实事件个数时能得到最好的实验效果。寰2不同捌分簇数对日志聚类结果的影响 Tab2 Impact of different cluster numbers onlog clustering results 33正则表达式对聚类结果的影响正则表达式是数据预处理部分最关键的一个步骤，通过分析有无正则表达式对400条日志样例解析

31、任务的Fmeasure、Precision、Rand index的影响来进行讨论。表3为有无正则表达式以及正则表达式是否合适的实验结果。从表3实验结果来看，数据预处理过程中正则表达式的选择至关重要，不应该选择13志中的敏感词作为正则表达式匹配的对象，而应该选择与其无关的词作为匹配规则匹配对象，这样才能达到显著提高解析精度的目的。裹3 有无正则表达式对日志聚类结果的影响 Tab3 Impact Oil log clustering results withor without regular expression 34 日志大小对解析时间的影响最后，通过对比100，101，102，103，104

32、，105 KB大小日志万方数据356 计算机应用第38卷数据的解析运行时间来讨论日志大小对本文系统运行时间的影响，结果如图4所示。从图4可以看出，日志解析运行时间随着日志大小的增加而增加，并且增长幅度逐渐增加，这主要是因为日志大小影响聚类的时间复杂度。这也为本文系统的后期优化提供了一个方向。25002000厘1500莒嚣1000婆5000日志大肿KB图4日志大小对日志解析运行时间的影响Fig4 Impact of log size on parsing run,me35本文算法与原始lmgSig算法对比原始bgSig算法没有明确提出预处理部分的具体设计，本文采用真实事件个数为14的400条日

33、志样例，通过设置有无、预处理部分的日志解析任务来进行对比，结果如表4所示。由表4可以看出，通过关联规则与Log$ig相结合，本文系统比原LogSig算法的各项指标值都有所提高，综合评价参数F_measure提高了60；同时，系统运行时间大大减少，仅为原先的25，提高了解析效率。裹4本文系统与原始LogSig算法对比Tab4 Comparsion of the plDl蒯algorithmand original LOgSig algorithm4 结语计算机系统的发展、日志数量的增加以及日志在各类数据挖掘任务中起到的作用使得自动化日志解析成为一种必然趋势4|。目前，日志的处理方式多种多样，但是

34、缺乏一个系统性的处理平台。本文主要设计开发了一个日志解析系统，它能高效快速地从日志文本中解析出日志事件，系统实现了原始数据预处理、日志解析、聚类分析评价和聚类结果散点图显示四大功能，集数据处理与结果分析于一体，提供了更好的用户体验。通过VAST 2011挑战赛的开源防火墙日志数据集验证了系统的可行性，并分析了数据预处理部分的划分簇数、正则表达式对日志解析精度的影响。实验中也发现，日志大小会影响聚类的时间复杂度，因此在接下来的工作中可考虑实现程序运行的并行性等。目前该系统聚类的簇数是基于小型数据集实验得到的，后续研究可以考虑结合自适应的聚类算法以提高系统性能。参考文献(References)【1

35、】张宏鑫，盛风帆，徐沛原，等基于移动终端13志数据的人群特征可视化【J】软件学报，2016，27(5)：11741187(ZHANGHX，SHENG F F，XU P Y，et a1Visualizing user characteristics basedon mobile device log data【J】Journal of Software，2016，27(5)：11741187)21 廖湘科，李姗姗，董威，等大规模软件系统日志研究综述【J】软件学报，2016，27(8)：19341947(LIAO X K，LI S S，DONGW，et a1Survey on log resea

36、rch of large scale software system【J】Journal of Software，2016，27(8)：19341947)【3】 NAGAPPAN M，WU K，VOUK M AEfficiently extracting operafional profiles from execution logs using suffix arrays【C】Proceedings of the 2009 International Symposium on Software ReliabilityEngineeringPiseataway，NJ：IEEE，2009：415

37、0【4】PREWETT J EAnalyzing cluster log files using Logsurfer【C】PrDceodings of the 4th Annual Linux Showcase&ConferenceAtlanta：【sn】，2003：169176【5】薛文娟基于层次聚类的日志分析技术研究【D】济南：山东师范大学，2013(XUE W JResearch on log analysis technologybased on hierarchical clustering【D】Jinan：Shandong Normal University，2013)【6】马

38、文，朱志祥，吴晨，等基于FP-Growth算法的安全13志分析系统【J】电子科技，2016，29(9)：9497(MA W，ZHU Z X，WUCet a1Security log analysis system based on FP-Growth algorithm【J】Electronics Technology，2016，29(9)：9497)【7】TANG L，LI T，PERNG C SLogSig：generating system events fromraw textual logs【C】Proceedings of the 201 1 ACM InternationalCo

39、nference on Information and Knowledge ManagementNew York：ACM，2011：785794【8】XU W，HUANG L，FOX A，et a1Detecting large-scale systemproblems by mining console logs【C】SOSP 2009：Proceedings ofthe 2009 ACM Symposium on Operating Systems PrinciplesNewYork：ACM2009：117132【9】周平，马斌，韩冰，等基于大数据平台的日志分析预警技术研究【J】电脑知识

40、与技术，2016，12(32)：266268(ZHOU P，MAB，HAN B，et a1Research on log analysis and early warning tech-nology based on large data platform【J】Computer Knowledge andTechnology，2016，12(32)：266268)【lO】袁汉宁，王树良，程永，等数据仓库与数据挖掘【M】北京：人民邮电出版社，2015(YUAN H N，WANG S L，CHENG Y，eta1Data Warehouse and Data Mining【M】Beijing：P

41、eople8 Postsand Telecommunications Press，2015：3134)【1l】张惟皎，刘春煌，李芳玉聚类质量的评价方法【J】计算机工程，2005，30(20)：1012(ZHANG W J，LIU C H，LI F YEvaluation method of clustering qualityJ ComputerEngineering，2005，30(20)：1012)【12】向培素两种聚类有效性评价指标的Matlab实现【J】西南民族大学学报(自然科学版)，2013，30(6)：10021005(XIANG PSMatlab implementation

42、 of two cluster validity evaluation indexes【J】Journal of Southwest Nationalities University(Natural ScienceEdition)，2013，30(6)：10021005【13】周开乐，杨善林，丁帅，等聚类有效性研究综述【J】系统工程理论与实践，2014，34(9)：24172431(ZHOU K L，YANG SL，DING S，et a1Research on clustering validityJ】SystemEngineeringTheoryPractice，2014，34(9)：2

43、417243 1)【14】赵庆永基于数据挖掘算法的日志分析系统的设计与实现【D】青岛：青岛大学，2009(ZHAO Q YDesign and implemenration of log analysis system based on data mining algorithm【D】Qingdao：Qingdao University，2009)This work is partially supported by the National Natural Science Foundation of China(61501515)ZHONG Ya，born in 1995，MScandidateHer research interestsinclude information securityGUO Yuanbo，born in 1975，PhD，professorHis research interests include network auack and defense万方数据

展开阅读全文