《大数据技术在安全领域的应用和优势,软件工程硕士论文.docx》由会员分享,可在线阅读,更多相关《大数据技术在安全领域的应用和优势,软件工程硕士论文.docx(10页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、大数据技术在安全领域的应用和优势,软件工程硕士论文本篇论文目录导航:【题目】【第一章】【2.1 - 2.3】【2.4 2.5】 大数据技术在安全领域的应用和优势【第三章】【4.1 - 4.5】【4.6】【4.7】【总结/以下为参考文献】 2.4 Sparkmllib 库与基于 spark 的数据挖掘算法。 Spark 之所以在机器学习方面具有得天独厚的优势,有下面几点原因: 1机器学习算法一般都有很多个步骤迭代计算的经过,机器学习的计算需要在屡次迭代后获得足够小的误差或者足够收敛才会停止,迭代时假如使用 Hadoop 的 MapReduce 计算框架,那么计算时每次都要进行读 / 写磁盘,任务
2、的启动等工作,这样的结果就是导致 I/O 和CPU 大量消耗。而 Spark 基于内存的计算模型天生就擅于迭代计算,它能够在内存中直接完成多个计算步骤,很少或者只要在必要时才会对磁盘和网络进行操作,因而讲 Spark 正是机器学习的理想的平台。 2从通信的角度讲,假如使用Hadoop的MapReduce计算框架,JobTracker和TaskTracker之间由于是通过 heartbeat 的方式来进行的通信和传递数据,会导致非常慢的执行速度,而Spark 具有出色而高效的 Akka 和 Netty 通信系统,通信效率极高。 MLlibMachine Learnig lib是指 spark 的
3、机器学习算法库,它集成了常用的一些机器学习算法,它同时也包含了一些相关的测试与数据生成器。Spark 的设计初衷就是为了支持一些迭代的 Job,这正好符合很多机器学习算法的特点。在 Spark 官方首页中展示了 LogisticRegression 算法在 Spark 和 Hadoop 中运行的性能比拟,如此图以下图所示。 Spark 比运行 Logistic Regression 的运算场景下比 Hadoop 的计算速度快了 100 倍以上21. MLlib 当前支持 4 种常见的机器学习问题:分类、回归、聚类和协同过滤,MLlib 在 Spark整个生态系统中的位置。 MLlib 基于 R
4、DD 能够与 Spark SQL、GraphX、Spark Streaming 无缝集成,以 RDD 为基石,4 个子框架可联手构建大数据计算中心。 MLlib 主要包含三个部分: a底层基础:包括 Spark 的运行库、矩阵库和向量库;b算法库:包含广义线性模型、推荐系统、聚类、决策树和评估的算法;c实用程序:包括测试数据的生成、外部数据的读入等功能。 2.4.1 分类算法。 分类算法属于监督式学习,使用类标签已经知道的样本建立一个分类函数或分类模型,使用分类模型,能够对数据库中没有进行分类的数据进行分类。在数据挖掘领域中分类是一项重要的任务,当前在商业上应用最多,常见的典型应用场景有流失预
5、测、精到准确营销、客户获取、个性偏好等。 MLlib 当前支持分类算法有:逻辑回归、支持向量机、朴素贝叶斯和决策树。 1回归算法。 回归算法属于监督式学习,每个个体都有一个与之相关联的实数标签,并且我们希望在给出用于表示这些实体的数值特征后,所预测出的标签值能够尽可能接近实际值。 MLlib 当前支持回归算法有:线性回归、岭回归、 Lasso 和决策树。 2聚类算法。 聚类算法属于非监督式学习,通常被用于探寻求索性的分析,它意思就是根据物以类聚的原理,将没有分类的数据集分成不同的组,被分类的同一组数据中的数据集叫簇,并且对构成这样的簇的经过进行描绘叙述的经过。聚类的目的就是将属性类似的一组数据
6、集合在一起,也就是讲同一簇中的数据类似,不同簇的数据性质不同,常见的典型应用场景有客户细分、客户研究、市场细分、价值评估。 MLlib 当前支持广泛使用的 KMmeans 聚类算法。 3协同过滤。 协同过滤常被应用于推荐系统,这些技术旨在补充用户 - 商品关联矩阵中所缺失的部分。MLlib 当下支持基于模型的协同过滤,华而不实用户和商品通过一小组隐语义因子进行表示出,并且这些因子也用于预测缺失的元素。 2.5 大数据技术在安全领域的应用和优势。 恶意代码检测、入侵检测作为传统的基于特征的信息安全分析技术已经广泛被应用等,但是伴随着数据量越来越庞大和一些新型的信息安全攻击的出现,传统的安全技术已
7、经很难应付,所以应用大数据分析技术对新型信息安全攻击进行分析已成为业界研究热门。Gartner在 2020 年的报告中明确指出 信息安全正在变成一个大数据分析问题 28.大数据安全分析方式方法不但能够解决海量数据的采集和存储,并且结合机器学习和数据挖掘方式方法,就愈加能够愈加主动、弹性地去应对未知多变的风险和新型复杂的违规行为。因而 BDSABig DataSecurity Analysis,安全大数据分析应运而生。 固然分析日志,网络流量,并为取证和入侵检测系统事件已经在数十年的信息安全界的一个问题,传统的技术并不总是缺乏以支持长期的,大规模的分析有下面几个原因:第一,保存了大量的数据之前不
8、是经济上可行的。其结果是,在传统的基础设施,大多数事件日志和其他记录计算机活动的固定保存期例如,60 天之后删除。其次,不完好和噪音特征大型非构造化数据集进行分析和复杂的查询效率低下。例如,一些流行的安全信息和事件管理SIEM工具的目的不是分析和管理非构造化数据并牢固地绑定到预定义形式。然而,新的大数据应用也开场变得安全管理软件的一部分,由于它们能够帮助清洁,做好准备,并在异构,不完好的,嘈杂的格式有效地查询数据。最后,大型数据仓库的管理历来是昂贵的,他们的部署通常需要强有力的商业案例。 Hadoop 框架等大数据工具如今大规模的商品化,可靠集群的部署,因而使处理和分析数据的出现了新的机遇。欺
9、诈检测是大数据分析最明显的用处之一:信誉卡和 公司都进行了几十年的大规模的欺诈检测了;然而,对客户来讲建立基础设施来挖掘大数据来检测欺诈检测行为是必要的,但大范围采用并不够经济实用。大数据技术的主要影响之一是他们正在推动各种工业试图建立安全监控经济实惠的基础设施。尤其是,新的大数据技术,如在 Hadoop 生态系统包括 pig,hive,mahout,和 Hadoop,流挖掘,复杂事件处理,且和 NoSQL 数据库,正在使大型,异构数据集的分析以史无前例的规模和速度。这些技术为信息安全分析在存储上,维护和安全信息分析转化方面提供了便利。我们能够通过查看安全工具怎样反响在过去十年中改变来发现这些
10、趋势。当 IDS 传感器的市场不断的增长,网络监控的传感器和记录工具被部署在企业网络;然而,从这些不同的数据源的管理警报成为一项具有挑战性的任务。其结果是,安全厂商开场开发 siems 平台,其目的是聚集和关联告警等网络统计信息,并通过仪表盘提供所有这些信息,证券分析师。如今的大数据工具提高通过关联,稳固和来龙去脉更长的时间消耗臭氧层物质围更不同的数据源提供应安全分析师的信息。 我们能够从 Zions Bancorporation 提出一个近期的案例研究中看到的大数据工具所带来的的详细利益29.其研究发现,庞大的数据量和事件所需要的数量分析能力已经超越了传统的SIEM 系统所能承受的范围对于一
11、个月内收集的数据需要 20 分钟喝一个小时时间进行研究。而在 hadoop 生态系统中使用 hive 进行查询,得到同样的结果大约只需要一分钟,将非构造化数据和多个不同的数据集的进行结合进入一个单一的分析框架是大数据的有前途的特点之一。大数据工具也十分适用于 apt 的检测和预测,apt 攻击攻击形式缓慢周期长,所以检测这些攻击,我们需要手机和关联大量的各种各样的数据集做长时间的历史关联才能探测出apt 攻击30. 2.5.1 安全大数据分析。 大数据分析技术给信息安全领域带来了全新的解决方案,但是好像其它领域一样,大数据的成效并非简单 地采集数据,而是需要资源的投入,系统的建设,科学的分析。
12、Gartner 在2020 年的报告中指出,大数据技术 作为将来信息架构发展的十大趋势之首,具有数据量大、种类繁多、速度快、价值密度低等特点。将大数据技术应用到信息安全分析领域,能够实现容量大效率高成本低的安全分析能力。 1信息安全分析引入大数据的必要性。 大数据具有 4V 的特点:Volume、Variety、Velocity 和 Value,可实现大容量、低成本、高效率的信息安全分析能力,同时能够知足处理和分析安全数据的要求,将大数据分析应用于信息安全领域能够有效的辨别各种攻击行为或安全事件,具有重大的研究意义和实用价值。随着企业规模的增大和安全设备的增加,信息安全分析的数据量呈指数级增长
13、。数据源丰富、数据种类多、数据分析维度广;同时,数据生成的速度更快,对信息安全分析应答能力要求也相应增长。传统信息安全分析 主要基于流量和日志两大类数据,并与资产、业务行为、 外部情报等进行关联分析。基于流量的安全分析应用主要包括恶意代码检测、僵木蠕检测、异常流量、Web 安全分析等;基于日志的安全分析应用主要包括安全审计、主机入侵检测等。 将大数据分析技术引入到信息安全分析中,就是将分散的安全数据整合起来,通过高效的采集、存储、检索和分析,利用多阶段、多层面的关联分析以及异常行 为分类预测模型,有效的发现 APT 攻击、数据泄露、DDoS 攻击、骚扰诈骗、垃圾信息等,提升安全防御的主动性。而
14、且,大数据分析牵涉的数据愈加全面,主要 包括应用场景本身产生的数据、通过某种活动或内容 创 建 出来的数据、相关背景数据及上下文关联数据等。怎样高效合理的处理和分析这些数据是安全大数据技术应当研究的问题。 2安全大数据分析方式方法。 安全大数据分析的核心思想,就是指基于网络异常行为分析,它通过对海量数据处理及学习建模,从海量数据中找出异常行为和相关特征;针对不同安全场景设计针对性的关联分析方式方法,发挥大数据存储和分析的优势,从丰富的数据源中进行深度挖掘,进而挖掘出安全问题。安全大数据分析主要包括安全数据采集、存储、检索和安全数据的智能分析。 a安全数据采集、存储和检索:基于大数据采集、存储、
15、检索等技术,能够从根本上提升安全数据分析的效率。采集多种类型的数据,如业务数据、流量数据、安全设备日志数据及舆情数据等。针对不同的数据采用特定的采集方式,提升采集效率。针对日志信息可采用 Chukwa、Flume、Scribe 等工具;针对流量数据可采用流量景象方式方法,并使用 Storm 和 Spark技术对数据进行存储和分析;针对格式固定的业务数据,可使用 HBase、GBase 等列式存储机制,通过 MapReduce 和 Hive 等分析方式方法,能够实时的对数据进行检索,大大提升数据处理效率。 b安全数据的智能分析:并行存储和 NoSQL 数据库提升了数据分析和查询的效率,从海量数据
16、中精到准确 地挖掘安全问题还需要智能化的分析工具,主要包括 ETL如预处理、统计建模工具如回归分析、时间 序列预测、多元统计分析理论、机器学习工具如贝叶斯网络、逻辑回归、决策树、随机森利、社交网络工具如关联分析、隐马尔可夫模型、条件随机场等。常用的大数据分析思路有先验分析方式方法、分类预测分析方式方法、概率图模型、关联分析方式方法等。可使用 Mahout 和 MLlib 等分析工具对数据进行挖掘分析。 综上,一个完备的安全大数据分析平台应自下而上分为数据采集层、大数据存储层、数据挖掘分析层、可视化展示层。主要通过数据流、日志、业务数据、情报信息等多源异构数据进行分布式融合分析,针对不同场景搭建
17、分析模型,最终实现信息安全的可管可控,展现整体安全态势。 2.5.2 基于网络流量的大数据分析。 在互联网出口进行旁路流量监控,使用 Hadoop 存储及 Storm、Spark 流分析技术,通过大数据分析技术梳理业务数据,深度分析所面临的安全风险。主要分析思路是采集 Netflow原始数据、路由器配置数据、僵木蠕检测事件、恶意 URL 事件等信息,采用多维度分析、行为形式分析、指纹分析、孤立点分析及协议复原等方式方法,进行 Web 漏洞挖掘、CC 攻击检测、可疑扫描、异常 Bot 行为,APT 攻击,DDoS 攻击挖掘等分析29. 2.5.3 本章小结。 本章介绍了 DDoS 攻击相关技术、darknet 数据集背景知识、云计算平台、数据挖掘算法与 sparkmllib 机器学习库等与本文相关的技术和算法。阐述了大数据技术在网络安全领域应用和优势,提出了基于网络流量的大数据分析,为后续章节云平台架构设计提供了理论基础。