《机器学习在信息安全领域应用(共9页).docx》由会员分享,可在线阅读,更多相关《机器学习在信息安全领域应用(共9页).docx(9页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、精选优质文档-倾情为你奉上机器学习在计算机信息安全领域的应用综述前言从计算机短短几十年的历史进程中,人们都看到了计算机硬件和软件惊人的发展能力,但是硬件的利用率只有3%-5%;而且海量数据源源不断的涌入人们的视野,导致信息的有效利用率也只有1%WD03。依托于互联网的发展,人们不分地域、时域的分享硬件、软件、信息资源,然而生产效率没有得到应有的提升。同时,无论是硬件安全还是信息安全,都遇到了前所未有的威胁,资产的安全也没有得到应有的保证。但是,以机器学习为代表的在信息有效利用率和信息安全领域的应用使人们看到了希望。机器学习可以让我们的计算机变得更聪明,变得更具有人的智慧,从而使我们在处理海量数
2、据和复杂多变的安全威胁面前更有自信。机器学习,正在发挥着举足轻重的作用!本文将从机器学习的相关概念、发展现状、分类、所面临的问题几个方面介绍机器学习的相关知识,然后从与计算机信息安全有关的三个方面:入侵检测、木马检测、漏洞扫描介绍了机器学习和信息安全的契合点。通过以上几个方面的叙述,为将来研究打好基础。主题一、机器学习(1)机器学习的相关概念学习是生物中枢神经系统的高级整合技能之一,是人类获取知识的重要途径和人类智能的重要标志。按照人工智能大师HSimon的观点:学习就是系统在不断重复的工作中对本身能力的增强或改进,使得系统在下一次执行同样或相类似的任务时,会比原来做得更好或效率更高。机器学习
3、,顾名思义,是让机器(也可以理解为常见的计算机)具有人类学习的能力。一般认为,机器学习是一个有特定目的的知识获取过程,其内部表现为从未知到已知这样一个知识增长过程,其外部表现为系统的某些性能和适应性的改善,使得系统能完成原来不能完成或更好地完成原来可以完成的任务AZ07。机器学习则是计算机获取知识的重要途径和人工智能的重要标志,是一门研究怎样用计算机来模拟或实现人类学习活动的学科,是研究如何使机器通过识别和利用现有知识来获取新知识和新技能。它既注重知识本身的增加,也注重获取知识的技能的提高。(2)机器学习的发展机器学习在相关的学科领域一直起着主导的作用,但是对于机器学习的实质还没有最终的定论。
4、从机器学习的发展历史中可以看出,机器学习大致经历了4个阶段AZ07:1) 20 世纪50 年代的神经模拟和决策理论技术,学习系统在运行时很少具有结构或知识。主要是建造神经网络和自组织学习系统,,学习表现为阈值逻辑单元传送信号的反馈调整。2) 20 世纪60 年代早期开始研究面向概念的学习,即符号学习。使用的工具是语义网络或谓词逻辑,不再是数值或者统计方法。在概念获取中,学习系统通过分析相关概念的大量正例和反例来构造概念的符号表示。在这一阶段,人们认识到学习是个复杂而循序渐进的过程;如果不要任何初始知识,则学习系统无法学到高层次的概念。3) 20 世纪70 年代中期, 研究活动日趋兴旺,各种学习
5、方法不断推出,实验系统大量涌现,1980 年在卡内基梅隆大学( CMU) 召开的第一届机器学习专题研讨会,标志着机器学习正式成为人工智能的一个独立研究领域。4) 从20 世纪80 年代中后期到现在, 可以认为机器学习研究进入一个新阶段,已经趋向成熟。神经网络的复苏,带动着各种非符号学习方法与符号学习并驾齐驱,并且已超越研究范围,进入到自动化及模式识别等领域,掀起一场联结主义的热潮,各种学习方法开始继承,多策略学习已经使学习系统愈具有应用价值,开始从实验室走向应用领域。(3)机器学习的分类按照传统的分类方法,机器学习可以分为:-归纳机器学习-解释机器学习-遗传机器学习-连接机器学习按照现代的分类
6、方法,机器学习可以分为:-符号机器学习-统计机器学习-集成机器学习-增强机器学习TY05对于传统的机器学习分类,本文中不做过多的叙述。下面对以上现代机器学习的分类做简要的介绍。符号机器学习,Samuel将分段划分引入对符号域的数据处理, 形成了一类基于符号数据集合的约简算法,这是现代符号机器学习的基础。但是,由于算法定义在符号域,连续量必须被映射到这样的域上,算法才有效。而且学习算法本身无法刻画泛化能力,而依赖于与算法本身无关的上述映射TY05。统计机器学习有三个衡量要素,分别是一致性假设,样本空间的划分,泛化能力。所谓一致性假设,就是我们所能观察到的样本所具有的性质,在世界集合中同样使用,也
7、就是说世界W和被观察的对象集合Q具有某种相同的性质,而且世界W的所有对象独立同分布WD03。样本空间的划分,也是机器学习主要研究的内容,即我们需要找到一个超平面,把样本空间在一个N维欧式空间中划分为不相交的区域。泛化能力,是一个确定的划分对世界的分类能力,也可以理解为我们从样本中得到的划分在世界集合中的适用能力。由于可能存在不同的划分样本集合的方法,划分能力各不相同,泛化能力最强的划分就是我们所要的分类器。对于线性不可分的问题,我们需要找到一个映射,把非线性问题映射到线性空间,以便于问题可以在线性空间中可分。这样这个映射就是核函数。目前,算法的理论研究已经基本完成,主要的研究集中的下述两个问题
8、:(1)泛化不等式需要样本集满足独立同分布,这样严苛的条件是否可以放宽。(2)如何根据领域需求选择核函数,是否存在一定的基本原则。集成机器学习被国际机器学习界的权威Dietterich列为ML四大研究方向之首。1990年Shapire证明,如果将多个弱分类器(泛化能力稍大于50%)集成在一起,它将具有强分类器的泛化能力TY05。由于集成学习可以有效的提高泛化能力,因此集成学习仍然是机器学习中最热门的研究领域之一ZZH08。增强机器学习最早提出是考虑“从变化环境中”学习蕴含在环境中的知识,其本质是对环境的适应。1975年,Holland首先将这个概念引入计算机科学。1990年左右,MIT的Sut
9、ton等青年计算机科学家,结合动态规划等问题,统称其为增强机器学习。(4)机器学习的最新进展依赖于算法的驱动,机器学习迎来了快速的发展。- 海量非线性数据(108-10)- 算法的泛化能力考虑- 学习结果数据的解释- 代价加权的处理方法- 不同数据类型的学习方法这些都促使机器学习快速的发展。而依赖于应用的驱动,为了解决实际问题的需要,机器学习也出现了很多不同领域的方法- 流形机器学习- 半监督机器学习- 多实例机器学习- Ranking机器学习- 数据流机器学习- 图模型机器学习但是,正是由于依赖于应用,主要是以任务为驱动力,学习方法还有待创新。有些机器学习还处在实验观察阶段,缺乏坚实的理论基
10、础,实际应用效果也有待研究。(5)机器学习面临的挑战 随着应用的不断深入,出现了很多被传统机器学习研究忽视但非常重要的问题。机器学习正与众多学科领域产生了交叉,交叉领域越多,问题也越多,也正是大有可为之处。机器学习现阶段主要面临下面一些问题:1、传统的ML技术基本上只考虑同一代价,而“将盗用误认为正常使用的代价”与“将正常使用误认为盗用的代价”是不同的。如何处理代价敏感性问题,也是机器学习要解决的困难。2、传统的ML技术基本上只考虑平衡数据,而以信用卡盗用检测为例,“正常使用”样本远远多于“被盗用”样本。如何处理数据不平衡性,在教科书中找不到答案。3、传统的ML技术基本上只考虑泛化却不考虑理解
11、,而以癌症诊断为例,需要向病人解释“为什么做出这样的诊断”。如何处理可理解性的问题,也找不到规律可循。4、数据复杂、海量。5、用户需求多样化。从而要求:(1) 需要科学和高效的问题表示,以便将机器学习建立在科学的基础上。(2) 应用驱动成为必然,从而针对某个或某类应用给出特定的学习方法将不断涌现。(3) 对机器学习的检验问题只能在应用中检验自己。(4)对机器学习的结果的解释, 将逐渐受到重视。二、计算机信息安全机器学习和信息安全的结合,可以从以下几个点切入:入侵检测系统、木马检测、漏洞扫描。(1)入侵检测入侵检测技术是近20年出现的一种主动保护自己免受攻击的网络安全技术,它在不影响网络性能的情
12、况下对网络进行检测,从而提供对内部攻击、外部攻击和误用操作的实时保护。它通过收集和分析网络行为、安全日志、审计数据、其它网络上可以获得的信息以及计算机系统中若干关键点的信息,检查网络或系统中是否存在违反安全策略的行为和被攻击的迹象。入侵检测因此被认为是防火墙之后的第二道安全闸门,在不影响网络性能的情况下对网络进行监测。入侵检测通过执行以下任务来实现其职能:监视、分析用户及系统活动;系统构造和弱点的审计;识别已知进攻的活动模式并向相关人士报警;异常行为模式的统计分析;评估重要系统和数据文件的完整性;操作系统的审计跟踪管理并识别用户违反安全策略的行为。Smaba从分类角度指出入侵包括尝试性闯入、伪
13、装攻击、安全控制系统渗透、泄露、拒绝服务、恶意使用6种类型。正是由于机器学习在入侵检测技术中可以发挥重要作用,因此基于机器学习和人工智能的入侵检测模型和系统层出不穷。提出了在不同检测技术的入侵检测系统间相互学习的入侵检测模型ZWP10、基于新颖发现算法的入侵检测系统GYN09等等模型,丰富了机器学习在信息安全领域的应用。(2)木马检测网页木马是利用网页来进行破坏的病毒,它包含在恶意网页之中,通过使用脚本语言编写恶意代码,利用浏览器或者浏览器插件存在的漏洞来实现病毒的传播。当用户登录了包含网页病毒的恶意网站时,网页木马便被激活,受影响的系统一旦感染网页病毒,就会被植入木马病毒,盗取密码等恶意程序
14、。目前对网页木马的分析方法主要分为动态分析和静态分析。动态分析主要有高交互式蜜罐和低交互式蜜罐两种方式。高交互式蜜罐使用真实的带有漏洞的系统,其优点是能够捕获零日漏洞CH11。低交互是蜜罐则是仿真模拟漏洞来捕获恶意代码,其主要优点是同意部署且风险性小,而主要缺点是不能发现利用零日漏洞的未知攻击。静态分析主要是利用特征码匹配来识别恶意代码,这受到了加密和混淆的严峻挑战。北京大学互联网安全技术北京市重点实验室根据蜜罐技术,提出了网页木马收集和重放方法CH11,尽可能收集和记录所有感染路径的相关信息,完整地收集了整个木马场景。然后使用了Weka提供的决策树分类算法J48,可以根据建好的决策树模型来决
15、定每个网页属于哪个类别(3)漏洞扫描漏洞扫描通常采用两种策略,第一种是被动式策略,第二种是主动式策略。所谓被动式策略就是基于主机之上,对系统中不合适的设置、脆弱的口令以及其他与安全规则抵触的对象进行检查;而主动式策略是基于网络的,它通过执行一些脚本文件模拟对系统进行攻击的行为并记录系统的反应,从而发现其中的漏洞。利用被动式策略的扫描称为系统安全扫描,利用主动式的策略扫描称为网络安全扫描。漏洞扫描可以分为如下4类技术:1、基于应用的检测技术。2、基于主机的检测技术。3、基于目标的漏洞检测技术。4、基于网络的检测技术。总结机器学习在众多学科中的应用显示了ML技术的前景,而机器学习与信息安全的结合必
16、然会给信息安全领域带来新鲜的血液,从而促进信息安全技术有质的发展。机器学习让计算机有了人的大脑,这将是又一场信息安全技术的革命。本文参考了众多相关领域的知名作者的著作,对将来在机器学习在信息安全领域应用研究奠定了坚实的基础。参考文献WD03 王珏.机器学习研究. 中国科学院自动化研究所.2003AZ07 安增波,张彦. 机器学习方法的研究.长治学院学报,2007.4TY05 谭营.机器学习研究及最新进展.北京大学智能科学系,2005ZZH08 周志华.选择性集成. 南京大学软件新技术国家重点实验室,2008ZWP10 周绍景,温志雄,潘宏斌.基于机器学习的入侵检测系统模型的设计.计算机科.2010.7,第37卷第7A期GYN09 高宜楠.基于机器学习和人工免疫的入侵检测系统研究.西安电子科技大学,2009.12CH11 陈时敏,韩心慧.基于机器学习的网页木马识别方法研究.北京大学互联网安全技术北京市重点实验室.第26次全国计算机安全学术交流会,2011,第9期专心-专注-专业