《模式识别方法在入侵检测中的应用.pdf》由会员分享,可在线阅读,更多相关《模式识别方法在入侵检测中的应用.pdf(4页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 1994-2010 China Academic Journal Electronic Publishing House.All rights reserved.http:/模式识别方法在入侵检测中的应用姜楠天津大学计算机科学与技术学院,天津摘要将模式识 别方 法应用到 入 侵 检测领域,用以区分正常和异常的 用户或主机行为。采用作为实验数据集,通过计算信息增益,从原始数据中选取对分类结果影响较大的特征 属 性再分 别选取两种带监督的模 式识 别 方 法支持向量机和多层神经网络以及两种不带监督的聚类方 法一和一进行 实验。实验结果表明,上述方 法在入 侵 检刚领域中具有很好的应用前景。关键词
2、模 式识别入侵检测支持向量机聚类盯,洲,二叩叩,卿,比,卯一,少叱一呷,而厕人侵监测 系统 在 信 息安全领域具 有重 要的应用价转化 为大约百 万条记录。每条记 录包含个字段,其值。人侵检测 系统需要以较 高的检测率和较低的误报率中第到第字段为特征属性。特征 属性 描述 网络会区分正常和异常的用户或主机行 为。从某 种意义 上讲,话信息,包括连接时间、端口、源地址、目的地入侵检测问题可 以看作是一个分类问题,因此笔者将模址等。第字段为标记字段。每条记录都被标记为正常式识别中的分类和聚类方法 应用到人侵检测领域。并且或者是以下四种特定类型的异常行 为之一在应用中基于以下三个 直观假设正常和异
3、常行 为拒绝服务攻击非授权远 程访 问具有较大差异属于同一种类型的异常行 为有较大的非授 权使用本地超级用户 特 权扫描 攻相似性某 种 特定的异 常行 为在不同的环境中可能击。通过修改参数而产生很大变化。同时选取模式识别中两在实验中,加人了两种新的标记取代原始标记。种带监督的分类 方法支持向量 机和多层神经网二元标记如果一条记 录是异常行为,标记 为如络,训 练 它们识别正常行为和异常行为以及识别果一条记 录是正常行 为,标记 为一。异常行为类型标每种不同的异常行为。由于在实际的应用 中,通常没有记根据异常行 为类型标记数据集正常一,标 识好的训练数据,不能直接使用带监督的方法,因此,。选取
4、两种不带监督 的聚类方法一和一特征属性 的选 取,作为带监督方法 的有效补充。由于记 录中有些特征属性与分类结果无 关,在分类实验 数 据过程中采用这些特 征属性将增加时间复杂度,同时很可本 文采用仃实验室在仿 真环境下获 取的能降低检测率。因此,为获得更高效的分类和聚类,利用数据集,记录个星期内的原始网络数据包,并信息 增 益 的方法,选 取 对分 类结 果 影响 较 大的特 征属电子技术应用年第期次迎仃 灼电子技术应用 兀旧年合仃光直 1994-2010 China Academic Journal Electronic Publishing House.All rights reserv
5、ed.http:/性。具体方法如下计算具有个不同值 的标记字段的嫡万二 一艺,计算标记字段对每个特征属性的条件嫡万一二一艺,、艺,、,、计算对每个耳的信息增益二一较大的值,表示耳对分类的贡献较大。实验中采取保守估计,设定信息增益的 阑值为,即选取信息增益大于的特征属性 用于实验。最终,针对标记,共选 取了个 特 征属性而针对标记,选 取了个特征属性。带监督的方法在所有带监督 的模 式识别方法中,选取具有广泛应用的支持 向量机 和多层神经 网络方法,训练它们识别正常行为和异常行 为以及识别不同类型的异常行 为。支持 向,机作为较优秀 的线性分类器 之一,支持 向量 机 的重 要特性是分类器只与支
6、持 向量的数目相关,这些支持向量有助于分 析和 了解最有 效划 分的不同类别的特 征 属 性的值。与此同时,支持 向量机 还支持核函数,在不增 加计 算量 的前提下将原特征 属性空间投影到高维空间,使其可以应对非线性可分 的数据集。在 实 验 中,采用函数 库构 建 支持 向量 机分类器,并分别对加人标记和加入标记的数据集进行 实验。实验数据选 取原始个特征 属 性和缩 减后的个特征属性或 者个 特征 属性,停止阑值为。因为支持向量 机只能区分两个数据类,故将加人功 标记 的数据集按照异 常行 为类型分成个子数据集进行测试,每个数据集包含惟一一种异常行为以及所有的正常数据。结果如表所示,其 中
7、代表支持向量的数目。表支持向机分类结果针 对皿的分类结果分类率个特征属性个 特征属性针对功的分类结果高训练效率的同时还有效地提高了分类准确率。针对扫描以及攻击,支持向量机能够达到的分类率,而和攻击也有接近的分类率。此外,通过分析支持 向量,能够总结出区分各种异 常行 为的最有效特征属性。从协议类型特征 属 性可以发现,扫描攻击倾向于使用协议 从几服务类型特征属性可以发现,扫描攻击经常访问服务从几 目的字节 特征属性可以发现,探测攻击传输较少的字节数从登陆 特征属性可以发现,和攻击发生在登陆之后从坛数目特征 属性可以发现,被 探测攻击的服务器倾向于初始化更多的连接数。多层神经 网络一个多层的神经
8、 网络由一定数目的节点组成,所有节点被分成输人层、输出层 和若干个隐藏层。不同层中的节点通过不同权重的链接关联起来。实验 中,将选 取的特征属性的值作为输人,通过 基于梯度下降的反向传播算法迭代计算权重值,直至达到规定的迭代次数。实验 中,使用原始个特征 属性 的数据进 行实验。对加人标记的数据集,统计不同隐藏节点数目的神经 网络的分类率。对加入标记的数据集,统计个隐藏节点的神经网络给出的分类结果。具体参数设置如下输人节点数,输出节点数或,迭代次数。分类结果如表所示。当隐藏节点数目为时可以达 到较优的分类率,继续增加 隐藏节点的数目不会 进一步优化分类结果。表多层神经网络分类结果对加人标记的数
9、据集 分类结果隐藏节点数分类率使用个 隐藏节点对加 人助标记的数据集分类结果异常行 为类型分类率异常行为类型个特征属性分类率个特征属性分类率可见,通过信息增益方法选 取特征 属性的操作在提不带监督 的方法通过实验可以看出,带监 督 的方法 可以通过训练达到较高的检测率。然而,在实际应 用过程中,目前没有可靠的方法来获取正确标识 的训练数据。因此在实验 中同时选取了不带监督的模式识别方法中的两种聚类算法,一哪和一在现实网络环境 中,正常数据的数量通常远远大于异常数据的数量,而且 二者之 间通常有比较大的距离。因此 通过聚类算法将正常数据分成 几 个大的类,同时将巧次迎网上投稿刃。电子技术应用年第
10、期 1994-2010 China Academic Journal Electronic Publishing House.All rights reserved.http:/所有无法划分到这 几个大类的数据认定为异常,从而区分出正常行为和异常行为。,数 据过滤在训练数据集 中,异常数据数目超 过了正常数据,为了满足前提假 设,需要 过滤掉一部分异常数据,使得最终的数据集有超 过的正常数据,而异常数据量小于。数 据标准化由于没有足够可靠的先 验 知识来 确定 特 征 属 性 的相对重 要程度,所以全部的特征属性都被 同等考虑。然而,如果 对于不同特征 属 性使用相同权重,则那些取值较大的特征
11、属性 会过分影 响 聚类的过程,大数量 级 的特征属性将 占统治地位,而小数量级 的特征属性在整个分类过 程中的作用将被忽略。因此实验中将每个特征属性按如下方法进行标 准化计算每个特征属性的均值和标准差图利用一聚类得 到 的曲线,二仃,二青菩一口,柑一口,击菩“,一。卜。二”式 中,厅是每条记 录 的第个特征属性。将 每条记 录中连续的特征 属 性值进行如下转换叼口二以夕厅对于离散的特征属 性,如果两条记 录对于该 离散特征 属 性具有相同的取值,则它们之间的距离为,否则为。一一算法以标准化后 的数 据 集和常量参数平类半径为输入,计算输出聚类结果。它初始化的类集合 为空集。对 于每条记 录,
12、如果类集合 为空,则将此记录作 为一个类 中心填人类集合 中,否则计算它与现存每个类 中心的距离,选出最短 的距离。如果这个距离小于一个指定 的参数常量评,则将此 记录归于距离最小 的类,否则增加一个新的类并将该记录作为类 中心。假设的数 据 都是正常数 据,设置 了一个 闭值。任何包含大于总记录数据量的类都被认 为 是正常类实验中选 取二。这里应用人侵检测领域常用的曲线描述 检测结果。改变参 数平的取值,曲线如 图所 示。结果 表明,在误报率小于的前提下,一算法 的检测率超过。一一算法 根据输人参数,将含有条记录的数据集分配到个类 中,使得同一类 中的记 录具 有 较高的相似性。其 中,每个
13、类由该类 中所有记 录的平均值 类中心进行标识。算法首先随机 选 取条记录,每条记录代表一个初始类。对其余的记录,则按照它们 同个类中心的距离进行聚类,选取 最近的作为该记 录 的分类。然后根据现有 的聚类更新各个类的中心,再根据新的类中心进行下一次聚类,直到聚类结果稳定。实验 中,对不同参数和初始的类 中心进行测试。首先固定参数几,采用 不同的随机记 录进行初始化,得到 的结果 最终无较大差异。因此选取前条记 录作为初始的类 中心。通过 改变无的取值,得到如 图所 示的曲线。从图和图可见,聚类算法在检测率高时误报率也较高,但由于其时间复杂度相对较低,可以将其应 用于数据预 处理。方 法如下通
14、过设 置不同的 阑值提高检测率,当检测率达到时,误报率在左右见图和 图。此时聚类算法检测 出来的异常数据集,保留了原始数据集 中超过的异常数据,同时过滤掉了大约一半的原始数据集中的正常数据,从而得到了一个可以应用带监督 的方法进行进一步检测 的小数据集。而且 由于异常数据在原始数据集中占的比例很小,通过上述预处理方法得到的数据集的数据量约为没处理之前的一半。图利用一聚类得到的曲线本文利用模式识别 中带监督的支持 向量 机和神经下转第页电子技术应用年第期欢迎灯灼电子技术应用阅。,拓年合仃光盆于 1994-2010 China Academic Journal Electronic Publish
15、ing House.All rights reserved.http:/表各 种 水印攻击 的结果比较色差分量 的影 响不同,使得嵌人 双 重水 印的算法可以抵抗更多种的水 印攻击。例如水 印一在压缩上有较强 的鲁棒 性,但在 缩放和色深变换 中却检测不 到,而水印二正好相反,它在压缩中已经检测 不到了,但在缩放和色深变换 中效果不错。总之,发挥各 自所长,提高了水 印算法 整体的性能。本文提 出了一种基于小波域 的数字水印算法。考虑到分量 与分量的不同特性和小波 低频 分量和高频分量 的区别,提出了适合于盲提取 的基于量化和关系的嵌人策略。量化间隔考虑了反映视觉 特性 的对比度函数与定律,增
16、强 了水 印的鲁棒性。关系嵌人也把不同级间的系数关 系利用起来,二倍关系 的幅值调 整减小了图像失真,三次嵌人投 票表决也增强了水 印的性能。此外,还考虑了舍人误差的补偿。这也使得水印算法成为半盲提取 的水印算法。参考文献【杜青基 于和 量化 的彩色图像数字水 印算法【苏州大学学报工科版,以拓,【于帅珍,沈建国基于小波域的自适应 彩 色图像双重水印算法【微计算机信息 测 控 自动化,巧,【向德生,文宏,熊岳山小波域鲁棒自适应 图像水 印嵌入方案【计算机工程与应用,抖,【李 淑明,覃团发,刘贤锋域 自适应混沌加密 的二值图像数字水 印算法通讯和计算机,【王向阳,杨红颖,赵岩,等基 于人 眼 视
17、觉特性 的自适应空域彩 色图像数字水 印算法【辽宁师 范大学 学报 自然科学 版,只,【强英,王颖基于小波域的数字图象水 印算法综述【计算机工程与应 用,以抖,【于景侠,王秉 中一种 自适 应图像小波域数字水 印嵌人方案计算机工程与应 用,【赵健,齐华,田泽,等改进的小波域混 沌数字水印算法实现光子学报,仪抖,【熊志 勇,蒋天发多功能彩 色 图像数 字水 印方案【武汉大学 学 报工学 版,以抖,【王向阳,杨红颖域 自适应彩 色图像二维数字水 印算法研究【计算机辅助设计 与图形学学报,阵,【川郭磊,郭宝龙 小 波域数字图像水印算法 的研究【计算机工程与应 用,收稿日期一一上接第页网络方 法以及不
18、带监督的一和一。方法分析 网络数据记录,进行人侵检测实验证 明,利用信息增益的方法,只选取对分类结 果影 响较 大的特 征属性进行 实验,不会 降低检 测 的准确度同时两种带监督 的方法具 有很高的检测率,可以直接用于检测 人侵行 为,而 两种不带监督 的方法检测率相对较低,且当检测率高时误报率也高。但是,由于这些 聚类方法的时间复杂度都相 对 较低,因此可以将 其应 用于对原始数 据的预处理,在不 对检 测结果产生过大影 响 的基础上,过滤掉大量 的正常数据,得 到一个 相 对较小但基本上包 含了所有原有入侵的数据集,能够 大大压 缩下一步检测 的输 人数据量。对于过 滤后的数据,采用支持向量 机或者 多层神经 网络分类器进行 检测,能够达到更高的检测效率。参考文献一而,一罗叮的切叩肋,即一,耐,【刘比记,收稿日期的一一电子技术应用年第期次迎仃灼电子技术应用以 年合订光立于