《SMART基于数据流技术的电信网络流量监控系统.pdf》由会员分享,可在线阅读,更多相关《SMART基于数据流技术的电信网络流量监控系统.pdf(5页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第 4 2 卷 Vo 1 4 2 第 1 1 期 NO 1 1 山东大学学报(理学版)J o u r n a l o f S h a n d o n g U n i v e r s i t y(N a t u r a l S c i e n c e)2(K)7年 1 1 月 N O V 2 0 O r 7 文章编号:1 6 7 1 9 3 5 2(2 0 0 7 j 1 1-0 0 2 7,0 5 S MA R T:基于数据流技术 的 电信 网络 流量监控 系统 常建龙,闫莺,宫学庆,戴岱,周傲英(1 复 旦大学计算机科学 与工程学 院,上海2 0 0 4 3 3;2 上海 电信,上海2 0
2、0 1 2 0)摘要:大多数国内电信运营商现有的网络流量监控 系统的分析都是基于数据文件的操作模式,处理速度远跟不上 大量数据到达的速度。基于这种情况,提出了基于数据流技术来实现在线 网络流量监控系统 S MA R T。S MA R T收 集多个路 由器发送的 N e t fl o w V 5或者 格式的数据,并将其转换成用户定义的监控流;以滑动窗口的方式查询输 出流量构成中Top-k频繁数据信息;监测网络流量突变;以可视化的图形和报表形式显示结果。S MA R T先进的数 据流算法技术基础和完整的系统框架设计使得它在上海电信高效稳定的 7*2 4 h 运行。关键 词:数据流 系统;网络流量监
3、控;电信 中图分类号:T P 3 1 1 1 3 文献标 志码:A S MART:a s y s t e m f o r o n l i n e mo n i t o r i n g l a r g e v o l u me s o f n e t wo r k t r a ffi c C HA NG J i a n l o n g ,Y AN Yi n g ,G O NG X u e q i n g ,D AI Da i 2,Z H O U A o y i n g (1 C o m p u t e r S c i e n c e a n d E n g i n e e r,F u d a n
4、 U n i v e rs i,S h ang h a i 2 0 0 4 3 3,C h i n a;2 S h a n gha i T e l e c o n l,S h a n gha i 2 0 0 1 2 0,C h i na)Ab s t r a c t:Mo n i t o rin g s y s t e ms d e p l o y e d i n t e l e c o m o p e r a t o r s a l e u s ua l l y t o o s l o w b e c a u s e o f t he i r d i s k b a s ed p r o c
5、 e s s i n g a p p r o a c h T o a d d r e s s thi s p r o b l e m,an o n l i n e n e two r k tr a c mo n i t o r i n g s y s t e m,n a med S MA RT,w a s d e s i g n ed an d d e v e l o p e dT h e s y s t e m c o n v e y s di ff e r e n t f o r m a t s o f r a w n e t f l o w d a t a(N e t fl o w V
6、5 o r V 9)t o u s e r-d e fi n e d c o n t r o l fl o w s t h o u gh c o m b i nat i o n and fi l t e ri n g I t c a n c o mp u t e t o p-k f r e q u e n t fl o ws w i th s l i din g win d o w,d e t e c t b u r s t o n a r b i t r a r y a t t r i b u t e s,an d p r e sen t r e s u l t s v i s u a ll
7、 y t o u s e rs The s y s t e m c o u l d b e u s ed t o r e p l a c e the t r a di t i o n a l o ff l i n e m o m t o ri n g s y s t e m u s ed i n S h angha i T e l e c o mThe b a s i s o f a d v anc e d s t r e a mi n g alg o ri t h ms and the d e s i gn o f r o b u s t s y s t e m arc h i t e c
8、t u r e e n a b l e S M ART t o a c h i e v e g o o d pe r f o rm an c e Ke y wo r d s:d a ta s tre am s y s t e m;ne tw o r k tr a ffi c mo ni t o r i n g;t e l e c o m 0 引言 随着宽带互联 网迅速发展,各 大电信运 营商 的 网络规模都在不断扩张,网络结构 日渐复杂,网络业 务日 趋丰富,网络流量高速增长。电信运营商需要 通过可靠、有效的网络业务流量分析工具对其 网络 以及网络所承载的各类业务进行及时、准确地流量 和流 向
9、分析,进而挖掘网络资源潜力,控制网络互联 成本,并为网络规划、优化调整和业务发展提供基础 依据。网络监控 的基本 手段简单 网络管 理协议(s i m p l e n e t w o r k m a n a g e m e n t p r o t o c o l,S N M P)很好地满 足了网元性能监控需要,但在流量方面,只能提供粗 糙、简略的流量统计资料。网络探针(s n i ff e r)或是 类似的监听工具可 以弥补 S N MP的缺陷,但它 的问 题是数据庞大、资源消耗过大、难以适应高速网络的 要求。C i s c o公司于 1 9 9 6年开发 的 N e t fl o w技术 J
10、,通过在路 由器上提供高层的 I P流量原始统计信息,事实上已经成为网络流量监控方面的标准。目前主 收稿 t t 期:2 0 0 7 0 6 2 0 基金项 目:国家 自然科学基金资助项 目(6 0 6 7 3 1 3 4);上海市 电信公司(S h a n g h a i T e l e c o m C o ,I 皿)网络 流量 监测数据处理工具开发项 目 作者简介:常建龙(1 9 7 2 一),男,博士研究 生,研究 方向:数 据流上查询处理 E ma i l:j l c h ang o n l i n e s h c n 维普资讯 http:/ 2 8 山东大学学报(理学版)第 4 2卷
11、 要应用的 N e t i l o w协议为 与 版本,由于 版 本采用了与 完全不同的一种新的方式模板(t e m p la te)来表明F lo w数据的格式与含义,这种方式 在具有很高灵活性 的同时大大增加 了 N e t i l o w U D P 数据报文解析 的难度;同时,由于支持 版本 的 C i s c o 路由器没有 版本 的路 由器应用广泛,所 以,主流的 N e t i l o w采集分析软件(包 括开源产 品)基本 上都没有实现对 版本 的支持。目前,大多电信公司的 N e t i l o w分析系统使用基 于数据文件处理的开源软件 F l o w-t o o l s
12、_ 2 J。Fl o w t o o l s 处理模式是把接收的数据存储到硬盘,然后按需把 数据再从硬盘读取到 内存来计算聚合统计信息。很 明显,这种处理方式的速度满足不了今天大量高速 的网络数 据 需 要 的 速度。经过 精 心 设 计 的 系统 S M A R T(a s y s t e m f o r O n l i n e m o n i t o r i n g l a r g e V o l u m e s o f n e t w o r k t r a f fi c)可 以解决 上述 问题。S M A R T主要有 如下特性:(1)全面反映网络流量分布。为了理解整个 网 络流量构成
13、 的分布,最 常用有效地查询是 T o p k频 繁查询。这类 查询往往返 回 k个 占用 网络 流量 最 大的端 口,或是流量最多 的 A s对。频率 的统计建 立在 由用户定义的一个或者多个属性 的集合上面,频率的变化在更深层次可以用来进行流量分布突变 检测。这些 T o p k查询通常是用滑动窗 口的 J。在 S M A R T中,滑动窗 口大小有很大的跨度,从 5 m i n到 2 4 h。查询的类型包括连续查询和即时查询。(2)基于可控 的 C P U和 内存资 源。S MA R T采 用当今先进的数据 流技术_ 4 以及本 文的研究成果,文献 5,6 作为基础,对 网络数据进行抽象
14、 和摘要。在控制内存 消耗的同时保证很高的准确性。(3)可扩展性。S M AR T的可扩展性主要表现在 2个方面:一个是 它能够接受并解析,以及任 意形式 的数据格式。另一个在于它系统 中功能模块 的设计便于新 的模块随时添加。(4)鲁棒性。S M A R T重视 内存管理。它可以根 据数据流量 和可 用 内存 的变化进行参 数的 自我调 节。(5)直 观可视 性。查询结 果 以图表 的形式 返 回,使流量分析更加方便。1 系统结构 S MA R T的系统 结构如 图 1所示。它主要 由 3 个功能模块构成:数据采集模块、任务管理模块和用 户接 口模块。图 1 系统结构 图 F i g 1 S
15、 y s t e m a r c h i t e c t u r e 1 1 数据采集模块 基于用户需求数 据采 集模块对 采集到 的 N e t fl o w原始数据进行分解过滤。这里涉及到 3个基本 概念:原始流、合并流、监控流。原始流定义为路 由 器一个插槽(s l o t)设备 上发 出的 N e t i l o w原始数据 流;合并流则是一个或几个原始流的汇聚,即多个原 始流“合并”为一个合并流;监控流则是某个合并流 上经过“过滤条件”后产生的数据流 的一个“子集”。数据模块主要包括以下 3 个子模块:(1)属性抽取:收到一个 U D P包,如果它的协议 是 的,则用预先定义好 的
16、固定 的模板对象来解 析原始 Flo w数 据,如果是 的,则从 U D P报文 中 分离模板定义数据与原始 Flo w数据,如果是一个新 的模板,则缓存起来,用对应的模 板对象来解析原始 Flo w数据。由于访问 Flo w字段的速度很大程度上影 响监控流的匹配速度 以及 以后 的数据聚合 过程,因 此,本 文设计 了一种 新颖 的思 路来达 到这一 目标:N e t i l o w模板采用一个 H a s h M a p来保存字段名称 以及 对应的起始位置(偏移)、长度(有几个字节)等信息;Flo w的数据结构里存放这条 Flo w的原始字节数组,这样定义一个 Fl o w字段的数值所需的
17、时间为D(1)。(2)合并:每个路 由器通过不 同的插槽编码(in t e r f a c e)发送数据,原始流聚集成合并流的时候可 以根据 I P或者插槽编码。例如,如路 由器 1 2 7 0 0 1 发送的 N e t i l o w原始数据可以按照插槽设备的不同 分解为原始流 1 2 7 0 0 1:8,1 2 7 0 0 1:1 5 和 1 2 7 0 0 1:1 7(其中:8,:1 5,:1 7为路 由器 的 3个插槽编码),如 维普资讯 http:/ 第 1 1 期 常建龙,等:S M A R T:基于数据流技术的电信网络流量监控系统 2 9 果需要对插槽编码为 8与 1 5的原始
18、流进行分析(比 如这两个插槽上的端 口都是网络核心层下联端 口),则首先定义一个合并流来合并这两个原始流。(3)过滤:可以过滤出感 兴趣 或者关注 的数据 集监控流。例如,需要分析某个校 园网发 出的 I f】数据,可以定义监控流的过滤条件为“s r c I P=x x X X X X X X X x x x x 又如,分析网络 内邮件 的发送情况,则可定义监控流的过滤条件为“d e s t P o r t=2 5 2 1 任务管理模块 任务管理模块有 3 个 主要功能:首先,当用户提 交一个新任务,任务管理模块创建一个新 的线程并 且根据任务类型选择合适的算法。在 S M A R T中,有
19、2种任务类型:(1)连续查询任务 C T a s k(c o n t i n u o u s t a s k),主要用来处 理连续 的滑动窗 口 T o p k频繁 查 询和流量突变检测。(2)即时查询 R T a s k(r e a l t i m e t a s k),用来处 理 a d h o c滑动 窗 口 T o p k频繁查 询。C Tas k 定时返回查 询结果,R T ask根据需要来完成 计算和返回结果。其次,它监控所有线程的运行情 况和 内存使用情况,当流速和 内存发生变化时,能够 自动地调节参数使系统保持高效运行。最后一个功 能是返回查询结果并给用户提供接口模块。任务管理
20、模块 的主要特征包括:(1)所有的操作都是基于内存的,从而保证较高 的效率。当然,内存管理就变得十分重要,它也是系 统设计 的重点。以 C Tas k为例,它的流程如图 2 所 示。在每一对线程和线程或者进程与进程之间都有 缓存连接。缓存 的作用可以实现多任务数据共享 以 及平衡不同线程或者进程处理速度的差异。当进入 某个缓存 的数据量突增而超过它最大容量 的时候,将进行降载操作。图 2 C T a s k流程图 F i g 2 Th e d i a g r a m o f C Ta s k 维普资讯 http:/ 3 0 山东大学学报(理学版)第 4 2 卷(2)能够处 理长时间的滑 动窗
21、口的 T o p-k频繁 查询,这也是传统数据文件分析的系统很难完成的 任务。以往,对于连续 的长时间滑动窗 口查询,在有 限的内存资源下是难以给出准确的结,而 S M A R T 采用近似 的数据流查询技术保证 了很 高的准确率。算法设计上采用文献 6 3 作为底层算法,而采用文献 4 的结构完成上层设计。对于短时间滑动窗 口的 查询,S M A R T 将会给出精确的查询结果。(3)怎样对监控流上 的 N e t f l o w数据进行灵活而 有效地分析,使这个 系统尽可能满足用户 13常监测 工作和应付突发事件的需要,也是这个 系统需要重 视和解决的一个关键问题,而 目前多数 N e t
22、 f l o w分析 软件都采用的是一种相对 固定 的数据分析模式,例 如 T o p k应用 分析,T o p k对 话分析,T 0 1)_ 1目的地 址分析等,这种简单的模式很难满足用户的灵活多 变的实际需求,因此本 文设计并实现 了一种 高度灵 活而又十分有效的数据分析任务模型完全可定 义的基 于任意 F l o w属性 的聚合 分析 的任务模 型。这种任务模型的关键在于“灵活定义的聚合项”,可 以对 Flo w纪录中的任意的字段(不仅仅是 7个关键 字)进行聚合,比如可 以定义单独 的聚合项 S r c I P ,也可 以定义复合 的聚合项 S r c I P,D s t I P,D
23、s t P o r t 。以单独的聚合项 S r c I P 为例,N e t fl o w数据聚合过程 如下:抽取 Flo w中的 s r c I P字段 以及 统计字段(i n b y t e s,i n p a c k a g e s),以 s r c I P为属性,统计字段 为 v a l u e,采用 H a s h M a p 进行数据的聚合,其 中对于 同一个 s r c I P,统计字段进行累加,5 m i n 后,根据统计字段对 s r c I P进行排序(T o p k部分排 序),最 后输 出 T o p-k 结果。(4)s MA R T是 自适应 系统,可 以调节参 数
24、来适 应资源和数据量 的变化。图 3 对从原始流合并过滤成监控流,再进行多 属性定义的 T o p-k查询过程进行完整描述。1 9 2 1 6 8 0 2 l 5 6 5 4 I 1 0 0 9 2 1 6 8 0 3 I 9 6 5 5 l 4 0 0 l 3 匝 面团=j 五工=j 口 叵 囹口亘工卫 匝 面固=画丁=口 黜 12 3T o p 抽取聚台项与统计字段l 利用H a 且 p 对聚台项进行聚台I N捧序并输 出结果 l 图 3 N e t fl o w数据聚合过程 F i g 3 T h e p r o c e d u r e o f d a t a a g g r e g a
25、 t i o n 2 2 用户接 口模块 用户接 口模块接收用户提交 的添加 删 除任务 或者添加、删除一条控制流的命令,并且对结果进行 可视化表示。图 4和图 5是对流量进行分布情况和 趋势性展现。Pe r c e n ti nT op N 0 一 4 1 3 4:4 7 73 ,0-4 8 37=7 6 2 0-6 474 0:3 4 3 0 一 48l 4=l _66 0 一 6 475 7:1 O 9 0-6 4 5 21 0 9 9 0-3 4 6 2 0 9 4 0一 6 5 2 7 0:0 78 0一 6 47 5 3:0 75 )0-6 5 21 0:0 65 0-0:2 0
26、1 4 4 8 1 2 5 8 0 0 一 一 6 46 6 0:1 7 7 0 一 6 474 1 1 5 9 0-l 76 3 3:1 O 6 0-6471 1=0 9 6 0 一 2372 4:0 8 8 0 一 l 76 72盅 077 协 0一 一 6 475 6:074 0一 48 0 8 0 6 4 2 试验 图5 图表结果显示(分布情况)F i g 5 V i s u a l i z e d r e s u l t s(p r o p o r ti o n)S M A R T用 J A v A实现,现在运行在 D e l l 6 8 5 0服 务器上面,系统配置是 3 1 6
27、G H z C P U和 8 G B内存。操作系统是 R e d h a t l i n u x A S 4。本文用 2组真 实数 据来测试它的准确程度。与 S M A R T 结果相比较的 准确值由 Fl o w-to o l s 计算出来。实验 1 测试于 2 0 0 6 年 1 1 月 1 1 13,没有过滤条 件,滑动窗口为 2 4 h,查询 T o p 一 2 0 fl o w数频繁的 D s t S r c A S 对。观察表 1 所示 的结果,除了最后 的第 1 9 和第 2 0的排名和与准确结果不同外,其它结果的排 名都是正确 的。由于第 1 9和第 2 0的流数比较接 近,在
28、近似算法 中对它们 fl o w数 目的统计有误差。姗 枷瑚蓦 枷枷 m 一一一 一一一 维普资讯 http:/ 第 1 1 期 常建龙,等:S M A R T:基于数据流技术的电信网络流量监控系统 3 1 然而在实际中,如果本身 fl o w数差别不大,那么它们 的排名先后也并不重要。对于 fl o w数差别大的数据 的排序 S M A R T可以保证是准确的。表 1 试验 1 结果 T a b l e 1 Re s u l t s o f E x p e r i me n t-1 实验 2 测试于2 0 0 6 年5 月 2 5 13,过滤条件是 目 的端 口等于 2 5,查询滑动窗 口为
29、 2 4 h时的 T o p 一 1 0流 数频繁 的源 I P。如表 2,S M A R T得到了与准确结果 完全一致的前 1 0个频繁的 S r c l P。表 2 试验 2结果 T ab l e 2 Re s ult s o f E x pe ri me n t 2 3 结论和展望 本文 介 绍 了新 颖 高 效 的 网 络 流量 监 控 系统 S M A R T。它基 于 J a v a多线程技术、适应 多种平 台环 境,目前在上海 电信 用 于 I P城域 网的流量 分析领 域,拥有对海量网络流量信息的实时分析能力,先进 的数据流算法进行 2 4 h的 T o p k数据分析,可以进
30、 行网络流量的突变检测,能够合并不同路 由器 的原 始流,实现了基 于任意 F l o w字段 的组合 过滤条件,能够完成对任意组合 的 Flo w字段进行聚合并获取 T o p k任务、指定输出任务 的分析,能够 实现 自定义 Flo w字段的 T o p k任务,统一处理 和 格式 的 N e t t l o w数据,T o p k结果可 以通过 U D P输 出到指定 的地址,处理能力达到每秒 3 0 0 0 0个流。更 多的功 能模块如,流量模式监控、P 2 P流量检测 以及分布式 流量分析 系统正 在设 计之 中。S M A R T作为高效 的 网络流量分析手段,有可能成为更多电信运
31、营商的 网络流量监控工具。参考文献:1 C i s c o C i s c o I O S N e t i l o w i n t r o d u c ti o n E B O L (2 0 0 6 0 4 0 5)l 2 0 0 6-04-1 5 h t t p:w w w c i s c o c o m g o n e t f l o w 2 M a r k F u l l me r Ho w-t o o l s E B O L (2 0 0 6 0 3 0 1)2 0 0 6 04 1 5 J h t t p:w w w s D l i n t e r e d n e ff s w f
32、l o w-t ool s d o c s fl o w-t ool s h t m1 3 C A R N E Y D,Q V r I N T E ME L U,C H E R N I A C K M,e t a 1 M o n i t o ti n g s tre a ms a n e w c l a s s of d a t a ma n a g e me n t a p p l i c a t i o n s c P r o c e e d i n g s of 2 8 t h I n t e rn a t i o n a l C o n f e r e n c e o n V e r
33、y La r g eDa t a Base s,Au g u s t 2 0-2 3,20 02Ho n g Ko n g,Ch i n a:Mo r g a n Ka u f ma r m,2 0 0 2:21 5 2 26 1 4 A R A S U A,M A N K U G S A p p r o x i m a t e c o u n t s and q u anfi l e s o v e r s K di n g w i n d o w s C AD e u t s e h P r o c e e di n gs of t h e T w e n t y-t h i r d AC
34、 M S I G AC T-S I GMO D S I GA R T S y mp o s i u m o n P r i n c i p l e s of D a t a b ase S y s t e ms,J un e 1 4-1 6,2 O 0 4P a r i s,Fr anc e:ACM。2 0 04:2 8 6-2 96 1 5 Q S,Q I A N W,Z H O U A A p p r o x i ma t e ly p r o c e s s i n g m ult i-g r anul a r i t y a g g r e g a t e q u e ri e s o
35、 v e r d a t a s t r e a m s l c P r o c e e d i n g s of the 2 2 n d I n t e r n a t i o n a l C o nfe ren c e o n Da t a E n g i n e e ri n g,I CDE 2 0 0 6,3-8 Ap r i l 2 0 0 6,Atl an t a,GA,US A:I EEE CO m p u t e r S o c i e t y,2 0 0 6:6 7 1 6 J Y U J X,C H O N G Z,L U H,e t a 1 F a l s e pos i
36、 t i v e o r f a l s e n e g a t i v e:Mi n i n g fre q u e n t i t e ms e t s fr o m h i g h s pee d t r a n s a c t i o n al d a t a s t r e a ms C P r o c e e din gs o f the T h i a i e th I n t e r n a t i o n a l Co nfe ren c e o n Ve r y La r g e Da ta Ba s e s,Au g u s t 31-S e p t e mb e r 3 2 0 0 4T o r o n t o,C a n a d a:Mo rgan K a u f ma r m,2 0 0 4:2 04 2 1 5(编辑:孙培芹)维普资讯 http:/