《基于DNS日志分析的用户在线检测算法与应用.ppt》由会员分享,可在线阅读,更多相关《基于DNS日志分析的用户在线检测算法与应用.ppt(15页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、基于基于DNS日志分析的用户日志分析的用户在线检测算法与应用在线检测算法与应用清华大学 常得量目录目录问题背景现有方法概述基于DNS方法的特点算法描述算法验证讨论与应用总结和未来工作参考文献问题背景问题背景不同的研究1-4从不同的角度测量用户在线的行为特征。这些研究都涉及了一个问题:如何判断设备或用户到达、离开网络的时间,如何识别用户或设备的在线状态。了解设备的在线状态,了解用户的网络特征,被广泛使用在网络管理、网络建模、模拟上。对于网络管理者、研究者和开发者来说都有十分重要的意义。在大规模网络中,如何通用地测量大量网络设备的基本信息?现有方法现有方法 基于认证系统基于认证系统基于认证系统基于
2、认证系统:使用用户认证方法来确定用户在线规:使用用户认证方法来确定用户在线规模。只有在要求认证的环境下才有效,适用范围不广。模。只有在要求认证的环境下才有效,适用范围不广。同时会有隐私问题。同时会有隐私问题。基于基于基于基于DHCPDHCP:使用:使用DHCPDHCP租约系统当作设备在线系统。租约系统当作设备在线系统。不适用于静态不适用于静态IPIP,无法准确判断设备离线时间,同时,无法准确判断设备离线时间,同时有有IPv6IPv6迁移问题。迁移问题。基于各类数据采集基于各类数据采集基于各类数据采集基于各类数据采集:必须拥有网关处的管理权限。这:必须拥有网关处的管理权限。这对于一些网络研究者比
3、较困难。对于一些网络研究者比较困难。其他方法其他方法其他方法其他方法:网络游戏服务器端数据采集:网络游戏服务器端数据采集44、基于基站、基于基站数据的方法数据的方法55等等。限制太多,不能为日常的网络研等等。限制太多,不能为日常的网络研究和管理提供太多帮助。究和管理提供太多帮助。Why DNS log analysis?通用性通用性通用性通用性:DNSDNS是网络的基础设施,被几乎所有网络服是网络的基础设施,被几乎所有网络服务所应用。同时,使用务所应用。同时,使用DNSDNS的方法也没有的方法也没有IPv6IPv6迁移问迁移问题。题。方便部署方便部署方便部署方便部署:基于:基于DNSDNS日志
4、分析,不需要更改现有网络日志分析,不需要更改现有网络或增设大量的测量节点。方便增量部署。或增设大量的测量节点。方便增量部署。约束更小约束更小约束更小约束更小:基于:基于DNSDNS的方法不需要拥有网关的管理权的方法不需要拥有网关的管理权限。只需要设备使用提供的限。只需要设备使用提供的DNSDNS服务即可。服务即可。适用于大规模网络适用于大规模网络适用于大规模网络适用于大规模网络:DNSDNS日志数据量小,处理起来方日志数据量小,处理起来方便快捷。便快捷。在线检测算法描述在线检测算法描述基于时间间隔的模型当相邻的DNS请求时间间隔小于T时,则视作从同一个设备发出,之前设备仍然在线。反之,如果相邻
5、请求间隔大于T,则视作设备下线。算法的验证算法的验证(1)依据DHCP日志记载的设备“切换”信息作为真实值,来检测用户上下线的时间判断是否准确。使用精确率(precision rate)、召回率(recall rate)和F1-score来评价效果。在阈值T较小时,召回率保持在一个很高的水准,而精确率上升很快。这是因为在DNS分割策略激进的情况下,DHCP的判定结果被很好的概括了,但是却出现了大量的误分段现象。DNS用户在线检测算法效果PR曲线算法的验证算法的验证(2)随着T变大,精确率一直在升高。而召回率出现了缓慢的下降,意味着时间阈值T可能开始接近并超过IP释放的时间。在判断阈值T=40分
6、钟时,精确率和召回率都达到最优。约为90%。清洗DHCP数据标定,消除以下的情况,最终召回率最终能达到96.3%。设备拿到IP地址后未继续使用网络。设备未使用DHCP提供的DNS服务,因而未被DNS日志记录。DNS用户在线检测算法效果PR曲线无线网的时域信息无线网的时域信息右图的数据采集自是2014年11月某日(星期三)凌晨4:00至第二天凌晨4:00的无线网络。红色点线是1min内新加入用户的数量,使用左边的纵轴;蓝色实线是用户的在线数量,使用右边的纵轴。无线网络的时域分析非常明显地显示出了清华大学校园生活的特点。上课时人数增加,下课后减少。夜间、午饭和晚饭是大的低谷,课间是小的低谷。无线网
7、络还未覆盖食堂。用户不喜欢在吃饭时间上网。有线和无线网络的对比有线和无线网络的对比右图的数据采集同样时段的校园有线网络。有线网络和无线网络显著不同。总体来说,也是日间用户多,夜间用户少。但有线网络整体而言更平缓。由于有大量彻夜不关的设备,有线网夜间的用户数量远多于无线网。有线网用户的每分钟加入数量显著得更低,变化频率也更小。早晨6:00,有一个用户加入的高峰。这是由于送电瞬间,很多设备(如NAT路由)会访问网络。这一现象在无线网络中不会出现。工作日和周末的对比工作日和周末的对比右图的数据采集自2014年11月的一个星期日的校园无线网络。周末网络情况也和工作日有所不同。总体来说,峰谷值类似工作日
8、的无线网络。用户的数量和活跃程度都减少了。可能是因为周末在无线网覆盖地区的人数变少。不再有明显的跟课程教学相关的变化,而是和城市其他的工作区域的特征较为相似5。总结总结提出了一种基于被动DNS分析的用户/设备在线检测手段,可以识别设备到达和离开网络的时刻,判断设备的在线状态。达到90.6%的精确率和96.3%的召回率。从时域给出了清华大学校园网络的在线和设备到达情况进行了测量。从无线有线网的对比和工作日和周末的对比等方面,分别对网络状况进行了分析,以期对网络管理提出帮助。进一步工作进一步工作分析用户的其他行为特征,以便于更好地了解用户和网络。比如:操作系统使用行为习惯设计异常检测算法,应用统计
9、信息分析网络异常。实时性检测,便于日常网络管理的使用。参考文献参考文献1 Kotz D,Essien K.Analysis of a Campus-Wide Wireless NetworkJ.Wireless Networks,2005,11(12):115133.2 Nuzman C,Saniee I,Sweldens W,et al.A compound model for TCP connection arrivals for LAN and WAN applicationsJ.Computer Networks,2002,40(3):319337.3 Benevenuto F,Rod
10、rigues T,Cha M,et al.Characterizing User Behavior in Online Social NetworksC/Proceedings of the 9th ACM Sigcomm Conference on Internet Measurement Conference.New York,NY,USA:ACM,2009:4962.4 Henderson T,Bhatti S.Modelling User Behaviour in Networked GamesC/Proceedings of the Ninth ACM International Conference on Multimedia.New York,NY,USA:ACM,2001:212220.5 Wang H,Xu F,Li Y,et al.Understanding Mobile Traffic Patterns of Large Scale Cellular Towers in Urban EnvironmentC/Tokyo,Japan:ACM Press,2015:225238.谢谢各位!欢迎指正!