[发明专利]域名系统数据处理方法有效
申请号: | 201310744319.0 | 申请日: | 2013-12-30 |
公开(公告)号: | CN103647676A | 公开(公告)日: | 2014-03-19 |
发明(设计)人: | 王杨;谢茂金;单桂华;迟学斌 | 申请(专利权)人: | 中国科学院计算机网络信息中心 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;H04L29/12 |
代理公司: | 北京亿腾知识产权代理事务所 11309 | 代理人: | 陈霁 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 域名 系统 数据处理 方法 | ||
技术领域
背景技术
随着网络技术的快速发展,网络日志数据成为大数据的一个重要来源。网络日志数据蕴藏了丰富的信息,如网络异常与故障、人文社会热点、群体上网习惯等,而之前由于缺乏有效的分析处理,许多网络数据只能作为故障分析的辅助手段,难以体现其更丰富内涵与价值。
当前,域名系统(Domain Name System,DNS)日志数据分析可视化对于整个网络的安全具有重要作用。通过对DNS数据的可视分析可以实时得到当前网络的健康状况信息,有力辅助分析网络病毒的传播,追踪攻击来源,对良好网络环境的建设和维护具有重要的作用。同时,还能辅助域名访问规律的挖掘,节约监控成本,保障互联网的正常运转,具有光明的应用前景和显著的经济、社会效益。甚至还可以用于当前的热点问题及各类网站的访问情况的分析,以及用户行为特征,发现商机,获得一些潜在的信息,取得其他效益。但目前的DNS日志数据分析可视化方法还存在一系列不足:
(1)鉴于CN域名产生的数据量,无法直接对其可视化,势必要求先对数据进行预处理、聚类和相应的数据抽取。现有的处理方法常采用Pig,HIVE等进行处理,但多个查询目标不容易进行合并,造成重复计算,缺少算法优化渠道,造成多个分析目标则需要多次数据读取,从而造成较大的输入输出(Input/Output,IO)开销和重复计算。
(2)由于DNS日志数据包含域名、地域、时间、数量、排名等多种信息,在对数据进行可视化的时候,需要在展现各种信息的同时也能展现这些信息之间的关系。当前的DNS日志数据可视化技术,如树图、河流图、流量图等只能表现一种或两种信息,而不能将多种信息同时展现在一起,分析人员频繁的在不同的图表之间来回切换,不利于数据分析和规律挖掘。
(3)当前的多维信息可视化技术对于像DNS日志这样拥有巨大记录数量和繁杂分析目标的对象,要在有限的屏幕空间进行展示,布局容易出现问题,造成信息拥塞,出现严重遮挡的情况。
发明内容
本发明的目的是提供一种域名系统数据处理方法,通过对DNS访问日志的处理分析,开发一套能快速分析网络访问群体的行为特征、网络异常及其来源和影响的数据处理方法。
为实现上述目的,本发明提供了一种域名系统DNS数据处理方法,包括:
接收访问日志;
将所述访问日志划分到文件中;
根据所述文件的大小,将所述文件处理为处理文件;
从所述处理文件中的访问日志中抽取和过滤得到有效数据;
从所述有效数据中抽取分析目标;
以所述分析目标中的第一数量个分析目标作为第一分析目标群,对所述第一分析目标群中的分析目标所对应的处理文件的访问量进行统计处理,将统计结果累加以生成可视化分析的第一参数;
以所述分析目标中的第二数量个分析目标作为第二分析目标群,对所述第二分析目标群中的分析目标所对应的处理文件分别进行访问量统计处理,得到每一个处理文件的统计结果,所述统计结果生成第一序列,对所述第一序列分类抽取以生成可视化分析的第二参数。
优选地,所述接收访问日志具体包括:接收压缩后的访问日志,进行解压处理得到解压后的访问日志。
优选地,,所述根据所述文件的大小,将所述文件处理为处理文件具体包括:根据所述文件的大小,将所述文件分割为多个子文件,或者将多个所述文件合并为总文件。
优选地,所述根据所述文件的大小,将所述文件分割为多个子文件具体包括:将大于第一阈值的所述文件分割为多个子文件。
优选地,所述根据所述文件的大小,将多个所述文件合并为总文件具体包括:将小于第二阈值的所述文件合并为总文件。
优选地,所述从所述处理文件中的访问日志中抽取和过滤得到有效数据具体包括:在第一次抽取和过滤后,可以进行二次抽取和过滤。
优选地,所述第一分析目标是时间和地理来源信息。
优选地,所述第二分析目标是数据的时间、来源或域名信息。
优选地,所述可视化分析的第一参数包括:访问量地域分布和访问量时间分布。
优选地,所述可视化分析的第二参数包括:域名访问量。
本发明实现了处理大量DNS日志数据速度快、高效,能同时表现多种信息,能充分体现各种信息之间的相互关系,能很好地展现分析人员感兴趣的或者人工分析不易察觉的特殊信息;界面友好、美观,各可视化元素之间罗列合理、自然,符合人们的视觉标准;交互方便、高效。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算机网络信息中心,未经中国科学院计算机网络信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310744319.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种终端对象的操作方法及终端
- 下一篇:一种焦点移动的方法及装置