[发明专利]一种数据处理方法、装置、设备及存储介质有效
申请号: | 202110936917.2 | 申请日: | 2021-08-16 |
公开(公告)号: | CN113660264B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 李将;范渊;吴卓群;王欣 | 申请(专利权)人: | 杭州安恒信息技术股份有限公司 |
主分类号: | H04L9/40 | 分类号: | H04L9/40;H04L61/4511 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王晓坤 |
地址: | 310000 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 设备 存储 介质 | ||
本申请公开了一种数据处理方法、装置、设备及存储介质,该方法包括:采集DNS流量数据,并对DNS流量数据进行解析,得到DNS解析数据;利用kafka‑flink对DNS解析数据进行数据过滤;将经过flink过滤后的数据中的解析IP映射到Bitmap中进行数据重过滤。本申请首先利用kafka‑flink对数据进行去重处理,然后引入Bitmap对数据进行再次去重处理,存储压缩高,消耗内存小,有助于对大流量数据的多重过滤,效率高,查询快。
技术领域
本发明涉及数据处理领域,特别是涉及一种数据处理方法、装置、设备及存储介质。
背景技术
随着数字信息的爆炸式增长,存储系统中的数据随之增大,数据的存储管理越加复杂。现有的数据去重方式一般采用redis和hashet;其中,以redis进行去重处理时,redis作为一个服务部署,连接redis存在网络通信以及服务宕机等问题,极大的影响服务性能;而hashet不存在网络通信上的问题,但是对于大数据流量,动辄千万、亿级数据,hashset的存储压缩率太低,内存消耗大,不能满足大数据流的需求。
因此,如何解决大流量数据的去重过滤的问题,是本领域技术人员亟待解决的技术问题。
发明内容
有鉴于此,本发明的目的在于提供一种数据处理方法、装置、设备及存储介质,存储压缩高,消耗内存小,有助于对大流量数据的多重过滤。其具体方案如下:
一种数据处理方法,包括:
采集DNS流量数据,并对所述DNS流量数据进行解析,得到DNS解析数据;
利用kafka-flink对所述DNS解析数据进行数据过滤;
将经过flink过滤后的数据中的解析IP映射到Bitmap中进行数据重过滤。
优选地,在本发明实施例提供的上述数据处理方法中,所述采集DNS流量数据,并对所述DNS流量数据进行解析,得到DNS解析数据,包括:
通过DNS采集服务器接入流量数据包,获取DNS流量数据,并对所述DNS流量数据进行处理转换解析,解析出包含域名、类型、解析IP、时间的基本参数信息作为DNS解析数据。
优选地,在本发明实施例提供的上述数据处理方法中,在所述得到DNS解析数据之后,在所述利用kafka-flink对所述DNS解析数据进行数据过滤之前,还包括:
利用所述DNS采集服务器对所述DNS解析数据进行白名单过滤。
优选地,在本发明实施例提供的上述数据处理方法中,所述利用kafka-flink对所述DNS解析数据进行数据过滤,包括:
将经过白名单过滤后的数据接入kafka的topic;
采用flink读取kafka的数据,根据flink设置的时间窗口进行数据过滤去重。
优选地,在本发明实施例提供的上述数据处理方法中,所述将经过flink过滤后的数据中的解析IP映射到Bitmap中进行数据重过滤,包括:
将经过flink过滤后的数据中的解析IP映射到Bitmap的bit数组中;
判断在所述bit数组中是否已存在当前的映射数据;
若是,则直接过滤掉与所述映射数据对应的所述DNS解析数据;
若否,则建立相关映射,并将所述映射数据对应的所述DNS解析数据存入数据库。
优选地,在本发明实施例提供的上述数据处理方法中,还包括:
每日定时任务清除Bitmap数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州安恒信息技术股份有限公司,未经杭州安恒信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110936917.2/2.html,转载请声明来源钻瓜专利网。