[发明专利]数据包的分布式流式预处理方法、装置、设备及可读介质有效

申请号：	201810346407.8	申请日：	2018-04-18
公开（公告）号：	CN108549704B	公开（公告）日：	2021-01-12
发明（设计）人：	曾超	申请（专利权）人：	厦门市美亚柏科信息股份有限公司
主分类号：	G06F16/28	分类号：	G06F16/28;G06F16/27;G06F16/22
代理公司：	厦门福贝知识产权代理事务所(普通合伙) 35235	代理人：	郝学江
地址：	361000 福建省厦门市***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	数据包分布式预处理方法装置设备可读介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种数据包的分布式流式预处理方法、装置、设备及计算机可读介质，该方法包括：数据获取步骤，扫描指定目录的数据包，获取多个数据元组，并将数据包的状态写入一关系数据库；分布式处理步骤，将所述多个数据元组发送至分布式队列进行保存，基于流式数据读取方法从分布式队列读取数据元组进行预处理，并在所述关系数据库中更新数据包的状态；数据存储步骤，将预处理后的数据元组存储在分布式数据库中。本发明采用内存数据库结合唯一消息ID异或值和超时机制对数据处理状态进行管理，实现了对数据包的解析、入库状态做实时跟踪，并支持对入库不完整的数据包进行重新入库处理，提高了包括海量数据的取证数据包的入库性能。

技术领域

本发明涉及数据处理技术领域，特别是一种数据包的分布式流式预处理方法、装置、设备及计算机可读介质。

背景技术

随着智能终端的普及，社会进入大数据时代，各种数据爆炸性地增长。取证领域的数据包也越来越大，现在手机的容量已达到128GB，尤其是即时通讯APP的普及，产生大量的聊天记录，每个嫌疑人的电子取证数据打包后叫数据包。数据包的记录都在百万条级别，甚至达到千万条。如何高效的对这些数据包进行有效的处理当前取证环节中的一个技术难题

现有技术中存在一些取证数据包的软件，都是单机版，处理效率低，且无法跟踪到数据包的实时处理状态，也无法自动检测在数据包处理过程中是否出错时，也无法检测到数据包是否已经处理完毕。

发明内容

本发明针对上述现有技术中的缺陷，提出了如下技术方案。

一种数据包的分布式流式预处理方法，该方法包括：

数据获取步骤，扫描指定目录的数据包，获取多个数据元组，并将数据包的状态写入一关系数据库；

分布式处理步骤，将所述多个数据元组发送至分布式队列进行保存，基于流式数据读取方法从分布式队列读取数据元组进行预处理，并在所述关系数据库中更新数据包的状态；

数据存储步骤，将预处理后的数据元组存储在分布式数据库中。

更进一步地，所述预处理为数据的清洗、关联和/或比对。

更进一步地，所述数据包为数据文件经过zip压缩打包后的zip包。

更进一步地，所述数据包为打包后的电子设备中的电子取证数据，所述电子设备为手机、笔记本电脑、平板电脑、PDA和/或服务器。

更进一步地，所述数据获取步骤包括：

扫描步骤：扫描服务器的指定目录，将待处理数据包中的所有数据路径封装为一个路径元组，并在所述关系数据库中写入一条数据记录用于记录数据包的状态，其中，数据记录包括：数据包ID、数据包的路径、数据包的状态和最后更新时间，数据包的状态初始化为解析中；