[发明专利]数据包的分布式流式预处理方法、装置、设备及可读介质有效

专利信息
申请号: 201810346407.8 申请日: 2018-04-18
公开(公告)号: CN108549704B 公开(公告)日: 2021-01-12
发明(设计)人: 曾超 申请(专利权)人: 厦门市美亚柏科信息股份有限公司
主分类号: G06F16/28 分类号: G06F16/28;G06F16/27;G06F16/22
代理公司: 厦门福贝知识产权代理事务所(普通合伙) 35235 代理人: 郝学江
地址: 361000 福建省厦门市*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据包 分布式 预处理 方法 装置 设备 可读 介质
【权利要求书】:

1.一种数据包的分布式流式预处理方法,其特征在于,该方法包括:

数据获取步骤,扫描指定目录的数据包,获取多个数据元组,并将数据包的状态写入一关系数据库;

分布式处理步骤,将所述多个数据元组发送至分布式队列进行保存,基于流式数据读取方法从分布式队列读取数据元组进行预处理,并在所述关系数据库中更新数据包的状态;

数据存储步骤,将预处理后的数据元组存储在分布式数据库中;

其中,所述数据获取步骤包括:

扫描步骤:扫描服务器的指定目录,将待处理数据包中的所有数据路径封装为一个路径元组,并在所述关系数据库中写入一条数据记录用于记录数据包的状态,其中,数据记录包括:数据包ID、数据包的路径、数据包的状态和最后更新时间,数据包的状态初始化为解析中;

提取步骤:根据路径元组中的文件路径,找到对应的数据包并进行解压,获取每一个数据包中的数据,判断所述数据的数量m是否大于n,如果否,将所述数据封装为一个数据元组,如果是,将所述数据封装为个数据元组,其中m,n为整数,表示向上求整,每个数据元组具有唯一的消息ID,用于标示该数据元组,当对一个数据包提取完时,把状态更改为2,即解析完;

其中,所述分布式处理步骤包括:

数据包ID记录步骤:在内存数据库中记录数据的ID为PACKAGE_ID,所述内存数据库为key-value型数据库;

数据入列步骤:将提取的数据元组存储在分布式队列中,并记录所存储的数据元组的消息ID为ID_INPUT;

数据处理步骤:从所述分布式队列中采用流式读取方式读取数据元组进行预处理,并记录所读取的数据元组的消息ID为ID_OUTPUT;

异或运算步骤:将一次处理中的ID_INPUT与所有的ID_OUTPUT异或运算,并将运算结果作为值写入以PACKAGE_ID为key的key-value型数据库中;

更新步骤:当所有数据元组预处理完毕后,判断PACKAGE_ID对应的值是否为0,如果是,则在关系数据库中更新数据的处理状态为入库完,并记录数据包的更新时间,并删除内存数据库中key为PACKAGE_ID的数据包的记录;如果否,当最后更新时间超过阈值时,将数据包状态更改为入库不完整,并删除内存数据库中key为PACKAGE_ID的数据包的记录,并重新处理该数据包。

2.根据权利要求1的方法,其特征在于,所述预处理为数据的清洗、关联和/或比对。

3.根据权利要求2的方法,其特征在于,所述数据包为数据文件经过zip压缩打包后的zip包。

4.根据权利要求3的方法,其特征在于,所述数据包为打包后的电子设备中的电子取证数据,所述电子设备为手机、笔记本电脑、平板电脑、PDA和/或服务器。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门市美亚柏科信息股份有限公司,未经厦门市美亚柏科信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810346407.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top