[发明专利]数据去重方法、装置、计算机设备以及存储介质在审
| 申请号: | 201910461945.6 | 申请日: | 2019-05-30 |
| 公开(公告)号: | CN110334086A | 公开(公告)日: | 2019-10-15 |
| 发明(设计)人: | 高源 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
| 主分类号: | G06F16/215 | 分类号: | G06F16/215;G06Q50/32 |
| 代理公司: | 深圳市精英专利事务所 44242 | 代理人: | 林燕云 |
| 地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 特征字段 去重 字段 计算机设备 存储介质 访问请求 提示消息 压缩处理 预设 清洗 数据库集群 数据库内存 数据库资源 获取数据 结果判断 提取数据 异常处理 重复数据 数据处理 重复 拼接 队列 存储 提示 消耗 规范化 输出 | ||
1.一种数据去重方法,其特征在于,所述方法包括:
获取数据访问请求,并提取所述数据访问请求中的特征字段;
对所述特征字段进行清洗,并将清洗后的特征字段进行规范化处理;
对所述特征字段进行拼接,生成特征字段组合,对所述特征字段组合使用hash算法进行压缩处理;
基于预设数据库集群对已压缩处理的特征字段进行识别,并根据识别结果判断所述特征字段是否为重复字段;
若所述特征字段为重复字段,将所述特征字段存储至预设的异常处理队列中,否则输出提示消息,所述提示消息用于提示所述特征字段为正常字段。
2.如权利要求1所述的方法,其特征在于,所述获取数据访问请求,并提取所述数据访问请求中的特征字段,包括:
获取数据访问请求,对所述数据访问请求进行解析;
根据所述解析结果获取所述数据访问请求中的特征字段。
3.如权利要求1所述的方法,其特征在于,所述对所述特征字段进行拼接,生成特征字段组合,对所述特征字段组合使用hash算法进行压缩处理,包括:
使用C#语言的StringBuilder类中的append方法对所述特征字段进行拼接;
使用hash算法对拼接后的特征字段进行取模运算;
获取运算结果,并将运算结果进行定位存放以完成压缩处理。
4.如权利要求1所述的方法,其特征在于,所述基于预设数据库集群对已压缩处理的特征字段进行识别,并根据识别结果判断所述特征字段是否为重复字段的步骤之前,所述方法还包括:
判断所述已压缩处理的特征字段是否为同类型字段;
若所述已压缩处理的特征字段为同类型字段,对所述已压缩处理的特征字段进行分组。
5.如权利要求1所述的方法,其特征在于,所述方法还包括:
预先设置所述预设数据库集群的数据更新时长;
若所述特征字段存储至所述预设数据库集群中的时长超过预设的数据更新时长,删除所述特征字段。
6.一种数据去重装置,其特征在于,所述装置包括:
获取单元,用于获取数据访问请求,并提取所述数据访问请求中的特征字段;
处理单元,用于对所述特征字段进行清洗,并将清洗后的特征字段进行规范化处理;
拼接处理单元,用于对所述特征字段进行拼接,生成特征字段组合,对所述特征字段组合使用hash算法进行压缩处理;
识别判断单元,用于基于预设数据库集群对已压缩处理的特征字段进行识别,并根据识别结果判断所述特征字段是否为重复字段;
存储输出单元,用于若所述特征字段为重复字段,将所述特征字段存储至预设的异常处理队列中,否则输出提示消息,所述提示消息用于提示所述特征字段为正常字段。
7.如权利要求6所述的装置,其特征在于,所述获取单元,包括:
解析单元,用于获取数据访问请求,对所述数据访问请求进行解析;
获取子单元,用于根据所述解析结果获取所述数据访问请求中的特征字段。
8.如权利要求6所述的装置,其特征在于,所述拼接处理单元,包括:
拼接单元,用于使用C#语言的StringBuilder类中的append方法对所述特征字段进行拼接;
运算单元,用于使用hash算法对拼接后的特征字段进行取模运算;
存放单元,用于获取运算结果,并将运算结果进行定位存放以完成压缩处理。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-5任一项所述的数据去重方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者一个以上计算机程序,所述一个或者一个以上计算机程序可被一个或者一个以上的处理器执行,以实现如权利要求1-5任一项所述的数据去重方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910461945.6/1.html,转载请声明来源钻瓜专利网。





