[发明专利]数据匹配的方法和装置有效
申请号: | 201710198317.4 | 申请日: | 2017-03-30 |
公开(公告)号: | CN108664497B | 公开(公告)日: | 2020-11-03 |
发明(设计)人: | 马俊;李程 | 申请(专利权)人: | 大有秦鼎(北京)科技有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/2457;G06F16/28;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100192 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 匹配 方法 装置 | ||
本发明公开了一种数据匹配的方法和装置,属于信息处理技术领域。方法包括:根据第一伪ID将第一数据分类,针对任一类第一数据,确定其对应的第二数据,根据第二伪ID将对应的第二数据分类,统计各类对应的第二数据的数量,根据各类对应的第二数据的数量确定任一类第一数据与各类对应的第二数据之间的可信度,按照可信度将任一类第一数据与对应的第二数据匹配。本发明将第一数据分类,针对各类第一数据对应的第二数据,将对应的第二数据分类,根据各类对应的第二数据的数量确定各类第一数据与各类对应的第二数据之间的可信度,按照可信度将任一类第一数据与对应的第二数据匹配,实现了两个ID被脱敏的数据源的数据匹配。
技术领域
本发明涉及数据处理技术领域,特别涉及一种数据融合的方法和装置。
背景技术
随着互联网、物联网、社交网络等新兴技术的发展,产生数据的数据源如雨后春笋般增长。在各种数据源的数据中,往往存在敏感数据项。为了保证敏感数据项不被公开,该数据源在数据输出中会将敏感数据项进行脱敏处理,以使数据用户不会获得敏感数据。
然而对于两个数据源的数据,每个数据源的数据中均将敏感数据项为数据ID(Identity,标识)的情形,由于其ID进行了脱敏处理,不能根据脱敏后的ID将不同的数据放在一起进行匹配操作,所以不能实现两个ID被脱敏的数据源的数据匹配。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种数据匹配的方法和装置。所述技术方案如下:
第一方面,提供了一种数据匹配的方法,所述方法包括:
获取第一数据源的第一数据和第二数据源的第二数据,所述第一数据包括第一伪标识ID和第一记录时间,所述第二数据包括第二伪ID和第二记录时间,不同第一数据的第一伪ID相同或不同,不同第二数据的第二伪ID相同或不同;
根据第一伪ID将所述第一数据分类,同类的第一数据的第一伪ID相同;
针对任一类第一数据,确定其对应的第二数据,根据第二伪ID将对应的第二数据分类,统计各类对应的第二数据的数量,根据各类对应的第二数据的数量确定所述任一类第一数据与各类对应的第二数据之间的可信度,按照可信度将所述任一类第一数据与对应的第二数据匹配;
其中,对应的第二数据的第二记录时间与所述任一类第一数据的第一记录时间的差的绝对值小于预设时间差。
第二方面,提供了一种数据匹配的装置,所述装置包括:
获取模块,用于获取第一数据源的第一数据和第二数据源的第二数据,所述第一数据包括第一伪标识ID和第一记录时间,所述第二数据包括第二伪ID和第二记录时间,不同第一数据的第一伪ID相同或不同,不同第二数据的第二伪ID相同或不同;
分类模块,用于根据第一伪ID将所述第一数据分类,同类的第一数据的第一伪ID相同;
匹配模块,用于针对任一类第一数据,确定其对应的第二数据,根据第二伪ID将对应的第二数据分类,统计各类对应的第二数据的数量,根据各类对应的第二数据的数量确定所述任一类第一数据与各类对应的第二数据之间的可信度,按照可信度将所述任一类第一数据与对应的第二数据匹配;
其中,对应的第二数据的第二记录时间与所述任一类第一数据的第一记录时间的差的绝对值小于预设时间差;
其中,所述第一数据源为任一银行的银行卡数据源,所述第二数据源为通信运营商数据源,且所述第二数据与所述任一银行相关;
所述装置,还包括:
清洗模块,用于清洗所述第一数据和第二数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大有秦鼎(北京)科技有限公司,未经大有秦鼎(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710198317.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据迁移方法及装置
- 下一篇:一种网页内容的显示方法及终端
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置