[发明专利]基于公共字段编码的数据融合方法及系统在审

专利信息
申请号: 202010331432.6 申请日: 2020-04-24
公开(公告)号: CN111598135A 公开(公告)日: 2020-08-28
发明(设计)人: 曾途;韩远;吴桐;李焕;周凡吟;任渝;刘世林 申请(专利权)人: 成都数联铭品科技有限公司
主分类号: G06K9/62 分类号: G06K9/62;G06F40/126
代理公司: 暂无信息 代理人: 暂无信息
地址: 610093 四川省成都市武侯*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 公共 字段 编码 数据 融合 方法 系统
【说明书】:

本发明涉及基于公共字段编码的数据融合方法及系统;根据不同数据持有者之间实体编码的交集完成实体对齐,进一步进行数据融合;在数据融合的基础上,对同一实体的不同ID编码进行排序;选出一个编码作为同一实体的唯一ID。保障数据融合后的实体ID的唯一性。本发明方法系统,在计算过程中不涉及实体相关隐私和敏感信息。不需要在数据融合前对不同数据持有者之间的实体信息进行额外的对齐操作,数据融合过程中实体自动对齐,计算量小,可操作性强。并且在数据融合后来进行编码排序选出唯一ID,实现更好的容错,选出的唯一ID符合全局数据的规律,更科学。

技术领域

本发明涉及数据处理技术领域,特别涉及基于公共字段编码的数据融合方法及系统。

背景技术

大数据分析中,越来越多的场景是联合分析,即两个以上的数据分析参与者们,各自拥有自己的数据,但是各自的数据并不能建立比较全面的分析;必须将多方数据融合起来,才能建立起准确的分析。

数据的高效融合成了大数据技术中需要解决的难题。给实体赋ID是解决数据融合的技术途径之一。但是由于不同数据持有者之间由于数据格式字段等不同,往往采取了不同的实体ID产生机制,且出于数据的安全性等方面的考虑,ID的产生方法在不断变化中。

自然状态下重名的实体很多,尤其是自然人,在没有身份证信息的情况下,和实体对齐的前置条件下如果ID不同,则不能判断同名实体为同一实体,因此也不能进行数据融合,为数据的融合和联合分析造成重大的障碍。导致不同数据持有者之间的数据融合和联合分析的困难。

目前申请人已有提出解决不同数据持有者之间的数据融方案,比如通过共同字段编码,可以实现不同数据持有者之间的唯一ID一致性(专利:2020103092316);但是也存在一些问题,比如,不同数据持有者之间的共同拥有同一实体的数据可能不一致;或者在进行数据更新时,实体相关的信息发生变化等,相对固化的编码及融合方式可能带来数据持有者产生出不同实体ID的风险,进而不能很好的进行数据融合。

发明内容

本发明的目的提供基于公共字段编码的数据融合方法及系统,在不同数据持有者之间实现实体ID的唯一性,并且在数据更新,或者有新增数据时,能够及时更新实体的实体ID,实现实体ID的动态构建,并有效保证数据融合和更新。

基于公共字段编码的数据融合方法,所述方法包含以下实现步骤:

获取第一数据和第二数据的公共字段,所述公共字段包含第一字段和第二字段;

对第一数据和第二数据分别进行处理,将第一数据和第二数据中属于同一实体的数据编入一个数据组;

对数据组中的各条数据,使用包含第一字段和第二字段的信息来编码;

对第一数据和第二数据获得的编码求交集,进行第一数据和第二数据的实体对齐;

将具有交集的第一数据和第二数据的数据组合并,得到融合后的数据组;

对数据组内的编码进行排序,选出一个编码作为对应数据组的组编码;

将所述组编码赋予到组内的各条数据中,作为对应实体的ID;完成数据融合并实现了同一实体的唯一ID编码。

作为一种优选,所述步骤将具有交集的第一数据和第二数据的数据组合并,得到融合后的数据组中还包含,将数据组内具有相同编码的数据进行融合的步骤。

所述融合步骤为获取相同编码的实体对应的数据,将具有相同编码的实体数据合并成一条数据记录。

作为一种优选,所述步骤获取第一数据和第二数据的公共字段,所述公共字段包含第一字段和第二字段中,第一字段为实体名。

作为一种优选,所述步骤对数据组中的各条数据,使用包含第一字段和第二字段的信息来编码;编码算法为hash算法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都数联铭品科技有限公司,未经成都数联铭品科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010331432.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top