[发明专利]一种多源主附实体同一性甄别及数据自补的处理方法有效
申请号: | 202210592302.7 | 申请日: | 2022-05-27 |
公开(公告)号: | CN114969041B | 公开(公告)日: | 2023-06-30 |
发明(设计)人: | 吴峰;张朝宗;李银生;王红;聂永川;任雁;毋鹏杰;杨扬;刘淼;张义倩 | 申请(专利权)人: | 河北省科学技术情报研究院(河北省科技创新战略研究院) |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/25;G06F16/28 |
代理公司: | 石家庄中和昇知识产权代理事务所(特殊普通合伙) 13145 | 代理人: | 付会平 |
地址: | 050051 *** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 多源主附 实体 同一性 甄别 数据 处理 方法 | ||
本发明公开了一种多源主附实体同一性甄别及数据自补的处理方法,应用于大数据处理领域中,提出按主附实体剥离多源数据实体,按照同场景、实体属性分类和权值等进行同一实体甄别,并针对甄别概率进行分别处理和存储。本发明通过主实体与附属实体同一性概率计算、同一实体的指标补充与数据合并、实体名录项提取与存储、实体子名录项分离等技术方法,系统性解决了主附实体按同一性概率分别处理与归集、跨源实体合并与数据补充、实体关系统一存储、实体按需分离等问题,为进行多源、大规模数据关联运算提供了可行性的解决方案。
技术领域
本发明涉及大数据应用技术领域,特别是一种多源主附实体同一性甄别及数据自补的处理方法。
背景技术
现有处理多源数据的实体识别、提取与存储的方法,通常为按源或类型归集,依据数据的实体属性逐一进行匹配和识别,由于缺少实体题录项、同场景、实体属性分类及权值等判别机制,导致数据冗余、表达不统一、匹配准确度不高、执行效率低、识别过程信息丢失等,主要体现在以下几个方面:
1)数据冗余,无法统一表达。现有技术在归集异源数据的实体时,通常采用按源或类型归集,由于其数据内部表征实体的指标多样,往往导致归集的实体数据指标不一致,无法统一存储、标准表达以及对外提供服务。
2)实体匹配准确度不高。现有针对实体的识别技术,通常依据数据的实体属性进行匹配和识别,由于受实体属性多样、数据量庞大等因素制约,普遍存在匹配度低、精度不高等问题。
3)实体识别的执行效率不高。现有技术通常按照实体的属性顺序,依次判别实体,由于缺乏针对实体属性的分类定义、权重赋值等,往往导致实体识别计算时间长、属性先后矛盾等问题。
4)实体相对静止,数据质量无法提高。现有技术在识别、抽取实体时,通常采用直接分离的方式,属性扩展有限,没有或很少依据数据之间的隐含属性进行数据的相互校正、补充与扩展,无法实现数据自我完善,也无法有效保证数据质量。
5)识别过程信息丢失。现有技术在识别实体时,通常只记录识别成功的同一实体属性信息,很少记录识别实体过程中的大概率事件,比如判别两个实体大概率为同一实体,但又不能完全判别为同一实体的情况,不利于数据关系的深度挖掘与分析。
发明内容
本发明提供一种多源主附实体同一性甄别及数据自补的处理方法,用于解决多源多期数据的主附实体同一性甄别、数据自动合并与增补等问题,为进行多源、大规模数据关联运算提供可行性的解决方案。
为解决上述技术问题,本发明所采取的技术方案如下。
一种多源主附实体同一性甄别及数据自补的处理方法,具体包括以下步骤:
A1.从源A的实体题录项数据库EFDB提取主实体题录项MEFS、附属实体题录项SEFS,从源A的实体应用场景数据库ESDB提取主实体M(M)与附属实体S(M)之间的应用场景ES,从实体静态数据库RSDB提取实体静态库相关实体信息,利用单源同一实体甄别及数据补充器,依据主实体、同场景信息,提取表征单源同一实体的信息,存入同一实体数据库SEDB,并进行数据补充;
A2.从实体静态数据库RSDB提取实体静态库相关实体信息,从源B的实体题录项数据库EFDB提取附属实体题录项SEFS,从源B的实体应用场景数据库ESDB提取主实体M(M)与附属实体S(M)之间的应用场景ES,从实体动态数据库RVDB提取动态库实体数据信息,从同一实体数据库SEDB提取同一实体数据信息,利用异源同一实体甄别器,依据规则,判别异源实体的同一性,提取表征异源同一实体的信息,传入异源实体数据增补器,同时存入主实体动态数据库RVDB;
A3.从实体动态数据库RVDB提取动态库实体数据信息,从同一实体数据库SEDB提取同一实体数据信息,从异源同一实体甄别器接收同一源同一实体的信息,利用异源实体数据增补器,依据时间最近原则,进行异源实体信息的增补,同时将异源实体增补信息,存入实体动态数据库RVDB;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河北省科学技术情报研究院(河北省科技创新战略研究院),未经河北省科学技术情报研究院(河北省科技创新战略研究院)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210592302.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种主题文化创意作品展示台
- 下一篇:一种电池健康状态测试系统