[发明专利]一种实体对象的动态多属性匹配方法有效
申请号: | 202110475662.4 | 申请日: | 2021-04-29 |
公开(公告)号: | CN113297213B | 公开(公告)日: | 2023-09-12 |
发明(设计)人: | 杨雄军;田群;宁希;吴元立;崔子腾;戴永恒 | 申请(专利权)人: | 军事科学院系统工程研究院网络信息研究所;电科云(北京)科技有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/28;G06F18/22;G06F18/214 |
代理公司: | 北京众元弘策知识产权代理事务所(普通合伙) 11462 | 代理人: | 宋磊 |
地址: | 100141 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实体 对象 动态 属性 匹配 方法 | ||
本发明属于计算机领域,特别是一种实体对象的动态多属性匹配方法。本发明在预处理阶段即实现字段类型的标记,利用字段标记进行相似性计算函数的选择,差异化、针对性的相似性计算函数能够大幅提升相似性计算过程的精度。本发明使用动态熵权法进行权重调整,实现复杂实体在属性缺失、属性增加变化的场景下的权重衡量的统一,不会因为实体属性的缺失、增加变化导致相似性计算函数出现较大范围的波动和偏差,并保留主要的属性特征。本发明采用三角形不等式进行二级分区索引。双索引结构能够在原有的分区索引结构上优化实体匹配的搜索空间,减少不必要的匹配过程,从而大幅度提高大规模数据场景下的实体对齐过程。
技术领域
本发明属于计算机领域,特别是一种实体对象的动态多属性匹配方法、平台和计算机可读存储介质,可应用于从大数据中进行实体对象的挖掘与提取过程,以及实现知识融合过程,实现知识图谱领域中的实体对象匹配对齐。
背景技术
传统的实体对齐需把来源不同的数据中相同实体实现一一映射,其中映射的依据主要依靠实体的多种不同的属性。实体对齐主要有两种技术路线,基于分库索引与相似度计算的传统路线,以及采用表示学习模型的图嵌入方法。
其中,采用传统的实体对齐方法关键在于分区索引技术与相似度计算函数,高效的分区索引技术是大规模知识库进行实体对齐的必要条件,而相似性计算函数则是对齐精度的保证。在属性对齐过程,不同的特征属性通常采用不同的相似性计算函数,这与自然语言处理领域相似性的判断截然不同,如物资规格的相似性计算通常需要涉及更为精确的业务规则。
采用表示学习模型的图嵌入实体对齐,在计算效率上通常具有更好的表现。知识表示学习通过将实体和关系映射到向量空间,简化了计算过程,同时相似性也可以通过损失函数等形式进行表示。但表示学习模型的实体对齐计算在大规模数据集以及高精度的实体对齐场景仍然面临巨大的挑战,如年龄、性别、喜好等具有特定领域特征的属性时,表示学习模型仍难以有效表达。
发明内容
本发明的目的在于从传统的实体对齐方法出发实现动态多属性匹配,以及在分区索引的基础上利用三角不等式关系减少实体对齐过程中的搜索空间,从相似性计算精度和分区索引效率两方面改进了现有的实体对齐方法,通过动态多属性匹配过程,使得实体对齐方法可以适应属性缺失、属性动态变化等复杂的应用场景。
为实现上述目的,本发明提供了一种实体对象的动态多属性匹配方法,包括步骤:
S1,对第一实体对象数据集进行归一化处理;
该步骤中,针对第一实体对象数据集,根据实体属性的类型进行归一化处理,所述实体属性的类型包括整型、浮点数型、布尔型、字符串型、日期型以及枚举型,所述归一化处理的规则具体是:
(1)如果实体属性的类型是枚举类型的数据,那么对第一实体对象数据集中包含该实体属性的实体对象进行一致性检查和校正处理;
(2)如果实体属性的类型是整型、浮点数型、布尔型、字符串型或日期型的数据,那么对第一实体对象数据集中包含该实体属性的实体对象进行剔除无效值和缺失值补全处理;
(3)对实体对象数据集中的实体属性打上标记,根据该标记查询就能找到该实体属性对应的预先设定的相似度计算函数S(a,b),k,其中,S(a,b),k表示实体对象a与实体对象b在第k个实体属性上的相似度;
S2,计算第一实体对象数据集中每个实体属性的信息熵,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于军事科学院系统工程研究院网络信息研究所;电科云(北京)科技有限公司,未经军事科学院系统工程研究院网络信息研究所;电科云(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110475662.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种紧缩场测量系统
- 下一篇:一种基于音圈元件的排气装置及方法