[发明专利]一种基于实体属性相似度的知识图谱数据融合方法有效

专利信息
申请号: 202111044230.4 申请日: 2021-09-07
公开(公告)号: CN113722509B 公开(公告)日: 2022-03-01
发明(设计)人: 张静;栾瑞鹏;胡军;王紫鹏 申请(专利权)人: 中国人民解放军32801部队
主分类号: G06F16/36 分类号: G06F16/36;G06F40/194;G06K9/62
代理公司: 北京丰浩知识产权代理事务所(普通合伙) 11781 代理人: 李学康
地址: 100085 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 实体 属性 相似 知识 图谱 数据 融合 方法
【说明书】:

发明公开了一种基于实体属性相似度的知识图谱数据融合方法,其具体包括:获取要进行融合的多个知识图谱数据;利用词向量余弦相似度对实体属性进行去重;对实体名称进行统一;对实体属性值进行简化;当实体属性值为数值属性值时,构建数值属性值的正则表达式,提取数值属性值的数值和单位信息;当实体属性值为文本属性值时,构建文本属性值的正则表达式,再提取文本属性值的实体型号和代号;针对不同的实体属性值类型,采用相应的相似度函数计算实体属性间相似度;对决策树模型进行训练,采用训练好的决策树模型作为匹配器模型,判断不同实体是否匹配。本发明解决了细分领域知识图谱融合难以进行实体特征相似度计算的问题,速度快且准确率高。

技术领域

本发明涉及人工智能和知识图谱技术领域,尤其涉及一种基于实体属性相似度的知识图谱数据融合方法。

背景技术

近年来,知识图谱作为一种结构化储存人类知识的方式,越发得到学术界和工业界的重视。在实际业务中,由于单个知识图谱往往规模较小,往往需要组合使用多个知识图谱。但是不同源的知识图谱往往具有重叠的知识,为了解决这个问题,研究者已经对知识图谱融合技术进行了大量研究,以求将不同知识图谱融合为一个统一、一致、简洁的形式。

知识图谱融合技术的第一步是预处理,包括数据清洗与后续步骤准备两方面。数据清洗是为了保证数据的质量;后续步骤准备包括配置准备和数据准备,前者是为了生成适合输入知识图谱的继承规则并计算出合适的(超)参数,后者则是采取分块(Blocking)技术提升融合效率。接下来的步骤是匹配,包括本体匹配(Ontology Matching)和实体对齐(Entity Alignment),其分别用于消除本体与实体层面的异构性。其中,本体匹配侧重于发现本体层面的相似与等价关系,实体对齐侧重于发现真实世界中相同对象的不同实例。其中,实体对齐是知识图谱融合的核心技术,最近几年已涌现了大批研究成果,目前主流的技术是基于实体特征相似度的实体对齐技术,这类方法基于实体属性的相似度对实体进行两两对齐,利用实体相似度评分将实体对齐问题转换成一个分类问题,即对于任意一个实体对,将其分为匹配、不匹配两类。

在传统概率模型的基础上,很多机器学习方法也被应用到实体对齐领域中,极大地提升了对齐的准确率。一些研究利用决策树、SVM、集成学习等机器学习方法改进传统的分类模型,另一些研究利用条件随机场等模型有监督的训练距离函数,使相似的实体聚集到一起,以改善分类的效果。

目前,基于实体特征相似度的实体对齐方法在通用知识图谱已经得到了广泛的应用。但是对于细分领域知识图谱融合任务,这些图谱数据少且没有统一的架构,因此往往具有异构性强,缺失值多的特点,不同图谱中的实体几乎没有完全对应的特征,很难直接对实体特征相似度进行计算。

发明内容

针对目前细分领域知识图谱融合难以进行实体特征相似度计算的问题,本发明公开了一种基于实体属性相似度的知识图谱数据融合方法,其具体包括:

S1,获取要进行融合的多个知识图谱数据;

从若干个网络数据源中利用网络爬虫技术爬取数据文件,并从中提取知识图谱数据,对提取的知识图谱数据,以实体、关系、实体及实体、属性、属性值的三元组形式进行储存,并将提取的知识图谱数据转化为实体-属性的结构化数据集D,即:

D={e1,e2,...eT},

上式中,e1,...eT分别表示结构化数据集D中所包含的T个实体数据,T为结构化数据集D中的实体数据的数量,分别代表第i个实体的n个属性值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军32801部队,未经中国人民解放军32801部队许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111044230.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top