[发明专利]一种基于知识图谱建立实体统一模型及实体统一方法在审

专利信息
申请号: 202110421927.2 申请日: 2021-04-20
公开(公告)号: CN113032582A 公开(公告)日: 2021-06-25
发明(设计)人: 朱安安;邱彦林;赵粉玉;俞一奇 申请(专利权)人: 杭州叙简科技股份有限公司
主分类号: G06F16/36 分类号: G06F16/36;G06F40/295;G06F40/30;G06N3/04;G06N3/08
代理公司: 杭州浙言专利代理事务所(普通合伙) 33370 代理人: 易朝晖
地址: 311121 浙江省杭州市余杭区*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 知识 图谱 建立 实体 统一 模型 方法
【说明书】:

发明公开了一种基于知识图谱建立实体统一模型的方法,所述方法包括:构建实体基于描述信息的第一训练数据和基于结构信息的第二训练;采用所述TransH模型分别获得所述头实体、关系以及尾实体的结构表示向量;采用BERT+Bi‑LSTM模型对所述头实体和所述尾实体的描述信息进行编码获得描述表示向量,其中,所述BERT+Bi‑LSTM模型后接CRF层对编码进行命名实体识别;将所述结构表示向量与所述描述表示向量结合进行三元组验证所述BERT+Bi‑LSTM模型训练;将训练完成的所述BERT+Bi‑LSTM模型作为实体统一模型。

技术领域

本申请涉及知识图谱领域,尤其涉及一种基于知识图谱建立实体统一模型及实体统一方法。

背景技术

知识图谱本质上是一种语义网络的知识库,是一种基于图的数据结构,由节点和边组成。近年来,面向特定领域知识图谱的构建也越来越受到关注。面向特定领域,基于行业数据及领域内专家提供的相关知识构建行业知识图谱,将不同种类的信息相连接得到一个实体之间的关系网络,为特定领域提供了从“关联关系”的角度去分析推理问题的方式。

目前,由于化工行业专业性较强,知识图谱在化工行业的应用还较为少见,化工行业知识图谱构建后,知识的补充主要依靠纯文本的信息抽取而产生。信息抽取出的实体需要经过实体统一等环节清洗掉错误和冗的数据。在以往的知识补充环节,实体统一往往依靠计算实体字符串之间的相似度,或将实体通过预训练模型、TF-IDF等模型转化为向量进行向量间的相似度计算,当相似度大于一定阈值时即判定为同一实体。但由于化工行业中化学物品、相关器械设备的名称较为相似,常用的实体统一方法并不能达到较好的效果。另外,知识图谱的构建过程中,往往需要采用知识表示模型将已有的实体、关系等信息转化为向量,方便后续进行链路预测、三元组的验证等工作。但常用的知识表示模型只能将已知的实体与关系转化为向量,难以扩展。通过信息抽取产生的新实体难以通过已有的知识表示模型转化为向量。鉴于此,需要一种或多种实体统一方法针对化工知识图谱这一特定情况改善知识表示模型的构建策略以及知识补充中实体统一的方法,将语义信息与图结构信息融合,以提高实体统一的准确率和知识表示的可扩展性。

发明内容

本申请要解决的技术问题,在于提供一种基于知识图谱建立实体统一模型及实体统一方法,以解决现有知识表示模型只能将已知的实体与关系转化为向量,而通过信息抽取产生的新实体难以通过已有的知识表示模型转化为向量的技术问题。

为实现上述目的,本申请采用下述技术方案:

第一方面,本申请提供一种基于知识图谱建立实体统一模型的方法,所述方法包括:

构建实体基于描述信息的第一训练数据和基于结构信息的第二训练数据,其中,所述描述信息包括描述语料和命名语料,所述描述语料通过知识图谱的结构化数据中获得,所述命名语料通过知识图谱的非结构化数据获得,所述结构信息通过翻译模型中的TransH模型进行所述实体的结构信息的表示获得,其中,所述实体以三元组数据的头实体、关系以及尾实体表示;

采用所述TransH模型分别获得所述头实体、关系以及尾实体的结构表示向量;

采用BERT+Bi-LSTM模型对所述头实体和所述尾实体的描述信息进行编码获得描述表示向量,其中,所述BERT+Bi-LSTM模型后接CRF层对编码进行命名实体识别;

将所述结构表示向量与所述描述表示向量结合进行三元组验证所述BERT+Bi-LSTM模型训练,其中,所述BERT+Bi-LSTM模型训练的损失函数为:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州叙简科技股份有限公司,未经杭州叙简科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110421927.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top