[发明专利]一种面向小规模知识图谱的链接预测方法有效
申请号: | 202110430242.4 | 申请日: | 2021-04-21 |
公开(公告)号: | CN113051904B | 公开(公告)日: | 2022-11-18 |
发明(设计)人: | 周德宇;袁佳乐 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F16/28;G06F16/35;G06F16/36;G06N3/04;G06N3/08 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 张天哲 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 小规模 知识 图谱 链接 预测 方法 | ||
本发明公开了一种面向小规模知识图谱的链接预测方法,包括步骤:构造正负样例三元组;拼接三元组中实体、关系,将三元组转换为文本;使用BERT特征编码器编码该文本,获得文本中单词特征向量表示;采用多任务学习机制,分别构造句子级别特征、实体级别特征、三元组级别特征完成链接预测、关系分类、相关性排序的多任务学习。本发明实现小规模知识图谱的链接预测方法,将图谱中三元组转变为文本形式,学习图谱中文本语义信息,完成小规模知识图谱的链接预测任务;在三元组拼接文本中增加实体标识符,扩充BERT模型字典,捕获文本中实体特征;采用多任务学习机制完成链接预测、关系分类、相关性排序三种关联任务,进而提升链接预测任务效果。
技术领域
本发明涉及一种面向小规模知识图谱的链接预测方法,属于信息处理技术领域。
背景技术
知识图谱中普遍存在不完整性、稀疏性问题,图谱中有大量的还未被挖掘的隐含关系,远远未包含所有知识,需要知识图谱的补全任务进行知识图谱的完善。链接预测任务是指依据三元组中已有头实体及关系h,r,?或尾实体及关系?,r,t来预测对应的尾实体t或头实体h,从而补全知识图谱中的三元组。传统的链接预测任务从图谱的结构信息角度出发,采用翻译的模式建模图谱中头实体h与尾实体t之间的变换关系,需要大量的三元组支持,同时完全忽略了图谱中实体、关系所包含的文本语义信息。
本发明提出一种面向小规模知识图谱的链接预测方法,将三元组转换为文本形式数据,完成链接预测任务,解决小规模知识图谱的补全问题。本方法所面向的小规模知识图谱存在规模小的特点,图谱中实体节点、关系链接信息少,导致图谱中存在极少量三元组,而基于翻译模式的链接预测方法需要大量三元组来学习图谱的结构信息,无法完成小规模知识图谱的链接预测任务。本发明实现小规模知识图谱的链接预测任务,从文本角度出发,学习知识图谱中的文本语义信息,将三元组转换为文本形式数据,依据三元组文本进行图谱的链接预测任务,引入预训练语言模型中包含的先验知识,丰富三元组中的文本语义特征,将链接预测任务转换为判断三元组文本为正负样本的二分类任务,学习到小规模知识图谱中的文本语义信息,有效地实现小规模知识图谱的链接预测任务。
发明内容
本发明提供了一种面向小规模知识图谱的链接预测方法,从文本角度出发,将图谱中三元组转换为文本句子,学习图谱中文本语义信息,解决传统链接预测方法无法建模极少量三元组的问题;增加实体标识符到BERT模型字典中,突出三元组中实体重要性,学习到三元组文本中实体特征;分别构造实体级别、句子级别、三元组级别特征实现关系分类任务、链接预测任务、三元组相关性排序任务,有效地解决图谱链接预测任务。
为实现上述目的,本发明采用的技术方案如下:
一种面向小规模知识图谱的链接预测方法,包括以下步骤:
(1)依据小规模知识图谱构造正负样例三元组,知识图谱中存在的三元组为正样例,随机替换正样例三元组中头实体或尾实体构成新的三元组,保证新三元组不存在于知识图谱中,即为负样例;
(2)拼接三元组数据,将三元组头实体,关系,尾实体转换为文本形式,拼接头实体、关系、尾实体单词为文本,增加实体标识符到文本中,获得拼接后文本其中标识符[E1]\[/E1]、[E2]\[/E2]分别表示头实体与尾实体开始\结束标识符,[CLS]、[SEP]表示文本的开始与结束标识符,表示头实体单词,表示关系单词,表示尾实体单词;
(2)使用BERT特征编码器(Bidirectional Encoder Representations fromTransformers,BERT)编码三元组拼接后的文本,获得文本单词向量序列编码实体、关系文本中语义信息;
(3)使用BERT特征编码器(Bidirectional Encoder Representations fromTransformers,BERT)编码三元组拼接后的文本,获得文本单词向量序列编码实体、关系文本中语义信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110430242.4/2.html,转载请声明来源钻瓜专利网。