[发明专利]一种面向小规模知识图谱的链接预测方法有效
申请号: | 202110430242.4 | 申请日: | 2021-04-21 |
公开(公告)号: | CN113051904B | 公开(公告)日: | 2022-11-18 |
发明(设计)人: | 周德宇;袁佳乐 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F16/28;G06F16/35;G06F16/36;G06N3/04;G06N3/08 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 张天哲 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 小规模 知识 图谱 链接 预测 方法 | ||
1.一种面向小规模知识图谱的链接预测方法,其特征在于,包括如下步骤:
(1)依据小规模知识图谱构造正负样例三元组,知识图谱中存在的三元组为正样例,随机替换正样例三元组中头实体或尾实体构成新的三元组,保证新三元组不存在于知识图谱中,即为负样例;
(2)拼接三元组数据,将三元组头实体,关系,尾实体转换为文本形式,拼接头实体、关系、尾实体单词为文本,增加实体标识符到文本中,获得拼接后文本
其中标识符[E1]\[/E1]、[E2]\[/E2]分别表示头实体与尾实体开始\结束标识符,[CLS]、[SEP]表示文本的开始与结束标识符,表示头实体单词,表示关系单词,表示尾实体单词;
(3)使用BERT特征编码器编码三元组拼接后的文本,获得文本单词向量序列
编码实体、关系文本中语义信息;
(4)基于正样例三元组拼接不包含关系的文本单词向量序列构造实体级别特征,进行关系分类任务,使用实体标识符[E1]、[E2]编码后的向量T[E1]、T[E2]表示头实体与尾实体,拼接两者向量表示T[E1],T[E2]构建实体级别特征ventity=[T[E1];T[E2]],[;]表示向量拼接操作;使用特征ventity进行关系K分类,预测ventity在K种关系下的概率值,使用交叉熵损失函数计算预测概率与真实标签之间损失;
(5)基于正负样例三元组拼接文本单词向量序列
构造句子级别特征,判断三元组文本为正样例或是负样例,进行链接预测任务,三元组被处理成文本句子形式,链接预测任务转换成对文本为正样例或负样例判断的二分类任务,使用标识符[CLS]编码后的向量T[CLS]表示三元组拼接后文本句子向量,T[CLS]编码了三元组文本句子中语义信息,句子级别特征Vtext=T[CLS];使用Vtext进行正负样例二分类,计算Vtext在两种类别下的概率值,使用交叉熵损失函数计算预测概率与真实标签之间损失;
(6)基于正负样例三元组拼接文本单词向量序列
构造三元组级别特征,进行正负样例三元组的对比,实现三元组相关性排序任务,使用三元组中头实体、尾实体向量拼接vtriple=[T[E1];T[E2]]表示三元组级别特征,正样例表示为vtriple、负样例表示为v′triple,其中正样例是指图谱中真实存在的三元组,负样例是指正样例三元组的头实体或尾实体被随机替换其它实体,并且图谱中不存在该三元组;使用vtriple向量计算正样例三元组得分prr∈[0,1],使用v′triple向量计算负样例三元组得分p′rr∈[0,1],使用最大间隔排序损失函数约束正负样例三元组得分,使得prr得分大于p′rr。
2.依据权利要求1所述的一种面向小规模知识图谱的链接预测方法,其特征在于:所述步骤(2)中拼接三元组数据,将正负样例三元组形式数据转化为文本形式,增加开始标识符[CLS]、结束标识符[SEP]到文本开始端与结束端,扩大BERT模型字典,增加头实体开始标识符[E1]、头实体结束标识符[/E1]、尾实体开始标识符[E2]、尾实体结束标识符[/E2]到文本中,获得拼接后文本其中表示头实体中单词,表示关系中单词,表示尾实体中单词,当进行关系分类任务时,关系中单词不进行拼接。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110430242.4/1.html,转载请声明来源钻瓜专利网。