[发明专利]一种知识图谱嵌入模型的训练方法、系统和电子设备有效
申请号: | 202011040457.7 | 申请日: | 2020-09-28 |
公开(公告)号: | CN112182245B | 公开(公告)日: | 2022-11-29 |
发明(设计)人: | 黄庆明;曹宗胜;许倩倩;杨智勇;操晓春 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F16/36 | 分类号: | G06F16/36 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 知识 图谱 嵌入 模型 训练 方法 系统 电子设备 | ||
1.一种基于知识图谱嵌入模型的检索方法,其特征在于,包括:
B1、获取用户输入的两个检索元素用于知识检索,所述两个检索元素为实体和关系,或者,实体和实体,
B2、将实体集或者关系集中的各元素分别作为补全元素与所述两个检索元素组成不同的三元组,以及将不同的三元组中的实体和关系用训练得到的实体嵌入和关系嵌入进行表示,得到不同的待验证三元组,
B3、用所述知识图谱嵌入模型分别对不同的待验证三元组进行处理,得到不同的待验证三元组的嵌入向量,
B4、利用预设的打分函数分别对不同的待验证三元组的嵌入向量进行打分,得到不同的待验证三元组的分值,
B5、输出分值最高的待验证三元组中的补全元素作为知识检索的结果;
其中,所述知识图谱嵌入模型按照以下方式训练得到:
A1、用对偶四元数构建知识图谱嵌入模型的嵌入空间,通过对偶四元数将知识图谱中的关系建模为嵌入空间中的旋转和平移,
A2、从预设知识图谱中的正样本中进行负采样以生成负样本,
A3、对正样本和负样本进行初始化,得到包含以初始嵌入向量表示的正样本和负样本的训练集,
A4、利用所述训练集对所述知识图谱嵌入模型进行迭代训练至收敛。
2.根据权利要求1所述的方法,其特征在于,步骤A1包括:在嵌入空间中,通过对偶四元数矩阵表示知识图谱中实体对应的实体嵌入,以及通过对偶四元数矩阵表示知识图谱中关系对应的关系嵌入。
3.根据权利要求1所述的方法,其特征在于,所述预设知识图谱包括正样本,每个正样本包括头部实体、关系和尾部实体,所述步骤A2按照以下方式进行负采样以使负样本的数量达到所需规模:
A21、从实体集中随机选择与正样本中待替换实体彼此不同的代用实体,所述待替换实体是头部实体或者尾部实体;
A22、用代用实体替换该正样本的待替换实体形成一个负样本。
4.根据权利要求3所述的方法,其特征在于,所述步骤A3包括:
A31、对预设知识图谱中的各个实体和关系进行初始化,得到归一化的对偶四元数表示的初始的实体嵌入和关系嵌入;
A32、将正样本和负样本中的头部实体、关系和尾部实体替换对应的初始的实体嵌入和关系嵌入。
5.根据权利要求1所述的方法,其特征在于,所述步骤A4按照以下方式对知识图谱嵌入模型进行迭代训练至收敛:
A41、获取最新的实体嵌入和关系嵌入并对最新的关系嵌入进行单位化,用于最新的实体嵌入和以单位对偶四元数表示的关系嵌入更新正样本和负样本中的实体和关系的嵌入向量;
A42、用知识图谱嵌入模型分别对正样本和负样本进行处理,得到正样本的嵌入向量以及负样本的嵌入向量;
A43、利用预设的打分函数分别对正样本和负样本的嵌入向量进行打分,得到正样本的分值和负样本的分值;
A44、利用损失函数根据正样本的分值和负样本的分值计算损失值;
A45、根据损失值对知识图谱嵌入模型中的参数进行调整,更新各个实体嵌入和关系嵌入。
6.根据权利要求5所述的方法,其特征在于,所述打分函数分别用正样本、负样本中经过旋转和平移后的头实体与尾实体的对偶四元数的内积作为对应正样本、负样本的分值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011040457.7/1.html,转载请声明来源钻瓜专利网。