[发明专利]一种知识图谱三元组的质检方法在审

专利信息
申请号: 202110142051.8 申请日: 2021-02-02
公开(公告)号: CN112819162A 公开(公告)日: 2021-05-18
发明(设计)人: 王斌;李雨繁;赵元;杨晓春 申请(专利权)人: 东北大学
主分类号: G06N5/02 分类号: G06N5/02;G06N3/04;G06N3/08
代理公司: 沈阳东大知识产权代理有限公司 21109 代理人: 梁焱
地址: 110819 辽宁*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 知识 图谱 三元 质检 方法
【权利要求书】:

1.一种知识图谱三元组的质检方法,其特征在于,包括如下步骤:

步骤1:获取现有知识图谱三元组数据集;

步骤2:对步骤1获取的知识图谱三元组数据集进行预处理,将该数据集中的部分三元组处理成噪声三元组,得到由正确三元组和噪声三元组组成的预处理知识图谱三元组数据集;

步骤3:从预处理知识图谱三元组数据集中提取部分噪声三元组和正确三元组进行标注区分后构成训练数据集;根据预处理知识图谱三元组数据集中的数据构建有向图以及每个实体节点的有向子图;利用知识表示模型TransE求解预处理知识图谱三元组数据集内每个实体和关系的嵌入向量,从而得到每一三元组的知识表示向量;

步骤4:根据有向子图求解数据集中每一三元组的实体级特征;根据知识表示向量求解出训练数据集中每一三元组的全局特征;根据有向子图和知识表示向量求解训练数据集里每一三元组的路径级特征;利用Bert编码器求解训练数据集中每一三元组的语义级特征;

步骤5:将训练数据集中每一三元组的实体级特征、全局特征、路径级特征以及语义级特征均输入二分类器,对二分类器进行训练,得到训练好的二分类器;

步骤6:对于任一从步骤1获取的现有知识图谱三元组数据集中给定的三元组或者部分三元组数据集,根据步骤3的结果和步骤4的方法得到每一三元组的实体级特征、全局特征、路径级特征和语义级特征,把它们均输入训练好的二分类器,得到每一给定三元组的置信度。

2.根据权利要求1所述的知识图谱三元组的质检方法,其特征在于,步骤3中所述的根据预处理知识图谱三元组数据集中的数据构建有向图以及每个实体节点的有向子图的方法为:首先读取预处理知识图谱三元组数据集内的所有三元组;然后为三元组中的实体和关系进行编号;再然后以三元组内的每个实体对应的实体编号为中心节点,所有到中心节点的距离小于距离阈值的实体节点对应的实体编号构成有向图;又然后计算有向图中边的权重;最后利用pygraph包将节点和节点间的权重保存成有向图,有向图里的节点存储的是实体编号,并根据构建的有向图得到每个节点的子图,且将所构建的子图保存起来。

3.根据权利要求1所述的知识图谱三元组的质检方法,其特征在于,步骤4中所述根据有向子图求解数据集中每一三元组的实体级特征的方法为:加载预处理知识图谱三元组数据集内的所有三元组,并加载以每个三元组的头实体为中心节点的有向子图,利用PCRA求解各子图内其余节点从中心节点分配到的资源数量,进而得到尾实体从头实体分配到的资源数量,从而得到预处理知识图谱三元组数据集内每一三元组的实体级特征。

4.根据权利要求3所述的知识图谱三元组的质检方法,其特征在于,在所述PCRA中引入参数α来表示每一次资源流动时会有一部分资源分配到子图外的实体节点上:

其中Rh(m)代表在头实体h的子图中节点m具有的资源;Si-1(·,m)表示节点m的入射节点的集合;|Si(n,·)|代表节点n的出度个数;Rh(n)代表在头实体h的子图中节点n具有的资源;α代表资源流入子图外的实体节点的概率;sum(entity)代表预处理知识图谱三元组数据集内总实体的个数。

5.根据权利要求1所述的知识图谱三元组的质检方法,其特征在于,步骤4所述的根据知识表示向量求解出训练数据集中每一三元组的全局特征,包括如下步骤:

步骤4.2.1:根据关系对训练数据集中的三元组进行分类,并根据知识表示向量求解出每一类三元组所对应关系的代表势能值;

步骤4.2.2:将训练数据集里的每个三元组的势能值和每个三元组里的关系的代表势能值输入改进的SIGMOD激活函数,得到每个三元组正确的概率,并将其作为每个三元组的全局特征。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110142051.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top