[发明专利]关系三元组的提取方法、装置、设备及介质在审
申请号: | 202110272414.X | 申请日: | 2021-03-12 |
公开(公告)号: | CN112989788A | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 王健宗;吴天博;程宁;李泽远 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/279;G06F16/36;G06N3/04;G06N3/08 |
代理公司: | 深圳市明日今典知识产权代理事务所(普通合伙) 44343 | 代理人: | 王杰辉;曹勇 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关系 三元 提取 方法 装置 设备 介质 | ||
本申请涉及人工智能技术领域,揭示了一种关系三元组的提取方法、装置、设备及介质,其中方法包括:获取待分析的文本数据;将所述待分析的文本数据输入目标关系三元组提取模型进行关系三元组预测,所述目标关系三元组提取模型是基于编码模型、级联解码器训练得到的模型;根据所述目标关系三元组提取模型输出的关系三元组预测结果,得到所述待分析的文本数据对应的目标关系三元组集合。从而实现了先通过所述目标关系三元组提取模型的编码模型确定所有实体,然后通过所述目标关系三元组提取模型的级联解码器确定所有实体在所有关系下可能的关系三元组,解决重叠实体的关系提取,提升了提取到的关系三元组的完整性和准确性。
技术领域
本申请涉及到人工智能技术领域,特别是涉及到一种关系三元组的提取方法、装置、设备及介质。
背景技术
关系事实是知识图谱的重要组成部分,其中大部分由语义关系连接的两个实体组成。这些关系事实以(subject头主体、relation关系、object尾客体)的形式出现,被称为关系三元组。从自然语言文本中提取关系三元组是构建大规模知识图谱的关键步骤。
现有技术采用Seq2Seq模型和基于图卷积网络的GCNS模型提取关系三元组,没有很好的解决重叠实体的关系提取,导致提取到的关系三元组是不完整和不准确的。
发明内容
本申请的主要目的为提供一种关系三元组的提取方法、装置、设备及介质,旨在解决现有技术采用Seq2Seq模型和基于图卷积网络的GCNS模型提取关系三元组,没有很好的解决重叠实体的关系提取,导致提取到的关系三元组是不完整和不准确的技术问题。
为了实现上述发明目的,本申请提出一种关系三元组的提取方法,所述方法包括:
获取待分析的文本数据;
将所述待分析的文本数据输入目标关系三元组提取模型进行关系三元组预测,所述目标关系三元组提取模型是基于编码模型、级联解码器训练得到的模型;
根据所述目标关系三元组提取模型输出的关系三元组预测结果,得到所述待分析的文本数据对应的目标关系三元组集合。
进一步的,所述将所述待分析的文本数据输入目标关系三元组提取模型进行关系三元组提取的步骤之前,还包括:
获取多个训练样本和预设关系集合,所述训练样本包括:文本样本数据、关系三元组标定数据;
从所述多个训练样本中提取一个所述训练样本作为目标训练样本;
将所述目标训练样本的所述文本样本数据输入待训练的关系三元组提取模型的所述编码模型进行编码,得到所述目标训练样本对应的目标文本编码向量;
通过所述待训练的关系三元组提取模型的所述级联解码器对所述目标文本编码向量的每个编码向量进行实体开始位置概率和实体结束位置概率的计算,得到所述目标训练样本对应的实体开始位置概率序列和实体结束位置概率序列;
通过所述待训练的关系三元组提取模型的所述级联解码器,根据所述目标训练样本对应的所述实体开始位置概率序列和所述实体结束位置概率序列进行实体识别,得到所述目标训练样本对应的待分析的实体集合;
通过所述待训练的关系三元组提取模型的所述级联解码器,针对所述目标训练样本对应的所述待分析的实体集合中的每个实体,根据所述目标文本编码向量,计算每个所述实体在所述预设关系集合中的每个关系下的尾实体开始位置概率序列和尾实体结束位置概率序列,得到所述目标训练样本对应的各个实体各自对应的尾实体开始位置概率序列集合和尾实体结束位置概率序列集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110272414.X/2.html,转载请声明来源钻瓜专利网。