[发明专利]一种实体关系抽取方法及装置在审
申请号: | 201911179314.1 | 申请日: | 2019-11-27 |
公开(公告)号: | CN111008279A | 公开(公告)日: | 2020-04-14 |
发明(设计)人: | 曾祥荣 | 申请(专利权)人: | 云知声智能科技股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/953;G06K9/62 |
代理公司: | 北京冠和权律师事务所 11399 | 代理人: | 张楠楠 |
地址: | 100000 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实体 关系 抽取 方法 装置 | ||
本发明提供了一种实体关系抽取方法,包括:将预处理的词序列信息输入神经网络;对所述预处理的词序列信息进行编码,得到输入词序列信息的编码表示;对所述输入词序列信息的编码表示利用拷贝机制进行解码,得到三元组;抽取所有关系三元组,并在预设时刻结束。采用本发明所公开的方案,能够解决实体关系抽取中实体重叠的问题。
技术领域
本发明涉及信息处理技术领域,特别涉及一种实体关系抽取方法及装置。
背景技术
随着互联网技术的快速发展,信息呈爆炸式增长,如何准确高效地从这些文本中抽取出有效信息成为一个亟需解决的需求,现有的基于神经网络的实体关系抽取方法主要由以下步骤构成:首先是对文本进行标注,给其中的每个词标记上一个预先定义好的标签;然后构建神经网络模型,使其对输入的每个词预测一个标签,使用标注好的数据对模型进行训练;最后使用训练好的神经网络对输入句子的每个词进行标签预测,并根据每个词的标签来搜集关系三元组。
现有的方法是基于序列标注实现的,每个词只能被标记一个标签,不能参与多个关系的三元组,因而无法解决实体重叠问题。
发明内容
本发明提供一种实体关系抽取方法及装置,用以解决实体关系抽取时的实体重叠问题。
本发明提供一种实体关系抽取方法,包括:
将预处理的词序列信息输入神经网络;
对所述预处理的词序列信息进行编码,得到输入词序列信息的编码表示;
对所述输入词序列信息的编码表示利用拷贝机制进行解码,得到三元组;
抽取所有关系三元组,并在预设时刻结束。
上述技术方案的有益效果为:通过融合拷贝机制,采用生成的方式获取出入词序列中的关系三元组,输入词序列中的词可以被拷贝多次,因而一个词可以参与多个关系三元组,从而解决了实体关系抽取中实体重叠的问题。
具体的,所述得到输入词序列信息的编码表示,包括:
对输入词序列进行定义;
对所述输入词序列进行词向量预处理,得到词向量矩阵;
对所述词向量矩阵中的词向量进行计算,得到所述输入词序列信息的编码表示。
具体的,所述利用拷贝机制进行解码,得到三元组,包括:
定义解码器的解码时刻;
通过计算,得到解码器在解码时刻的输出向量和隐状态;
对所述输出向量进行分类操作,得到所述三元组中的两个相关实体的关系以及两个相关实体。
具体的,所述得到所述三元组中的两个相关实体的关系以及两个相关实体,包括:
对输出向量进行分类操作,得到预测的关系;
对所述输入词序列中的第一目标词进行复制,得到第一目标词的复制对象,将第一目标词的复制对象作为第一个实体;
对所述输入词序列中的第二目标词进行复制,得到第二目标词的复制对象,将第二目标词的复制对象作为第二个实体。
具体的,所述抽取所有关系三元组,并在预设时间结束,包括:
解码时刻小于所述预设时刻,继续抽取三元组;
解码时刻等于所述预设时刻,结束抽取,解码器生成的输出序列按顺序每三个元素为一个关系三元组。
本发明提供一种实体关系抽取装置,包括:
输入模块,用于将预处理的词序列信息输入神经网络;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云知声智能科技股份有限公司,未经云知声智能科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911179314.1/2.html,转载请声明来源钻瓜专利网。