[发明专利]一种实体关系联合抽取方法在审
| 申请号: | 201911063750.2 | 申请日: | 2019-11-04 |
| 公开(公告)号: | CN110781683A | 公开(公告)日: | 2020-02-11 |
| 发明(设计)人: | 冯钧;杭婷婷;李晓东;陆佳民;严乐;朱跃龙 | 申请(专利权)人: | 河海大学 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/211;G06N3/04;G06N3/08 |
| 代理公司: | 32224 南京纵横知识产权代理有限公司 | 代理人: | 杨静 |
| 地址: | 210098 *** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 标签标注 抽取 三元组 句子 非结构化数据 注意力机制 句子输入 实体关系 信息抽取 有效工具 对齐 训练集 联合 准确率 构建 语料 去除 校正 标签 复合 研究 | ||
本发明公开了一种基于多标签标注和复合注意力机制的实体关系联合抽取方法,包括以下步骤:收集用于研究的语料数据,然后去除关系标签为None的句子,对剩余的句子进行多标签标注,形成训练集;将经过多标签标注的句子输入到联合抽取模型中,通过所述联合抽取模型来识别句子中所包含的实体以及实体之间的关系,构建三元组;利用关系对齐模型对抽取出来的三元组进行校正,以适应(头实体E1,尾实体E2)实体对的多标签标注。本发明的效果为:能够有效的提高三元组抽取的准确率,是针对非结构化数据进行信息抽取的有效工具。
技术领域
本发明涉及信息抽取和自然语言处理技术领域,具体涉及一种实体关系联合抽取方法。
背景技术
随着互联网技术的快速发展,人们需要处理的数据量激增,如何快速高效地从这些开放领域的文本中抽取出实体及实体之间的关系信息,成为迫切需要解决的重要问题。实体关系抽取是针对非结构化数据进行信息抽取的一项核心任务,其主要目标是从文本中同时检测实体并识别实体对间的语义关系,被广泛应用在知识图谱构建、信息检索、对话生成和问答系统等方面。目前实体关系抽取一般采用流水线方法和联合学习方法两个框架。传统的抽取任务通常采用“流水线”方式,先提取实体,然后识别实体之间的关系。“流水线”方式处理起来非常方便,但却忽略两个子任务的相关性,会产生一些错误的叠加。不同于上述的“流水线”方法,联合抽取模型在进行实体抽取的同时,能够从文本中提取出实体之间的关系,避免流水线方法造成的错误积累。但是,现有的联合学习方法依然存在无法识别重叠关系、无法学习到句子中更丰富的上下文信息、未对抽取结果进行校正等问题,从而导致三元组抽取准确率不高。目前主要的挑战是如何提升三元组抽取的准确率,这些问题的解决很大程度上取决于数据标注的质量、模型本身的性能和抽取结果的校正三个方面。
在数据标注方面,标注粒度逐渐细化,从早期的IO标注体系,到BIO标注体系,再到最近提出的BIOES标注体系,(其中B表示该单词位于实体起始位置,I表示该单词位于实体中间位置,E表示该单词位于实体末端位置,S表示该单词是一个实体,O表示非实体);上述这些标注体系包含实体信息及实体之间的关系信息。基于这些标注方案,然后使用联合抽取模型来实现联合抽取任务。然而大多数现有的标注方法都是基于单标签标注,在重叠关系的识别上存在着一些缺陷,忽视一个单词有多个标签及一个单词可以出现在多个三元组结果中的问题。
在数据标注的基础上,需要叠加联合抽取模型来完成联合抽取任务。目前存在的联合抽取模型大多数是基于特征的,严重依赖于复杂的特征,而且难以利用全局的特征。为了自动学习全局特征,目前业界普遍采用基于编码-解码(Encoder-Decoder)框架的端到端模型,在联合抽取任务上取得更好的实验结果。然而,该体系结构存在一个问题,编码器采用固定窗口的上下文向量进行内部表示,无法获得更丰富的上下文信息,因此在长输入或输出序列上的性能较差。
在抽取结果的校正方面,如果只在训练集上考虑到重叠关系的标注,对抽取结果未考虑到重叠关系的识别,也会导致三元组抽取准确率降低。比如在进行数据标注的时候,实体对之间存在多种关系,如果抽取模型预测实体对之间只有一个单一关系的结果,会带来实体对在多关系分类的预测损失。
针对上述问题,需要提出了一个新的抽取模型来提取实体及实体之间的关系,是信息抽取领域的必要措施。
发明内容
针对现有联合学习方法存在的无法识别重叠关系,无法学习到句子中更丰富的上下文信息,抽取结果未进行校正等问题,本发明的目的在于提出一种基于多标签标注和复合注意力机制的实体关系联合抽取方法,能够实现对三元组的直接建模,避免分别提取实体及实体之间关系所造成的错误积累问题,是信息抽取和自然语言处理的有效工具。
为了实现上述目的,本发明是通过如下的技术方案来实现:
一种实体关系联合抽取方法,包括以下步骤:
对待处理语料数据进行多标签标注;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911063750.2/2.html,转载请声明来源钻瓜专利网。





