[发明专利]一种基于双层注意力机制与双向GRU的文本关系抽取方法有效
| 申请号: | 201910710075.1 | 申请日: | 2019-08-02 |
| 公开(公告)号: | CN110502749B | 公开(公告)日: | 2023-10-03 |
| 发明(设计)人: | 王鑫鹏;李晓冬;吴蔚;徐建平 | 申请(专利权)人: | 中国电子科技集团公司第二十八研究所 |
| 主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F16/35;G06N3/0464;G06N3/0442;G06N3/08 |
| 代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 向文 |
| 地址: | 210003 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 双层 注意力 机制 双向 gru 文本 关系 抽取 方法 | ||
本发明公开了一种基于双层注意力机制与双向GRU的文本关系抽取方法,包括如下步骤:对文本语料进行实体标注和关系标注;对标注数据进行预处理,生成实体抽取模型和关系抽取模型的训练集和测试集;构建关系抽取网络;分别进行实体抽取模型训练和关系抽取模型训练;将测试集数据首先输入实体抽取模型,得到实体识别结果;实体识别结果和测试集数据输入关系抽取模型,得到关系抽取结果。本发明利用实体位置信息和实体标签信息扩充字向量特征,实现文本信息的向量化,为关系识别提供更多的特征信息,提高了双向GRU模型输入信息与输出信息间的相关性,增强关键字对输出的影响力并提高抗噪声能力,并且能够有效地提高中文文本关系抽取的准确率。
技术领域
本发明涉及一种文本关系抽取方法,具体涉及一种基于双层注意力机制与双向GRU的文本关系抽取方法。
背景技术
随着信息技术飞速发展,信息量急速增长,怎样高效的从非结构化文本信息中提取出有效信息成为人们关注的热点。文本信息抽取包含实体抽取、关系抽取及事件抽取等。关系抽取是自然语言处理的基础任务之一,用于识别文本信息中存在的两个命名实体的相互关系。通过关系抽取可以形成实体1、关系、实体2的三元组结构。这对后续中文信息内容检索、知识图谱构建等应用具有重要作用。
关系抽取主要包括有监督的实体关系抽取方法、半监督的实体关系抽取方法、无监督的实体关系抽取方法:
无监督的实体关系抽取方法包括实体聚类和关系类型词选择两部分,但存在特征提取不准、聚类结果不合理、关系结果准确率较低等问题。
半监督的实体关系抽取方法,例如Bootstrapping,该方法从包含关系种子的文本中总结实体关系序列模式,然后以此去发现更多的关系种子实例。但存在迭代过程中混入噪声,造成语义漂移的问题。
有监督的实体关系抽取方法主要思想是在已标注的数据上面训练机器学习模型,对测试数据进行关系识别。有监督的实体关系抽取方法分为基于规则的关系抽取方法,基于特征的关系抽取方法。基于规则的关系抽取方法根据语料和领域通过总结归纳规则或模板,通过模板匹配进行实体关系抽取。此类方法在依赖于命名实体识别系统与距离计算等,容易增加额外的传播错误与耗时。
基于特征的关系抽取方法主要利用机器学习方法自动提取文本特征,不需要构建复杂的特征。Socher等提出了矩阵—递归神经网络模型MV-RNN,通过解析文本的句法结构实现实体关系识别,但其准确率通常受限于文本的句法分析准确率;Liu等利用卷积神经网络(CNN)实现关系抽取任务,但由于卷积神经网络无法长句进行建模,因而存在两个实体的远距离依赖问题。Xu等将LSTM(Long Short Term Memory)引入实体关系抽取任务重,以解决两个实体的远距离依赖问题,同时利用文本的词向量、词性标注、句法依存等信息学习实体之间的最短依存路径。然而,RNN、CNN和LSTM都无法充分利用文本信息的局部特征与全局特征。
发明内容
发明目的:为了克服现有技术中存在的不足,提供一种基于双层注意力机制与双向GRU的文本关系抽取方法,其能够有效地提高中文文本关系抽取准确率。
技术方案:为实现上述目的,本发明提供一种基于双层注意力机制与双向GRU的文本关系抽取方法(BiGRU-2ATT),包括如下步骤:
S1:对文本语料进行实体标注和关系标注;
S2:对标注数据进行预处理,生成实体抽取模型和关系抽取模型的训练集和测试集;
S3:构建BiGRU-2ATT关系抽取网络;
S4:分别进行Lattice LSTM实体抽取模型训练和BiGRU-2ATT关系抽取模型训练;
S5:将测试集数据首先输入Lattice LSTM实体抽取模型,得到实体识别结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第二十八研究所,未经中国电子科技集团公司第二十八研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910710075.1/2.html,转载请声明来源钻瓜专利网。





