[发明专利]一种基于Bi-LSTM输入信息增强的关系抽取方法有效
| 申请号: | 201810237590.8 | 申请日: | 2018-03-22 |
| 公开(公告)号: | CN108416058B | 公开(公告)日: | 2020-10-09 |
| 发明(设计)人: | 黄河燕;雷鸣;冯冲 | 申请(专利权)人: | 北京理工大学 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/284 |
| 代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 鲍文娟 |
| 地址: | 100081 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 bi lstm 输入 信息 增强 关系 抽取 方法 | ||
本发明提出了一种基于Bi‑LSTM输入信息增强的关系抽取方法,属于计算机人工智能自然语言处理领域。通过应用不确定标签的策略标注数据集,应用冗余编码技术对每个单词进行字符级编码产生词形编码向量。词形编码向量与词嵌入向量拼接生成词向量用于捕捉词形与词义信息。通过应用输入信息增强的Bi‑LSTM作为模型编码层,将词向量输入编码层,输出编码向量。将编码向量输入解码层,得到解码向量。应用三个分层次的NN,从解码向量分别提取出实体标签、关系类型、实体编号信息。最后,计算梯度、更新权重,通过最大化目标函数训练模型。本发明方法提高了系统的鲁棒性,减少了非实体单词带来的干扰信息,有效提高了关系抽取的准确率和召回率。
技术领域
本发明涉及一种文本关系抽取方法,尤其涉及一种改进的基于双向长短时记忆神经网络(Bi-LSTM)的文本关系抽取方法,属于计算机人工智能自然语言处理领域。
背景技术
在人工智能自然语言处理领域中,关系抽取是信息抽取中一个重要的研究课题,也是自动构建知识图谱的关键步骤,对信息检索、文本分类、自动问答、机器翻译等其它自然语言处理任务有很大帮助。关系抽取旨在把文件中的非结构和半结构化信息转化为结构化信息,抽取文本中的实体对和它们之间的语义关系,即为文本中的实体对设置预先定义好的关系类型。通常,一个三元组(实体1,关系类型,实体2)用来作为结构化表示的格式。
现有的关系抽取系统可以分为基于人工构造匹配规则的弱监督模型和基于人工标注数据的监督模型。
在弱监督模型中,有的使用匹配规则抽取关系,有的使用“拔靴法”迭代模式来匹配候选关系,还有的在一个图模型构建一系列传播规则来标注未知关系。这些弱监督模型不需要大量的标注数据,但是设计一个既具有高精度又有高覆盖能力的规则或模式是相当困难的任务。
监督模型可以分为基于核函数的方法和基于神经网络的方法。其中,基于核函数的方法一般选择多个特征集进行关系分类,可用的特征集包括:词汇特征、语义特征、句法特征三类。例如,词嵌入、词性、依存类型、实体标签、位置信息、上下位关系等。基于神经网络的方法可以自动学习所需的潜在特征。但是,这类系统的性能主要取决于标注数据的数量与质量。为了减少人工干预,催生了一种远程监督方法,这种方法利用知识库而不是人工产生标注数据,但该方法会产生大量的噪声数据,去噪工作成为这种方法的难点。
近年来,在英语等词形丰富的语言中,基于字符级的词形特征引起了一些研究的重视。关系抽取任务可以分为实体识别和关系分类两个子任务,结合一套标注方法,关系抽取又可以转化为一个标注任务。长短时记忆神经网络(LSTM)作为一个有效的序列标注工具,已经成功应用到关系抽取领域,它通过一个记忆单元可以学习长距离依赖关系。这个记忆单元包括:输入门、遗忘门和输出门。在标准的LSTM模型中,输入信息首先需要和上一个时间步的隐含状态拼接,然后依次经过三个门。拼接操作会引起输入信息的稀释,门操作会导致输入信息的损失。在现有的标注方法中,都用一个标签来标记非实体单词,这样将关系关键词和非关键词用一个标签标注,会给系统带来干扰信息。
发明内容
本发明的目的是为了解决文本关系抽取的问题,提出一种基于Bi-LSTM输入信息增强的关系抽取方法。本方法基于双向长短时记忆神经网络,结合词嵌入和词形编码向量,共同捕捉输入单词的语义和词形特征信息,并且引入了冗余编码技术对英文单词进行编码来提高系统的鲁棒性,通过不确定标签来减少非实体单词的干扰。
为达到以上目的,本发明所采用的技术方案如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810237590.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种网站行为分析系统
- 下一篇:图像描述模型的训练方法和装置、设备、介质





