[发明专利]基于记忆损失预测和延迟训练的主动学习事件抽取方法有效
申请号: | 202110541764.1 | 申请日: | 2021-05-18 |
公开(公告)号: | CN112966115B | 公开(公告)日: | 2021-08-06 |
发明(设计)人: | 申时荣;漆桂林;李震 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/126;G06N20/00 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 杜静静 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 记忆 损失 预测 延迟 训练 主动 学习 事件 抽取 方法 | ||
本申请公开了一种基于记忆损失预测和延迟训练的主动学习事件抽取方法,该方案通过预测无标注样本的损失对其进行筛选,获取高质量的无标注样本进行标注。首先构建两个记忆模块,分别是已学习记忆模块和已选择记忆模块,已学习记忆模块在监督学习模型训练的过程中,存储已经学过的信息到已学习记忆模块,在样本选择的过程中,已选择记忆模块随着样本的选择存储已经选择的样本信息,综合两个记忆模块的信息对新样本的损失进行预测,得到样本损失后,利用内‑外损失排序策略启发式地选择有价值的样本进行标注,同时,提出了一种延迟训练策略,模拟样本选择场景对样本损失模型进行监督,最后得到一种低标注成本的高质量事件抽取模型。
技术领域
本发明涉及一种基于主动学习的事件抽取方法,属于信息抽取技术领域。
背景技术
随着计算机和互联网的快速发展和普及,人类创造的数据呈现高速增长趋势。在这个信息爆炸的时代,如何快速地分析和处理信息,从文本中抽取出有价值的信息成为了研究的热点和急需解决的问题。为了应对这样的挑战,迫切需要开发出一批自动化的信息处理工具,自动、快速地从海量的信息中提取出有价值的知识。在这样的背景下,信息抽取(Information Extraction,IE)技术成为了学术界和工业界研究的热点内容,信息抽取的目的是从半结构化和非结构化的文本,以及结构化的数据中抽取出特定、有价值的信息,并处理成计算机易于存储与计算的结构化数据,信息抽取包括实体识别(EntityRecognition)、关系抽取(Relation Extraction)和事件抽取(Event Extraction)。
事件是指发生在特定的时间、地点,涉及一个或多个参与者,通常被描述为人或事物的状态及行为的变化。作为信息抽取的重要任务之一,事件抽取是对给定的自然文本,检测是否存在感兴趣的事件描述,如果文本中包含事件描述,则识别并抽取所有与该事件相关的元素。通常来说,封闭领域事件抽取会预先定义好事件结构,如事件类型和事件论元角色。事件抽取需要从文本中检测事件,抽取字或词以填充预定义的事件结构,并以结构化的事件形式进行输出。在海量数据处理、知识库的自动构建、自动问答等领域上有着广泛的应用价值。
事件抽取本身是一个复杂的任务,由多个子任务组成,不仅需要识别用于标识事件的触发词,而且还必须识别与事件相关的论元以及论元在事件中的角色,这导致事件抽取很难标注训练数据,尤其是针对特定领域进行事件抽取,例如生物医学,金融,法律,军事和其他需要具有专业知识的人员进行标记的领域,导致较高的标记成本。然而,当前基于深度学习的事件抽取方法需要大量的标注数据作为支持,事件抽取方法在其他领域的应用需要大量的监督数据。主动学习使用样本选择策略来选择样本,这些样本可以有效地促进针对标签的监管模型的训练,从而减少模型对监督数据量的需求,这启发了我们将主动学习技术应用于事件抽取,以解决样本标注成本过高的问题。
发明内容
本发明正是针对现有事件抽取技术中存在的技术问题,提供一种基于损失延迟预测的事件抽取方法,通过已经学习到的信息和已经标注过的样本信息对样本损失进行预测。采用内外样本损失排序方法,根据预测损失选择样本进行标注,降低监督数据的标注代价。
本方案公开了一种基于损失延迟训练的领域事件抽取主动学习训练策略,主要用于领域事件抽取。本方案提供了一种主动学习的方法,能够根据已经标注的样本信息以及模型学习到的样本信息从无标记样本中选择模型最不确定的样本来进行标注,以降低标注样本的冗余。由于事件抽取是一个包含多子任务的复杂任务,因此本方案采用内外损失排序的方法来衡量样本的不确定性。
为了实现上述目的,本发明的技术方案如下:一种基于记忆损失预测和延迟训练的主动学习事件抽取方法,具体步骤如下:
步骤1)主动学习事件抽取任务初始化;
步骤2)构建事件抽取模型;
步骤3)构建基于记忆的损失预测模型;
步骤4)基于内外排序的样本选择;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110541764.1/2.html,转载请声明来源钻瓜专利网。