[发明专利]一种文档级远程监督关系抽取方法及系统有效
申请号: | 202011135229.8 | 申请日: | 2020-10-21 |
公开(公告)号: | CN112307130B | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 刘知远;孙茂松;肖朝军;姚远;谢若冰;韩旭;林芬;林乐宇 | 申请(专利权)人: | 清华大学;腾讯科技(深圳)有限公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/215;G06F40/284;G06N3/08 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 张睿 |
地址: | 100084 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文档 远程 监督 关系 抽取 方法 系统 | ||
本发明实施例提供一种文档级远程监督关系抽取方法及系统,该方法包括:获取远程监督数据;基于训练好的预降噪模型,对所述远程监督数据进行降噪处理,得到目标远程监督数据,所述训练好的预降噪模型是由标注为正样例的样本远程监督数据和标注为负样例的样本远程监督数据训练得到的;将所述目标远程监督数据输入到训练好的文本编码器模型中,得到文档级关系抽取结果,所述训练好的文本编码器模型是由降噪后的样本文档级远程监督数据训练得到的。本发明实施例通过预训练方式对远程监督数据进行降噪,能够有效地滤除远程监督数据中的噪音,并利用大规模的降噪后数据对模型进行预训练,从而实现文档级远程监督关系抽取,提升文档级关系抽取效果。
技术领域
本发明涉及机器学习技术领域,尤其涉及一种文档级远程监督关系抽取方法及系统。
背景技术
关系提取任务旨在从文本中识别实体之间的关系事实,该任务是实现知识图谱自动构建的关键所在。随着深度学习技术的发展,神经关系抽取模型已经在句子级关系抽取任务中得到了验证,然而,训练一个高质量的关系抽取模型,需要大量的人工标注数据集,并且数据集的构建同样也需要耗费大量的时间与精力。为了解决这个问题,远程监督机制被提出,该机制通过对齐知识图谱与文本中的实体来实现数据的自动标注,从而为关系抽取任务提供了非常大规模的数据,可以使得模型训练更加充分。
现有的句子级关系抽取方法,侧重于抽取一个句子内部的实体之间的关系。然而,在实际表述中,存在着非常多的关系事实需要通过综合多个句子的信息来实现抽取。正是因为大量存在的这种句子间的关系,在实际应用中,句子级关系抽取的通用性和覆盖面受到了极大的限制,数据表明,至少有40.7%的关系事实需要综合多个句子的信息推断出来。因此,目前提出许多文档级关系抽取方法,来实现句间和句内关系的抽取。但是,现有的大多数文档级关系抽取模型严重依赖高质量的人工标注的训练数据,耗时耗力。并且,将句子级远程监督机制扩展到文档级是极具挑战性的,进行文档级远程监督机制的挑战主要来自于:1、远程监督将引入大量的错误标注。统计显示,文档级远程监督产生的61.8%的句间关系实例实际上是错误标注样例;2、从长文档中捕捉有用的关系信息是具有挑战性的,因为文档中的大部分内容可能与给定的实体和关系无关。虽然早现有句子级关系抽取中,已经有一些工作致力于通过联合考虑多个句子来对远程监督语料进行降噪,然而,这些降噪方法不能直接适应文档级关系抽取。
因此,现在亟需一种文档级远程监督关系抽取方法及系统来解决上述问题。
发明内容
针对现有技术存在的问题,本发明实施例提供一种文档级远程监督关系抽取方法及系统。
第一方面,本发明实施例提供了一种文档级远程监督关系抽取方法,包括:
获取远程监督数据;
基于训练好的预降噪模型,对所述远程监督数据进行降噪处理,得到目标远程监督数据,所述训练好的预降噪模型是由标注为正样例的样本远程监督数据和标注为负样例的样本远程监督数据训练得到的;
将所述目标远程监督数据输入到训练好的文本编码器模型中,得到文档级关系抽取结果,所述训练好的文本编码器模型是由降噪后的样本文档级远程监督数据训练得到的。
进一步地,所述训练好的文本编码器模型通过以下步骤训练得到:
通过训练好的预降噪模型,对样本远程监督数据进行降噪处理,得到降噪后的样本远程监督数据;
根据所述降噪后的样本远程监督数据,对待训练的文本编码器模型分别进行实体提及匹配预训练、实体关系事实检测预训练和关系事实对齐预训练,得到预训练的文本编码器模型;
通过预设标注数据集,对所述预训练的文本编码器模型进行调整,得到训练好的文本编码器模型,所述预设标注数据集是由已标注实体关系的远程监督数据构建得到的。
进一步地,所述训练好的预降噪模型通过以下步骤训练得到:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学;腾讯科技(深圳)有限公司,未经清华大学;腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011135229.8/2.html,转载请声明来源钻瓜专利网。