[发明专利]远程监督关系抽取方法及装置有效

专利信息
申请号: 201910411697.4 申请日: 2019-05-17
公开(公告)号: CN110209836B 公开(公告)日: 2022-04-26
发明(设计)人: 鄂海红;宋美娜;周筱松;陈忠富;牛佩晴;张文静 申请(专利权)人: 北京邮电大学
主分类号: G06F16/36 分类号: G06F16/36;G06F16/33;G06F16/35;G06F40/279;G06F40/30;G06N3/04
代理公司: 北京清亦华知识产权代理事务所(普通合伙) 11201 代理人: 张润
地址: 100876 北京市海淀区西*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 远程 监督 关系 抽取 方法 装置
【说明书】:

发明公开了一种远程监督关系抽取方法及装置,其中,方法包括以下步骤:通过bootstrapping算法生成实体识别训练数据集,通过crf++工具对句子的实体进行识别;通过远程监督方法生成实体关系抽取训练数据集,通过关系知识库和自然语言语料生成实体关系抽取数据集;通过基于循环分段卷积神经网络和sentence embedding模块对句子的实体进行实体关系抽取。该方法可以通过自然语料自动标注训练数据,完成实体识别以及实体关系抽取。

技术领域

本发明涉及自然语言处理技术领域,特别涉及一种远程监督关系抽取方法及装置。

背景技术

互联网快速发展的今天,是信息和大数据统治的时代,如何在信息爆炸时代抽取出关注的内容是非常重要的,信息抽取研究旨在为人们提供更有力的信息获取工具,以应对信息爆炸带来的严重挑战。目前公司中最常用的是通过有监督方法训练关系抽取模型,但是有监督关系抽取模型主要依靠人工标注的数据,既费时又费力,所以学术界提出了远程监督关系抽取方法,该方法可以通过自动标注训练数据来解决有监督关系抽取训练数据难获取的问题。

现有的方法主要通过有监督的方式进行关系抽取任务,有监督的学习方法是目前关系抽取较为主流也是表现最好的方法,但其最大的缺点就是需要大量的人工标注语料。如何获得大量的有标注语料就成为了工作的重点,远程监督方法就由此孕育而生。远程监督方法,将已有的知识库对应到丰富的非结构化数据中,从而生成大量的训练数据,从而训练关系抽取器。然而,已有的关系抽取装置都是基于有监督关系抽取,但是基于有监督关系抽取的装置需要大量的人工标注的数据,不仅需要大量的时间,而且需要大量的人力。

发明内容

本申请是基于发明人对以下问题的认识和发现做出的:

近年来,自然语言处理领域的研究者们开始致力于知识图谱构建的研究。知识图谱究其根本是一种语义网络图,通俗来讲,就是把多种信息按照一定的规则融合在一起而得到的关系网络。知识图谱是从“关系”的角度来分析问题的,为搜索提供了新思路:直接返回问题的答案,而不是返回包含关键词的文档序列。信息抽取则是知识图谱构建的关键一步。实体关系抽取作为信息抽取领域的重要研究课题,其主要目的是抽取句子中已标记实体对之间的语义关系,即在实体识别的基础上确定无结构文本中实体对间的关系类别,并形成结构化的数据以便存储和取用。

目前对于大多数企业来说,针对实体关系抽取这个任务需要人工的标注数据来训练模型,但是人工标注费时费力,所以远程监督的自动标注训练数据有着很好前景。然而远程监督现在存在两个的问题:一方面是一些方法需要利用外部知识库的实体描述来丰富实体信息,但是事实上不是所有外部知识库都很容易获取的;另一方面,目前远程监督关系抽取主要采用PCNN(PCNN-Pulse Coupled Neural Network,脉冲耦合神经网络)模型,PCNN模型虽然在一定程度上解决了池化层所造成的信息损失问题,但是通过分段池化层降维只是选取了其中信息量最大的三段,其他信息都损失掉。因此本发明实施例提出了基于递归卷积分段神经网络结构的连接关系提取的方法,并提出一种sentence embedding的方法解决模型经过池化层信息损失的问题。

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此,本发明的一个目的在于提出一种远程监督关系抽取方法,该方法可以通过自然语料自动标注训练数据,完成实体识别以及实体关系抽取。

本发明的另一个目的在于提出一种远程监督关系抽取装置。

为达到上述目的,本发明一方面实施例提出了一种远程监督关系抽取方法,包括以下步骤:通过bootstrapping算法生成实体识别训练数据集,通过crf++工具对句子的实体进行识别;通过远程监督方法生成实体关系抽取训练数据集,通过关系知识库和自然语言语料生成实体关系抽取数据集;通过基于循环分段卷积神经网络和sentence embedding模块对所述句子的实体进行实体关系抽取。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910411697.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top