[发明专利]一种基于对抗学习的远监督关系抽取去噪方法有效
| 申请号: | 201910278460.3 | 申请日: | 2019-04-08 |
| 公开(公告)号: | CN110070093B | 公开(公告)日: | 2023-04-25 |
| 发明(设计)人: | 刘兵;漆桂林;吴锐 | 申请(专利权)人: | 东南大学 |
| 主分类号: | G06F18/10 | 分类号: | G06F18/10;G06F18/214;G06F40/211;G06N3/0464;G06N3/088;G06N3/094 |
| 代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
| 地址: | 211100 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 对抗 学习 监督 关系 抽取 方法 | ||
本发明公开了一种基于对抗学习的远监督关系抽取去噪方法,可从本质上去除远监督生成的数据中的噪声。所述的远监督关系抽取去噪方法,所述方法包括:步骤10)建立预测器P和判别器D模型:步骤20)基于卷积神经网络,建立预测器P和判别器D结构:通过巻积层提取句子级的特征,然后将其与词汇级特征相连起来,得到最终的句子表示,将句子的表示输入到一个全连接层,并得到一个概率;对于预测器P,所述概率代表着一个实例包含关系r的可能性;对于判别器D,所述概率代表着一个句子来自Dsupgt;l/supgt;而不是Dsupgt;p/supgt;的可能性;步骤30)优化所述预测器P和判别器D,得到优化后的预测器P和判别器D;步骤40)利用优化后的预测器P清除噪声。
技术领域
本发明涉及一种基于对抗学习的远监督关系抽取去噪方法。
背景技术
现有技术中存在具有噪声适应性的DS模型。Mintz等人通过假设知识库中所有包含同一对实体的句子都会表达这对实体的关系,首先将远监督应用到关系抽取,为关系抽取自动生成标注好的数据。然后,这些初步的工作都忽视了引入的噪声,包括一些误报和漏报,严重影响了关系抽取模型的性能。我们主要关注误报导致的噪声。为了减轻噪声的影响,Riedel等人提出了expressed-at-least-once假设,并将远监督看作一个多示例学习问题。后续研究者们遵循这个假设,在原有工作基础上使用了概率图模型和神经网络的方法。随着Attention模型越来越受关注,一些研究者采用包含句子级attention的神经网络模型来构建具有一定的噪声适应性的关系抽取模型。然而他们并没有从本质上去减少噪声,甚至容忍所有包含同一实体对的句子都是误报。这在远监督相关的工作中是很常见的现象。
因为缺乏明确的监督,清除噪声是一个比较复杂的工作。有几项研究尝试通过人为的参与来帮助识别噪声。Takamatsu等人通过人为地构建句法模板来清除噪声句子,但这非常耗时导致无法估量。Luo等人提出了一个灵活的方法,叫做动态转换矩阵。该方法不仅适用于无监督范式,也可以根据数据质量的先验知识来指导训练的过程。不幸的是,这类先验知识很难获取。
发明内容
本发明提供涉及一种基于对抗学习的远监督关系抽取去噪方法,可以从本质上去除远监督生成的数据中的噪声。
为解决上述技术问题,本发明实施例采用以下技术方案:
一种基于对抗学习的远监督关系抽取去噪方法,初始输入数据为含有噪声的远监督生成数据,所述远监督生成数据基于关系r划分为正确数据和错误数据其中,表示集合Dp中的第i项;表示集合Dn中的第i项;所述方法包括:
步骤10)建立预测器P和判别器D模型:
预测器P输出P(x)表示输入实例x包含关系r的概率;将Dp中的所有实例标注为1,将Dn中的所有实例标注为0,组成预测器P的训练数据,对预测器P进行训练;
判别器D输出D(x)表示实例x来自于Dl的概率,用来度量Dl与加权后Dp间的可区分性,其中,Dl表示人工标注的数据;每个实例x都在经过预测器P后被分配了一个权重P(x),权重P(x)即预测器P针对该实例的输出;将Dl中的所有实例标注为1,将Dp中的所有实例标注为0,组成判别器D的训练数据;
步骤20)基于卷积神经网络,建立预测器P和判别器D结构:通过巻积层提取句子级的特征,然后将其与词汇级特征相连起来,得到最终的句子表示,将句子的表示输入到一个全连接层,并得到一个概率;对于预测器P,所述概率代表着一个实例包含关系r的可能性;对于判别器D,所述概率代表着一个句子来自Dl而不是Dp的可能性;
步骤30)优化所述预测器P和判别器D,得到优化后的预测器P和判别器D;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910278460.3/2.html,转载请声明来源钻瓜专利网。





