[发明专利]遥监督关系抽取模型的训练方法及相关装置在审
申请号: | 202011355553.0 | 申请日: | 2020-11-27 |
公开(公告)号: | CN112329463A | 公开(公告)日: | 2021-02-05 |
发明(设计)人: | 崔宇浩;金忠孝 | 申请(专利权)人: | 上海汽车集团股份有限公司;上海汽车工业(集团)总公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 北京信远达知识产权代理有限公司 11304 | 代理人: | 王会会 |
地址: | 201203 上海市浦东新区中国(*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 监督 关系 抽取 模型 训练 方法 相关 装置 | ||
本发明提供了一种遥监督关系抽取模型的训练方法及相关装置,遥监督关系抽取模型包括词嵌入层、特征提取层和输出层,特征提取层包括循环层和卷积层,输出层包括袋级最大池层和softmax层。通过循环层获得句子中实体的上下文信息,以及通过卷积层从位置句子中提取细粒度特征。无需涉及手工特征和NLP工具,增强了关系抽取的遥监督。方法包括对于一个实体关系,将多个正样本打包成一个句袋,以及将多个负样本打包成一个句袋,对模型进行训练,减轻了错误的标签带来的影响。
技术领域
本发明涉及自然语言处理技术领域,更具体地说,涉及一种遥监督关系抽取模型的训练方法及相关装置。
背景技术
关系抽取,其目的是在从自由文本中提取语义关系,是自然语言处理领域中一个至关重要的研究主题。有监督关系抽取方法需要大量带标签的数据,耗时长,制作成本昂贵,不适用于大型语料;因此,有监督关系抽取方法不能满足从网络文本中获取相关知识的需求。而无监督关系抽取方法,在大量文本中提取实体之间的字符串,并对这些字符串进行聚类和简化,以生成关系字符串;无监督关系抽取方法可以使用非常多的数据,并抽取大量的关系,但是得到的关系不容易映射到特定知识库所需的关系。
还有一类比较好的方法是遥监督关系抽取方法,在诸如Freebase等知识库中,遥监督关系抽取方法将知识库中的相关事实与未标记的语料库,进行启发式的对齐,来自动生成标记数据。遥监督关系抽取方的假设是,如果知识库的中一个句子包含一个关系的两个命名实体,则该句子将相应地表达该关系。但是,一对实体可以表达一种以上的关系,也可以根本不表达任何关系。而遥监管关系抽取方法的假设忽略了这种可能性,不可避免地导致提取性能下降。
为了解决遥监督关系抽取方法的假设导致错误的标签问题,有一些方法在此基础上提出了一些合理的假设,以放松遥监督的约束并改善结果。但是,这些方法严重依赖于从外部自然语言处理工具生成的规则。由于此类工具中总是存在错误,因此衍生的规则可能会导致错误的传播,并严重影响性能。还有一些基于深度学习的方法,这些方法不依赖外部工具。比如在论文《Distant supervision for relation extraction via piecewiseconvolutional neural networks》中,Zeng等人提出了PCNN(Pulse Coupled NeuralNetwork,脉冲耦合神经网络)模型,该模型将CNN(Convolutional Neural Networks,卷积神经网络)扩展为具有附加的分段最大池化层,然后基于遥监督数据构建关系抽取器。此后,Lin等人在《Neural relation extraction with selective attention overinstances》中,通过将选择性注意力模型集成到了PCNN中,进一步提高了其性能。这些方法使用每个单词的位置嵌入来表示其与两个目标实体的相对距离。但是,位置嵌入所表达的信息是有限的,它几乎无法捕获句子中实体的依赖关系和上下文信息。对于结构复杂的句子,这个问题变得更加严重。
发明内容
有鉴于此,本发明提出一种遥监督关系抽取模型的训练方法及相关装置,欲增强关系抽取的遥监督,以及减轻错误标签带来的影响。
为了实现上述目的,现提出的方案如下:
第一方面,提供一种遥监督关系抽取模型的训练方法,所述遥监督关系抽取模型包括词嵌入层、特征提取层和输出层,所述特征提取层包括循环层和卷积层,所述输出层包括袋级最大池层和softmax层,所述训练方法包括:
对于每个实体关系,将与其对应的正样本打包成至少一个句袋,并将与其对应的负样本打包成至少一个句袋;
对于每个句袋,对所述句袋中的每个句子加入实体定位符,并进行分词和向量化,得到句袋索引向量;
将所述句袋索引向量输入到所述词嵌入层,得到所述词嵌入层输出的句袋词向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海汽车集团股份有限公司;上海汽车工业(集团)总公司,未经上海汽车集团股份有限公司;上海汽车工业(集团)总公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011355553.0/2.html,转载请声明来源钻瓜专利网。