[发明专利]一种基于多标注数据的依存句法分析模型训练方法及装置在审
申请号: | 202011089840.1 | 申请日: | 2020-10-13 |
公开(公告)号: | CN112232024A | 公开(公告)日: | 2021-01-15 |
发明(设计)人: | 李正华;周明月;赵煜;张民 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F40/117 | 分类号: | G06F40/117;G06F40/211;G06F40/289;G06K9/62;G06N3/04 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 张春辉 |
地址: | 215131 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 标注 数据 依存 句法 分析 模型 训练 方法 装置 | ||
本申请公开了一种基于多标注数据的依存句法分析模型训练方法,包括:获取词序列以及多种标注结果;将词序列输入依存句法分析模型,得到弧得分和标签得分;根据目标损失函数,计算弧得分和标签得分相对于多种标注结果的损失值;通过迭代训练,以最小化损失值为目的,调整依存句法分析模型的模型参数,以实现模型训练。可见,该方法能够根据目标损失函数计算模型输出结果相对于全部标注结果的损失值,并据此完成对模型的迭代训练,实现了充分利用全部标注数据中的有效信息的目的,提升了模型的依存句法分析能力。此外,本申请还提供了一种基于多标注数据的依存句法分析模型训练装置、设备及可读存储介质,其技术效果与上述方法相对应。
技术领域
本申请涉及计算机技术领域,特别涉及一种基于多标注数据的依存句法分析模型训练方法、装置、设备及可读存储介质。
背景技术
依存句法分析的目标是给定输入句子,捕捉句子内部词语之间的修饰和搭配关系,刻画句子的句法和语义结构,构建依存句法树。
近几年来,随着深度学习的在自然语言处理领域的快速发展,依存句法分析准确率有了显著提高。但是,当处理有别于训练数据的文本时,依存句法分析的准确率会急剧下降。针对该问题,一种直接的解决方法是标注特定领域的句法数据。然而,大多数依存句法树库是由少数语言学专家长期标注构建,存在费时费力、成本高的缺点,无法满足当前需求。
受到众包工作的启发,利用大量非专家标注人员的标注数据,快速构建多标注依存句法树库是一种可行的方法。但是,相较于专家标注,这种方法的标注质量相对较低且不一致性高。目前的解决方式有两种,一种是采用多数投票方式从多种标注数据中选出一种标注数据,另一种是简单丢弃不一致的标注数据或人工审核。
对于多数投票的方式,投票得到的结果也有可能是完全错误的答案,这样就完全丢弃了可能正确的信息,影响训练效果,且标注人数越少,投票结果越不可靠。虽然也可以使用加权投票的方法,但是依然无法解决在标注人数较少时偏听偏信的问题。
对于简单丢弃不一致的句子的方式,虽然提高了数据集的可靠性,但是,如果原本数据集的不一致率较高,这种方式将导致数据集规模大大减少,产生浪费。人工审核方法虽然可以大大提高数据集的质量,但是非常费时费力,成本较高。
综上,多数投票方式和简单丢弃不一致数据的方式,虽然可以获得一个可直接用于依存句法分析模型的数据集,但是这两种方式都产生了数据浪费,丢弃了一部分数据集的信息,没有充分利用多标注数据中的有效信息,导致模型性能较差。
可见,如何充分利用多标注数据完成对依存句法分析模型的训练,提升模型性能,是亟待本领域技术人员解决的问题。
发明内容
本申请的目的是提供一种基于多标注数据的依存句法分析模型训练方法、装置、设备及可读存储介质,用以解决目前在利用多标注数据训练依存句法分析模型的时候,本质上还是丢弃部分标注数据,只利用其中一种标注数据进行模型训练,无法充分利用多标注数据中的有效信息,导致模型性能较差的问题。其具体方案如下:
第一方面,本申请提供了一种基于多标注数据的依存句法分析模型训练方法,包括:
获取词序列以及所述词序列的多种标注结果,对于所述词序列中的每个修饰词,所述标注结果包括弧和依存关系标签,每种标注结果来自不同的用户;
将所述词序列输入依存句法分析模型,得到弧得分和标签得分;
根据目标损失函数,计算所述弧得分和所述标签得分相对于所述多种标注结果的损失值;
通过迭代训练,以最小化所述损失值为目的,调整所述依存句法分析模型的模型参数,以实现对所述依存句法分析模型的训练。
优选的,所述根据目标损失函数,计算所述弧得分和所述标签得分相对于所述多种标注结果的损失值,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011089840.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置