[发明专利]一种基于多标注数据的依存句法分析模型训练方法及装置在审

专利信息
申请号: 202011089840.1 申请日: 2020-10-13
公开(公告)号: CN112232024A 公开(公告)日: 2021-01-15
发明(设计)人: 李正华;周明月;赵煜;张民 申请(专利权)人: 苏州大学
主分类号: G06F40/117 分类号: G06F40/117;G06F40/211;G06F40/289;G06K9/62;G06N3/04
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 张春辉
地址: 215131 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 标注 数据 依存 句法 分析 模型 训练 方法 装置
【说明书】:

本申请公开了一种基于多标注数据的依存句法分析模型训练方法,包括:获取词序列以及多种标注结果;将词序列输入依存句法分析模型,得到弧得分和标签得分;根据目标损失函数,计算弧得分和标签得分相对于多种标注结果的损失值;通过迭代训练,以最小化损失值为目的,调整依存句法分析模型的模型参数,以实现模型训练。可见,该方法能够根据目标损失函数计算模型输出结果相对于全部标注结果的损失值,并据此完成对模型的迭代训练,实现了充分利用全部标注数据中的有效信息的目的,提升了模型的依存句法分析能力。此外,本申请还提供了一种基于多标注数据的依存句法分析模型训练装置、设备及可读存储介质,其技术效果与上述方法相对应。

技术领域

本申请涉及计算机技术领域,特别涉及一种基于多标注数据的依存句法分析模型训练方法、装置、设备及可读存储介质。

背景技术

依存句法分析的目标是给定输入句子,捕捉句子内部词语之间的修饰和搭配关系,刻画句子的句法和语义结构,构建依存句法树。

近几年来,随着深度学习的在自然语言处理领域的快速发展,依存句法分析准确率有了显著提高。但是,当处理有别于训练数据的文本时,依存句法分析的准确率会急剧下降。针对该问题,一种直接的解决方法是标注特定领域的句法数据。然而,大多数依存句法树库是由少数语言学专家长期标注构建,存在费时费力、成本高的缺点,无法满足当前需求。

受到众包工作的启发,利用大量非专家标注人员的标注数据,快速构建多标注依存句法树库是一种可行的方法。但是,相较于专家标注,这种方法的标注质量相对较低且不一致性高。目前的解决方式有两种,一种是采用多数投票方式从多种标注数据中选出一种标注数据,另一种是简单丢弃不一致的标注数据或人工审核。

对于多数投票的方式,投票得到的结果也有可能是完全错误的答案,这样就完全丢弃了可能正确的信息,影响训练效果,且标注人数越少,投票结果越不可靠。虽然也可以使用加权投票的方法,但是依然无法解决在标注人数较少时偏听偏信的问题。

对于简单丢弃不一致的句子的方式,虽然提高了数据集的可靠性,但是,如果原本数据集的不一致率较高,这种方式将导致数据集规模大大减少,产生浪费。人工审核方法虽然可以大大提高数据集的质量,但是非常费时费力,成本较高。

综上,多数投票方式和简单丢弃不一致数据的方式,虽然可以获得一个可直接用于依存句法分析模型的数据集,但是这两种方式都产生了数据浪费,丢弃了一部分数据集的信息,没有充分利用多标注数据中的有效信息,导致模型性能较差。

可见,如何充分利用多标注数据完成对依存句法分析模型的训练,提升模型性能,是亟待本领域技术人员解决的问题。

发明内容

本申请的目的是提供一种基于多标注数据的依存句法分析模型训练方法、装置、设备及可读存储介质,用以解决目前在利用多标注数据训练依存句法分析模型的时候,本质上还是丢弃部分标注数据,只利用其中一种标注数据进行模型训练,无法充分利用多标注数据中的有效信息,导致模型性能较差的问题。其具体方案如下:

第一方面,本申请提供了一种基于多标注数据的依存句法分析模型训练方法,包括:

获取词序列以及所述词序列的多种标注结果,对于所述词序列中的每个修饰词,所述标注结果包括弧和依存关系标签,每种标注结果来自不同的用户;

将所述词序列输入依存句法分析模型,得到弧得分和标签得分;

根据目标损失函数,计算所述弧得分和所述标签得分相对于所述多种标注结果的损失值;

通过迭代训练,以最小化所述损失值为目的,调整所述依存句法分析模型的模型参数,以实现对所述依存句法分析模型的训练。

优选的,所述根据目标损失函数,计算所述弧得分和所述标签得分相对于所述多种标注结果的损失值,包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011089840.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top