[发明专利]基于Voronoi图的训练样本遮掩方法、装置及相关设备有效

专利信息
申请号: 202110556622.2 申请日: 2021-05-21
公开(公告)号: CN113191158B 公开(公告)日: 2021-10-26
发明(设计)人: 王伟;黄勇其;于翠翠;张黔 申请(专利权)人: 润联软件系统(深圳)有限公司
主分类号: G06F40/30 分类号: G06F40/30;G06F16/36;G06F40/279;G06F16/35
代理公司: 深圳市精英专利事务所 44242 代理人: 武志峰
地址: 518000 广东省深圳市福田区梅林街*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 voronoi 训练 样本 遮掩 方法 装置 相关 设备
【说明书】:

发明公开了基于Voronoi图的训练样本遮掩方法、装置及相关设备。该方法包括获取训练语料的单词集合和主题词集合,其中,所述主题词集合中的单词均为主题词;基于所述单词集合和主题词集合的单词属性构建Voronoi图,并将所述单词集合中的非主题词划分到所述Voronoi图的网格中;根据网格影响力对所述Voronoi图中的网格进行排序,得到网格排序队列;对所述网格排序队列各网格内的单词进行随机遮掩,得到训练样本队列。该方法中基于训练语料的单词集合和主题词集合的单词构建Voronoi图,根据Voronoi图的网格影响力对语料进行排序,对网格排序队列进行随机遮掩,相比传统训练样本遮掩方法,本方法遮掩的训练样本能够具有更深层次的样本特征。

技术领域

本发明涉及数据处理技术领域,尤其涉及一种基于Voronoi图的训练样本遮掩方法、装置及相关设备。

背景技术

鉴于海量文本数据内部本身隐含了极为丰富的语义特征,预训练语言模型又采用了拟合能力强大的神经网络模型,因此能够学习到这些隐藏语义特征。近年来预训练语言模型例如基于海量文本数据训练的ELMO、GPT、BERT等,在文本分类、智能问答、机器阅读、文本摘要等自然语言处理的众多细分领域都取得了很好效果。由于预训练语言模型的训练需要消耗大量计算资源,非一般开发者能够承受。通常普通开发者只需要下载这些预训练语言模型,再在训练样本集上进行微调(fine-tuning),就可以在垂直领域任务上达到很好的效果。

但现有的预训练模型在进行训练时,大多采取的方式只是简单地将句子中的部分词进行遮掩,然后训练模型来预测被遮掩位置原来的词。这样训练得到的模型学习到的语义特征仍然不够丰富。

发明内容

本发明实施例提供了一种基于Voronoi图的训练样本遮掩方法、装置及相关设备,通过将自然语言处理领域技术和几何学中的Voronoi图结合起来,利用各自特点,旨在解决现有技术中遮掩的样本对模型训练效果不佳的问题。

第一方面,本发明实施例提供了一种基于Voronoi图的训练样本遮掩方法,其包括:

获取训练语料的单词集合和主题词集合,其中,所述主题词集合中的单词均为主题词,所述单词集合中的单词包含主题词和非主题词;

基于所述单词集合和主题词集合的单词属性构建Voronoi图,并将所述单词集合中的非主题词划分到所述Voronoi图的网格中,其中,所述Voronoi图中每一主题词对应一个网格,一个网格至少包含一个非主题词;

根据网格影响力对所述Voronoi图中的网格进行排序,得到网格排序队列;

对所述网格排序队列各网格内的单词进行随机遮掩,得到训练样本队列。

第二方面,本发明实施例提供了一种基于Voronoi图的训练样本遮掩装置,其包括:

获取模块,用于获取训练语料的单词集合和主题词集合,其中,所述主题词集合中的单词均为主题词,所述单词集合中的单词包含主题词和非主题词;

构建模块,用于基于所述单词集合和主题词集合的单词属性构建Voronoi图,并将所述单词集合中的非主题词划分到所述Voronoi图的网格中,其中,所述Voronoi图中每一主题词对应一个网格,一个网格至少包含一个非主题词;

排序模块,用于根据网格影响力对所述Voronoi图中的网格进行排序,得到网格排序队列;

遮掩模块,用于对所述网格排序队列各网格内的单词进行随机遮掩,得到训练样本队列。

第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的基于Voronoi图的训练样本遮掩方法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于润联软件系统(深圳)有限公司,未经润联软件系统(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110556622.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top