[发明专利]一种基于损失函数筛选具有高贡献度语料的方法及系统在审
| 申请号: | 202210325218.9 | 申请日: | 2022-03-30 |
| 公开(公告)号: | CN114662502A | 公开(公告)日: | 2022-06-24 |
| 发明(设计)人: | 宗浩;贝超;苑聪虎;张一鸣 | 申请(专利权)人: | 中译语通科技股份有限公司 |
| 主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/205;G06K9/62;G06N3/04 |
| 代理公司: | 北京兴智翔达知识产权代理有限公司 11768 | 代理人: | 郭卫芹 |
| 地址: | 100131 北京市石景*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 损失 函数 筛选 具有 贡献 语料 方法 系统 | ||
本发明属于机器翻译技术领域,具体公开了一种基于损失函数筛选具有高贡献度语料的方法及系统,其中方法包括以下步骤:设定筛选具有高贡献度语料的目标数量T;利用Transformer模型和基础大规模语料库,使用损失函数,对目标语料库A中所有数据按批次计算交叉熵得到语料库B;对计算交叉熵后的语料库B进行排序,选择前50%进行随机排列;重复步骤S1~S3,直至步骤S3中的语料库B的前50%随机排列的语料数量不小于目标数量T;将种子语料与步骤S4中筛选出的语料集合C中的所有语料进行语义相似度计算,并对结果排序得到语料库D;观察排序结果,并根据需要选取一定数量与种子语料最相似的语料作为最具有贡献度的语料。该方案节约成本,提升了筛选出语料的有效率。
技术领域
本发明属于机器翻译技术领域,特别是关于一种基于损失函数筛选具有高贡献度语料的方法及系统。
背景技术
机器翻译的翻译质量高度依赖于语料数据,但是机器翻译的质量并不是语料越多越好,当语料达到一定数量之后,翻译质量便很难再有提升,因此如何从大规模语料中筛选出具有高贡献的语料数据就成了优化模型的必经之路。
现有技术中利用种子语料从语料中筛选出相似度的方法比较普遍,但该方案受限于句子相似度的算法,无法保证筛选出的语料均在该领域,有一定概率会选出其他领域的语料从而稀疏最终的训练效果。
例如,专利CN110032619A公开了一种语言模型建立方法及装置,该方法包括获取语料库,语料库包括至少一个经过分词处理的句子;根据策略函数对所述语料库中的每个句子进行筛选,将满足预设筛选条件的句子组成分词词典;通过对分词词典中每个句子的分析得到语言模型;用语言模型对预先获取的声学模型进行解码以计算损失函数;若根据损失函数和预设的奖励函数得到的奖励值满足预设的优化条件,则判断所述语言模型建立完成。由此可知,该方案虽然利用了损失函数进行分词应用处理,但其损失函数与机器翻译用到的损失函数有明显区别。
发明内容
本发明的目的在于提供一种基于损失函数筛选具有高贡献度语料的方法及系统,其能够解决现有的中无法保证筛选出的语料均在该领域的技术难题。
本发明提供了一种基于损失函数筛选具有高贡献度语料的方法,包括以下步骤:
S1,设定筛选具有高贡献度语料的目标数量T;
S2,利用Transformer模型和基础大规模语料库,使用损失函数,对目标语料库A中所有数据按批次计算损失函数中的交叉熵得到语料库B;
S3,对计算交叉熵后的语料库B进行排序,选择前50%进行随机排列;
S4,重复步骤S1~S3,直至步骤S3中的语料库B的前50%随机排列的语料数量不小于目标数量T;
S5,将种子语料与步骤S4中筛选出的语料集合C中的所有语料进行语义相似度计算,并对结果排序得到语料库D;
S6,观察排序结果,并根据需要选取一定数量与种子语料最相似的语料作为最具有贡献度的语料。
优选地,所述Transformer为自注意力机制的神经网络,具体包括:
点乘注意力Attention:
多头注意力MultiHead:
MultiHead(Q,K,V)=Concat(head1,…,headn)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中译语通科技股份有限公司,未经中译语通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210325218.9/2.html,转载请声明来源钻瓜专利网。





