[发明专利]用于多模式双语预训练和语音翻译的融合声学和文本编码在审

申请号：	202210949913.2	申请日：	2022-08-09
公开（公告）号：	CN116151276A	公开（公告）日：	2023-05-23
发明（设计）人：	郑人杰;陈俊锟;马明博;黄亮	申请（专利权）人：	百度（美国）有限责任公司
主分类号：	G06F40/58	分类号：	G06F40/58;G10L15/00;G10L15/02;G10L19/16;G10L25/24;G10L25/27
代理公司：	北京英赛嘉华知识产权代理有限责任公司 11204	代理人：	王达佐;王艳春
地址：	美国加利***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	用于模式双语训练语音翻译融合声学文本编码
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

用于文本和语音的表示学习改进了许多与语言相关的任务。然而，现有方法仅从一种输入模式中学习，而诸如端到端语音翻译等任务需要语音和文本两者的统一表示。因此，这些方法无法利用各种大规模的文本和语音数据，并且它们的性能受到并行语音翻译数据稀缺的限制。为了解决这些问题，公开了融合声学和文本掩蔽语言模型(FAT‑MLM)的实施例。FAT‑MLM实施例联合学习来自各种类型的语料库的声音和文本输入两者的统一表示，该语料库包括用于语音识别和机器翻译的并行数据以及纯语音和文本数据。在这个跨模式表示学习框架内，进一步提出了端到端模型以用于融合声学和文本语音翻译。实验表明，通过从FAT‑MLM进行微调，语音翻译模型实施例显著提高了翻译质量。

技术领域

本公开总体上涉及用于计算机学习的系统和方法，该系统和方法可以提供改进的计算机性能、特征和用途。更具体地，本公开涉及用于使用融合声学和文本编码进行语音翻译的系统和方法。

背景技术

深度神经网络在许多领域都取得了巨大的成功，诸如计算机视觉、自然语言处理、推荐系统等。

近年来，任务不可知的文本表示学习由于其在许多下游任务中的强大表现而在NLP社区中引起了很多关注。最近，无监督语音表示学习也成功地改进了许多与语音相关的任务，诸如语音识别和语音翻译。

然而，现有方法受到两个限制：(a)它们仅从一种输入模式中学习，而诸如端到端语音翻译等任务需要语音和文本两者的统一表示，并且因此，(b)它们无法利用各种大规模文本和语音数据，并且其性能受限于并行语音翻译数据的稀缺。

因此，需要的是具有改进的性能和准确性的用于双语预训练和语音翻译的系统和方法。

附图说明

将参考本公开的实施例，其示例可以在附图中示出。这些附图意图是说明性的，而不是限制性的。尽管本公开通常在这些实施例的上下文中描述，但是应当理解，这并不意味着将本公开的范围限制于这些特定实施例。图中的项目可以不按比例绘制。

图(“FIG.”)1以图形的方式描绘了除大量的数据集语音识别和文本机器翻译的有限的语音翻译数据集；

图2A描绘了用于文本表示学习的掩蔽语言模型(MLM)的先前工作；

图2B描绘了用于跨语言文本表示学习的翻译语言模型(TLM)的先前工作；