[发明专利]用于多模式双语预训练和语音翻译的融合声学和文本编码在审
申请号: | 202210949913.2 | 申请日: | 2022-08-09 |
公开(公告)号: | CN116151276A | 公开(公告)日: | 2023-05-23 |
发明(设计)人: | 郑人杰;陈俊锟;马明博;黄亮 | 申请(专利权)人: | 百度(美国)有限责任公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G10L15/00;G10L15/02;G10L19/16;G10L25/24;G10L25/27 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;王艳春 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 模式 双语 训练 语音 翻译 融合 声学 文本 编码 | ||
用于文本和语音的表示学习改进了许多与语言相关的任务。然而,现有方法仅从一种输入模式中学习,而诸如端到端语音翻译等任务需要语音和文本两者的统一表示。因此,这些方法无法利用各种大规模的文本和语音数据,并且它们的性能受到并行语音翻译数据稀缺的限制。为了解决这些问题,公开了融合声学和文本掩蔽语言模型(FAT‑MLM)的实施例。FAT‑MLM实施例联合学习来自各种类型的语料库的声音和文本输入两者的统一表示,该语料库包括用于语音识别和机器翻译的并行数据以及纯语音和文本数据。在这个跨模式表示学习框架内,进一步提出了端到端模型以用于融合声学和文本语音翻译。实验表明,通过从FAT‑MLM进行微调,语音翻译模型实施例显著提高了翻译质量。
技术领域
本公开总体上涉及用于计算机学习的系统和方法,该系统和方法可以提供改进的计算机性能、特征和用途。更具体地,本公开涉及用于使用融合声学和文本编码进行语音翻译的系统和方法。
背景技术
深度神经网络在许多领域都取得了巨大的成功,诸如计算机视觉、自然语言处理、推荐系统等。
近年来,任务不可知的文本表示学习由于其在许多下游任务中的强大表现而在NLP社区中引起了很多关注。最近,无监督语音表示学习也成功地改进了许多与语音相关的任务,诸如语音识别和语音翻译。
然而,现有方法受到两个限制:(a)它们仅从一种输入模式中学习,而诸如端到端语音翻译等任务需要语音和文本两者的统一表示,并且因此,(b)它们无法利用各种大规模文本和语音数据,并且其性能受限于并行语音翻译数据的稀缺。
因此,需要的是具有改进的性能和准确性的用于双语预训练和语音翻译的系统和方法。
附图说明
将参考本公开的实施例,其示例可以在附图中示出。这些附图意图是说明性的,而不是限制性的。尽管本公开通常在这些实施例的上下文中描述,但是应当理解,这并不意味着将本公开的范围限制于这些特定实施例。图中的项目可以不按比例绘制。
图(“FIG.”)1以图形的方式描绘了除大量的数据集语音识别和文本机器翻译的有限的语音翻译数据集;
图2A描绘了用于文本表示学习的掩蔽语言模型(MLM)的先前工作;
图2B描绘了用于跨语言文本表示学习的翻译语言模型(TLM)的先前工作;
图2C描绘了用于语音表示学习的掩蔽声学模型(MAM)的先前工作;
图3A描绘了根据本公开的实施例的单语融合声学和文本掩蔽语言模型(FAT-MLM);
图3B描绘了根据本公开的实施例的FAT-MLM的声学嵌入模块;
图3C描绘了根据本公开的实施例的FAT-MLM的语音重构模块;
图4描绘了根据本公开的实施例的用于预训练多模式转换器编码器的过程;
图5以图形的方式描绘了根据本公开的实施例的翻译FAT-MLM;
图6描绘了根据本公开的实施例的用于翻译FAT-MLM训练的过程;
图7以图形的方式描绘了根据本公开的实施例的翻译FAT-MLM的自注意力层;
图8A描绘了根据本公开的实施例的FAT-MLM中的两种语言之间良好的跨语言对齐;
图8B描绘了根据本公开的实施例的FAT-MLM中的清晰的单调语音到文本的跨模式注意力;
图9以图形的方式描绘了根据本公开的实施例的融合声学和文本语音翻译(FAT-ST)模型;
图10描绘了根据本公开的实施例的用于训练包括多模式编码器和解码器的FAT-ST模型的过程;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度(美国)有限责任公司,未经百度(美国)有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210949913.2/2.html,转载请声明来源钻瓜专利网。