[发明专利]用于多模式双语预训练和语音翻译的融合声学和文本编码在审
申请号: | 202210949913.2 | 申请日: | 2022-08-09 |
公开(公告)号: | CN116151276A | 公开(公告)日: | 2023-05-23 |
发明(设计)人: | 郑人杰;陈俊锟;马明博;黄亮 | 申请(专利权)人: | 百度(美国)有限责任公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G10L15/00;G10L15/02;G10L19/16;G10L25/24;G10L25/27 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;王艳春 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 模式 双语 训练 语音 翻译 融合 声学 文本 编码 | ||
1.一种用于训练神经网络模型的计算机实现的方法,所述方法包括:
掩蔽语音音频的声学特征序列中的一个或多个声学特征,以获得掩蔽的声学特征序列;
将所述掩蔽的声学特征序列编码为声学嵌入序列;
掩蔽用于所述语音音频的转录的标记序列中的一个或多个标记,以获得掩蔽的标记序列;
使用所述模型中的多模式转换器编码器来将所述掩蔽的声学特征序列和所述掩蔽的标记序列编码为声学和文本输入两者的统一潜在表示;
基于所述统一潜在表示生成重构的声学特征序列;
基于所述统一潜在表示生成对应于掩蔽的所述一个或多个标记的一个或多个重构标记;以及
使用包括语音重构损失和文本重构损失的整体损失来训练所述多模式转换器编码器。
2.如权利要求1所述的计算机实现的方法,其中所述神经网络模型是用于端到端语音翻译的模型。
3.如权利要求1所述的计算机实现的方法,其中使用随机声学特征掩蔽函数对所述声学特征序列中的所述一个或多个声学特征进行随机掩蔽,使用随机标记掩蔽函数对所述标记序列中的所述一个或多个标记进行随机掩蔽。
4.如权利要求1所述的计算机实现的方法,其中将所述掩蔽的声学特征序列和所述掩蔽的标记序列级联在一起以进行编码。
5.如权利要求1所述的计算机实现的方法,其中所述语音重构损失基于所述声学特征序列与所述重构的声学特征序列之间的均方误差。
6.如权利要求1所述的计算机实现的方法,其中所述文本重构损失是基于所述一个或多个重构标记的交叉熵损失。
7.如权利要求1所述的计算机实现的方法,其中所述声学特征序列是所述语音音频的声谱图或梅尔声谱图,每个声学特征是帧级语音特征。
8.一种用于训练语音翻译模型的计算机实现的方法,所述方法包括:
将声学嵌入序列与源语言嵌入结合,以形成结合声学嵌入的源语言,所述声学嵌入序列对应于语音音频;
将掩蔽的源语言标记序列与源语言嵌入结合,以形成结合标记的源语言序列,通过掩蔽标记序列中的一个或多个标记获得所述源语言标记序列,所述标记序列中的一个或多个标记对应于源语言中的所述的语音音频的转录;
将掩蔽的目标语言标记序列与目标语言嵌入结合,以形成结合标记的目标语言序列,通过掩蔽标记序列中的一个或多个标记获得所述目标语言标记序列,所述标记序列中的一个或多个标记对应于用于所述源语言中的转录的目标语言中的翻译转录;
将所述结合声学嵌入的源语言、所述结合标记的源语言序列和所述结合标记的目标语言序列级联,以形成级联嵌入;
通过所述语音翻译模型中的多模式转换器编码器,将所述级联嵌入编码为对语音、源语言文本和目标语言文本的统一表示;
基于所述统一表示来重构重构的声学特征序列、一个或多个重构源标记、一个或多个重构目标标记;以及
使用一种或多种损失来训练所述语音翻译模型,所述一种或多种损失选自:基于所述重构的声学特征序列的语音重构损失、基于所述一个或多个重构源标记的源文本重构损失、以及基于所述一个或多个重构目标标记的目标文本重构损失。
9.如权利要求8所述的计算机实现的方法,其中通过对掩蔽的声学特征序列进行编码获得所述声学嵌入序列,所述掩蔽的声学特征序列对应于所述语音音频,所述掩蔽的声学特征序列是通过随机掩蔽用于所述语音音频的声学特征序列中的一个或多个声学特征而生成的。
10.如权利要求8所述的计算机实现的方法,其中使用所述语音重构损失、所述源文本重构损失和所述目标文本重构损失的总和来训练所述语音翻译模型。
11.如权利要求8所述的计算机实现的方法,其中所述语音重构损失基于所述声学特征序列与所述重构的声学特征序列之间的均方误差。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度(美国)有限责任公司,未经百度(美国)有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210949913.2/1.html,转载请声明来源钻瓜专利网。