[发明专利]多语言语音合成和跨语言话音克隆在审

申请号：	202080039862.9	申请日：	2020-04-22
公开（公告）号：	CN113892135A	公开（公告）日：	2022-01-04
发明（设计）人：	张羽;罗恩·J·韦斯;比扬哈·春;吴永辉;陈智峰;鲁塞尔·约翰·怀亚特·斯克里-瑞安;贾晔;安德鲁·M·罗森贝格;布瓦那·拉马巴德兰	申请（专利权）人：	谷歌有限责任公司
主分类号：	G10L13/08	分类号：	G10L13/08;G10L13/02;G10L13/047
代理公司：	中原信达知识产权代理有限责任公司 11219	代理人：	李宝泉;周亚荣
地址：	美国加利***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语言语音合成话音克隆
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种方法(300)包括接收要合成为第一语言的语音(150)的输入文本序列(114)并获得讲话者嵌入(116a)，该讲话者嵌入指定目标讲话者(10)的特定话音特征以用于将输入文本序列合成为克隆目标讲话者的话音的语音。目标讲话者包括不同于第一语言的第二语言的母语讲话者。该方法还包括通过处理输入文本序列和讲话者嵌入来使用文本到语音(TTS)模型(100)生成输入文本序列的输出音频特征表示(119)。输出音频特征表示包括讲话者嵌入指定的目标讲话者的话音特征。

技术领域

本公开涉及多语言语音合成和跨语言话音克隆。

背景技术

最近的端到端(E2E)神经文本至语音(TTS)模型使得能够通过在除了文本之外的潜在表示上调节语音合成来控制讲话者身份以及未标记语音属性，例如韵律。当使用语言相关输入表示或模型组件时，尤其是当每语言的训练数据的量不平衡时，扩展这些TTS模型以支持多种不相关的语言是非平凡的。

作为示例，在诸如普通话和英语的一些语言之间的文本表示方面可能有很少或没有重叠。因为来自双语讲话者的录音收集起来昂贵，所以在训练集中的每个讲话者只说一种语言的常见情况下，讲话者身份完美地与语言相关。这使得难以跨不同的语言转移话音，这是所希望的特征，特别是当特定语言的可用训练话音的数目小时。此外，对于具有借用或共享词如西班牙语(ES)和英语(EN)中的专有名词的语言，相同文本的发音可能不同。当单纯地训练的模型有时为特定讲话者生成带口音的语音时，这添加更多的歧义。

发明内容

本公开的一个方面提供一种用于从输入文本序列合成语音的方法。该方法包括：在数据处理硬件处接收要被合成为第一语言的语音的输入文本序列；以及通过数据处理硬件获得指定目标讲话者的特定话音特性以用于将输入文本序列合成为克隆目标讲话者的话音的语音的讲话者嵌入。目标讲话者包括与第一语言不同的第二语言的母语讲话者。该方法还包括：通过数据处理硬件使用文本至语音(TTS)模型来通过处理输入文本序列和讲话者嵌入而生成输入文本序列的输出音频特征表示。输出音频特征表示包括由讲话者嵌入指定的目标讲话者的话音特性。

本公开的实现方式可以包括以下可选特征中的一个或多个。在一些实现方式中，该方法还包括通过数据处理硬件获得指定语言相关信息的语言嵌入。在这些实现方式中，处理输入文本和讲话者嵌入进一步包括处理输入文本、讲话者嵌入和语言嵌入以生成输入文本的输出音频特征表示，该输出音频特征表示进一步具有由语言嵌入指定的语言相关信息。语言相关信息可以与目标讲话者的第二语言相关联，并且指定语言相关信息的语言嵌入可以是从由一个或多个不同的讲话者用第二语言讲出的训练话语获得的。在其他示例中，语言相关信息可以与第一语言相关联，并且指定语言相关信息的语言嵌入可以是从由一个或多个不同的讲话者用第一语言讲出的训练话语获得的。

在一些示例中，生成输入文本的输出音频特征表示包括对于多个时间步中的每个时间步：使用编码器神经网络来处理该时间步的输入文本序列的相应部分以生成该时间步的对应文本编码；以及使用解码器神经网络来处理该时间步的文本编码以生成该时间步的对应输出音频特征表示。这里，编码器神经网络可以包括卷积子网络和双向长短期记忆(LSTM)层。附加地，解码器神经网络可以包括自回归神经网络，该自回归神经网络包括长短期记忆(LTSM)子网络、线性变换和卷积子网络。

输出音频特征表示可以包括梅尔频谱图。在一些实现方式中，该方法还包括：通过数据处理硬件使用波形合成器来使输出音频特征表示转化成时域波形；以及通过数据处理硬件使用时域波形来生成输入文本序列的合成语音表示，该合成语音表示以第一语言克隆目标讲话者的话音。

可以在第一语言训练集和第二语言训练集上训练TTS模型。第一语言训练集包括用第一语言讲出的多个话语和对应参考文本，而第二语言训练集包括用第二语言讲出的多个话语和对应参考文本。在附加示例中，在一个或多个附加语言训练集上进一步训练TTS模型，一个或多个附加语言训练集中的每个附加语言训练集包括以相应语言讲出的多个话语和对应参考文本。这里，每个附加语言训练集的相应语言与每个其他附加语言训练集的相应语言不同并且与第一语言和第二语言不同。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司，未经谷歌有限责任公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202080039862.9/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L13-00 语音合成；文本-语音合成系统
G10L13-02 .产生合成语音的方法；语音合成设备
G10L13-06 .语音合成设备中使用的基本语音单位；级联规则
G10L13-08 .文本分析或文本以外的语音合成参数的产生，例如语义图翻译为音素、韵律产生、重音或声调测定
G10L13-04 ..语音合成系统的零部件，例如合成设备结构或存储器管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]多语言语音合成和跨语言话音克隆在审

专利文献下载