[发明专利]基于注意力的时钟层次变分编码器在审
| 申请号: | 201980102691.7 | 申请日: | 2019-12-10 |
| 公开(公告)号: | CN114746935A | 公开(公告)日: | 2022-07-12 |
| 发明(设计)人: | 罗伯特·克拉克;詹竣安;文森特·万 | 申请(专利权)人: | 谷歌有限责任公司 |
| 主分类号: | G10L13/10 | 分类号: | G10L13/10;G06N3/04;G10L13/047 |
| 代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 李佳;周亚荣 |
| 地址: | 美国加利*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 注意力 时钟 层次 编码器 | ||
一种用于在合成语音中表示预期韵律的方法(400)包括接收具有至少一个词(240)的文本话语(310),和为文本话语选择话语嵌入(204)。文本话语中的每个词具有至少一个音节(230),并且每个音节具有至少一个音素(220)。话语嵌入表示预期韵律。对于每个音节,使用所选择的话语嵌入,该方法还包括:通过基于注意力机制(340)对该音节的每个音素的语言特征(222)的注意力来解码该音节的韵律音节嵌入(232、234)来预测该音节的持续时间(238),并基于所预测的该音节的持续时间来生成多个固定长度预测帧(260)。
技术领域
本公开涉及一种基于注意力的时钟层次变分编码器。
背景技术
语音合成系统使用文本到语音(TTS)模型从文本输入生成语音。生成/合成的语音应该准确地传达消息(可理解度),同时听起来像具有预期韵律(表现力)的人类语音(自然度)。虽然传统的拼接和参数合成模型能够提供可理解的语音,并且语音的神经建模的最新进展已经显著提高了合成语音的自然度,但是大多数现有的TTS模型在建模韵律方面是无效的,从而导致重要应用使用的合成语音缺乏表现力。例如,对于诸如会话助手和长格式阅读器之类的应用来说,希望通过诸如语调、重音、节奏和风格的输入文本输入中没有传达的韵律特征,来产生真实的语音。例如,简单的陈述可以用许多不同的方式说出,这取决于该陈述是问题、问题的答案、该陈述中存在不确定性,还是传达输入文本未指明的关于环境或场境的任何其他含义。
发明内容
本公开的一个方面提供了一种用于基于注意力的时钟层次变分编码器的方法。该方法包括在数据处理硬件处接收具有至少一个词的文本话语,每个词具有至少一个音节,每个音节具有至少一个音素。该方法还包括由数据处理硬件为文本话语选择话语嵌入。该话语嵌入表示预期韵律。对于每个音节,使用所选择的话语嵌入,该方法包括由数据处理硬件通过基于注意力机制对音节的每个音素的语言特征的注意力解码音节的韵律音节嵌入来预测音节的持续时间。对于每个音节,使用所选择的话语嵌入,该方法还包括由数据处理硬件基于该音节的预测持续时间生成多个固定长度的预测帧。
本公开的实现方式可以包括一个或多个以下可选特征。在一些实施方式中,该方法包括由数据处理硬件基于音节的预测持续时间来预测音节的音高轮廓。在该实现方式中,当多个固定长度预测帧包括固定长度预测音高帧时,每个固定长度预测音高帧表示音节的预测音高轮廓的一部分。
在一些示例中,对于每个音节,使用所选择的话语嵌入,该方法包括由数据处理硬件基于音节的预测持续时间来预测每个音节的能量轮廓。在这个示例中,该方法还包括由数据处理硬件基于对应音节的预测持续时间生成多个固定长度预测能量帧,每个固定长度能量帧表示对应音节的预测能量轮廓。多个固定长度预测帧可以包括音节的固定长度预测频谱帧。
在一些配置中,表示文本话语的层次语言结构的网络包括包含文本话语的每个词的第一级别、包含文本话语的每个音节的第二级别和包含文本话语的每个音节的每个固定长度预测帧的第三级别。这里,表示层次语言结构的网络的第一级别可以包括表示文本话语的每个词的长短期记忆(LSTM)处理块。表示层次语言结构的网络的第二级别可以包括表示文本话语的每个音节的LSTM处理块,第二级别的LSTM处理块相对于第一级别的LSTM处理块并且比第一级别的LSTM处理块更快计时。表示层次语言结构的网络的第三级别可以包括表示每个固定长度预测帧的LSTM处理块,第三级别的LSTM处理块相对于第二级别的LSTM处理块并且比第二级别的LSTM处理块更快计时。
在一些配置中,预测音节的持续时间包括,对于与音节相关联的每个音素,编码对应音素的一个或多个语言特征,将编码的一个或多个语言特征输入到注意力机制中,以及将注意力机制的注意力应用于韵律音节嵌入。韵律音节嵌入可以包括基于对应于话语嵌入的帧的第一音节嵌入和基于与话语嵌入的一个或多个音素相关联的音素语言特征的第二音节嵌入。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980102691.7/2.html,转载请声明来源钻瓜专利网。





