[发明专利]语音合成方法、语音合成模型的训练方法及装置在审

申请号：	202110400408.8	申请日：	2021-04-14
公开（公告）号：	CN113112987A	公开（公告）日：	2021-07-13
发明（设计）人：	胡大盟	申请（专利权）人：	北京地平线信息技术有限公司
主分类号：	G10L13/027	分类号：	G10L13/027;G10L13/08
代理公司：	北京市正见永申律师事务所 11497	代理人：	黄小临;冯玉清
地址：	100094 北京市海淀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音合成方法模型训练装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

公开了一种语音合成方法、语音合成模型的训练方法及装置。本公开一实施例中的语音合成方法可以包括：对待合成的第一文本进行文本编码，以获得第一合成特征；对第一声学特征进行声学编码，以获得第二合成特征；对所述第一合成特征、第二合成特征和预先选定的情感表述参数进行对齐处理，以获得第三合成特征；对所述第三合成特征进行声学解码，以获得所述第一文本的第二声学特征。本公开基于预先设定情感表述参数即可合成特定情感程度的语音，满足了实际应用需求。

技术领域

本公开涉及语音合成技术领域，尤其涉及一种语音合成方法、语音合成模型的训练方法及装置。

背景技术

随着智能化设备的普及以及语音识别技术的发展，人们的交互方式已经慢慢从传统的文本转向了更人性化的语音交互方式。语音合成技术能够让机器拥有人类的声音，改变了传统的文字交互方式。

发明内容

目前的语音合成在合成带有情感方面主要依赖训练音库，而无法采用参数自适应调节的合成情感语音，例如同样的文本合成开心的和愤怒的音色，需要在该发音人的2种不同的情感音库上训练2个独立的模型，且只能合成独立的情感。为解决该技术问题，本公开实施例期望提供一种语音合成方法、语音合成模型的训练方法及装置、电子设备、存储介质，能够通过设置参数来合成相应情感程度的语音。

根据本公开的一个方面，提供了一种语音合成方法，包括：

对待合成的第一文本进行文本编码，以获得第一合成特征；

对第一声学特征进行声学编码，以获得第二合成特征；

对所述第一合成特征、第二合成特征和预先选定的情感表述参数进行对齐处理，以获得第三合成特征；以及

对所述第三合成特征进行声学解码，以获得所述第一文本的第二声学特征。

根据本公开的一个方面，提供了一种语音合成模型的训练方法，包括：

设置语音合成模型中的语音合成参数为当前值，所述语音合成参数至少包括如下之一：文本编码参数、声学编码参数、声学解码参数、所述情感表述参数和用于细化所述情感表述参数粒度的基础权重参数；

利用作为训练样本的第二文本及其真实声学特征执行所述语音合成模型的语音合成，以获得所述第二文本的预测声学特征，所述语音合成模型的语音合成包括依次执行的文本编码、声学编码、对齐处理和声学解码；以及

根据所述对齐处理所产生的对齐训练特征、所述第二文本的真实声学特征和所述预测声学特征，调整所述语音合成参数的取值。

根据本公开的一个方面，提供了一种语音合成装置，包括：

文本编码单元，配置为对待合成的第一文本进行文本编码，以获得第一合成特征；

声学编码单元，配置为对第一声学特征进行声学编码，以获得第二合成特征；

对齐处理单元，配置为对所述第一合成特征、第二合成特征和预先选定的情感表达参数进行对齐处理，以获得第三合成特征；

声学解码单元，配置为对所述第三合成特征进行声学解码，以获得所述第一文本的第二声学特征。

根据本公开的一个方面，提供了一种电子设备，包括：一个或多个处理器；以及，存储器，存储有计算机程序，所述计算机程序在被所述处理器运行时使所述处理器执行上述语音合成方法和/或语音合成模型的训练方法。

根据本公开的一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在被处理器运行时使得所述处理器执行上述语音合成方法和/或语音合成模型的训练方法。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京地平线信息技术有限公司，未经北京地平线信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110400408.8/2.html，转载请声明来源钻瓜专利网。

上一篇：基于图像获取分析技术和物联网的酒店日常管理安全在线监测方法
下一篇：像素电路、像素驱动方法和显示装置

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L13-00 语音合成；文本-语音合成系统
G10L13-02 .产生合成语音的方法；语音合成设备
G10L13-06 .语音合成设备中使用的基本语音单位；级联规则
G10L13-08 .文本分析或文本以外的语音合成参数的产生，例如语义图翻译为音素、韵律产生、重音或声调测定
G10L13-04 ..语音合成系统的零部件，例如合成设备结构或存储器管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]语音合成方法、语音合成模型的训练方法及装置在审

专利文献下载