[发明专利]语音合成方法、装置、可读介质及电子设备有效

申请号：	202011312059.6	申请日：	2020-11-20
公开（公告）号：	CN112489620B	公开（公告）日：	2022-09-09
发明（设计）人：	潘俊杰	申请（专利权）人：	北京有竹居网络技术有限公司
主分类号：	G10L13/08	分类号：	G10L13/08;G10L13/02;G10L13/027
代理公司：	北京英创嘉友知识产权代理事务所(普通合伙) 11447	代理人：	张岩龙
地址：	101299 北京市平***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音合成方法装置可读介质电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开涉及一种语音合成方法、装置、可读介质及电子设备，该方法包括：获取待合成文本中包括的多个语句中每个语句对应的目标文本，针对每个语句，将该语句对应的目标文本、该语句对应的历史文本和该语句对应的历史音频，输入预先训练的语音合成模型，以获取语音合成模型输出的，该语句对应的目标音频，历史文本为待合成文本中该语句的上一个语句对应的目标文本，历史音频为历史文本对应的目标音频，将每个语句对应的目标音频进行合成，得到待合成文本对应的总音频。本公开针对文本中的每个语句，都能结合该语句的上一个语句所包含的信息，合成对应的音频，使得相邻的两个语句对应的音频能够保持连贯，从而提高文本对应的总音频的连贯度。

技术领域

本公开涉及电子信息处理技术领域，具体地，涉及一种语音合成方法、装置、可读介质及电子设备。

背景技术

随着电子信息处理技术的不断发展，语音作为人们获取信息的重要载体，已经被广泛应用于日常生活和工作中。涉及语音的应用场景中，通常会包括语音合成的处理，语音合成是指将用户指定的文本，合成为音频。通常情况下，考虑到终端设备的处理资源有限和输出结果的稳定性，在对文本进行语音合成时，是分别对文本中的每一个语句进行语音合成，然后再将每个语句合成后的音频进行拼接，得到文本对应的完整音频，一个文本中不同语句对应的音频之间可能存在风格、音量等属性差异较大的问题，导致完整音频的连贯度很低，降低了用户的听觉体验。

发明内容

提供该发明内容部分以便以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

第一方面，本公开提供一种语音合成方法，所述方法包括：

获取待合成文本中包括的多个语句中每个语句对应的目标文本；

针对每个所述语句，将该语句对应的目标文本、该语句对应的历史文本和该语句对应的历史音频，输入预先训练的语音合成模型，以获取所述语音合成模型输出的，该语句对应的目标音频，所述历史文本为所述待合成文本中该语句的上一个语句对应的目标文本，所述历史音频为所述历史文本对应的目标音频；

将每个所述语句对应的目标音频进行合成，得到所述待合成文本对应的总音频。

第二方面，本公开提供一种语音合成装置，所述装置包括：

获取模块，用于获取待合成文本中包括的多个语句中每个语句对应的目标文本；

第一合成模块，用于针对每个所述语句，将该语句对应的目标文本、该语句对应的历史文本和该语句对应的历史音频，输入预先训练的语音合成模型，以获取所述语音合成模型输出的，该语句对应的目标音频，所述历史文本为所述待合成文本中该语句的上一个语句对应的目标文本，所述历史音频为所述历史文本对应的目标音频；

第二合成模块，用于将每个所述语句对应的目标音频进行合成，得到所述待合成文本对应的总音频。

第三方面，本公开提供一种计算机可读介质，其上存储有计算机程序，该程序被处理装置执行时实现本公开第一方面所述方法的步骤。

第四方面，本公开提供一种电子设备，包括：