[发明专利]语音合成方法、装置、设备及存储介质在审

申请号：	202110454505.5	申请日：	2021-04-26
公开（公告）号：	CN113178188A	公开（公告）日：	2021-07-27
发明（设计）人：	苏雪琦;王健宗;程宁	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G10L13/10	分类号：	G10L13/10
代理公司：	深圳市明日今典知识产权代理事务所(普通合伙) 44343	代理人：	王杰辉;宋庆洪
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音合成方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及人工智能技术领域，揭示了一种语音合成方法、装置、设备及存储介质，其中方法包括：对待语音合成的文本数据依次进行句子结构分析、文本正则化处理、分词处理和词性预测得到预处理后的文本数据；根据预处理后的文本数据得到音素预测结果；根据音素时长数据库、音素预测结果和预处理后的文本数据进行单字时间对齐得到单字时间数据；根据音素预测结果进行韵律预测得到韵律预测结果；将单字时间数据、音素预测结果和韵律预测结果输入声学模型进行声学特征预测得到待合成语音的声学特征数据；将待合成语音的声学特征数据输入声码器得到目标音频数据。通过向自回归结构的注意力机制提供单字时间对齐的信息，降低了注意力对齐不准。

技术领域

本申请涉及到人工智能技术领域，特别是涉及到一种语音合成方法、装置、设备及存储介质。

背景技术

目前主流的TTS(文本转换语音)系统采用了基于Encoder(编码)-Attention(注意力)-Decoder(解码)的自回归结构。因为自回归结构容易导致序列生成的错误传播以及注意力对齐不准，所以导致出现重复、跳过问题，从而导致部分文字对应的语音重复和部分文字没有对应的语音；因为自回归结构会逐个文字生成梅尔频谱图，不会明确地利用文本和语音之间的对齐，所以很难直接控制生成语音的速度或韵律停顿，从而导致速度异常、停顿异常。

发明内容

本申请的主要目的为提供一种语音合成方法、装置、设备及存储介质，旨在解决现有技术的语音合成系统采用自回归结构，导致出现重复、跳过，以及导致出现速度异常、韵律停顿异常的技术问题。

为了实现上述发明目的，本申请提出一种语音合成方法，所述方法包括：

获取待语音合成的文本数据；

对所述待语音合成的文本数据依次进行句子结构分析、文本正则化处理、分词处理和词性预测，得到预处理后的文本数据；

根据所述预处理后的文本数据进行音素预测，得到音素预测结果；

获取音素时长数据库，根据所述音素时长数据库、所述音素预测结果和所述预处理后的文本数据进行单字时间对齐，得到单字时间数据；

根据所述音素预测结果进行韵律预测，得到韵律预测结果；

将所述单字时间数据、所述音素预测结果和所述韵律预测结果输入声学模型进行声学特征预测，得到待合成语音的声学特征数据；

将所述待合成语音的声学特征数据输入声码器进行语音合成，得到目标音频数据。

进一步的，所述获取音素时长数据库的步骤之前，还包括：

获取多个待分析的梅尔频谱，所述多个待分析的梅尔频谱中的每个待分析的梅尔频谱是采用所述声学模型生成的梅尔频谱；