[发明专利]语音合成方法、装置、设备及存储介质在审
申请号: | 202110454505.5 | 申请日: | 2021-04-26 |
公开(公告)号: | CN113178188A | 公开(公告)日: | 2021-07-27 |
发明(设计)人: | 苏雪琦;王健宗;程宁 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L13/10 | 分类号: | G10L13/10 |
代理公司: | 深圳市明日今典知识产权代理事务所(普通合伙) 44343 | 代理人: | 王杰辉;宋庆洪 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 合成 方法 装置 设备 存储 介质 | ||
本申请涉及人工智能技术领域,揭示了一种语音合成方法、装置、设备及存储介质,其中方法包括:对待语音合成的文本数据依次进行句子结构分析、文本正则化处理、分词处理和词性预测得到预处理后的文本数据;根据预处理后的文本数据得到音素预测结果;根据音素时长数据库、音素预测结果和预处理后的文本数据进行单字时间对齐得到单字时间数据;根据音素预测结果进行韵律预测得到韵律预测结果;将单字时间数据、音素预测结果和韵律预测结果输入声学模型进行声学特征预测得到待合成语音的声学特征数据;将待合成语音的声学特征数据输入声码器得到目标音频数据。通过向自回归结构的注意力机制提供单字时间对齐的信息,降低了注意力对齐不准。
技术领域
本申请涉及到人工智能技术领域,特别是涉及到一种语音合成方法、装置、设备及存储介质。
背景技术
目前主流的TTS(文本转换语音)系统采用了基于Encoder(编码)-Attention(注意力)-Decoder(解码)的自回归结构。因为自回归结构容易导致序列生成的错误传播以及注意力对齐不准,所以导致出现重复、跳过问题,从而导致部分文字对应的语音重复和部分文字没有对应的语音;因为自回归结构会逐个文字生成梅尔频谱图,不会明确地利用文本和语音之间的对齐,所以很难直接控制生成语音的速度或韵律停顿,从而导致速度异常、停顿异常。
发明内容
本申请的主要目的为提供一种语音合成方法、装置、设备及存储介质,旨在解决现有技术的语音合成系统采用自回归结构,导致出现重复、跳过,以及导致出现速度异常、韵律停顿异常的技术问题。
为了实现上述发明目的,本申请提出一种语音合成方法,所述方法包括:
获取待语音合成的文本数据;
对所述待语音合成的文本数据依次进行句子结构分析、文本正则化处理、分词处理和词性预测,得到预处理后的文本数据;
根据所述预处理后的文本数据进行音素预测,得到音素预测结果;
获取音素时长数据库,根据所述音素时长数据库、所述音素预测结果和所述预处理后的文本数据进行单字时间对齐,得到单字时间数据;
根据所述音素预测结果进行韵律预测,得到韵律预测结果;
将所述单字时间数据、所述音素预测结果和所述韵律预测结果输入声学模型进行声学特征预测,得到待合成语音的声学特征数据;
将所述待合成语音的声学特征数据输入声码器进行语音合成,得到目标音频数据。
进一步的,所述获取音素时长数据库的步骤之前,还包括:
获取多个待分析的梅尔频谱,所述多个待分析的梅尔频谱中的每个待分析的梅尔频谱是采用所述声学模型生成的梅尔频谱;
从所述多个待分析的梅尔频谱中提取一个所述待分析的梅尔频谱作为目标梅尔频谱;
根据所述目标梅尔频谱进行频带能量图生成,得到待分析的频带能量图;
获取预设的音频信号窗口,所述预设的音频信号窗口的长度小于元音音素的平均持续时长;
根据所述预设的音频信号窗口,对所述待分析的频带能量图进行音素检测,得到所述目标梅尔频谱对应的单音素频带能量图集合;
分别根据所述单音素频带能量图集合中的每个单音素频带能量图进行音素时长提取,得到所述目标梅尔频谱对应的单音素时长数据集合;
重复执行所述从所述多个待分析的梅尔频谱中提取一个所述待分析的梅尔频谱作为目标梅尔频谱的步骤,直至完成所述多个待分析的梅尔频谱中的各个所述待分析的梅尔频谱各自对应的所述单音素时长数据集合;
根据所述单音素时长数据集合更新所述音素时长数据库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110454505.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高频响大流量伺服阀
- 下一篇:一种化学发泡淤泥轻质土及其生产方法