[发明专利]语音合成方法、装置、设备及计算机可读存储介质有效
申请号: | 201910569831.3 | 申请日: | 2019-06-27 |
公开(公告)号: | CN110264993B | 公开(公告)日: | 2020-10-09 |
发明(设计)人: | 王振宇;李昊;侯建康;李飞亚 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G10L13/08 | 分类号: | G10L13/08;G10L13/10 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 胡艾青;刘芳 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 合成 方法 装置 设备 计算机 可读 存储 介质 | ||
本发明提供一种语音合成方法、装置、设备及计算机可读存储介质。本发明的方法,通过根据输入文本的音素序列和音素特征,确定输入文本的音节单元,以及音节单元的音节特征,通过获取音节单元的特征,能够在音节粒度上更好地捕获输入文本的韵律变化特征;然后根据音节单元的音节特征可以进一步确定输入文本的原始音素的时长,根据输入文本的原始音素的时长,将输入文本的原始音素扩充为帧序列单元,确定输入文本的帧序列和帧特征;根据输入文本的帧特征,确定输入文本的声学参数,并进行语音合成,能够将在音节粒度上捕获的韵律变化特征传递给底层音素,能够更好地捕获上下文特征,提高语音合成的自然度,提高语音合成的质量。
技术领域
本发明涉及语音合成技术领域,尤其涉及一种语音合成方法、装置、设备及计算机可读存储介质。
背景技术
语音合成技术是指利用机器学习算法学习文本特征与语音声学参数的映射关系。
为了保证声学参数的短时平稳性,传统语音合成方法主要是基于音素级别建模,获取文本对应的音素序列,提取每个音素的音素特征,将文本的音素序列的音素特征输入传统的时长预测模型,得到每个音素的时长;根据每个音素的时长和音素特征输入参数统计模型,得到每个音素的声学参数,也就是说,基于音素级别建模,获取音素时长和音素的声学参数。但是,这样会导致合成参数过于平均,难以符合高自然度的合成要求,导致语音合成质量差。
发明内容
本发明提供一种语音合成方法、装置、设备及计算机可读存储介质,用以解决现有的语音合成方法基于音素级别建模,合成参数过于平均,难以符合高自然度的合成要求,导致语音合成质量差的问题。
本发明的一个方面是提供一种语音合成方法,包括:
根据输入文本的音素序列和音素特征,确定所述输入文本的音节单元,以及所述音节单元的音节特征,每个所述音节单元包括第一音素和第二音素,所述第二音素为所述输入文本的原始音素;
将所述音节单元的音节特征,输入时长预测模型,计算得到音节单元的总时长,以及所述音节单元中第一音素和第二音素的预测时长;
根据所述音节单元的时长,以及所述音节单元的总时长,以及所述音节单元中第一音素和第二音素的预测时长,确定所述输入文本的原始音素的时长;
根据所述输入文本的原始音素的时长,将所述输入文本的原始音素扩充为帧序列单元,确定所述输入文本的帧序列和帧特征;
根据所述输入文本的帧特征,确定所述输入文本的声学参数,并进行语音合成。
本发明的另一个方面是提供一种语音合成装置,包括:
音节生成模块,用于根据输入文本的音素序列和音素特征,确定所述输入文本的音节单元,以及所述音节单元的音节特征,每个所述音节单元包括第一音素和第二音素,所述第二音素为所述输入文本的原始音素;
时长预测模块,用于将所述音节单元的音节特征,输入时长预测模型,计算得到音节单元的总时长,以及所述音节单元中第一音素和第二音素的预测时长;
音素时长确定模块,用于根据所述音节单元的时长,以及所述音节单元的总时长,以及所述音节单元中第一音素和第二音素的预测时长,确定所述输入文本的原始音素的时长;
帧特征生成模块,用于根据所述输入文本的原始音素的时长,将所述输入文本的原始音素扩充为帧序列单元,确定所述输入文本的帧序列和帧特征;
声学参数处理模块,用于根据所述输入文本的帧特征,确定所述输入文本的声学参数,并进行语音合成。
本发明的另一个方面是提供一种语音合成设备,包括:
处理器,存储器,以及存储在所述存储器上并可在所述处理器上运行的计算机程序;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910569831.3/2.html,转载请声明来源钻瓜专利网。