[发明专利]一种语音转换方法、装置、电子设备和存储介质有效
申请号: | 202110693848.7 | 申请日: | 2021-06-22 |
公开(公告)号: | CN113421571B | 公开(公告)日: | 2023-01-24 |
发明(设计)人: | 贺来朋;孙见青;梁家恩 | 申请(专利权)人: | 云知声智能科技股份有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L13/08;G10L13/04;G10L13/02 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100096 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 转换 方法 装置 电子设备 存储 介质 | ||
1.一种语音转换方法,应用于将源发音人的语音转换为目标发音人的语音,其特征在于,包括:
获取源发音人的语音,根据所述源发音人的语音确定源发音人的文本;
将所述源发音人的文本输入至目标发音人的语音合成模型和时长强制对齐模型中合成目标发音人的语音;
其中,所述目标发音人的语音合成模型包括:前端模块、谱特征预测模块、神经网络声码器;所述谱特征预测模块中包括时长模型以及声学特征模块;
所述将所述源发音人的语音和源发音人的文本输入至目标发音人的语音合成模型和时长强制对齐模型中合成目标发音人的语音,包括:
将所述源发音人的文本输入至所述前端模块中输出上下文相关信息;
从所述源发音人的语音中提取所述源发音人的声学特征;
将所述上下文相关信息输入至所述时长模型中得到每个音素的预测时长;
将所述源发音人的声学特征、所述上下文相关信息输入至所述时长强制对齐模型中得到每个音素的强制对齐时长;
使用所述每个音素的强制对齐时长调整所述每个音素的预测时长得到调整后的时长;
将所述上下文相关信息、所述调整后的时长输入至所述声学特征模块中输出每一帧的声学特征;
将所述每一帧的声学特征输入至所述神经网络声码器中得到目标发音人的语音。
2.根据权利要求1所述的一种语音转换方法,其特征在于,训练时长强制对齐模型的步骤包括:
获取多个语音和多个文本对;
根据所述多个文本确定第一上下文相关信息;
提取所述多个语音中的梅尔倒谱特征,非周期谱特征和对数基频特征;
所述梅尔倒谱特征,所述非周期谱特征和所述对数基频特征及所述梅尔倒谱特征,所述非周期谱特征和所述对数基频特征的差分特征构成第一声学特征;
根据所述第一上下文相关信息和所述第一声学特征训练隐马尔可夫模型得到所述时长强制对齐模型。
3.根据权利要求1所述的一种语音转换方法,其特征在于,所述上下文相关信息至少包括:拼音信息、分词、词性、韵律停顿和句中位置。
4.根据权利要求1所述的一种语音转换方法,其特征在于,所述根据所述源发音人的语音确定源发音人的文本,包括:
获取多个语音和多个文本对;
训练所述多个语音和多个文本对得到语音识别模型;
将所述源发音人的语音输入至所述语音识别模型中输出所述源发音人的文本。
5.根据权利要求1所述的一种语音转换方法,其特征在于,所述使用所述每个音素的强制对齐时长调整所述每个音素的预测时长得到调整后的时长,包括:
采用韵律短语停顿方法停顿至少一次;
统计韵律短语内,每个音素的强制对齐时长和每个音素的预测时长的比例,将所述比例作为时长调整系数;
将所述韵律短语中每个音素的预测时长都乘以所述时长调整系数,得到的时长为调整后的时长。
6.根据权利要求1所述的一种语音转换方法,其特征在于,所述目标发音人的语音合成模型的训练步骤如下:
获取目标发音人的多个语音和文本对;
训练所述目标发音人的多个语音和文本对得到所述目标发音人的语音合成模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云知声智能科技股份有限公司,未经云知声智能科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110693848.7/1.html,转载请声明来源钻瓜专利网。