[发明专利]一种语音转换方法、装置、电子设备和存储介质有效
申请号: | 202110693848.7 | 申请日: | 2021-06-22 |
公开(公告)号: | CN113421571B | 公开(公告)日: | 2023-01-24 |
发明(设计)人: | 贺来朋;孙见青;梁家恩 | 申请(专利权)人: | 云知声智能科技股份有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L13/08;G10L13/04;G10L13/02 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100096 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 转换 方法 装置 电子设备 存储 介质 | ||
本发明涉及一种语音转换方法、装置、电子设备和存储介质,该方法应用于将源发音人的语音转换为目标发音人的语音,包括:获取源发音人的语音,根据源发音人的语音确定源发音人的文本;将源发音人的文本输入至目标发音人的语音合成模型和时长强制对齐模型中合成目标发音人的语音;其中,谱特征预测模块中包括时长模型以及声学特征模块。本申请通过时长强制对齐模型对源发音人的语音做强制对齐,得到源发音人的强制对齐时长信息,使用强制对齐的时长信息对时长模型预测的时长做调整,得到调整后的时长信息,并根据调整后的时长信息合成目标发音人的语音,使得转换后语音的语速与输入语音保持一致,从而使得转换后语音的发音风格与源发音人保持一致。
技术领域
本发明涉及语音转换技术领域,具体涉及一种语音转换方法、装置、电子设备和存储介质。
背景技术
目前,说话人转换技术,就是以源发音人的语音作为输入,将语音音色转换为目标发音人音色,同时保持说话内容不变。现有的技术方案,大都同时需要源发音人和目标发音人的训练数据,很多系统还必须要有平行数据(即两个发音人必须朗读相同的文本内容)。由于数据获取的困难,这大大限制了语音转换技术的使用场景。另一类采用ASR+TTS技术方案,使用ASR系统从源发音人录音中获取发音文本,然后送给目标发音人的TTS系统做合成。该方案不需要源发音人的训练数据,也不需要做与源发音人有关的模型训练,可以实现一套模型支持任意源发音人到特定目标发音人的语音转换。
目前的ASR+TTS语音转换方案可以实现任意源发音人到特定目标发音人的语音转换,但是这些系统无法根据源发音人的输入语音来控制目标发音人的发音风格,导致转换前后语音的发音风格存在明显差异。
发明内容
本发明提供一种语音转换方法、装置、电子设备和存储介质,能够解决上述语音转换过程中前后语音的发音风格存在明显差异的技术问题。
本发明解决上述技术问题的技术方案如下:
第一方面,本发明实施例提供了一种语音转换方法,应用于将源发音人的语音转换为目标发音人的语音,包括:
获取源发音人的语音,根据所述源发音人的语音确定源发音人的文本;
将所述源发音人的文本输入至目标发音人的语音合成模型和时长强制对齐模型中合成目标发音人的语音;
其中,所述目标发音人的语音合成模型包括:前端模块、谱特征预测模块、神经网络声码器;所述谱特征预测模块中包括时长模型以及声学特征模块。
在一些实施例中,上述语音转换方法中,将源发音人的语音和源发音人的文本输入至目标发音人的语音合成模型和时长强制对齐模型中合成目标发音人的语音,包括:
将源发音人的文本输入至所述前端模块中输出上下文相关信息;
从源发音人的语音中提取所述源发音人的声学特征;
将上下文相关信息输入至时长模型中得到每个音素的预测时长;
将源发音人的声学特征、上下文相关信息输入至时长强制对齐模型中得到每个音素的强制对齐时长;
使用每个音素的强制对齐时长调整每个音素的预测时长得到调整后的时长;
将上下文相关信息、调整后的时长输入至声学特征模块中输出每一帧的声学特征;
将每一帧的声学特征输入至神经网络声码器中得到目标发音人的语音。
在一些实施例中,上述语音转换方法中,训练时长强制对齐模型的步骤包括:
获取多个语音和多个文本对;
根据多个文本确定第一上下文相关信息;
提取多个语音中的梅尔倒谱特征,非周期谱特征和对数基频特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云知声智能科技股份有限公司,未经云知声智能科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110693848.7/2.html,转载请声明来源钻瓜专利网。