[发明专利]语音生成方法、系统和计算机设备有效
申请号: | 202010052356.5 | 申请日: | 2020-01-17 |
公开(公告)号: | CN111276119B | 公开(公告)日: | 2023-08-22 |
发明(设计)人: | 马坤;赵之砚;施奕明 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L15/08;G10L25/18 |
代理公司: | 北京英特普罗知识产权代理有限公司 11015 | 代理人: | 王勇 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 生成 方法 系统 计算机 设备 | ||
本发明实施例提供了一种语音生成方法,所述方法包括:获取用户音频数据,并将所述用户音频数据转化成用户语音频谱图;从所述用户语音频谱图中提取所述用户音频数据对应的用户语音属性,所述用户语音属性包括风格属性;获取待编辑音频数据,并将所述待编辑音频数据转化成待编辑语音频谱图;根据所述用户语音属性和所述待编辑语音频谱图,生成目标语音频谱图;及根据所述目标语音频谱图生成用于输出的语音信号。本发明实施例可以实现以指定的语音风格属性输出具有指定的语音风格的语音。
技术领域
本发明实施例涉及语音合成领域,尤其涉及一种语音生成方法、系统、计算机设备及计算机可读存储介质。
背景技术
语音合成技术是人工智能领域的重要能力,更真实自然更有情绪感染力的合成语音,可以极大的提高用户的服务体验,这对于人工智能来说,代表了最高水平的发展。而实际应用中,在与用户交互过程中,合成语音通常保持呈现一种固定风格的合成效果,用户体验极差。因为现行的语音合成系统,大部分都是基于训练数据集的语音训练的TTS模型,只能输出一种固定风格的合成语音。
因此,为使得在智能语音对话中可以控制计算机设备以指定的语音模式输出语音数据,从而进一步提高了业务流程的工作效率,成为了当前要解决的技术问题之一。
发明内容
有鉴于此,有必要提供一种语音生成方法、系统、计算机设备及计算机可读存储介质,以解决当前语音合成系统合成的风格语音风格单一的技术问题。
为实现上述目的,本发明实施例提供了一种语音生成方法,所述方法步骤包括:
获取用户音频数据,并将所述用户音频数据转化成用户语音频谱图;
从所述用户语音频谱图中提取所述用户音频数据对应的用户语音属性,所述用户语音属性包括风格属性;
获取待编辑音频数据,并将所述待编辑音频数据转化成待编辑语音频谱图;
根据所述用户语音属性和所述待编辑语音频谱图,生成目标语音频谱图;及
根据所述目标语音频谱图生成用于输出的语音信号。
示例性的,将所述用户音频数据转化成用户语音频谱图,包括:
提取所述用户音频数据的用户频谱信息;
根据所述用户频谱信息生成对应于时域的第一波形图;
将所述第一波形图进行分帧处理,得到多个第一单帧波形图;
对每个第一单帧波形图进行傅里叶变换操作,以得到多个第一单帧频谱图,其中,每个第一单帧频谱图的横轴用于表示频率,每个第一单帧频谱图的纵轴用于表示振幅;
将每个第一单帧频谱图的进行反转操作和灰度操作,以得到多个第一一维灰度振幅图,其中,所述反转操作用于调换第一单帧频谱图中的横轴和纵轴,所述灰度操作用于通过灰度值表示经过反转操作之后的第一单帧频谱图中的振幅;及
合成所述多个第一一维灰度振幅图,以得到所述用户语音频谱图。
示例性的,从所述用户语音频谱图中提取所述用户音频数据对应的用户语音属性,包括:
通过目标生成器提取所述用户语音频谱图的语音属性,得到所述用户音频数据对应的所述用户语音属性;
其中,所述目标生成器是预先训练好的目标GAN模型中的生成器,所述目标生成器包括空间注意力网络和属性编辑网络,所述空间注意力网络用于确定语音频谱图的属性区域,所述属性编辑网络用于对所述属性区域的语音频谱图进行语音属性编辑和语音属性提取。
示例性的,所述方法还包括所述GAN模型的训练步骤:
获取样本频谱图及样本频谱图对应的样本属性标签,其中,所述样本频谱图包括语音频谱图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010052356.5/2.html,转载请声明来源钻瓜专利网。