[发明专利]语音处理方法、系统、设备及存储介质在审

专利信息
申请号: 202210820858.7 申请日: 2022-07-13
公开(公告)号: CN115188363A 公开(公告)日: 2022-10-14
发明(设计)人: 郭洋;王健宗;程宁 申请(专利权)人: 平安科技(深圳)有限公司
主分类号: G10L13/02 分类号: G10L13/02;G10L19/16;G10L25/24;G10L25/30;G06K9/62;G06N3/04
代理公司: 广州嘉权专利商标事务所有限公司 44205 代理人: 梁国平
地址: 518000 广东省深圳市福田区福*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 语音 处理 方法 系统 设备 存储 介质
【说明书】:

发明涉及人工智能,提供了一种语音处理方法、系统、设备及存储介质,该方法包括:获取语音信号和说话人向量,其中,语音信号包括时域分辨率;根据语音信号得到梅尔谱数据;将梅尔谱数据导入预设的声码器网络结构中的第一卷积层进行提取处理,得到初始隐状态数据,声码器网络结构包括第一卷积层、上采样层、残差层和第二卷积层,其中,第一卷积层的通道数量与第二卷积层的通道数量不同;在初始隐状态数据经过上采样层的上采样处理,得到降维隐状态数据的情况下,将说话人向量和降维隐状态数据导入残差层进行合成处理,得到混合数据,其中,降维隐状态数据的序列长度与时域分辨率一致;将混合数据导入第二卷积层进行降维处理,得到语音波形。

技术领域

本发明涉及人工智能技术领域,尤其涉及一种语音处理方法、系统、设备及存储介质。

背景技术

目前,在语音合成(Text to Speech,简称TTS)技术,涉及声学、语言学、数字信号处理技术、多媒体技术等多个学科技术,是中文信息处理领域的一项前沿技术。语音合成就是一个将文本转化为语音输出的过程,该过程分成三个部分,文字前端、声学模型和声码器,文字前端将文字转化为音素、语气、语调控制信息,声学模型再将这些信息转化为频谱图,声码器的作用是将频谱图转化为声波,声码器为TTS流程中的后端。

声码器承担着很重要的角色,声码器的好坏往往决定着整个语音处理系统的质量。在拥有多说话人大量训练数据的前提下,相关技术的声码器实现方法已能合成训练数据集内各说话人的高自然度语音。然而,针对训练数据集以外说话人且数据量匮乏的情况,相关技术的声码器实现方法的合成自然度欠佳。通常依靠尽可能多地录制说话人数据以改善合成自然度,需要耗费大量的人力和精力,因此,如何提高说话人语音合成的自然度,成为了亟待解决的技术问题。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例提供了一种语音处理方法、系统、设备及存储介质,能够在数据量匮乏的情况下,提高说话人语音合成的自然度。

第一方面,本发明实施例提供了一种语音处理方法,该方法包括:

获取语音信号和说话人向量,其中,所述语音信号包括时域分辨率;

根据所述语音信号得到梅尔谱数据;

将所述梅尔谱数据导入预设的声码器网络结构中的第一卷积层进行提取处理,得到初始隐状态数据,所述声码器网络结构包括所述第一卷积层、上采样层、残差层和第二卷积层,其中,所述第一卷积层的通道数量与所述第二卷积层的通道数量不同;

在所述初始隐状态数据经过所述上采样层的上采样处理,得到降维隐状态数据的情况下,将所述说话人向量和所述降维隐状态数据导入所述残差层进行合成处理,得到混合数据,其中,所述降维隐状态数据的序列长度与所述时域分辨率一致;

将所述混合数据导入所述第二卷积层进行降维处理,得到语音波形。

根据本发明提供的实施例的语音处理方法,至少具有如下有益效果:通过语音信号可以得到时域分辨率,还可以对语音信号进行处理得到梅尔谱数据。在得到梅尔谱数据后,导入预设的声码器网络结构中,通过第一卷积层对梅尔谱数据进行提取处理,可以提取得到梅尔谱数据对应的初始隐状态数据。利用声码器网络结构中的上采样层对初始隐状态数据进行上采样处理,降低初始隐状态数据的特征维度,得到降维隐状态数据,使得降维隐状态数据的序列长度和语音信号的时域分辨率一致,提高后续语音合成的自然度。从而,将降维隐状态数据和说话人向量导入残差层进行合成处理,建立语音之间的相关性,得到混合数据。再通过第二卷积层对混合数据进行降维处理,得到所需的语音波形。本发明实施例提供的语音处理方法通过预设的声码器网络结构,利用上采样层提高梅尔谱数据对应的降维隐状态数据的时域分辨率,再利用残差层建模语音在时间刻度上的局部相关性,同时在残差层中引入说话人向量,能够在针对合成数据集以外的说话人语音且数据量匮乏的情况下,提高说话人语音合成的自然度。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210820858.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top