[发明专利]声码器训练方法、音频合成方法、介质、装置和计算设备在审

专利信息
申请号: 202310423846.5 申请日: 2023-04-17
公开(公告)号: CN116543778A 公开(公告)日: 2023-08-04
发明(设计)人: 李鹏;刘华平;潘颂声 申请(专利权)人: 杭州网易云音乐科技有限公司
主分类号: G10L19/16 分类号: G10L19/16;G10L25/30;G10L13/02
代理公司: 北京同立钧成知识产权代理有限公司 11205 代理人: 杨丽爽;刘芳
地址: 310052 浙江省杭州市萧山区钱江世*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 声码 训练 方法 音频 合成 介质 装置 计算 设备
【说明书】:

本公开的实施方式提供了一种声码器训练方法。该声码器训练方法包括:获取音频语料库中音频的第一基频序列;对第一基频序列进行基频扰动处理,得到第二基频序列;对第二基频序列进行映射处理,得到目标张量;对目标张量、音频对应的声学特征序列和音频进行训练,得到用于音频合成的声码器。本公开的方法通过引入基频扰动,提升了声码器在实际应用时对基频预测错误的鲁棒性,从而显著地提高了音频合成的准确性和质量,为用户带来了更好的体验。此外,本公开的实施方式提供了一种音频合成方法、介质、装置和计算设备。

技术领域

本公开的实施方式涉及计算机技术领域,更具体地,本公开的实施方式涉及声码器训练方法、音频合成方法、介质、装置和计算设备。

背景技术

本部分旨在为本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

音频合成,是指基于人工智能(Artificial Intelligence,简称AI)模型将输入文本转为对应的语音音频,实现音频的人工合成,可用于语音播报等人机交互场景。音频合成的基本框架可以包含前端模块、声学模型和声码器。其中,声码器(vocoder)是指在传输中只利用模型参数,在编译码时利用模型参数估计和语音合成技术的语音信号编译码器,一种对话音进行分析和合成的编、译码器,也称话音分析合成系统或话音频带压缩系统。

相关技术中,在利用声码器合成音频时,通常是通过在真实的语料库音频中提取出基频(fundamental frequency,简称F0),然后将基频引入到声码器中进行训练,训练好的声码器可以优化合成的干声音频中存在的毛刺,提升合成的干声音频的质量。

但通过上述技术训练得到的声码器鲁棒性较差。

发明内容

本公开提供一种声码器训练方法、音频合成方法、介质、装置和计算设备,以提升声码器在应用时对基频预测错误的鲁棒性,从而显著提高音频合成的准确性和质量,为用户带来更好的体验。

在本公开实施方式的第一方面中,提供了一种声码器训练方法,包括:获取音频语料库中音频的第一基频序列;对第一基频序列进行基频扰动处理,得到第二基频序列;对第二基频序列进行映射处理,得到目标张量;对目标张量、音频对应的声学特征序列和音频进行训练,得到用于音频合成的声码器。

在本公开的一个实施例中,对第一基频序列进行基频扰动处理,得到第二基频序列,包括:针对第一基频序列中的每个基频进行以下基频扰动处理,得到第二基频序列:获取基频的第一对数;对第一对数进行最值截断处理,得到第二对数;对第二对数进行量化处理,得到基频对应的基频类别标签;对基频类别标签进行反量化处理。

在本公开的另一实施例中,对第一基频序列进行基频扰动处理,得到第二基频序列,包括:针对第一基频序列中的每个基频进行以下基频扰动处理,得到第二基频序列:在基频的预设采样范围内,对基频进行随机采样,得到基频对应的扰动参数;将扰动参数和基频进行加和处理。

在本公开的又一个实施例中,映射处理包含激励映射和嵌入映射,对第二基频序列进行映射处理,得到目标张量,包括:对第二基频序列进行激励映射,得到第一张量;对第二基频序列进行嵌入映射,得到第二张量;对第一张量和第二张量进行组合处理,得到目标张量。

在本公开的再一个实施例中,对第二基频序列进行嵌入映射,得到第二张量,包括:响应于第二基频序列为连续域的浮点数值,采用上采样插值方法对第二基频序列进行上采样插值处理,得到第一采样基频序列;对第一采样基频序列进行嵌入映射,得到第二张量。

在本公开的再一个实施例中,对第二基频序列进行嵌入映射,得到第二张量,包括:响应于第二基频序列为量化处理后的基频类别标签,采用最近邻插值对第二基频序列进行上采样处理,得到第二采样基频序列;对第二采样基频序列进行嵌入映射,得到第二张量。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州网易云音乐科技有限公司,未经杭州网易云音乐科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310423846.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top