[发明专利]基于音频场景下的音频原始数据处理方法及装置有效

申请号：	202110275305.3	申请日：	2021-03-15
公开（公告）号：	CN113053405B	公开（公告）日：	2022-12-09
发明（设计）人：	王亚新;曾德林;江文乐;阮明慧	申请（专利权）人：	中国工商银行股份有限公司
主分类号：	G10L21/0216	分类号：	G10L21/0216;G10L21/0272;G10L25/03;G10L25/51;G06N20/00;G06N20/10
代理公司：	北京三友知识产权代理有限公司 11127	代理人：	任默闻;王涛
地址：	100140 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于音频场景原始数据处理方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于音频场景下的音频原始数据处理方法，其特征在于，包括：

获取目标音频场景下的音频原始数据；

根据所述音频原始数据、预生成的机器学习模型以及预先创建的音频场景库处理所述音频原始数据；

创建所述机器学习模型的步骤包括：

获取多个音频场景下的音频原始数据；

提取所述多个音频场景下的音频原始数据的特征数据；

根据所述特征数据以及预先设定的约束条件对所述机器学习模型的初始模型进行训练，以生成所述机器学习模型；

所述根据所述特征数据以及预先设定的约束条件对所述机器学习模型的初始模型进行训练，以生成所述机器学习模型，包括：

将多个特征数据输入至算法池，以生成多个初始模型；

利用所述算法池中的多个算法，根据所述特征数据以及所述约束条件对多个初始模型进行训练，以生成多个机器学习模型。

2.根据权利要求1所述的基于音频场景下的音频原始数据处理方法，其特征在于，预先创建所述音频场景库的步骤包括：

建立多个音频场景下的音频原始数据的特征数据与其对应的音频场景之间的映射关系，以创建所述音频场景库。

3.根据权利要求1所述的基于音频场景下的音频原始数据处理方法，其特征在于，所述根据所述音频原始数据、预生成的机器学习模型以及预先创建的音频场景库处理所述音频原始数据，包括：

提取所述目标音频场景下的音频原始数据的特征数据；

根据所述特征数据在所述音频场景库中匹配其对应的音频场景；

根据所述音频场景确定所述目标音频场景对应的音频调优参数；

将所述特征数据以及所述音频调优参数输入至所述机器学习模型，以对所述音频原始数据进行人声增益、回声消除以及噪声抑制。

4.一种基于音频场景下的音频原始数据处理装置，其特征在于，包括：

数据获取模块，用于获取目标音频场景下的音频原始数据；

音频原始数据处理模块，用于根据所述音频原始数据、预生成的机器学习模型以及预先创建的音频场景库处理所述音频原始数据；

学习模型生成模块，用于生成所述机器学习模型，所述学习模型生成模块包括：

数据获取单元，用于获取多个音频场景下的音频原始数据；

特征数据提取第一单元，用于提取所述多个音频场景下的音频原始数据的特征数据；

学习模型生成单元，用于根据所述特征数据以及预先设定的约束条件对所述机器学习模型的初始模型进行训练，以生成所述机器学习模型；

所述学习模型生成单元包括：

多初始模型生成单元，用于将多个特征数据输入至算法池，以生成多个初始模型；

多学习模型生成单元，用于利用所述算法池中的多个算法，根据所述特征数据以及所述约束条件对多个初始模型进行训练，以生成多个机器学习模型。

5.根据权利要求4所述的基于音频场景下的音频原始数据处理装置，其特征在于，还包括：场景库生成模块，用于创建所述音频场景库；

所述音频场景库具体用于建立多个音频场景下的音频原始数据的特征数据与其对应的音频场景之间的映射关系，以创建所述音频场景库。

6.根据权利要求5所述的基于音频场景下的音频原始数据处理装置，其特征在于，所述音频原始数据处理模块包括：

特征数据提取第二单元，用于提取所述目标音频场景下的音频原始数据的特征数据；

音频场景匹配单元，用于根据所述特征数据在所述音频场景库中匹配其对应的音频场景；

音频调优参数确定单元，用于根据所述音频场景确定所述目标音频场景对应的音频调优参数；

音频原始数据处理单元，用于将所述特征数据以及所述音频调优参数输入至所述机器学习模型，以对所述音频原始数据进行人声增益、回声消除以及噪声抑制。

7.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至3任一项所述基于音频场景下的音频原始数据处理方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至3任一项所述基于音频场景下的音频原始数据处理方法的步骤。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司，未经中国工商银行股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110275305.3/1.html，转载请声明来源钻瓜专利网。

上一篇：用户设备标识与信息中心联网请求的相关性
下一篇：考虑可压缩和热传导效应的壁面第一层网格厚度估算方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于音频场景下的音频原始数据处理方法及装置有效

专利文献下载