[发明专利]基于音频场景下的音频原始数据处理方法及装置有效
申请号: | 202110275305.3 | 申请日: | 2021-03-15 |
公开(公告)号: | CN113053405B | 公开(公告)日: | 2022-12-09 |
发明(设计)人: | 王亚新;曾德林;江文乐;阮明慧 | 申请(专利权)人: | 中国工商银行股份有限公司 |
主分类号: | G10L21/0216 | 分类号: | G10L21/0216;G10L21/0272;G10L25/03;G10L25/51;G06N20/00;G06N20/10 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 任默闻;王涛 |
地址: | 100140 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 音频 场景 原始 数据处理 方法 装置 | ||
本发明属于大数据技术领域,本发明提供了一种基于音频场景下的音频原始数据处理方法及装置,基于音频场景下的音频原始数据处理方法包括:获取目标音频场景下的音频原始数据;根据所述音频原始数据、预生成的机器学习模型以及预先创建的音频场景库处理所述音频原始数据。本发明解决了实时音频应用场景下缺少质量反馈机制,默认参数调优无法广泛适应现有应用场景的情况,可广泛应用在实时音视频多场景情况下,形成正向质量反馈机制,且不影响现有音频系统使用,具备快速推广的条件。
技术领域
本发明属于大数据技术领域,具体涉及一种基于音频场景下的音频原始数据处理方法及装置。
背景技术
现有技术中,音频会话场景下的音频质量评价主要从三个维度进行,即噪声抑制、回声消除以及人声增益,此三类评价一般采用人工MOS主观评价打分来评判音频质量,但这种评判方式存在主观风险,且耗时久,反馈机制冗长,不利于线上音频会话质量即使改善,如何能够建立正向反馈机制,实时对音频相关参数进行调整控制,成为提升音频质量的关键。
发明内容
本发明属于大数据技术领域,针对现有技术中的问题,本发明解决了实时音频应用场景下缺少质量反馈机制,默认参数调优无法广泛适应现有应用场景的情况,可广泛应用在实时音视频多场景情况下,形成正向质量反馈机制,且不影响现有音频系统使用,具备快速推广的条件。
为解决上述技术问题,本发明提供以下技术方案:
第一方面,本发明提供一种基于音频场景下的音频原始数据处理方法,包括:
获取目标音频场景下的音频原始数据;
根据所述音频原始数据、预生成的机器学习模型以及预先创建的音频场景库处理所述音频原始数据。
一实施例中,生成所述机器学习模型的步骤包括:
获取多个音频场景下的音频原始数据;
提取所述多个音频场景下的音频原始数据的特征数据;
根据所述特征数据以及预先设定的约束条件对所述机器学习模型的初始模型进行训练,以生成所述机器学习模型。
一实施例中,创建所述音频场景库的步骤包括:
建立多个音频场景下的音频原始数据的特征数据与其对对应的音频场景之间的映射关系,以创建所述音频场景库。
一实施例中,所述根据所述特征数据以及预先设定的约束条件对所述机器学习模型的初始模型进行训练,以生成所述机器学习模型,包括:
将多个特征数据输入至算法池,以生成多个初始模型;
利用所述算法池中的多个算法,根据所述特征数据以及所述约束条件对多个初始模型进行训练,以生成多个机器学习模型。
一实施例中,所述根据所述音频原始数据、预生成的机器学习模型以及预先创建的音频场景库处理所述音频原始数据,包括:
提取所述目标音频场景下的音频原始数据的特征数据;
根据所述特征数据在所述音频场景库中匹配其对应的音频场景;
根据所述音频场景确定所述目标音频场景对应的音频调优参数;
将所述特征数据以及所述音频调优参数输入至所述机器学习模型,以处理所述音频原始数据。
第二方面,本发明提供一种基于音频场景下的音频原始数据处理装置,包括:
数据获取模块,用于获取目标音频场景下的音频原始数据;
音频原始数据处理模块,用于根据所述音频原始数据、预生成的机器学习模型以及预先创建的音频场景库处理所述音频原始数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司,未经中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110275305.3/2.html,转载请声明来源钻瓜专利网。