[发明专利]一种音频信息处理方法及终端有效
| 申请号: | 201610157251.X | 申请日: | 2016-03-18 |
| 公开(公告)号: | CN105741835B | 公开(公告)日: | 2019-04-16 |
| 发明(设计)人: | 赵伟峰 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G10L15/08 | 分类号: | G10L15/08;G10L15/16;G10H1/36 |
| 代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 张颖玲;王花丽 |
| 地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 音频 信息处理 方法 终端 | ||
本发明公开了一种音频信息处理方法及终端,包括:对第一音频文件进行解码获得表征第一声道输出的第一音频子文件以及表征第二声道输出的第二音频子文件;从所述第一音频子文件中提取出第一音频数据,以及从所述第二音频子文件中提取出第二音频数据;所述第一音频数据和所述第二音频数据表征的属性相同;获取所述第一音频数据的第一音频能量值,以及获取所述第二音频数据的第二音频能量值;基于所述第一音频能量值及所述第二音频能量值,确定所述第一声道或所述第二声道为满足特定属性需求的声道。
技术领域
本发明涉及信息处理技术,尤其涉及一种音频信息处理方法及终端。
背景技术
传统的具有伴奏功能的音频文件一般具有两个声道,一个是原声声道(伴奏+人声)、一个是伴奏声道,用于在用户k歌时进行切换,但由于没有固定标准,不同渠道获取的音频文件版本不一致,有的第一声道是伴奏,有的是第二声道是伴奏,导致在得到这些音频文件后无法确认哪一个声道是伴奏声道,通常需要人工识别或设备自动分辨后将其调整为统一格式后才能上线。
然而,若通过人工过滤,效率低、成本高;而很多伴奏音频存在大量的人声伴唱等原因,采用设备分辨的方式正确率不高。对于上述问题,目前尚无有效解决方案。
发明内容
本发明实施例提供一种音频信息处理方法及终端,至少解决了现有技术中存在的问题,能够高效、准确的分辨音频文件对应的伴奏声道。
本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种音频信息处理方法,所述方法包括:
对第一音频文件进行解码获得表征第一声道输出的第一音频子文件以及表征第二声道输出的第二音频子文件;
从所述第一音频子文件中提取出第一音频数据,以及从所述第二音频子文件中提取出第二音频数据;所述第一音频数据和所述第二音频数据表征的属性相同;
获取所述第一音频数据的第一音频能量值,以及获取所述第二音频数据的第二音频能量值;
基于所述第一音频能量值及所述第二音频能量值,确定所述第一声道或所述第二声道为满足特定属性需求的声道。
上述方案中,所述方法还包括:
分别对预设的多个音频文件进行频谱特征提取;
对提取的频谱特征采用误差反向传播(BP)算法训练得到深度神经网络(DNN)模型;
所述从所述第一音频子文件中提取出第一音频数据,以及从所述第二音频子文件中提取出第二音频数据,包括:
采用所述DNN模型分别从所述第一音频子文件中提取出第一音频数据,以及从所述第二音频子文件中提取出第二音频数据。
上述方案中,所述基于所述第一音频能量值及所述第二音频能量值,确定所述第一声道或所述第二声道为满足特定属性需求的声道,包括:
检测到所述第一音频能量值及所述第二音频能量值的差值大于预设能量差阈值时,确定音频能量值相对小的第一音频能量值或第二音频能量值对应的所述第一音频子文件或第二音频子文件为满足特定属性需求的音频文件,所述满足特定属性需求的音频子文件对应的声道为满足特定需求的声道;
或者,检测到所述第一音频能量值及所述第二音频能量值的差值不大于预设能量差阈值时,采用预设分类方法确定所述第一声道或所述第二声道为满足特定属性需求的声道。
上述方案中,所述方法还包括:
对预设的多个音频文件进行感知线性预测(PLP)特征参数提取;
基于提取的PLP特征参数采用最大期望(EM)算法训练得到混合高斯模型(GMM);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610157251.X/2.html,转载请声明来源钻瓜专利网。





