[发明专利]一种音频处理方法及装置、存储介质在审
申请号: | 202111566841.5 | 申请日: | 2021-12-20 |
公开(公告)号: | CN114286275A | 公开(公告)日: | 2022-04-05 |
发明(设计)人: | 刘雪松 | 申请(专利权)人: | OPPO广东移动通信有限公司 |
主分类号: | H04S7/00 | 分类号: | H04S7/00 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 张静;王黎延 |
地址: | 523860 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 音频 处理 方法 装置 存储 介质 | ||
1.一种音频处理方法,其特征在于,所述方法包括:
确定音频文件对应的音频场景的场景类型;
识别所述音频文件中的第一发声对象和第二发声对象;
分别确定所述第一发声对象和所述第二发声对象在所述音频场景中的第一位置参数和第二位置参数;
基于所述第一发声对象和所述第二发声对象各自的对象类型对所述音频文件进行声音分离,得到关联于所述第一发声对象的第一音轨数据、关联于所述第二发声对象的第二音轨数据以及关联于所述音频场景的背景音轨数据;
基于所述场景类型和所述第一位置参数、所述第二位置参数对所述第一音轨数据、所述第二音轨数据以及所述背景音轨数据进行混音处理,得到待播放音频数据。
2.根据权利要求1所述的方法,其特征在于,所述基于所述场景类型和所述第一位置参数、所述第二位置参数对所述第一音轨数据、所述第二音轨数据以及所述背景音轨数据进行混音处理,得到待播放音频数据,包括:
基于所述第一位置参数和所述第二位置参数,对所述第一音轨数据、所述第二音轨数据以及所述背景音轨数据进行空间渲染,得到第一空间音轨数据、第二空间音轨数据以及背景空间音轨数据;
基于所述场景类型确定混音增益;并基于所述混音增益,对所述第一空间音轨数据、第二空间音轨数据以及所述背景空间音轨数据进行混音处理,得到所述待播放音频数据。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
根据接收到的惯性测量数据,确定运动跟踪数据;
所述基于所述场景类型和所述第一位置参数、所述第二位置参数对所述第一音轨数据、所述第二音轨数据以及所述背景音轨数据进行混音处理,得到待播放音频数据,包括:
基于所述运动跟踪数据,对所述第一位置参数和所述第二位置参数进行调整,得到调整后的第一位置参数和调整后的第二位置参数;
基于所述调整后的位置参数和所述调整后的第二位置参数,对所述第一音轨数据、所述第二音轨数据以及所述背景音轨数据进行空间渲染,得到第一空间音轨数据、第二空间音轨数据以及所述背景空间音轨数据。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于所述对象类型,确定声音增强参数;
利用所述声音增强参数对所述第一音轨数据、所述第二音轨数据以及所述背景音轨数据进行声音增强,得到增强后的第一音轨数据、增强后的第二音轨数据以及增强后的背景音轨数据;
所述基于所述场景类型和所述第一位置参数、所述第二位置参数对所述第一音轨数据、所述第二音轨数据以及所述背景音轨数据进行混音处理,得到待播放音频数据,包括:
基于所述场景类型和所述第一位置参数、所述第二位置参数对对增强后的第一音轨数据、增强后的第二音轨数据以及增强后的背景音轨数据进行混音处理,得到所述待播放音频数据。
5.根据权利要求1所述的方法,其特征在于,所述确定音频文件对应的音频场景的场景类型;识别所述音频文件中的第一发声对象和第二发声对象;分别确定所述第一发声对象和所述第二发声对象在所述音频场景中的第一位置参数和第二位置参数,包括:
对所述音频文件对应的视频图像进行检测,得到所述场景类型;
从所述视频图像中识别所述音频文件中的第一发声对象和第二发声对象;分别确定所述第一发声对象和所述第二发声对象在所述视频图像中的位置;
确定所述场景类型对应的场景尺寸信息;
基于所述场景尺寸信息和所述第一发声对象和所述第二发声对象在所述视频图像中的位置,确定所述第一发声对象和所述第二发声对象在所述音频场景中的所述第一位置参数和所述第二位置参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于OPPO广东移动通信有限公司,未经OPPO广东移动通信有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111566841.5/1.html,转载请声明来源钻瓜专利网。