[发明专利]无损音频检测方法、装置、电子设备及存储介质在审
| 申请号: | 201911219308.4 | 申请日: | 2019-12-03 |
| 公开(公告)号: | CN111179971A | 公开(公告)日: | 2020-05-19 |
| 发明(设计)人: | 赵剑;刘华平 | 申请(专利权)人: | 杭州网易云音乐科技有限公司 |
| 主分类号: | G10L25/60 | 分类号: | G10L25/60;G10L25/18;G10L25/30;G10L25/45 |
| 代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 孟柯 |
| 地址: | 310052 浙江省杭*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 无损 音频 检测 方法 装置 电子设备 存储 介质 | ||
1.一种无损音频检测方法,其特征在于,包括:
获取待检测音频对应的频谱图;
将所述频谱图输入已训练的神经网络模型,得到表示所述待检测音频是否为无损音频的检测结果,所述神经网络模型包括:卷积神经网络、时间递归神经网络、注意力模块和分类器;
所述卷积神经网络用于从所述频谱图提取预设数量个第一特征向量;
所述时间递归神经网络用于根据顺序输入的所述预设数量个第一特征向量依次输出预设数量个第二特征向量;
所述注意力模块用于根据所述预设数量个第二特征向量获得每个第二特征向量对应的权重;
所述分类器用于根据所述预设数量个第二特征向量和每个第二特征向量对应的权重,获得表示所述待检测音频是否为无损音频的检测结果。
2.根据权利要求1所述的方法,其特征在于,所述卷积神经网络的全连接层和输出层之间设置有奇异值分解SVD层,所述SVD层用于利用奇异值分解算法降低所述输出层输出的每个第一特征向量包含的向量维数。
3.根据权利要求1所述的方法,其特征在于,所述分类器用于确定每个第二特征向量被确认为无损音频的概率值,根据每个第二特征向量对应的权重,对所述预设数量个第二特征向量对应的概率值进行加权处理,根据加权处理结果确定所述检测结果。
4.根据权利要求1至3中任一所述的方法,其特征在于,通过如下方式训练所述神经网络模型:
获取训练样本集,其中每个训练样本包括预设长度的音频片段和表示该音频片段是否为无损音频的标注信息;
将训练样本集中音频片段对应的频谱图输入所述神经网络模型,得到表示输入的音频片段是否为无损音频的预测结果;
根据输入的音频片段对应的预测结果和标注信息,利用FocalLoss损失函数更新所述神经网络模型的参数。
5.根据权利要求4所述的方法,其特征在于,所述卷积神经网络中每个卷积层之前设有数据归一化层;
每个数据归一化层对上一个网络层输出的维度为[N,C,H,W]的第一矩阵进行矩阵变换,得到维度为[N,G,C/G,H,W]的第二矩阵,以及分别对所述第二矩阵中每个组内的同一特征图中的音频特征值进行归一化处理,将归一化处理后的音频特征值输入之后的卷积层,其中,C为特征图的通道数,N为批处理量,H为特征图的高,W为特征图的宽,C/G表示将特征图的通道数划分为G个组。
6.根据权利要求5所述的方法,其特征在于,所述对所述第二矩阵中每个组内的同一特征图中的音频特征值进行归一化处理,具体包括:
针对所述第二矩阵中每个组内的每个特征图,根据该特征图中每个特征点的音频特征值,确定音频特征均值和音频特征方差;
根据音频特征均值、音频特征方差和每个特征点的音频特征值,确定每个特征点对应的归一化后的音频特征值。
7.根据权利要求4所述的方法,其特征在于,通过如下方式获取所述训练样本集:
获取多个音频数据,每个音频数据标注有表示该音频数据是否为无损音频的标注信息;
通过以下至少一种方式对每个音频数据进行处理得到多个音频片段:对音频数据进行裁剪处理,获得多个预设长度的音频段落;对音频数据分别进行多种角度的旋转,获得多个音频片段;在音频数据中分别添加多种噪声,获得多个音频片段;
将每个音频片段和该音频片段所属的音频对应的标注信息作为一个训练样本,添加到所述训练样本集中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州网易云音乐科技有限公司,未经杭州网易云音乐科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911219308.4/1.html,转载请声明来源钻瓜专利网。





