[发明专利]无损音频检测方法、装置、电子设备及存储介质在审
| 申请号: | 201911219308.4 | 申请日: | 2019-12-03 |
| 公开(公告)号: | CN111179971A | 公开(公告)日: | 2020-05-19 |
| 发明(设计)人: | 赵剑;刘华平 | 申请(专利权)人: | 杭州网易云音乐科技有限公司 |
| 主分类号: | G10L25/60 | 分类号: | G10L25/60;G10L25/18;G10L25/30;G10L25/45 |
| 代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 孟柯 |
| 地址: | 310052 浙江省杭*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 无损 音频 检测 方法 装置 电子设备 存储 介质 | ||
本申请公开了一种无损音频检测方法、装置、电子设备及存储介质,以提高无损音频的检测准确度。该方法包括:获取待检测音频对应的频谱图;将频谱图输入已训练的神经网络模型,得到表示待检测音频是否为无损音频的检测结果,神经网络模型包括卷积神经网络、时间递归神经网络、注意力模块和分类器;卷积神经网络用于从频谱图提取预设数量个第一特征向量;时间递归神经网络用于根据顺序输入的预设数量个第一特征向量依次输出预设数量个第二特征向量;注意力模块用于根据预设数量个第二特征向量获得每个第二特征向量对应的权重;分类器用于根据预设数量个第二特征向量和每个第二特征向量对应的权重,获得表示待检测音频是否为无损音频的检测结果。
技术领域
本申请涉及人工智能技术领域,尤其涉及一种无损音频检测方法、装置、电子设备及存储介质。
背景技术
本部分旨在为权利要求书中陈述的本申请的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
无损音乐的音质更好,能向用户提供更好的听觉感受,而数据量更小的有损音乐则更利在网络上传输流通,因此有损音乐以及无损音乐能够满足不同应用场景的需求。但是,现有技术中会将流通性更好的有损音乐通过一定方式转换为无损压缩格式,来冒充无损音乐。对于音乐类公司来说,通过人工过滤千万级别的曲库来改善曲库质量,一方面需耗费庞大的人力,另一方面人工过滤随机性大,标准难以统一。因此,利用机器实现自动检测无损音乐的方法应运而生。通常的做法是,通过标记好大量的真假无损音乐数据,基于标记好的音乐数据对卷积神经网络进行训练,然后将待检测的音乐输入训练好的卷积神经网络,获得该音乐是否为无损音乐的检测结果。
发明内容
但是,背景技术中所列的方法是将音乐数据转换为图像后利用卷积神经网络进行识别,而卷积神经网络是一种提取空间结构的模型,单纯使用卷积神经网络,会丢失音乐数据在时间序列互相之间作用的关系,降低模型的识别准确度。
针对上述技术问题,非常需要一种改进的方法,来提高无损音乐检测的准确度。
一方面,本申请一实施例提供了一种无损音频检测方法,包括:
获取待检测音频对应的频谱图;
将所述频谱图输入已训练的神经网络模型,得到表示所述待检测音频是否为无损音频的检测结果,所述神经网络模型包括:卷积神经网络、时间递归神经网络、注意力模块和分类器;
所述卷积神经网络用于从所述频谱图提取预设数量个第一特征向量;
所述时间递归神经网络用于根据顺序输入的所述预设数量个第一特征向量依次输出预设数量个第二特征向量;
所述注意力模块用于根据所述预设数量个第二特征向量获得每个第二特征向量对应的权重;
所述分类器用于根据所述预设数量个第二特征向量和每个第二特征向量对应的权重,获得表示所述待检测音频是否为无损音频的检测结果。
可选地,所述卷积神经网络包括4个卷积层,4个卷积层的输出通道数量依次为64、128、128和128,每个卷积层使用的卷积核大小均为3×3,4个卷积层的步长依次为2×2、3×3、4×4和4×4。
可选地,所述Focal Loss损失函数为:
其中,L为损失值,α和γ为调节无损音频样本和有损音频样本比例不平衡的参数,y为输入的音频片段对应的标注信息,y=1表示输入的音频片段的标注信息为无损音频,y=0表示输入的音频片段的标注信息为有损音频。
可选地,所述α的取值范围为0.75~0.2,所述γ的取值范围为0~5。
可选地,获取待检测音频对应的频谱图,具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州网易云音乐科技有限公司,未经杭州网易云音乐科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911219308.4/2.html,转载请声明来源钻瓜专利网。





