[发明专利]音频检索方法及装置有效
申请号: | 201810781178.2 | 申请日: | 2018-07-17 |
公开(公告)号: | CN109002529B | 公开(公告)日: | 2021-02-02 |
发明(设计)人: | 王辰龙 | 申请(专利权)人: | 厦门美图之家科技有限公司 |
主分类号: | G06F16/632 | 分类号: | G06F16/632;G10L25/18;G10L25/24 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 唐维虎 |
地址: | 361000 福建省厦门市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 检索 方法 装置 | ||
1.一种音频检索方法,其特征在于,所述方法包括:
提取目标音频的多个音频特征,得到该目标音频的音频特征组合;
将所述目标音频的音频特征组合输入预先训练完成的深度学习模型,得到预设数量的多个深度特征向量;
根据预设阈值对所述多个深度特征向量进行转化处理,得到与所述目标音频对应的二进制的特征编码,所述特征编码的位数为所述预设数量;
根据所述目标音频的特征编码在预设音频库中进行检索,其中所述预设音频库中包括多个已知音频及所述多个已知音频对应的特征编码;
根据与所述目标音频的特征编码之间的汉明距离对检索出的已知音频进行排序,得到检索结果;
其中,所述方法还包括:
获得多组训练样本,其中,每组所述训练样本包括第一音频的音频特征组合、与所述第一音频相似的第二音频的音频特征组合及与所述第一音频不相似的第三音频的音频特征组合;
将所述多组训练样本输入损失函数为三元损失函数的深度学习模型进行训练得到所述训练完成的深度学习模型,其中,针对每组训练样本,将所述第一音频的音频特征组合作为所述三元损失函数的锚示例,将所述第二音频的音频特征组合作为所述三元损失函数的正示例,将所述第三音频的音频特征组合作为所述三元损失函数的负示例;
提取预设音频库中已知音频的音频特征组合,针对所述预设音频库中的每个已知音频,将所述已知音频的音频特征组合输入所述训练完成的深度学习模型,得到该已知音频对应的预设数量的深度特征向量;
根据预设阈值对所述多个深度特征向量进行转化处理,得到与所述已知音频对应的二进制的特征编码,所述特征编码的位数为所述预设数量。
2.根据权利要求1所述的方法,其特征在于,所述根据预设阈值对所述多个深度特征向量进行转化处理的步骤包括:
对所述多个深度特征向量进行归一化处理,将所述多个深度特征向量的值映射至[0,1]的区间;
将归一化后的多个特征向量中大于所述预设阈值的特征向量的值替换为1,将不大于所述预设阈值的特征向量的值替换为0,得到所述预设数量位的二进制的特征编码。
3.根据权利要求2所述的方法,其特征在于,所述对所述多个深度特征向量进行归一化处理的步骤,包括:
分别将每个所述深度特征向量的值输入sigmoid函数,得到该深度特征向量在[0,1]区间中的映射值;所述sigmoid函数的公式如下:
其中,x为所述深度特征向量的值。
4.根据权利要求1所述的方法,其特征在于,所述提取目标音频的多个音频特征的步骤之前,所述方法还包括:
对所述目标音频进行解码,获得目标音频的音频帧序列和音频帧率;
根据所述音频帧序列的值过滤剔除声音强度低于预设分贝值的部分。
5.根据权利要求1所述的方法,其特征在于,所述多个音频特征包括梅尔频率倒谱系数、色度特征、短时平均过零率、频谱均方根值、频谱中心矩、频谱单调值、频谱带宽或频谱多项式系数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门美图之家科技有限公司,未经厦门美图之家科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810781178.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据导入的方法、装置和存储介质
- 下一篇:一种资源推荐方法及装置