[发明专利]音频检索方法及装置有效
申请号: | 201810781178.2 | 申请日: | 2018-07-17 |
公开(公告)号: | CN109002529B | 公开(公告)日: | 2021-02-02 |
发明(设计)人: | 王辰龙 | 申请(专利权)人: | 厦门美图之家科技有限公司 |
主分类号: | G06F16/632 | 分类号: | G06F16/632;G10L25/18;G10L25/24 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 唐维虎 |
地址: | 361000 福建省厦门市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 检索 方法 装置 | ||
本申请提供一种音频检索方法及装置,方法包括:提取目标音频的多个音频特征,得到该目标音频的音频特征组合;将目标音频的音频特征组合输入预先训练完成的深度学习模型,得到预设数量的多个深度特征向量;根据预设阈值对多个深度特征向量进行转化处理,得到与目标音频对应的二进制的特征编码,特征编码的位数为预设数量;根据目标音频的特征编码在预设音频库中进行检索;根据与目标音频的特征编码之间的汉明距离对检索出的已知音频进行排序,得到检索结果。如此,使得用于检索的特征更能从整体上反映音频的特性,并且音频的检索不受音频长度的影响,检索效率也更高。
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种音频检索方法及装置。
背景技术
在一些音频检索场景中,可能需要根据某段音频在已知的音频库中检索相似或相同的音频。这种情况下,需要基于音频的自身的一些特征进行检索,现有的特征提取方法主要是提取音频中一段时长的底层特征进行比对检索,这些底层特征容易受到提取时长的影响,无法准确反映音频的特征,并且特征数据复杂,极大地影响了检索比对的速度。
发明内容
为了克服现有技术中的上述不足,本申请的目的在于提供一种音频检索方法,所述方法包括:
提取目标音频的多个音频特征,得到该目标音频的音频特征组合;
将所述目标音频的音频特征组合输入预先训练完成的深度学习模型,得到预设数量的多个深度特征向量;
根据预设阈值对所述多个深度特征向量进行转化处理,得到与所述目标音频对应的二进制的特征编码,所述特征编码的位数为所述预设数量;
根据所述目标音频的特征编码在预设音频库中进行检索,其中所述预设音频库中包括多个已知音频及所述多个已知音频对应的特征编码;
根据与所述目标音频的特征编码之间的汉明距离对检索出的已知音频进行排序,得到检索结果。
可选地,所述方法还包括:
获得多组训练样本,其中,每组所述训练样本包括第一音频的音频特征组合、与所述第一音频相似的第二音频的音频特征组合及与所述第一音频不相似的第三音频的音频特征组合;
将所述多组训练样本输入损失函数为三元损失函数的深度学习模型进行训练得到所述训练完成的深度学习模型,其中,针对每组训练样本,将所述第一音频的音频特征组合作为所述三元损失函数的锚示例,将所述第二音频的音频特征组合作为所述三元损失函数的正示例,将所述第三音频的音频特征组合作为所述三元损失函数的负示例;
提取预设音频库中已知音频的音频特征组合,针对所述预设音频库中的每个已知音频,将所述已知音频的音频特征组合输入所述训练完成的深度学习模型,得到该已知音频对应的预设数量的深度特征向量;
根据预设阈值对所述多个深度特征向量进行转化处理,得到与所述已知音频对应的二进制的特征编码,所述特征编码的位数为所述预设数量。
可选地,所述根据预设阈值对所述多个深度特征向量进行转化处理的步骤包括:
对所述多个深度特征向量进行归一化处理,使所述多个深度特征向量的值映射至[0,1]的区间;
将归一化后的多个特征向量中,大于所述预设阈值的特征向量的值替换为1,将不大于所述预设阈值的特征向量的值替换为0,得到所述预设数量位的二进制的特征编码。
可选地,所述对所述多个深度特征向量进行归一化处理的步骤,包括:
分别将每个所述深度特征向量的值输入sigmoid函数,得到该深度特征向量在[0,1]区间中的映射值;所述sigmoid函数的公式如下:
其中,x为所述深度特征向量的值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门美图之家科技有限公司,未经厦门美图之家科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810781178.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据导入的方法、装置和存储介质
- 下一篇:一种资源推荐方法及装置