[发明专利]音频检索方法及装置有效

申请号：	201810781178.2	申请日：	2018-07-17
公开（公告）号：	CN109002529B	公开（公告）日：	2021-02-02
发明（设计）人：	王辰龙	申请（专利权）人：	厦门美图之家科技有限公司
主分类号：	G06F16/632	分类号：	G06F16/632;G10L25/18;G10L25/24
代理公司：	北京超凡志成知识产权代理事务所(普通合伙) 11371	代理人：	唐维虎
地址：	361000 福建省厦门市***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	音频检索方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供一种音频检索方法及装置，方法包括：提取目标音频的多个音频特征，得到该目标音频的音频特征组合；将目标音频的音频特征组合输入预先训练完成的深度学习模型，得到预设数量的多个深度特征向量；根据预设阈值对多个深度特征向量进行转化处理，得到与目标音频对应的二进制的特征编码，特征编码的位数为预设数量；根据目标音频的特征编码在预设音频库中进行检索；根据与目标音频的特征编码之间的汉明距离对检索出的已知音频进行排序，得到检索结果。如此，使得用于检索的特征更能从整体上反映音频的特性，并且音频的检索不受音频长度的影响，检索效率也更高。

技术领域

本申请涉及数据处理技术领域，具体而言，涉及一种音频检索方法及装置。

背景技术

在一些音频检索场景中，可能需要根据某段音频在已知的音频库中检索相似或相同的音频。这种情况下，需要基于音频的自身的一些特征进行检索，现有的特征提取方法主要是提取音频中一段时长的底层特征进行比对检索，这些底层特征容易受到提取时长的影响，无法准确反映音频的特征，并且特征数据复杂，极大地影响了检索比对的速度。

发明内容

为了克服现有技术中的上述不足，本申请的目的在于提供一种音频检索方法，所述方法包括：

提取目标音频的多个音频特征，得到该目标音频的音频特征组合；

将所述目标音频的音频特征组合输入预先训练完成的深度学习模型，得到预设数量的多个深度特征向量；

根据预设阈值对所述多个深度特征向量进行转化处理，得到与所述目标音频对应的二进制的特征编码，所述特征编码的位数为所述预设数量；

根据所述目标音频的特征编码在预设音频库中进行检索，其中所述预设音频库中包括多个已知音频及所述多个已知音频对应的特征编码；

根据与所述目标音频的特征编码之间的汉明距离对检索出的已知音频进行排序，得到检索结果。

可选地，所述方法还包括：

获得多组训练样本，其中，每组所述训练样本包括第一音频的音频特征组合、与所述第一音频相似的第二音频的音频特征组合及与所述第一音频不相似的第三音频的音频特征组合；

将所述多组训练样本输入损失函数为三元损失函数的深度学习模型进行训练得到所述训练完成的深度学习模型，其中，针对每组训练样本，将所述第一音频的音频特征组合作为所述三元损失函数的锚示例，将所述第二音频的音频特征组合作为所述三元损失函数的正示例，将所述第三音频的音频特征组合作为所述三元损失函数的负示例；

提取预设音频库中已知音频的音频特征组合，针对所述预设音频库中的每个已知音频，将所述已知音频的音频特征组合输入所述训练完成的深度学习模型，得到该已知音频对应的预设数量的深度特征向量；

根据预设阈值对所述多个深度特征向量进行转化处理，得到与所述已知音频对应的二进制的特征编码，所述特征编码的位数为所述预设数量。