[发明专利]一种音频识别方法、电子设备及可读存储介质在审
| 申请号: | 202210899347.9 | 申请日: | 2022-07-28 |
| 公开(公告)号: | CN115203342A | 公开(公告)日: | 2022-10-18 |
| 发明(设计)人: | 陆劲鸿 | 申请(专利权)人: | 腾讯音乐娱乐科技(深圳)有限公司 |
| 主分类号: | G06F16/28 | 分类号: | G06F16/28;G10L15/02;G10L15/08 |
| 代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 万欣慰 |
| 地址: | 518052 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 音频 识别 方法 电子设备 可读 存储 介质 | ||
本申请公开了一种音频识别方法、电子设备及可读存储介质,该方法包括:获取预设音频,并分别提取各个预设音频对应的预设音频特征;对预设音频特征进行聚类处理,得到多个音频特征组;分别在各个音频特征组内选择标准音频特征,并利用标准音频特征构成音频特征库;获取终端发送的待识别音频;其中,待识别音频由终端对应的收音设备获取;提取待识别音频的待识别音频特征;基于待识别音频特征,在音频特征库的各个标准音频特征中确定与待识别音频特征最相似的目标音频特征;向终端发送目标音频特征对应的目标音频信息;该方法通过聚类和标准音频特征的提取,在保证音频识别的可靠性的同时,能够大幅度减少音频特征库的数据量。
技术领域
本申请涉及音频处理技术领域,特别涉及一种音频识别方法、电子设备及计算机可读存储介质。
背景技术
线上歌曲识别,是指用户通过自我哼唱或采集其它设备播放的片段音频来请求服务,然后识别出所对应的歌曲信息。歌曲识别需要一个庞大的歌曲库来支撑整个服务,单单原唱歌曲的数量已经数目及多,再加上多个歌手对热门歌曲的翻唱,导致歌曲库中的数据数量更加不可估量。这样一个庞大的歌曲库会引发严重的存储问题。
发明内容
有鉴于此,本申请的目的在于提供一种音频识别方法、电子设备及计算机可读存储介质,在保证音频识别的可靠性的同时,能够大幅度减少音频特征库的数据量。
为解决上述技术问题,第一方面,本申请提供了一种音频识别方法,包括:
获取预设音频,并分别提取各个所述预设音频对应的预设音频特征;
对所述预设音频特征进行聚类处理,得到多个音频特征组;
分别在各个所述音频特征组内选择标准音频特征,并利用所述标准音频特征构成音频特征库;
获取终端发送的待识别音频;其中,所述待识别音频由所述终端对应的收音设备获取;
提取所述待识别音频的待识别音频特征;
基于所述待识别音频特征,在所述音频特征库的各个所述标准音频特征中确定与所述待识别音频特征最相似的目标音频特征;
向所述终端发送所述目标音频特征对应的目标音频信息。
可选地,所述对所述预设音频特征进行聚类处理,得到多个音频特征组,包括:
对所述预设音频特征进行特征相似度聚类处理,得到多个初始音频特征组;
对每个所述初始音频特征组内的各个所述预设音频特征,进行基于拍子数的聚类处理,得到所述初始音频特征组对应的所述音频特征组。
可选地,所述对每个所述初始音频特征组内的各个所述预设音频特征,进行基于拍子数的聚类处理,得到所述初始音频特征组对应的所述音频特征组,包括:
确定每个所述初始音频特征组内的各个所述预设音频特征分别对应的拍子数;
基于预设拍子数区间,利用所述拍子数对所述预设音频特征分组,得到中间音频特征组;
确定各个所述预设音频特征的预设音频名称;
利用所述预设音频名称,基于预设名称过滤规则对各个所述中间音频特征组进行过滤,得到所述音频特征组。
可选地,所述预设名称过滤规则为滤除目标音频名称对应的预设音频特征的规则;
所述目标音频名称为能够表征预设音频由至少两个音频拼接得到的名称;
和/或,
所述目标音频名称为能够表征所述预设音频特征无法准确表示所述预设音频的特性的名称。
可选地,所述分别在各个所述音频特征组内选择标准音频特征,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯音乐娱乐科技(深圳)有限公司,未经腾讯音乐娱乐科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210899347.9/2.html,转载请声明来源钻瓜专利网。





