[发明专利]音频识别方法、装置及存储介质有效

申请号：	201711249117.3	申请日：	2017-12-01
公开（公告）号：	CN107978323B	公开（公告）日：	2022-09-27
发明（设计）人：	邓博元;朱碧磊;金星明	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G10L25/51	分类号：	G10L25/51;G10L15/28;G06F16/632
代理公司：	北京三高永信知识产权代理有限责任公司 11138	代理人：	刘映东
地址：	518057 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	音频识别方法装置存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种音频识别方法、装置及存储介质，属于互联网技术领域。所述方法包括：获取目标人声音高值序列；将目标人声音高值序列与音频数据库中每个音频文件的实际人声音高值序列进行匹配；如果目标人声音高值序列与任一音频文件的实际人声音高值序列相匹配，将匹配到的音频文件的音频文件信息发送至终端，由终端进行显示。本发明采用人声音高值序列匹配的方式，通过将待识别音频文件的目标人声音高值序列与音频数据库中每个音频文件的实际人声音高值序列进行匹配，识别出音频文件信息。由于人声音高值序列仅取决于能够反映出歌曲本身的主旋律，与对音频片段的演绎方式及音频片段的获取方式无关，因而识别结果更加准确。

技术领域

本发明涉及互联网技术领域，特别涉及一种音频识别方法、装置及存储介质。

背景技术

在现代生活中，当用户在咖啡馆、餐厅、演唱会等公共场所听到喜欢的音乐，并想进一步了解这些音乐的相关信息时，用户可借助具有听歌识曲功能的音频播放应用对这些音频进行识别。

现有技术在进行音频识别时，主要采用如下方法：终端获取待识别的音频片段，根据待识别的音频片段的音域特征，选取能量极大值点作为峰值特征点，并将至少两个峰值特征点组合成目标音频指纹，进而将目标音频指纹发送至服务器；当接收到目标音频指纹时，服务器将目标音频指纹与音频数据库中每个音频文件所包括的各个音频片段的音频指纹进行匹配，当该目标音频指纹与任一音频片段的音频指纹相匹配，将包括该音频片段的音频文件的音频文件信息发送至终端，由终端进行显示，其中，音频数据库中存储有每个音频文件的音频文件信息及其所包括的音频片段的音频指纹。

然而，音频片段的演绎方式及获取方式不同，音频文件的音域特征也将不同的，而音域特征直接影响到峰值特征点的提取，当待识别的音频片段与音频文件的音域特征不同时，从待识别的音频片段中所提取的峰值特征点将发生变化，进一步地根据所提取的峰值特征点生成的目标音频指纹将发生偏差，从而导致音频识别的准确性较低。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种音频识别方法、装置及存储介质。所述技术方案如下：

一方面，提供了一种音频识别方法，所述方法包括：

获取目标人声音高值序列，所述目标人声音高值序列从待识别的音频片段中提取；

将所述目标人声音高值序列与音频数据库中每个音频文件的实际人声音高值序列进行匹配，所述音频数据库中存储有每个音频文件的音频文件信息及实际人声音高值序列；

如果所述目标人声音高值序列与任一音频文件的实际人声音高值序列相匹配，将匹配到的音频文件的音频文件信息发送至目标终端。

另一方面，提供了一种音频识别方法，所述方法包括：

获取待识别的音频片段；

从所述待识别的音频片段中，提取目标人声音高值序列；

根据所述目标人声音高值序列得到识别出的至少一个音频文件的音频文件信息，所述至少一个音频文件的实际人声音高值序列与所述目标人声音高值序列相匹配；

显示所述至少一个音频文件的音频文件信息。