[发明专利]音频识别的方法、装置、电子设备及存储介质有效

申请号：	202011553762.6	申请日：	2020-12-24
公开（公告）号：	CN112735432B	公开（公告）日：	2023-05-02
发明（设计）人：	赵情恩;曾新贵;熊新雷;陈蓉;肖岩;李旭	申请（专利权）人：	北京百度网讯科技有限公司
主分类号：	G10L17/00	分类号：	G10L17/00;G10L17/08;G06N3/0464;G06F18/22;G06F18/23
代理公司：	北京猷德知识产权代理有限公司 16084	代理人：	范继晨
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	音频识别方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了音频识别的方法、装置、电子设备及存储介质，涉及人工智能、深度学习、语音识别领域。具体实现方案为：对目标多媒体资源进行人声分离，获取目标多媒体资源中的每个发声人的声纹；将目标多媒体资源中的每个发声人的声纹与声纹库中的预存声纹进行匹配，预存声纹为目标类别人物的声纹；在匹配成功的情况下，确定目标多媒体资源中包含目标类别人物的音频。本申请通过人声分离的方式可以从目标多媒体资源中准确的获取到每个发声人的音频，进而保证每个发声人的音频均能够与声纹库中目标类别人物的声纹进行匹配，提高了目标多媒体资源的检测准确率。

技术领域

本申请涉及计算机技术领域，尤其涉及人工智能、深度学习、语音识别领域。

背景技术

随着互联网技术发展，蕴含信息量更大的音视频成为人们获取信息的重要途径。而一些非法分子也基于此方式，通过音视频在网络上传播负面思想。因此，找出含有敏感内容的音视频，对建立安全的网络环境意义重大。

发明内容

本申请提供了一种音频识别的方法、装置、电子设备及存储介质。

根据本申请的一方面，提供了一种音频识别的方法，包括：

对目标多媒体资源进行人声分离，获取目标多媒体资源中的每个发声人的声纹；

将目标多媒体资源中的每个发声人的声纹与声纹库中的预存声纹进行匹配，预存声纹为目标类别人物的声纹；

在匹配成功的情况下，确定目标多媒体资源中包含目标类别人物的音频。

根据本申请的另一方面，提供了一种音频识别的装置，包括：

第一获取模块，用于对目标多媒体资源进行人声分离，获取目标多媒体资源中的每个发声人的声纹；