[发明专利]一种多声源融合场景的人声检测方法及装置在审

申请号：	202210088372.9	申请日：	2022-01-25
公开（公告）号：	CN114420099A	公开（公告）日：	2022-04-29
发明（设计）人：	陈晓敏;杨志景;刘庆;李灏;曾睿;江奕锋;戴宇	申请（专利权）人：	广东工业大学
主分类号：	G10L15/02	分类号：	G10L15/02;G10L15/06;G10L15/16
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	许庆胜
地址：	510060 广东省***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种声源融合场景人声检测方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种多声源融合场景的人声检测方法及装置，本申请提供的多声源融合场景的人声检测方法，通过利用第一语音帧样本与第二语音帧样本分别作为正样本和负样本，通过以上的正样本与负样本进行MFCC特征特区以及语谱图生成，然后利用生成的语谱图对深度学习网络单元进行人声MFCC特征识别训练，再利用深度学习网络单元输出的人声MFCC特征，对循环神经网络单元进行人声检测训练，以提高神经网络对多声源环境下的人声检测能力，构建人声检测模型，以便通过构建的人声检测模型对待检测的多声源声音信号进行人声检测，从而获得多声源声音信号的人声检测结果，解决了现有的多声源人声检测难以准确检测出人声的技术问题。

技术领域

本申请涉及语音识别技术领域，尤其涉及一种多声源融合场景的人声检测方法及装置。

背景技术

随着近年来人工智能技术的快速发展，各种交互手段不断发展。其中，智能语音交互起着关键作用。目前，在智能语音交互的过程中，还有许多难题等待解决，如声源识别，声源定位，声源检测等等。而声源检测中，最重要的一个方向是人声检测。具体来说，是在多声源混合下对人声的检测技术。

在现实生活中，最需要人声检测技术的莫过于多声源融合的大场景(如鸡尾酒场合：包含人声，动物声，机器等各种声源)。这种场合下，声源检测受到多种因素的干扰，难以准确检测出人声。

发明内容

本申请提供了一种多声源融合场景的人声检测方法及装置，用于解决现有的声源检测容易受到多种因素的干扰，难以准确检测出人声的技术问题。

为解决上述技术问题，本申请第一方面提供了一种多声源融合场景的人声检测方法，包括：

获取第一语音帧样本和第二语音帧样本，其中，所述第一语音帧样本为包含人声的多声源语音帧信号样本，所述第二语音帧样本为不包含人声的多声源语音帧信号样本；

提取所述第一语音帧样本和所述第二语音帧样本的MFCC特征，再基于所述MFCC特征生成对应的语谱图；

利用所述第一语音帧样本和所述第二语音帧样本的语谱图，对深度学习网络单元进行人声MFCC特征识别训练；

利用所述深度学习网络单元输出的人声MFCC特征，对循环神经网络单元进行人声检测训练；