[发明专利]一种多声源融合场景的人声检测方法及装置在审
| 申请号: | 202210088372.9 | 申请日: | 2022-01-25 |
| 公开(公告)号: | CN114420099A | 公开(公告)日: | 2022-04-29 |
| 发明(设计)人: | 陈晓敏;杨志景;刘庆;李灏;曾睿;江奕锋;戴宇 | 申请(专利权)人: | 广东工业大学 |
| 主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/16 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 许庆胜 |
| 地址: | 510060 广东省*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 声源 融合 场景 人声 检测 方法 装置 | ||
本申请公开了一种多声源融合场景的人声检测方法及装置,本申请提供的多声源融合场景的人声检测方法,通过利用第一语音帧样本与第二语音帧样本分别作为正样本和负样本,通过以上的正样本与负样本进行MFCC特征特区以及语谱图生成,然后利用生成的语谱图对深度学习网络单元进行人声MFCC特征识别训练,再利用深度学习网络单元输出的人声MFCC特征,对循环神经网络单元进行人声检测训练,以提高神经网络对多声源环境下的人声检测能力,构建人声检测模型,以便通过构建的人声检测模型对待检测的多声源声音信号进行人声检测,从而获得多声源声音信号的人声检测结果,解决了现有的多声源人声检测难以准确检测出人声的技术问题。
技术领域
本申请涉及语音识别技术领域,尤其涉及一种多声源融合场景的人声检测方法及装置。
背景技术
随着近年来人工智能技术的快速发展,各种交互手段不断发展。其中,智能语音交互起着关键作用。目前,在智能语音交互的过程中,还有许多难题等待解决,如声源识别,声源定位,声源检测等等。而声源检测中,最重要的一个方向是人声检测。具体来说,是在多声源混合下对人声的检测技术。
在现实生活中,最需要人声检测技术的莫过于多声源融合的大场景(如鸡尾酒场合:包含人声,动物声,机器等各种声源)。这种场合下,声源检测受到多种因素的干扰,难以准确检测出人声。
发明内容
本申请提供了一种多声源融合场景的人声检测方法及装置,用于解决现有的声源检测容易受到多种因素的干扰,难以准确检测出人声的技术问题。
为解决上述技术问题,本申请第一方面提供了一种多声源融合场景的人声检测方法,包括:
获取第一语音帧样本和第二语音帧样本,其中,所述第一语音帧样本为包含人声的多声源语音帧信号样本,所述第二语音帧样本为不包含人声的多声源语音帧信号样本;
提取所述第一语音帧样本和所述第二语音帧样本的MFCC特征,再基于所述MFCC特征生成对应的语谱图;
利用所述第一语音帧样本和所述第二语音帧样本的语谱图,对深度学习网络单元进行人声MFCC特征识别训练;
利用所述深度学习网络单元输出的人声MFCC特征,对循环神经网络单元进行人声检测训练;
基于训练完成后的深度学习网络单元与循环神经网络单元,构建人声检测模型;
获取待检测的多声源声音信号;
对所述多声源声音信号进行加窗分帧处理,得到若干个语音帧信号;
提取所述语音帧信号的MFCC特征,再基于所述MFCC特征生成所述语音帧信号的语谱图;
以所述语谱图作为所述人声检测模型的输入量,以通过所述人声检测模型的运算,获得所述多声源声音信号的人声检测结果。
优选地,所述提取所述语音帧信号的MFCC特征,再基于所述MFCC特征生成所述语音帧信号的语谱图具体包括:
通过傅里叶变换处理方式,对所述语音帧信号进行频域变换,得到语音帧频谱;
通过预设的梅尔三角滤波器组,对所述语音帧频谱进行梅尔滤波处理,得到若干个滤波器组能量,再对所述滤波器组能量进行对数转换,得到所述语音帧信号的Fbank特征;
通过IDFT变换处理方式,将所述Fbank特征转换成MFCC特征;
基于所述MFCC特征生成所述语音帧信号的语谱图。
优选地,所述获取待检测的多声源声音信号之后还包括:
对所述多声源声音信号的高频部分进行信号加重预处理。
优选地,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210088372.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种纯化阔叶木制浆预水解液中糖分的方法
- 下一篇:矿用钻杆





