[发明专利]一种用于公安刑侦监听的语音分离与跟踪方法有效
申请号: | 201910556835.8 | 申请日: | 2019-06-25 |
公开(公告)号: | CN110197665B | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 郝敏;李扬;刘航 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G10L17/06 | 分类号: | G10L17/06;G10L17/18;G10L21/0272;G10L25/78;G06K9/62 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510006 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 公安 刑侦 监听 语音 分离 跟踪 方法 | ||
本发明涉及语音信号识别处理技术领域,提出一种用于公安刑侦监听的语音分离与跟踪方法,包括以下步骤:根据时序导入初始语音,对初始语音进行分帧加窗处理,得到加窗语音信号;对加窗语音信号进行时频分解,通过短时傅里叶变换得到时频二维信号;对所述时频二维信号在频域中进行端点检测,将空语言段对应的语音信号段进行过滤处理;利用双向长短时记忆网络结构对完成过滤处理的时频二维信号进行语音分离,输出目标说话人的多个语音波形;建立与训练基于GMM‑UBM的目标说话人模型,将所述目标说话人的语音波形作为模型输入,通过自适应获取目标说话人的GMM模型然后对语音波形进行辨认,输出目标说话人的序列编号,即为语音跟踪结果。
技术领域
本发明涉及语音信号识别处理技术领域,更具体地,涉及一种用于公安刑侦监听的语音分离与跟踪方法。
背景技术
在公安刑侦监听领域,由于所获取的语音片段内包含有背景噪声、多个说话人声及混响等相关干扰因素,导致难以对该语音片段获取相关的重要信息。因此在对语音信号进行处理的过程中,需要将多个说话人的语音信号进行分离后,再分别进行处理。同时由于刑侦监听的特殊性,多个说话人的语音信号由同一拾音器金西行收录,因此难以对多个说话人的语音信号进行分离处理。另外,在实际的刑侦监听过程中,录入获取的音频中处于同一时间点说话的人数具有不确定性,进一步增大了对语音信号进行处理的难度。
目前对语音信号进行分离与跟踪处理的方法包括:
1、通过多个麦克风阵列组合对多个目标说话人的位置信息进行对准与捕捉,但是该方法存在多麦克风的非线性组合以及配置平稳性问题;
2、通过视觉信息作为辅助信息来增强语音分离与跟踪系统的性能的方法对语音信号进行分离与跟踪处理,然而这种方法需要结合语音信息和视觉信息同时进行处理分析,且在实际应用中所采集的音频和图像存在延时问题导致无法适配;
3、通过采用有效位编码向量或者目标说话人语音信息作为语音分离系统的额外输入的方法对语音信号进行处理,但是该方法无法实现端到端的语音跟踪,且与单独的语音跟踪算法相比,由于引入了目标说话人身份信息作为输入,存在训练以及测试的时间复杂度过高的问题。
发明内容
本发明为克服上述现有技术所述的难以对多个说话人的语音信号进行分离与跟踪处理的缺陷,提供一种用于公安刑侦监听的语音分离与跟踪方法。
为解决上述技术问题,本发明的技术方案如下:
一种用于公安刑侦监听的语音分离与跟踪方法,包括以下步骤:
S1:根据时序导入初始语音,对初始语音进行分帧加窗处理,得到加窗语音信号;
S2:对加窗语音信号进行时频分解,通过短时傅里叶变换得到时频二维信号;
S3:对所述时频二维信号在频域中进行端点检测,将空语言段对应的语音信号段进行过滤处理;
S4:利用双向长短时记忆网络结构对完成过滤处理的时频二维信号进行语音分离,输出目标说话人的多个语音波形;
S5:建立与训练基于GMM-UBM的目标说话人模型,将所述目标说话人的语音波形作为模型输入,通过自适应获取目标说话人的GMM模型然后对语音波形进行辨认,输出目标说话人的序列编号,即为语音跟踪结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910556835.8/2.html,转载请声明来源钻瓜专利网。