[发明专利]一种说话人语音分离的方法及装置有效

申请号：	201810231676.X	申请日：	2018-03-20
公开（公告）号：	CN108520756B	公开（公告）日：	2020-09-01
发明（设计）人：	孙学京;刘恩;张晨;张兴涛	申请（专利权）人：	北京时代拓灵科技有限公司
主分类号：	G10L21/0272	分类号：	G10L21/0272;G10L21/028;G10L21/0216
代理公司：	北京知呱呱知识产权代理有限公司 11577	代理人：	李芙蓉;冯建基
地址：	100085 北京市东城区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种说话人语音分方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种说话人语音分离的方法及装置，方法包括：获取预设格式的音频信号；针对所述音频信号进行预处理，得到处理后的第一音频信号；针对所述第一音频信号进行音频分离处理，得到不同方位说话人的第二音频信号；针对所述第二音频信号进行增强处理，得到增强后的不同方位说话人的第三音频信号；输出所述第三音频信号。采用本发明的技术方案，实现了快速、准确地分离不用方位的多个说话人的音频信号。

技术领域

本发明涉及语音识别技术领域，具体涉及一种说话人语音分离的方法及装置。

背景技术

随着科学技术的发展，各个领域对于音频质量的追求越来越高，各类音频文档的获取途径越来越丰富，数据量呈爆炸式增长，从而对音频文档的管理也越来越困难。近年来，人们开始研究音频检索技术，对电话语音、广播语音以及会议语音等多媒体语音文档进行管理。其中，对会议语音的检索难度最大，因为会议语音文档中包含有多个信道、更多的说话人。

现有的音频分离方法主要分为单通道(麦克)技术和多通道(麦克)技术。单麦克技术主要包括基于模型的音频分离方法和基于距离尺度的分离方法；多麦克技术主要包括波束形成分离方法和盲源分离方法。

其中，基于模型的音频分离方法包含训练和识别两个步骤：训练过程中对输入音频进行特征提取后进一步进行训练并存储训练后的模型；识别过程中对输入音频进行特征提取后进行说话人分离以及说话人聚类后，进一步和存储的模型进行匹配计算，判定各个说话人，最终得到分离后的音频信号。基于距离尺度的分离方法则通过计算每一点的左右相邻的一定窗长的两段信号的距离，进一步和设定的门限值进行比较，得到音频信号的跳变点，从而得到分离后的音频信号。波束形成分离方法通过对输入音频实时进行声源定位，并进一步根据说话人方位进行增强处理，得到各个说话人的音频信号。盲源分离方法通过对输入音频进行盲源分离处理，从而得到各个说话人的音频信号。

但是，基于模型的分离方法，要求对话当中每个说话人连续说话的时间较长，而且算法复杂度过高；基于距离尺度的分离方法，存在检测数过多的冗余分割点等问题。而波束形成分离方法、盲源分离方法等方法，主要是针对线性麦克风阵列和平面麦克风阵列等进行处理，且在复杂环境中处理的效果存在一定的不足。

因此，在复杂环境下，比较快速、准确地分离不用方位的多个说话人的音频信号，是当前亟待解决的技术问题。

发明内容

本发明的目的在于提供一种说话人语音分离的方法及装置，实现了快速、准确地分离不用方位的多个说话人的音频信号。

为实现上述目的，本发明提供一种说话人语音分离的方法，包括：

获取预设格式的音频信号；

针对所述音频信号进行预处理，得到处理后的第一音频信号；

针对所述第一音频信号进行音频分离处理，得到不同方位说话人的第二音频信号；

针对所述第二音频信号进行增强处理，得到增强后的不同方位说话人的第三音频信号；

输出所述第三音频信号。

进一步地，上述所述的方法中，针对所述音频信号进行预处理，得到处理后的第一音频信号，包括：

获取麦阵的放置方式参数和周围环境参数；