[发明专利]一种说话人语音分离的方法及装置有效

专利信息
申请号: 201810231676.X 申请日: 2018-03-20
公开(公告)号: CN108520756B 公开(公告)日: 2020-09-01
发明(设计)人: 孙学京;刘恩;张晨;张兴涛 申请(专利权)人: 北京时代拓灵科技有限公司
主分类号: G10L21/0272 分类号: G10L21/0272;G10L21/028;G10L21/0216
代理公司: 北京知呱呱知识产权代理有限公司 11577 代理人: 李芙蓉;冯建基
地址: 100085 北京市东城区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 说话 人语 音分 方法 装置
【说明书】:

发明公开了一种说话人语音分离的方法及装置,方法包括:获取预设格式的音频信号;针对所述音频信号进行预处理,得到处理后的第一音频信号;针对所述第一音频信号进行音频分离处理,得到不同方位说话人的第二音频信号;针对所述第二音频信号进行增强处理,得到增强后的不同方位说话人的第三音频信号;输出所述第三音频信号。采用本发明的技术方案,实现了快速、准确地分离不用方位的多个说话人的音频信号。

技术领域

本发明涉及语音识别技术领域,具体涉及一种说话人语音分离的方法及装置。

背景技术

随着科学技术的发展,各个领域对于音频质量的追求越来越高,各类音频文档的获取途径越来越丰富,数据量呈爆炸式增长,从而对音频文档的管理也越来越困难。近年来,人们开始研究音频检索技术,对电话语音、广播语音以及会议语音等多媒体语音文档进行管理。其中,对会议语音的检索难度最大,因为会议语音文档中包含有多个信道、更多的说话人。

现有的音频分离方法主要分为单通道(麦克)技术和多通道(麦克)技术。单麦克技术主要包括基于模型的音频分离方法和基于距离尺度的分离方法;多麦克技术主要包括波束形成分离方法和盲源分离方法。

其中,基于模型的音频分离方法包含训练和识别两个步骤:训练过程中对输入音频进行特征提取后进一步进行训练并存储训练后的模型;识别过程中对输入音频进行特征提取后进行说话人分离以及说话人聚类后,进一步和存储的模型进行匹配计算,判定各个说话人,最终得到分离后的音频信号。基于距离尺度的分离方法则通过计算每一点的左右相邻的一定窗长的两段信号的距离,进一步和设定的门限值进行比较,得到音频信号的跳变点,从而得到分离后的音频信号。波束形成分离方法通过对输入音频实时进行声源定位,并进一步根据说话人方位进行增强处理,得到各个说话人的音频信号。盲源分离方法通过对输入音频进行盲源分离处理,从而得到各个说话人的音频信号。

但是,基于模型的分离方法,要求对话当中每个说话人连续说话的时间较长,而且算法复杂度过高;基于距离尺度的分离方法,存在检测数过多的冗余分割点等问题。而波束形成分离方法、盲源分离方法等方法,主要是针对线性麦克风阵列和平面麦克风阵列等进行处理,且在复杂环境中处理的效果存在一定的不足。

因此,在复杂环境下,比较快速、准确地分离不用方位的多个说话人的音频信号,是当前亟待解决的技术问题。

发明内容

本发明的目的在于提供一种说话人语音分离的方法及装置,实现了快速、准确地分离不用方位的多个说话人的音频信号。

为实现上述目的,本发明提供一种说话人语音分离的方法,包括:

获取预设格式的音频信号;

针对所述音频信号进行预处理,得到处理后的第一音频信号;

针对所述第一音频信号进行音频分离处理,得到不同方位说话人的第二音频信号;

针对所述第二音频信号进行增强处理,得到增强后的不同方位说话人的第三音频信号;

输出所述第三音频信号。

进一步地,上述所述的方法中,针对所述音频信号进行预处理,得到处理后的第一音频信号,包括:

获取麦阵的放置方式参数和周围环境参数;

根据所述麦阵的放置方式参数,对所述音频信号进行转换处理,得到位于同一平面的转换音频信号;

对所述转换音频信号进行时频变换,得到所述转换音频信号对应的频域信号;

根据所述周围环境参数,对所述频域信号进行音频增强处理,得到增强后的频域信号;

针对增强后的频域信号进行时频逆变换,得到时域信号,作为所述第一音频信号。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京时代拓灵科技有限公司,未经北京时代拓灵科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810231676.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top