[发明专利]一种多通道盲源分离方法、装置、机器可读介质及设备在审
申请号: | 202011270721.6 | 申请日: | 2020-11-13 |
公开(公告)号: | CN112489675A | 公开(公告)日: | 2021-03-12 |
发明(设计)人: | 高永裕 | 申请(专利权)人: | 北京云从科技有限公司 |
主分类号: | G10L21/028 | 分类号: | G10L21/028;G10L21/0208;G10L21/0216;G10L19/008;G10L25/27 |
代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 李铁 |
地址: | 102300 北京市门头沟区石*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 通道 分离 方法 装置 机器 可读 介质 设备 | ||
本发明公开了一种多通道盲源分离方法,包括:获取目标声源所处环境的多通道音频数据;基于训练好的分离模型对所述多通道音频数据进行分离,得到单通道音频数据;将所述单通道音频数据作为目标声源的音频数据。本发明解决了多个说话人在同一时间段说话的语音重叠问题,能准确的切分出不同说话人在同一时间段说话的语音和内容。
技术领域
本发明涉及人工智能领域,具体涉及一种多通道盲源分离方法、装置、机器可读介质及设备。
背景技术
现在的多通道分离技术是通过对波束形成算法利用麦克风之间的相位差对拾音角度外的声音(噪声,人声等)进行抑制。但是,当噪声在拾音角度内且在拾音距离内时,其他说话人的声音或者噪声不会被算法抑制,并且在一定程度上对目标说话人的声音进行干扰,导致语音识别率下降。所以,现有技术在一些场景,如银行营业厅,餐厅,大马路上进行语音交互时,对干扰抑制的不够彻底。原有的盲源分离是基于单通道语音分离的,对于空间信息的利用有限。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种多通道盲源分离方法、装置、机器可读介质及设备,用于解决现有技术存在的问题。
为实现上述目的及其他相关目的,本发明提供一种多通道盲源分离方法,包括:
获取目标声源所处环境的多通道音频数据;
基于训练好的分离模型对所述多通道音频数据进行分离,得到单通道音频数据;
将所述单通道音频数据作为目标声源的音频数据。
可选地,得到预先训练好的分离模型的方法,包括:
获取训练用的音频数据,所述音频数据包括带有噪声的多通道音频数据和不带噪声的单通道音频数据;
以所述多通道音频数据作为输入、单通道音频数据作为输出进行训练,得到所述分离模型。
可选地,所述分离模型包括:
编码模块,用于对所述多通道音频数据进行编码,得到第一音频特征;
分离模块,用于通过时序空洞卷积网络对所述第一音频特征进行处理,得到掩敝输出;并根据所述第一音频特征与所述掩敝输出得到第二音频特征;
解码模块,用于对所述第二音频特征进行解码,得到目标声源的音频数据。
可选地,所述对所述多通道音频数据进行编码,得到第一音频特征,包括:
将所述多通道音频数据与一维/二维卷积核进行卷积,得到一个二维特征;
将所述二维特征进行编码,得到第一音频特征,所述第一音频特征为三维矩阵。
可选地,所述时序空洞卷积网络包括多个依次叠加的时间卷积网络单元,所述时间卷积网络单元具有多个输出,前一个时间卷积网络单元的其中一个输出作为后一个时间卷积网络单元的输入,且每个时间卷积网络单元的其他输出作为Sigmoid函数的输入;
所述时间卷积网络单元包括多个依次叠加的2维卷积核,每个2维卷积核包括两个输出,前一个2维卷积核的其中一个输出作为后一个2维卷积核的输入,每个2维卷积核的另一个输出作为Sigmoid函数的输入,经Sigmoid函数处理后,得到掩敝输出。
可选地,所述第二音频特征为所述第一音频特征与所述掩敝输出的乘积。
可选地,所述对所述第二音频特征进行解码,得到目标声源的音频数据,包括:
将所述第二音频特征与一个一维/二维反卷积网络进行卷积,得到目标声源的音频数据。
可选地,所述2维卷积核包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京云从科技有限公司,未经北京云从科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011270721.6/2.html,转载请声明来源钻瓜专利网。