[发明专利]一种多通道盲源分离方法、装置、机器可读介质及设备在审

申请号：	202011270721.6	申请日：	2020-11-13
公开（公告）号：	CN112489675A	公开（公告）日：	2021-03-12
发明（设计）人：	高永裕	申请（专利权）人：	北京云从科技有限公司
主分类号：	G10L21/028	分类号：	G10L21/028;G10L21/0208;G10L21/0216;G10L19/008;G10L25/27
代理公司：	上海光华专利事务所(普通合伙) 31219	代理人：	李铁
地址：	102300 北京市门头沟区石***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种通道分离方法装置机器可读介质设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种多通道盲源分离方法，包括：获取目标声源所处环境的多通道音频数据；基于训练好的分离模型对所述多通道音频数据进行分离，得到单通道音频数据；将所述单通道音频数据作为目标声源的音频数据。本发明解决了多个说话人在同一时间段说话的语音重叠问题，能准确的切分出不同说话人在同一时间段说话的语音和内容。

技术领域

本发明涉及人工智能领域，具体涉及一种多通道盲源分离方法、装置、机器可读介质及设备。

背景技术

现在的多通道分离技术是通过对波束形成算法利用麦克风之间的相位差对拾音角度外的声音(噪声，人声等)进行抑制。但是，当噪声在拾音角度内且在拾音距离内时，其他说话人的声音或者噪声不会被算法抑制，并且在一定程度上对目标说话人的声音进行干扰，导致语音识别率下降。所以，现有技术在一些场景，如银行营业厅，餐厅，大马路上进行语音交互时，对干扰抑制的不够彻底。原有的盲源分离是基于单通道语音分离的，对于空间信息的利用有限。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种多通道盲源分离方法、装置、机器可读介质及设备，用于解决现有技术存在的问题。

为实现上述目的及其他相关目的，本发明提供一种多通道盲源分离方法，包括：

获取目标声源所处环境的多通道音频数据；

基于训练好的分离模型对所述多通道音频数据进行分离，得到单通道音频数据；

将所述单通道音频数据作为目标声源的音频数据。

可选地，得到预先训练好的分离模型的方法，包括：

获取训练用的音频数据，所述音频数据包括带有噪声的多通道音频数据和不带噪声的单通道音频数据；

以所述多通道音频数据作为输入、单通道音频数据作为输出进行训练，得到所述分离模型。

可选地，所述分离模型包括：

编码模块，用于对所述多通道音频数据进行编码，得到第一音频特征；

分离模块，用于通过时序空洞卷积网络对所述第一音频特征进行处理，得到掩敝输出；并根据所述第一音频特征与所述掩敝输出得到第二音频特征；