[发明专利]一种说话人语音分离的方法及装置有效

申请号：	201810231676.X	申请日：	2018-03-20
公开（公告）号：	CN108520756B	公开（公告）日：	2020-09-01
发明（设计）人：	孙学京;刘恩;张晨;张兴涛	申请（专利权）人：	北京时代拓灵科技有限公司
主分类号：	G10L21/0272	分类号：	G10L21/0272;G10L21/028;G10L21/0216
代理公司：	北京知呱呱知识产权代理有限公司 11577	代理人：	李芙蓉;冯建基
地址：	100085 北京市东城区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种说话人语音分方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种说话人语音分离的方法，其特征在于，包括：

获取预设格式的音频信号；

针对所述音频信号进行预处理，得到处理后的第一音频信号；

当获取到麦阵的放置方式后，基于麦阵的放置方式对音频信号按照公式(1)进行旋转处理，使得到的音频信号位于同一平面；

其中，A为转换矩阵：

其中，θ_h为首向角，θ_p为俯仰角，θ_b为倾斜角，f(θ_h,θ_p,θ_b)为与θ_h、θ_p以及θ_b相关的函数；

在得到转换信号后，按照公式(2)对转换信号进行时频变换处理：

其中，n为时域索引值，k为频域索引值，L为音频处理帧长，L_f为时频变换的长度，j为虚部单位，M为声道数目，x(n)为音频时域样点值，X(k)为音频频域系数；

针对所述第一音频信号进行音频分离处理，得到不同方位说话人的第二音频信号；

对第一音频信号进行语音检测处理，得到相应的检测结果，根据该检测结果，对第一音频信号进行声源定位处理；

采用广义互相关实现声源定位：

a)按照公式(3)分别计算各路音频的互相关：

其中，K₁为起始频点，K₂为截止频点；

b)按照公式(4)基于语音检测结果进行平滑处理：

G_sm(i,j)＝G_sm(i,j)*f_sm+(1-f_sm)*G(i,j) (4)

其中，f_sm为平滑因子：

Vad为语音检测处理结果；

c)对平滑后的互相关函数进一步处理，得到声源定位结果；

利用公式(5)进行音频分离处理，得到不同方位说话人的第二音频信号；

其中，V_doa为在声源方向的加权因子：

τ为时延，S为声源数目，V_spe为单声源时的加权因子；

当S＞1时，采用波束形成方法得到声源方向的音频信号；当S≤1时，V_doa＝V_spe，采用第1路音频作为分离后的音频信号；

针对所述第二音频信号进行增强处理，得到增强后的不同方位说话人的第三音频信号；

输出所述第三音频信号。

2.根据权利要求1所述的方法，其特征在于，针对所述音频信号进行预处理，得到处理后的第一音频信号，包括：

获取麦阵的放置方式参数和周围环境参数；

根据所述麦阵的放置方式参数，对所述音频信号进行转换处理，得到位于同一平面的转换音频信号；

对所述转换音频信号进行时频变换，得到所述转换音频信号对应的频域信号；

根据所述周围环境参数，对所述频域信号进行音频增强处理，得到增强后的频域信号；

针对增强后的频域信号进行时频逆变换，得到时域信号，作为所述第一音频信号。

3.根据权利要求1或2所述的方法，其特征在于，对所述第一音频信号进行音频分离处理，得到不同方位说话人的第二音频信号，包括：

根据所述第一音频信号，获取所述第一音频信号对应的声源定位结果和说话人识别结果；

根据所述声源定位结果和所述说话人识别结果，对所述第一音频信号进行音频分离处理，得到所述第二音频信号。

4.根据权利要求3所述的方法，其特征在于，根据所述第一音频信号，获取所述第一音频信号对应的声源定位结果和说话人识别结果，包括：

对所述第一音频信号进行语音检测处理，得到检测结果；

根据所述检测结果，对所述第一音频信号进行声源定位处理，得到所述声源定位结果；

根据预设的识别模型，对所述第一音频信号进行说话人识别处理，得到所述说话人识别结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京时代拓灵科技有限公司，未经北京时代拓灵科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810231676.X/1.html，转载请声明来源钻瓜专利网。

上一篇：一种检测方法及装置
下一篇：基于听觉特性的音乐适用场景自动分类方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种说话人语音分离的方法及装置有效

专利文献下载