[发明专利]一种说话人语音分离的方法及装置有效
申请号: | 201810231676.X | 申请日: | 2018-03-20 |
公开(公告)号: | CN108520756B | 公开(公告)日: | 2020-09-01 |
发明(设计)人: | 孙学京;刘恩;张晨;张兴涛 | 申请(专利权)人: | 北京时代拓灵科技有限公司 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L21/028;G10L21/0216 |
代理公司: | 北京知呱呱知识产权代理有限公司 11577 | 代理人: | 李芙蓉;冯建基 |
地址: | 100085 北京市东城区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 说话 人语 音分 方法 装置 | ||
1.一种说话人语音分离的方法,其特征在于,包括:
获取预设格式的音频信号;
针对所述音频信号进行预处理,得到处理后的第一音频信号;
当获取到麦阵的放置方式后,基于麦阵的放置方式对音频信号按照公式(1)进行旋转处理,使得到的音频信号位于同一平面;
其中,A为转换矩阵:
其中,θh为首向角,θp为俯仰角,θb为倾斜角,f(θh,θp,θb)为与θh、θp以及θb相关的函数;
在得到转换信号后,按照公式(2)对转换信号进行时频变换处理:
其中,n为时域索引值,k为频域索引值,L为音频处理帧长,Lf为时频变换的长度,j为虚部单位,M为声道数目,x(n)为音频时域样点值,X(k)为音频频域系数;
针对所述第一音频信号进行音频分离处理,得到不同方位说话人的第二音频信号;
对第一音频信号进行语音检测处理,得到相应的检测结果,根据该检测结果,对第一音频信号进行声源定位处理;
采用广义互相关实现声源定位:
a)按照公式(3)分别计算各路音频的互相关:
其中,K1为起始频点,K2为截止频点;
b)按照公式(4)基于语音检测结果进行平滑处理:
Gsm(i,j)=Gsm(i,j)*fsm+(1-fsm)*G(i,j) (4)
其中,fsm为平滑因子:
Vad为语音检测处理结果;
c)对平滑后的互相关函数进一步处理,得到声源定位结果;
利用公式(5)进行音频分离处理,得到不同方位说话人的第二音频信号;
其中,Vdoa为在声源方向的加权因子:
τ为时延,S为声源数目,Vspe为单声源时的加权因子;
当S>1时,采用波束形成方法得到声源方向的音频信号;当S≤1时,Vdoa=Vspe,采用第1路音频作为分离后的音频信号;
针对所述第二音频信号进行增强处理,得到增强后的不同方位说话人的第三音频信号;
输出所述第三音频信号。
2.根据权利要求1所述的方法,其特征在于,针对所述音频信号进行预处理,得到处理后的第一音频信号,包括:
获取麦阵的放置方式参数和周围环境参数;
根据所述麦阵的放置方式参数,对所述音频信号进行转换处理,得到位于同一平面的转换音频信号;
对所述转换音频信号进行时频变换,得到所述转换音频信号对应的频域信号;
根据所述周围环境参数,对所述频域信号进行音频增强处理,得到增强后的频域信号;
针对增强后的频域信号进行时频逆变换,得到时域信号,作为所述第一音频信号。
3.根据权利要求1或2所述的方法,其特征在于,对所述第一音频信号进行音频分离处理,得到不同方位说话人的第二音频信号,包括:
根据所述第一音频信号,获取所述第一音频信号对应的声源定位结果和说话人识别结果;
根据所述声源定位结果和所述说话人识别结果,对所述第一音频信号进行音频分离处理,得到所述第二音频信号。
4.根据权利要求3所述的方法,其特征在于,根据所述第一音频信号,获取所述第一音频信号对应的声源定位结果和说话人识别结果,包括:
对所述第一音频信号进行语音检测处理,得到检测结果;
根据所述检测结果,对所述第一音频信号进行声源定位处理,得到所述声源定位结果;
根据预设的识别模型,对所述第一音频信号进行说话人识别处理,得到所述说话人识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京时代拓灵科技有限公司,未经北京时代拓灵科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810231676.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种检测方法及装置
- 下一篇:基于听觉特性的音乐适用场景自动分类方法