[发明专利]一种实时语音分离语音转写的方法有效

申请号：	202111548064.1	申请日：	2021-12-17
公开（公告）号：	CN113936687B	公开（公告）日：	2022-03-15
发明（设计）人：	赵建平;荆榆;程栋梁;沈忱;石松涛;高博;许乾坤;张宇韬	申请（专利权）人：	北京睿科伦智能科技有限公司
主分类号：	G10L21/0272	分类号：	G10L21/0272;G10L25/51;G10L15/26
代理公司：	北京东灵通专利代理事务所(普通合伙) 61242	代理人：	李金豹
地址：	100089 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种实时语音分离转写方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种实时语音分离语音转写的方法，其特征在于,包括：

通过硬件采集模块对多人说话的声音采集，并得到多路麦克风的数字信号；

通过语音分离模块将所述数字信号分离出多个单人的语音信号；

将各个所述语音信号分别接入语音转写模块，转写成对应每个说话人的文字内容；

所述语音分离模块由DOA声源定位、Fixed Beamformer固定方向波束成形，PostFilter后处理滤波器及Post Separator后处理时域分离器构成；

所述DOA声源定位采用GWS-SRP-PHAT方法：

第一步、先计算SRP-PHAT得到每一帧的原始DOA输出记为DOA_PEAK_RAW，同时对不同频率进行加权，用以平衡不同频率的空间谱分辨率和麦克风间距，提高DOA精度,按5度为间隔，扫描0-360度，SRPout最大值为目前DOA_PEAK_energy和DOA_PEAK；

第二步、对DOA_PEAK进行中值滤波器平滑滤波得到DOA_SMOOTH，结合语音学和经验值设定，中值滤波器长度为H，当前时刻T，DOA_SMOOTH为中值滤波器的输出，即窗口H内排序后的中值DOA_SMOOTH；

第三步、按指定的目标方向角DOA_TARGET和波束范围DOA_BEAM，得到FixedBeamformer的输入导向矢量DOA_TARGET_BF，同时输出平滑DOA_SMOOTH。

2.根据权利要求1所述的一种实时语音分离语音转写的方法，其特征在于：所述采集模块包含多个麦克风拾音模组；各个所述麦克风拾音模组的采样率为16kHz。

3.根据权利要求1所述的一种实时语音分离语音转写的方法，其特征在于：所述FixedBeamformer固定方向波束成形通过采用Modified TF-GSC结构分别输出目标说话方向空间滤波后的语音信号。

4.根据权利要求3所述的一种实时语音分离语音转写的方法，其特征在于：所述TF-GSC由Fixed Beamformer固定波束成形、Blocking Matrix矩塞矩阵、Multichannel AdaptiveInterference Canceller构成；所述Blocking Matrix矩塞矩阵采用自适应滤波器Adaptive Blocking Matrix，自适应滤波器Adaptive Blocking Matrix和MultichannelAdaptive Interference Cancel ler滤波器更新策略，本方法使用AdaptiveInterference Canceller-Adaptive Blocking Matrix controller跟踪各自输入输出的后验信噪比变化，来判定目标方向和非目标方向是否包含语音，来控制两组滤波器是否更新。

5.根据权利要求1所述的一种实时语音分离语音转写的方法，其特征在于：所述PostFilter后处理滤波器采用MAP-Based后处理滤波器。

6.根据权利要求3所述的一种实时语音分离语音转写的方法，其特征在于：所述PostFilter后处理滤波器采用γ(e^jΩμ，k)为后验信噪比作为随机变量，定义Γ(e^jΩμ，k)＝10log₁₀γ(e^jΩμ，k)，复合高斯分布定义先验信噪比As为Modified TF-GSC输出，An为Modified TF-GSC ABM模块的输出，

μ_r(ξ)＝10log₁₀(ξ+1)，

λ_Φ为经验超参，μ_r，λ_r为高斯分布均值和方差，估计后处理滤波器的系数进一步形成目标方向固定波束，消除残余方向的干扰信号。

7.根据权利要求1所述的一种实时语音分离语音转写的方法，其特征在于，所述PostSeparator包含：相似度，Pitch filter，DOA_GUIDE,窗口能量；预定义的输出的说话人数量为N_SPK，

所述相似度为N_SPK路分离信号的窗口的Coherence，即谱相似度；

所述Pitch filter用于分别估计N_SPK路语音信号的Pitch差是否在预定义的delta-Pitch内，即N_SPK的基频是否相似；

所述DOA_GUIDE用于同步判断窗口内当前帧属于N_SPK路说话人的比例，予以加权。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京睿科伦智能科技有限公司，未经北京睿科伦智能科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111548064.1/1.html，转载请声明来源钻瓜专利网。