[发明专利]一种基于时间潜在域特定说话人信息的目标语音提取方法有效
申请号: | 202011376556.2 | 申请日: | 2020-11-30 |
公开(公告)号: | CN112562706B | 公开(公告)日: | 2023-05-05 |
发明(设计)人: | 兰海燕;肖飞扬;柳友德;兰宇晨;关键;田左;王恺瀚;谢明杰;芦瑶;董喆 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G10L21/02 | 分类号: | G10L21/02;G10L21/0208;G10L25/03 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 时间 潜在 特定 说话 信息 目标 语音 提取 方法 | ||
本发明提供一种基于时间潜在域特定说话人信息的目标语音提取方法,包括时间潜在域特征转换模型、目标说话人特征信息指导器与增强提取模块;待处理的复杂声学环境语音信息经过时间潜在域特征转换模型的处理将映射到潜在空间的特征矩阵,此特征矩阵将分别进入目标说话人特征信息指导器与增强提取模块;在目标说话人特征信息指导器中,特征矩阵将被判定为与某一特定的目标说话人潜在特征具有相关性,或者不包含目标说话人特征。本发明能实现从复杂声学环境语音信号到特定目标语音信号的端到端处理,能高效提取出针对特定任务的目标说话人信息,而不受其他干扰信号的影响,保障了模型传递给后续任务的特定目标语音信号具备极高的语音质量与可感知性。
技术领域
本发明涉及一种目标语音提取方法,尤其涉及一种基于时间潜在域特定说话人信息的目标语音提取方法。
背景技术
信息时代的社会生活中,人类语言语音信息的高效率利用越来越吸引目光,在现代生活纷繁复杂的声学环境下,如何将其中满足特定任务需求的特定目标说话人语音单独提取,关系到了人们对目标信息的第一重感知是否清晰直观。
该问题实际上可视作对“鸡尾酒会问题”的新求解思路,在机器进行语音语言处理任务的过程中为其学习声音信号源之间的区别提供了新思路,从而获得新的学习信息与更好的目标说话人提取性能。当前进行类似任务的多是仅考虑到语音/非语音场景下的噪声信息消除、混响消除与语音质量增强工作,但这些工作都没有对实际需求的目标说话人音源信息进行学习。因此,上述方法在语音/语音混合场景,即多说话人复杂场景下的表现差强人意,基于说话人信息的目标语音信息提取正是为进一步解决这些不足而进行的新研究领域。
同时,传统的复数域时频语音信息在处理过程中会面临固有的相位信息缺失问题,尽管很多研究人员尝试改善,但效果仍不理想。而为了解决这一问题本发明提出在时间潜在空间域进行特征提取,进而完全避免了这一相位缺失问题的发生,获取了更好的目标语音提取性能。
满足需求的目标说话人语音信息可以用于人机交互、远程通信、语音风格迁移、人工耳蜗等等多种具体应用场景,具备更强的抗干扰能力与泛化性能。特定目标说话人的语音提取能够满足针对特定工作人员的操作需求与后续任务,有力地对接通信、医疗、影音娱乐、军工开发等国计民生的重要领域,具备巨大的研究价值与实际意义。
发明内容
为满足实际场景中具体任务对特定目标说话人信息的需求,提升具体任务中信息获取的效率,本发明提供一种基于时间潜在域特定说话人信息的目标语音提取方法。
本发明的目的是这样实现的:
一种基于时间潜在域特定说话人信息的目标语音提取方法,包括时间潜在域特征转换模型、目标说话人特征信息指导器与增强提取模块:
待处理的复杂声学环境语音信息经过时间潜在域特征转换模型的处理将映射到潜在空间的特征矩阵,此特征矩阵将分别进入目标说话人特征信息指导器与增强提取模块;在目标说话人特征信息指导器中,特征矩阵将被判定为与某一特定的目标说话人潜在特征具有相关性,或者不包含目标说话人特征,判定得到的编码特征会回传到增强提取模块,当编码特征表明特征矩阵与某一目标说话人相关时,增强提取模块的计算过程将全程考虑到这一编码信息,从而接收目标说话人特征信息指导器的指导功能,而当编码特征表明特征矩阵不包含目标说话人信息时,增强提取模块将停止对目标信息的提取,并输出“无目标信息的提示”,与此同时将原始语音进行“无目标信息指导”的语音增强处理。
本发明还包括这样一些特征:
所述时间潜在域特征转换模型的损失计算借助语音信号信噪比计算实现,信噪比计算公式如下所示:
所述目标说话人特征信息指导器使用了注意力机制强化了对目标特有特征的关注程度,其编码特征直接作用于后续增强过程时不考虑损失计算,直接与总体提取增强模块共同训练,而其目标预测功能通过已经成熟的交叉熵损失实现梯度更新过程:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011376556.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于自适应BFO-PSO的卫星选择方法
- 下一篇:一种位移及振动监测装置