[发明专利]一种基于时间潜在域特定说话人信息的目标语音提取方法有效

申请号：	202011376556.2	申请日：	2020-11-30
公开（公告）号：	CN112562706B	公开（公告）日：	2023-05-05
发明（设计）人：	兰海燕;肖飞扬;柳友德;兰宇晨;关键;田左;王恺瀚;谢明杰;芦瑶;董喆	申请（专利权）人：	哈尔滨工程大学
主分类号：	G10L21/02	分类号：	G10L21/02;G10L21/0208;G10L25/03
代理公司：	暂无信息	代理人：	暂无信息
地址：	150001 黑龙江省哈尔滨市南岗区***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于时间潜在特定说话信息目标语音提取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于时间潜在域特定说话人信息的目标语音提取方法，其特征是，包括时间潜在域特征转换模型、目标说话人特征信息指导器与增强提取模块：

其中，时间潜在特征为音频时序波形信号所对应的实数域特征，借助时间潜在域特征转换模型实现从时序波形到时间潜在特征的转换；潜在空间则是不同于传统傅里叶变换复数域空间的高维实数域空间，包含了傅里叶时频域信息缺失的相位信息，由时间潜在域特征转换模型根据训练数据分布与损失函数学习而来；

待处理的复杂声学环境语音信息经过时间潜在域特征转换模型的处理将映射到潜在空间的特征矩阵，此特征矩阵将分别进入目标说话人特征信息指导器与增强提取模块；在目标说话人特征信息指导器中，特征矩阵将被判定为与某一特定的目标说话人时间潜在特征具有相关性，或者不包含目标说话人特征，判定得到的编码特征会回传到增强提取模块；

当编码特征表明特征矩阵与某一目标说话人相关时，增强提取模块的计算过程将全程考虑到这一编码信息，从而接收目标说话人特征信息指导器的指导功能——能高效提取出针对特定任务的目标说话人信息，而不受其他干扰信号的影响；而当编码特征表明特征矩阵不包含目标说话人信息时，增强提取模块将停止对目标信息的提取，并输出“无目标信息的提示”，与此同时将原始语音进行“无目标信息指导”的语音增强处理。

2.根据权利要求1所述的基于时间潜在域特定说话人信息的目标语音提取方法，其特征是，所述时间潜在域特征转换模型的损失计算借助语音信号信噪比计算实现，以信噪比作为损失函数，信噪比计算公式如下所示：

3.根据权利要求1所述的基于时间潜在域特定说话人信息的目标语音提取方法，其特征是，所述目标说话人特征信息指导器使用了注意力机制强化了对目标特有特征的关注程度，其编码特征直接作用于后续增强过程时不考虑损失计算，直接与总体提取增强模块共同训练，而其目标预测功能通过已经成熟的交叉熵损失实现梯度更新过程：

其中i表示一批训练数据中的某一组，而M表示总共支持的目标数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学，未经哈尔滨工程大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011376556.2/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于自适应BFO-PSO的卫星选择方法
下一篇：一种位移及振动监测装置

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于时间潜在域特定说话人信息的目标语音提取方法有效

专利文献下载