[发明专利]一种基于孪生神经网络的短语音说话人匹配方法有效

专利信息
申请号: 202110140928.X 申请日: 2021-02-02
公开(公告)号: CN112951242B 公开(公告)日: 2022-10-25
发明(设计)人: 李艳雄;江钟杰;陈昊;曹文昌 申请(专利权)人: 华南理工大学
主分类号: G10L17/00 分类号: G10L17/00;G10L17/02;G10L17/04;G10L17/18;G06N3/04;G06N3/08
代理公司: 广州市华学知识产权代理有限公司 44245 代理人: 詹丽红
地址: 510640 广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 孪生 神经网络 语音 说话 匹配 方法
【说明书】:

发明公开了一种基于孪生神经网络的短语音说话人匹配方法,步骤如下:构造训练样本对;从各样本提取对数梅尔能量谱特征;搭建孪生神经网络,包括依次连接的空洞循环卷积子网络、说话人表征层和Sigmoid输出模块;将从各训练样本对提取的对数梅尔能量谱特征输入空洞循环卷积子网络以得到样本对的两个说话人表征矢量;拼接样本对的两个说话人表征矢量并输入Sigmoid输出模块,训练孪生神经网络;采用经训练的孪生神经网络判断输入的两段短语音是否属于同一个说话人,得到说话人匹配结果。本方法引入空洞循环卷积子网络使孪生神经网络获得更大的感受野,并利用语音样本前后帧之间的说话人信息,获得更好的说话人匹配结果。

技术领域

本发明涉及语音信号处理与模式识别技术领域,具体涉及一种基于孪生神经网络的短语音说话人匹配方法。

背景技术

说话人匹配的任务是鉴别两个语音样本是否来自于同一个说话人,可应用于语音鉴别和语料库语音文件的整理。深度神经网络在语音处理领域的兴起,意味着对语音数据集的庞大需求,语料库中的录音文件也随之飞速增多,而鉴别两段不同语音样本是否来自于同一个说话人对于整理庞大而杂乱的语音语料库非常重要。

传统的说话人识别技术,如高斯混合模型(Gaussian Mixture Model)、通用背景模型(Universal Background Model)以及I-vector等不足以应对日益增长的识别精度和鲁棒性的要求。现有主流的基于深度神经网络提取的d-vector和x-vector等深度表征虽然在性能表现上逐渐超越传统特征,但仍存在以下不足:需要大量的长时语音训练样本,对于短时语音(如小于等于2秒)的性能表现较差;当训练数据不充足时,容易过拟合,导致性能严重下降甚至不如I-vector等传统特征。因此目前亟待提出一种有效的短语音说话人匹配方法,提升说话人匹配性能。

发明内容

本发明的目的是为了解决现有技术中的上述缺陷,提供一种基于孪生神经网络的短语音说话人匹配方法。

本发明的目的可以通过采取如下技术方案达到:

一种基于孪生神经网络的短语音说话人匹配方法,所述短语音说话人匹配方法包括以下步骤:

S1、构造训练样本对,所述训练样本对包括两个语音样本来自同一个说话人的正样本对、两个语音样本来自不同说话人的负样本对;

S2、提取各样本对中两个语音样本的对数梅尔能量谱特征,过程如下:预加重、分帧、加窗,然后分别提取每一帧的对数梅尔能量谱特征;

S3、搭建孪生神经网络,所述孪生神经网络包括依次连接的空洞循环卷积子网络、说话人表征层和Sigmoid输出模块,其中,空洞循环卷积子网络有两个分支,每个分支包括两个空洞卷积模块连接双向长短时记忆模块,并且这两个分支的所有参数相同、权重和偏置项共享;

S4、训练孪生神经网络,采用训练样本对的对数梅尔能量谱特征作为输入,以二值交叉熵作为损失函数训练孪生神经网络;

S5、说话人匹配,采用经过训练的孪生神经网络判断两个测试短语音是否属于同一个说话人,得到说话人匹配结果。

进一步地,所述步骤S1中构造训练样本对包括样本分集,构造正样本对和构造负样本对,过程如下:

S1.1、样本分集:将每个说话人的语音样本集平均分成两个样本集:正样本集和负样本集;

S1.2、构造正样本对:每个说话人的正样本集中的语音样本两两匹配得到正样本对;

S1.3、构造负样本对:每个说话人的负样本集中的语音样本分别与不同说话人的负样本集的语音样本匹配得到负样本对。

进一步地,所述步骤S2中提取对数梅尔能量谱特征过程如下:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110140928.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top