[发明专利]一种说话人确认方法、系统及装置在审
申请号: | 202210003857.3 | 申请日: | 2022-01-04 |
公开(公告)号: | CN114242078A | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 徐敏;肖龙源;李稀敏;叶志坚 | 申请(专利权)人: | 厦门快商通科技股份有限公司 |
主分类号: | G10L17/08 | 分类号: | G10L17/08;G10L15/06;G10L15/02;G10L25/24;G06N3/04;G06N3/08 |
代理公司: | 厦门仕诚联合知识产权代理事务所(普通合伙) 35227 | 代理人: | 蔡稷元 |
地址: | 361009 福建省厦门市集*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 说话 确认 方法 系统 装置 | ||
本发明公开了一种说话人确认方法、系统及装置,该系统包括:语音输入模块,用于输入待识别的第一语音和第二语音;embedding提取模块,用于分别提取第一语音的第一embedding向量和第二语音的第二embedding向量,其中,embedding提取模块包括RepVGG模型;相似度计算模块,用于计算第一embedding向量和第二embedding向量的相似度,以及根据相似度确认第一语音和第二语音是否为同一说话人。本发明利用RepVGG网络结构提升跨语种场景下embedding提取的效果,提升了说话人确认的精度。
技术领域
本发明涉及语音识别技术领域,特别是一种说话人确认方法、系统及装置。
背景技术
说话人确认是根据两段声纹判定是否是同一个说话人的应用,目前主流的说话人确认算法一般分成两个部分,即前端embedding提取部分和后端损失函数计算及相似度计算部分,在训练阶段采用前端embedding提取部分提取embedding,并输入到后端损失函数计算部分,通过后向传播更新网络参数;在测试阶段,将后端损失函数计算部分替换为相似度计算部分,通过前向传播提取embedding,计算相似度,并根据阈值判断是否为同一个说话人。但目前前端网络及后端损失函数存在如下缺点:1.为了达到更好的embedding提取效果,网络结构往往设计复杂,涉及多分支结构及多种算子,不便于在边缘设备上部署;2.目前几乎所有的损失函数都是按多类分类问题进行处理的,但对于说话人确认问题,本质上是一个二分类问题,这就导致了训练和测试阶段的不匹配问题;3.目前主流的基于softmax及交叉熵的损失函数在计算梯度时,需要保留所有类别的embedding对应的权重,不利于并行计算;4.目前用于语音领域的卷积大部分都是一维卷积,一维卷积对于跨语种的信息捕获能力较弱。
发明内容
本发明为解决上述问题,提供了一种说话人确认方法、系统及装置,利用RepVGG网络结构提升跨语种场景下embedding提取的效果,提升了说话人确认的精度。
为实现上述目的,本发明采用的技术方案为:
一种说话人确认系统,包括:语音输入模块,用于输入待识别的第一语音和第二语音;embedding提取模块,用于分别提取所述第一语音的第一embedding向量和所述第二语音的第二embedding向量,其中,所述embedding提取模块包括RepVGG模型;相似度计算模块,用于计算所述第一embedding向量和所述第二embedding向量的相似度,以及根据所述相似度确认所述第一语音和所述第二语音是否为同一说话人。
优选的,所述相似度计算模块包括SphereFace2模型。
优选的,所述RepVGG模型包括注意力机制池化层,用于输出512维的embedding向量。
优选的,对所述RepVGG模型进行重参数化处理。
优选的,所述系统中的RepVGG-SphereFace2模型的训练方法,包括以下步骤:收集说话人的语音音频,作为训练集;将所述训练集分批次输入到待训练的所述RepVGG-SphereFace2模型中进行训练;调整所述RepVGG-SphereFace2的模型参数,完成训练。
优选的,所述训练集中每个说话人的所述语音音频的条数不低于8条,且所述语音音频的时长不小于0.2秒。
优选的,对所述语音音频进行数据增强处理。
优选的,对处理后的所述语音音频进行语音特征提取,得到语音特征,对所述语音特征进行重叠取切片,切成长度为200帧的chunk,重叠部分的长度为20帧,对所述chunk进行倒谱均值归一化处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门快商通科技股份有限公司,未经厦门快商通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210003857.3/2.html,转载请声明来源钻瓜专利网。