[发明专利]一种目标说话人语音获取方法和系统在审

申请号：	202211316572.1	申请日：	2022-10-26
公开（公告）号：	CN115881093A	公开（公告）日：	2023-03-31
发明（设计）人：	叶林勇;肖龙源;李海洲;李稀敏;叶志坚	申请（专利权）人：	厦门快商通科技股份有限公司
主分类号：	G10L15/02	分类号：	G10L15/02;G10L15/18;G10L15/22
代理公司：	厦门市首创君合专利事务所有限公司 35204	代理人：	王婷婷
地址：	361000 福建省厦门市***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种目标说话人语获取方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例提供一种目标说话人语音获取方法，包括：获取混合语料、参考语料以及多个单人语料，语音编码模块获取混合语料的混合声学特征，说话人提取模块分离出混合声学特征中不同说话人的单人声学特征；说话人编码模块获取参考语料中的参考声学特征，得到参考声学特征集；说话人比对模块将得到的单人声学特征分别到参考声学特征集中进行一对一特征打分，确定出目标说话人；根据目标人声学特征还原为目标人说话语音，得到训练好的目标说话人语音获取模型；将目标说话人的参考语音和含有目标说话人的混合语音，输入到训练好的目标说话人语音获取模型中，得到目标说话人语音；本发明提供的方法，能够有效提升多说话人场景下的声纹识别准确率。

技术领域

本发明涉及语音识别领域，特别是指一种目标说话人语音获取方法和系统。

背景技术

每个人的声音都蕴涵着特有的生物特征，声纹识别是指利用说话人的声音来识别说话人的一种技术手段。声纹识别同指纹识别等技术一样具有高度的安全可靠性，可以应用在所有需要做身份识别的场合。如在刑侦、银行、证券、保险等金融领域。与传统的身份识别技术相比，声纹识别的优势在于，声纹提取过程简单，成本低，且具有唯一性，不易伪造和假冒。近几年，随着深度学习技术的发展，声纹识别技术也得到了较大的提升，已经成功应用在很多场景。但是在某些应用场景中也存在很大的挑战，比如说在多说话人场景中，人类可以准确的从多说话人里面辨识出某个人的声音，但是声纹识别模型的表现就会比较差，无法从多说话人场景里面正确的识别出目标说话人，给声纹识别系统的推广应用带来了一定的阻碍。

发明内容

本发明的主要目的在于克服现有技术中的上述缺陷，提出一种目标说话人语音获取方法，用于多说话人场景下目标说话人声纹识别，有效提升多说话人场景下的声纹识别准确率，且能够拓展声纹识别的应用场景。

本发明采用如下技术方案：

一种目标说话人语音获取方法，包括：

获取混合语料、参考语料以及多个单人语料，其中，混合语料是由不少于两人的说话人语料混合得到的，参考语料为包含所有单个说话人语料；

将混合语料输入目标说话人语音获取模型中混合语音接口模块，语音编码模块获取混合语料的混合声学特征，说话人提取模块分离出混合声学特征中不同说话人的单人声学特征；

将参考语料输入目标说话人获取模型中参考语音接口模块，说话人编码模块获取参考语料中的参考声学特征，得到参考声学特征集；

说话人比对模块将得到的单人声学特征分别到参考声学特征集中进行一对一特征打分，确定出目标说话人；

将目标人声学特征语音解码模块，根据目标人声学特征还原为目标人说话语音，完成目标说话人语音获取模型的训练，得到训练好的目标说话人语音获取模型；

将目标说话人的参考语音和含有目标说话人的混合语音，输入到训练好的目标说话人语音获取模型中，得到含有目标说话人的混合语音中目标说话人语音。

所述混合语料的合成方法，设定为两个说话人混合，具体为：

s1＝w1*f_source1

s2＝w2*f_source2

m＝s1+s2

f_source1为第一说话人的原始语音信号，f_source2为第二说话人的原始语音信号，snr为信噪比参数，随机生成，数值大小在0～5db之间，w1为第一说话人权重，w2为第二说话人权重，s1作为语音合并前干净的说话人1语音信号，为主要说话人，s2为语音合并前干净的说话人2语音信号，为次要说话人，m为合成的含有两个说话人声音的语音信号。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于厦门快商通科技股份有限公司，未经厦门快商通科技股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202211316572.1/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种目标说话人语音获取方法和系统在审

专利文献下载