[发明专利]支持多唤醒词的说话人识别神经网络模型的训练方法、说话人识别方法及系统有效
| 申请号: | 202010032282.9 | 申请日: | 2020-01-13 |
| 公开(公告)号: | CN111243604B | 公开(公告)日: | 2022-05-10 |
| 发明(设计)人: | 项煦;黄厚军;钱彦旻 | 申请(专利权)人: | 思必驰科技股份有限公司 |
| 主分类号: | G10L17/04 | 分类号: | G10L17/04;G10L17/08;G10L17/18;G10L15/22;G10L15/16;G10L15/06;G06N3/08;G06N3/04;G06K9/62 |
| 代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 黄谦;李彬彬 |
| 地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 支持 唤醒 说话 识别 神经网络 模型 训练 方法 系统 | ||
本发明公开一种支持多唤醒词的说话人识别方法,其包括构建用于说话人识别的神经网络模型,并对构建的神经网络模型进行训练;对注册音频,利用训练好的神经网络模型的主干部分提取出其对应的中间表示存储;在获取到实时音频数据时,通过训练好的神经网络模型提取出实时音频数据的中间表示,并将其与注册音频的中间表示进行对比,以确定实时音频的说话人与注册音频是否相同。根据本发明公开的方案不但能够实现支持多唤醒词的说话人识别,而且能够避免针对不同的唤醒词均收集很多训练数据的限制,同时也避免了训练和存储多个模型的弊端,实现多个唤醒词共用一个神经网络模型进行准确的说话人识别,降低了多个特定唤醒词说话人识别系统的实现成本。
技术领域
本发明涉及智能语音技术领域,特别是一种支持多唤醒词的说话人识别神经网络模型的训练方法,以及应用该神经网络模型进行说话人识别的方法及系统。
背景技术
近年来,随着智能语音技术的发展,基于智能语音的产品层出不穷。这些语音产品一般都是基于唤醒词进行短语音身份认证的。市面上已有的语音产品如智能手机或者智能音箱的语音唤醒及说话人识别模块,一般针对单个唤醒词训练出一个神经网络说话人模型,即使用包含单个唤醒词的音频所构成的训练集,训练一个神经网络,目标是确认两段文本对应固定唤醒词的音频是否来自同一说话人,因而这些已有语音产品一般只允许使用单个唤醒词进行唤醒,缺少了灵活性和个性,如苹果手机的“Hey,Siri”这一单唤醒词,在机主注册之后,只响应机主针对该唤醒词的音频,对其他人说的“Hey,Siri”这一音频则不响应。如果需要支持多个唤醒词,采用现有的实现方案就需要训练多个单唤醒词模型,根据不同的唤醒词调用不同的模型进行说话人识别。而使用多个单唤醒词模型去支持多个唤醒词的身份认证,会使训练数据收集难度和模型资源大小成倍增加,增加部署的困难。并且如果针对某个唤醒词模型的训练数据不够多,就会导致该唤醒词下系统准确度不高。
发明内容
为了克服现有方案的上述缺陷,发明人想到构建一个既能够实现对多个唤醒词的训练数据进行共享,又能够实现基于唤醒词的不同进行分类识别的神经网络说话人模型,从而在避免增加训练数据收集难度和模型资源负担的基础上,实现对多个唤醒词的说话人的准确识别。
根据本发明的第一个方面,提供了一种支持多唤醒词的说话人神经网络模型的训练方法,其包括
对设置的多个不同唤醒词分别收集来自多个说话人的音频数据进行数据处理,生成训练数据集;
构建用于说话人识别的神经网络模型,利用所述训练数据集对构建的神经网络模型进行训练,其实现为包括
构建一个具有一个主干部分和与设置的多个唤醒词分别一一对应的多个分类层的神经网络模型;
从训练数据集中获取训练数据进行以下训练过程,直至神经网络模型的参数收敛至预设范围:
将训练数据输入所述主干部分,并获取主干部分输出的中间表示;
将中间表示按唤醒词进行分类汇集,形成各唤醒词的中间表示集;
将各唤醒词的中间表示集的数据分别输入到与唤醒词对应的分类层,并在各分类层分别使用损失函数进行反向传播;
采用梯度下降法对神经网络模型的参数进行更新。
根据本发明的第二个方面,提供了一种支持多唤醒词的说话人识别方法,其包括
构建用于说话人识别的神经网络模型,并对构建的神经网络模型进行训练,其中,所述神经网络模型包括一个主干部分和与设置的多个唤醒词分别一一对应的多个分类层;
对注册音频,使用训练好的所述神经网络模型的主干部分提取出其对应的中间表示;
在获取到实时音频数据时,使用训练好的所述神经网络模型的主干部分对所述实时音频数据提取中间表示;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思必驰科技股份有限公司,未经思必驰科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010032282.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:长寿命空气压缩机油组合物
- 下一篇:一种基于云管平台的自动回归测试方法





