[发明专利]唤醒词声纹识别方法、唤醒词声纹识别模型及其训练方法在审
| 申请号: | 202011282426.2 | 申请日: | 2020-11-17 |
| 公开(公告)号: | CN112382298A | 公开(公告)日: | 2021-02-19 |
| 发明(设计)人: | 欧阳鹏;刘玲 | 申请(专利权)人: | 北京清微智能科技有限公司 |
| 主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/04;G10L17/18;G10L17/14 |
| 代理公司: | 北京索睿邦知识产权代理有限公司 11679 | 代理人: | 李根 |
| 地址: | 100192 北京市海*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 唤醒 声纹 识别 方法 模型 及其 训练 | ||
1.唤醒词声纹识别模型的训练方法,其特征在于,包括
步骤S101,根据播放帧正向顺序及设定截取帧长截取语音训练数据,获取前向语音特征系列;根据播放帧反向顺序及设定截取帧长截取语音训练数据,获取后向语音特征系列;所述语音训练数据包括多段具有唤醒词语音的语音训练数据;
所述前向语音特征系列包括多个连续且依次排列的前向语音特征单元;所述后向语音特征系列包括多个连续且依次排列的后向语音特征单元;
步骤S102,建立一个第一嵌入层识别网络且接收所述前向语音特征系列及所述后向语音特征系列;所述第一嵌入层识别网络包括:
一个说话人嵌入提取器,其包括TDNN时延神经网络中的输入层和隐含层的结构;所述说话人嵌入提取器通过TDNN时延神经网络中的输入层和隐含层识别所述前向语音特征系列及所述后向语音特征系列获取语音训练数据的说话人特征识别权重值;
一个第一池化层,其池化所述说话人特征识别权重值;
一个第一全连接层,其全连接所述池化后的说话人特征识别权重值,获取说话人嵌入层输出特征值;
步骤S103,建立一个第二嵌入层识别网络且接收所述前向语音特征系列及所述后向语音特征系列;所述第二嵌入层识别网络包括:
一个文本嵌入提取器,其通过TDNN时延神经网络中的输入层和隐含层识别所述前向语音特征系列及所述后向语音特征系列获取语音训练数据的文本特征识别权重值;
一个第二池化层,其池化所述文本特征识别权重值;
一个第二全连接层,其全连接所述池化后的文本特征识别权重值,获取文本嵌入层输出特征值;
步骤S104,合并所述说话人嵌入层输出特征值及所述文本嵌入层输出特征值,获取联合语音嵌入层输出特征;
步骤S105,建立一个组合网络;通过所述组合网络全连接所述联合语音嵌入层输出特征获取当前联合识别权重值;
步骤S106,判断所述当前联合识别权重值是否为设定训练权重值,若是,则保留所述第一嵌入层识别网络、所述第一嵌入层识别网络及所述组合网络中的控制参数,若否,则全连接所述当前联合识别权重值获取说话人分类权重信息及文本分类权重信息;根据说话人分类权重信息及文本分类权重信息,分别调整所对应的第一嵌入层识别网络和所述第二嵌入层识别网络。
2.根据权利要求1所述的训练方法,其特征在于,所述第一嵌入层识别网络中还包括:一个第一分类全连接层,其全连接所述说话人嵌入层输出特征值,获取嵌入层输出说话人分类权重信息。
3.根据权利要求2所述的训练方法,其特征在于,所述第二嵌入层识别网络中还包括:一个第二分类全连接层,其全连接所述文本嵌入层输出特征值,获取嵌入层输出文本分类信息。
4.根据权利要求3所述的训练方法,其特征在于,在所述步骤S106中还包括:
判断所述嵌入层输出说话人分类权重信息是否小于说话人分类权重信息,若是,则调整所述组合网络中的控制参数;若否,则调整所述第一嵌入层识别网络的控制参数;
判断所述嵌入层输出文本分类信息是否小于文本分类权重信息,若是,则调整所述组合网络中的控制参数;若否,则调整所述第二嵌入层识别网络的控制参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京清微智能科技有限公司,未经北京清微智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011282426.2/1.html,转载请声明来源钻瓜专利网。





