[发明专利]语音识别模型生成方法、装置、设备以及存储介质在审
申请号: | 202111095442.5 | 申请日: | 2021-09-17 |
公开(公告)号: | CN113744729A | 公开(公告)日: | 2021-12-03 |
发明(设计)人: | 朱文涛;陆顺;孔天龙;李吉祥;张大威;邓峰;王晓瑞;杨森;刘霁 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/16 |
代理公司: | 北京中博世达专利商标代理有限公司 11274 | 代理人: | 申健 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 模型 生成 方法 装置 设备 以及 存储 介质 | ||
1.一种语音识别模型生成方法,其特征在于,包括:
获取语音样本数据;所述语音样本数据包括所述语音样本和所述语音样本标签;
构建第一语音识别超网络,所述第一语音识别超网络包括多层网络结构,每层网络结构对应搜索特征取值的多个不同组合,所述搜索特征包括分支个数、网络层维度和通道选择维度;
基于所述语音样本和所述语音样本标签,对所述第一语音识别超网络执行训练操作,得到第二语音识别超网络;所述语音样本标签作为所述语音样本对应的期望识别值;
对所述第二语音识别超网络进行网络搜索,以得到目标语音识别子网络;所述目标语音识别子网络包括所述多层网络结构,每层网络结构对应所述搜索特征取值的一个组合;
对所述目标语音识别子网络进行重训练,得到语音识别模型。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述第一语音识别超网络中每层网络结构的多个分支个数,并根据每个分支个数,构建所述每层网络结构的分支模块;
对所述每层网络结构的分支模块的特征进行第一数据处理,得到所述每层网络结构的多个网络层维度,所述第一数据处理包括合并处理、多阶处理或拼接处理中的至少一个。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述第一语音识别超网络中每层网络结构的多个分支个数,并根据每个分支个数,构建所述每层网络结构的多个分支模块;
对所述每层网络结构的分支模块的通道选择层进行第二数据处理,得到所述每层网络结构的多个通道选择维度,所述第二数据处理包括全连接处理和/或矩阵处理。
4.根据权利要求1所述的方法,其特征在于,所述基于所述语音样本和所述语音样本标签,对所述第一语音识别超网络执行训练操作,得到第二语音识别超网络,包括:
步骤A:对所述第一语音识别超网络中每层网络结构对应搜索特征取值的多个不同组合进行随机采样,得到所述每层网络结构对应搜索特征取值的一个组合;基于所述每层网络结构对应搜索特征取值的一个组合,得到所述第一语音识别子网络;
步骤B:根据所述语音样本和所述语音样本标签训练所述第一语音识别子网络,得到第二语音识别子网络;
步骤C:将所述第二语音识别子网络中的参数同步至所述第一语音识别超网络中;
迭代执行步骤A-步骤C,得到所述第二语音识别超网络。
5.根据权利要求4所述的方法,其特征在于,所述语音样本包括多组语音子样本,所述步骤B,包括:
根据所述语音样本和所述语音样本标签,多批次训练所述第一语音识别子网络,得到多个所述第二语音识别子网络,其中,每批次训练采用一组语音子样本。
6.根据权利要求1所述的方法,其特征在于,所述对所述第二语音识别超网络进行网络搜索,以得到目标语音识别子网络,包括:
对所述第二语音识别超网络进行多次抽样处理,得到多个第三语音识别子网络,所述抽样处理包括对所述第二语音识别超网络中每层网络结构对应搜索特征取值的多个不同组合进行随机采样,根据随机采样获得的所述每层网络结构对应搜索特征取值的一个组合,得到所述第三语音识别子网络;
确定多个第三语音识别子网络的错误率;
将多个第三语音识别子网络中,错误率满足预设条件的第三语音识别子网络确定为所述目标语音识别子网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111095442.5/1.html,转载请声明来源钻瓜专利网。