[发明专利]一种多采样率语音识别方法、装置、系统及存储介质有效
| 申请号: | 201911363288.8 | 申请日: | 2019-12-26 |
| 公开(公告)号: | CN111105786B | 公开(公告)日: | 2022-10-18 |
| 发明(设计)人: | 施雨豪;钱彦旻 | 申请(专利权)人: | 思必驰科技股份有限公司 |
| 主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/16 |
| 代理公司: | 北京乐知新创知识产权代理事务所(普通合伙) 11734 | 代理人: | 江宇 |
| 地址: | 215024 江苏省苏州市*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 采样率 语音 识别 方法 装置 系统 存储 介质 | ||
本发明公开了一种多采样率语音识别方法、装置、系统及存储介质。首先,在不改变音频采样率的条件下,根据采样率不同进行相应配置的方式对不同采样率的音频进行特征提取,并利用所提取到的音频对神经网络模型进行训练。该神经网络模型除了具有一般的语音识别标签之外,还添加了采样率分类标签,并在训练该神经网络模型时会使用梯度置反的方法对采样率分类标签进行对抗训练,从而使训练得到的多采样率语音识别模型能够自主适应不同采样率的音频。之后,就可以使用上述方法训练得到的多采样率语音识别模型进行语音识别,实现用同一语音识别模型统一处理多种采样率的音频输入的目标。
技术领域
本发明涉及人工智能语音交互领域,尤其涉及一种多采样率语音识别方法、装置、系统及存储介质。
背景技术
随着人工智能和电子通信技术的不断发展和进步,智能语音交互技术日益普及应用在多个产品领域,包括智能客服,呼叫中心,智能音箱和智能手表等等。
然而,虽然同是语音识别,然而在不同的应用场景下,语音采样率却不尽相同。如果需要在一个系统中处理不同多采样率的语音样本,现多采用以下方案:1)通过升/降采样将音频的采样率统一,以此来统一成一个语音识别系统。这一方案会改变原始音频的性质,导致语音识别的准确率下降。2)部署多个语音识别系统,在输出结果后根据置信度或者混淆度来进行筛选,选出最合适的那个结果。这一方案则存在资源利用效率低,运维成本高的问题。
发明内容
针对以上问题,本发明人创造性地提供一种多采样率语音识别的方法、装置、系统及存储介质。
根据本发明实施例第一方面,一种多采样率语音识别模型的训练方法,该方法包括:获取至少两种不同采样率的音频特征;将音频特征作为输入对神经网络模型进行训练,其中,音频特征标注有语音识别标签和采样率分类标签。
根据本发明一实施方式,其中,获取至少两种不同采样率的音频特征,包括:接收至少两种不同采样率的音频输入;根据音频输入所属的采样率分类设定特征提取的配置信息;使用配置信息对音频进行特征提取得到至少两种不同采样率的音频特征。
根据本发明一实施方式,其中,对神经网络模型进行训练,包括:针对语音识别标签对神经网络模型进行正常训练,并针对采样率分类标签对神经网络模型进行对抗训练。
根据本发明一实施方式,其中,针对采样率分类标签对神经网络模型进行对抗训练包括:依据交叉熵训练准则,针对采样率分类标签对神经网络模型进行对抗训练。
根据本发明一实施方式,其中,进行对抗训练包括:采用梯度置反后进行反传的方式进行对抗训练。
根据本发明实施例第二方面,一种多采样率语音识别的方法,该方法包括:接收音频特征;将音频特征输入给多采样率语音识别模型得到语音识别结果,其中,多采样率语音识别模型是执行上述多采样语音识别模型的训练方法的任一项方法训练得到的。
根据本发明实施例第三方面,一种多采样率语音识别模型的训练装置,该装置包括:音频特征获取模块,用于获取至少两种不同采样率的音频特征;神经网络模型训练模块,用于将音频特征作为输入对神经网络模型进行训练,其中,音频特征标注有语音识别标签和采样率分类标签。
根据本发明一实施方式,其中,音频特征获取模块包括:音频输入接收单元,用于接收至少两种不同采样率的音频输入;特征提取配置单元,用于根据音频输入所属的采样率分类设定特征提取的配置信息;音频特征提取单元,用于使用配置信息对音频进行特征提取得到至少两种不同采样率的音频特征。
根据本发明一实施方式,其中,神经网络模型训练模块包括:语音识别训练单元,用于针对语音识别标签对神经网络模型进行正常训练;采样率分类训练单元,用于针对采样率分类标签对神经网络模型进行对抗训练。
根据本发明一实施方式,其中,采样率分类训练单元具体用于依据交叉熵训练准则,针对采样率分类标签对神经网络模型进行对抗训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思必驰科技股份有限公司,未经思必驰科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911363288.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种复合板材的原料加工装置
- 下一篇:一种信息推送的方法及服务器





