[发明专利]语音识别方法、装置、电子设备和计算机存储介质在审
| 申请号: | 202111299865.9 | 申请日: | 2021-11-04 |
| 公开(公告)号: | CN114023311A | 公开(公告)日: | 2022-02-08 |
| 发明(设计)人: | 胡加明;赵言;邱立坤;王炼 | 申请(专利权)人: | 鼎富新动力(北京)智能科技有限公司 |
| 主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/26;G10L15/16;G10L15/02;G10L15/00;G10L25/03 |
| 代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 衡滔 |
| 地址: | 100000 北京市朝阳区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语音 识别 方法 装置 电子设备 计算机 存储 介质 | ||
本申请提供一种语音识别方法、装置、电子设备和计算机存储介质,方法包括:获取待识别混合语种的语料;对待识别混合语种的语料进行特征提取,得到filter‑bank特征;将filter‑bank特征输入预先训练好的语音识别模型中,确定出filter‑bank特征对应的编码,其中,语音识别模型的输出层的神经元数量与混合语种字典的维度对应;根据混合语种字典将filter‑bank特征对应的编码还原为文字,其中,混合语种字典基于单词进行构建,相比于现有技术中基于字节对或音素进行编码以构建字典,本申请基于单词构建混合语种字典,从而减少语音识别模型的输出层的神经元数量,进而提高语音识别的效率。
技术领域
本申请涉及语音识别技术领域,具体而言,涉及一种语音识别方法、装置、电子设备和计算机存储介质。
背景技术
随着语音识别技术的不断发展,人们对语音识别ASR(Automatic SpeechRecognition)的要求越来越高。在日常交流中,一句话可能包含多语种的单词,例如:“今天去吃KFC”,“我现在很happy”等。现有的语音识别技术对混合语种的语料进行识别时,通常根据字节对、音素或子词进行编码以构建字典。然而,根据字节对或音素构建字典会导致字典过大,进而影响识别效率。
发明内容
本申请实施例的目的在于提供一种语音识别方法、装置、电子设备和计算机存储介质,用以解决对混合语种进行语音识别时,识别效率低下的问题。
第一方面,本申请提供一种语音识别方法,包括:获取待识别混合语种的语料,所述待识别混合语种的语料包括第一语种对应的语料和第二语种对应的语料;对所述待识别混合语种的语料进行特征提取,得到filter-bank特征;将所述filter-bank特征输入预先训练好的语音识别模型中,确定出所述filter-bank特征对应的编码,其中,所述语音识别模型的输出层的神经元数量与混合语种字典的维度对应;根据混合语种字典将所述filter-bank特征对应的编码还原为文字,其中,所述混合语种字典基于单词进行构建,所述混合语种字典包括:基于训练语料确定的所述第一语种对应的单词和所述第二语种对应的单词。
在本申请实施例中,对待识别混合语种的语料进行特征提取,得到filter-bank特征,然后将filter-bank特征输入至预先训练好的语音识别模型中,确定出filter-bank特征对应的编码,根据混合语种字典将filter-bank特征对应的编码还原为文字。相比于现有技术中基于字节对或音素进行编码以构建字典,本申请实施例基于单词构建混合语种字典,减小了混合语种字典的大小,从而减少语音识别模型的输出层的神经元数量,降低语音识别模型的复杂程度,进而提高语音识别的效率。
在可选的实施方式中,所述混合语种字典的构建步骤,包括:获取所述训练语料对应的文本信息;遍历所述文本信息,确定多个单词,并基于多个所述单词构建所述混合语种字典,并将字典内编码映射到所述语音识别模型。
在可选的实施方式中,所述第一语种为中文,所述第二语种为英文,所述遍历所述文本信息,确定多个单词,并基于多个所述单词构建所述混合语种字典,包括:遍历所述文本信息确定出多个汉字,对每个汉字进行编码,并将所述汉字和其对应的编码存入所述混合语种字典;遍历所述文本信息确定出由英文字母组成的多个缩写单词和英文单词,对每个缩写单词和每个英文单词进行编码,并将所述缩写单词及所述英文单词和其对应的编码存入所述混合语种字典。
在可选的实施方式中,所述第一语种为普通话,所述第二语种为中文方言,所述遍历所述文本信息,确定多个单词,并基于多个所述单词构建所述混合语种字典,包括:遍历所述文本信息确定出多个汉字,对每个汉字进行编码,并将所述汉字和其对应的编码存入所述混合语种字典;遍历所述文本信息确定出多个方言字,对每个方言字进行编码,并将所述方言字和其对应的编码存入所述混合语种字典。
在可选的实施方式中,所述语音识别模型为基于自注意力机制的编码器-解码器模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鼎富新动力(北京)智能科技有限公司,未经鼎富新动力(北京)智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111299865.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种儿科医用紧急雾化器
- 下一篇:一种双目图像自修复网络模型的训练方法





