[发明专利]流式语音识别方法及装置、电子设备、存储介质在审
申请号: | 202111150034.5 | 申请日: | 2021-09-29 |
公开(公告)号: | CN113990325A | 公开(公告)日: | 2022-01-28 |
发明(设计)人: | 洪密;王旭阳;汪俊杰 | 申请(专利权)人: | 联想(北京)有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L25/87;G10L15/16;G10L25/24 |
代理公司: | 北京乐知新创知识产权代理事务所(普通合伙) 11734 | 代理人: | 王瞾寅 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 装置 电子设备 存储 介质 | ||
1.一种流式语音识别方法,其特征在于,包括以下步骤:
获取待识别的语音块;
基于联结主义时间分类模型对所述语音块进行对象识别处理得到对象识别结果,并根据所述对象识别结果确定所述语音块中对象的数量;
根据所述语音块中对象的数量确定识别次数,并基于注意力模型对所述语音块进行所述识别次数的语音识别处理,得到与所述语音块对应的语音识别结果。
2.根据权利要求1所述的流式语音识别方法,其特征在于,所述基于联结主义时间分类模型对所述语音块进行对象识别处理得到对象识别结果,并根据所述对象识别结果确定所述语音块中对象的数量,包括:
基于联结主义时间分类模型对所述语音块进行对象识别处理,得到至少一组对象识别处理的结果及对应的准确度;
确定所述准确度最高的一组对象识别处理的结果作为所述对象识别处理结果;
根据所述对象识别结果确定所述语音块中对象的数量。
3.根据权利要求1所述的流式语音识别方法,其特征在于,所述基于联结主义时间分类模型对所述语音块进行对象识别处理得到对象识别结果,包括:
对所述语音块进行编码处理,得到所述语音块的特征序列;
基于联结主义时间分类模型对所述语音块的特征序列进行对象识别处理得到对象识别结果。
4.根据权利要求1所述的流式语音识别方法,其特征在于,所述根据所述语音块中对象的数量确定识别次数,并基于注意力模型对所述语音块进行所述识别次数的语音识别处理,得到与所述语音块对应的语音识别结果,包括:
根据所述语音块中对象的数量确定识别次数,并基于注意力模型对所述语音块进行所述识别次数的语音识别处理,得到至少一组语音识别处理的结果及对应的准确度;
确定所述准确度最高的一组语音识别处理的结果作为所述语音块对应的语音识别结果。
5.根据权利要求1所述的流式语音识别方法,其特征在于,所述获取待识别的语音块包括:
如果检测到上一待识别语音块中存在未识别的对象,对所述上一待识别语音块进行对象识别处理。
6.根据权利要求4所述的流式语音识别方法,其特征在于,还包括:
如果所述至少一组语音识别处理的结果对应的准确度均小于阈值,重新对所述语音块进行对象识别处理或语音识别处理。
7.根据权利要求1所述的流式语音识别方法,其特征在于,所述获取待识别的语音块包括:
根据指定时间范围或指定语音块大小从待识别的语音信号中提取所述语音块。
8.一种流式语音识别装置,其特征在于,包括:
获取模块,用于获取待识别的语音块;
第一识别模块,用于基于联结主义时间分类模型对所述语音块进行对象识别处理得到对象识别结果,并根据所述对象识别结果确定所述语音块中对象的数量;
第二识别模块,用于根据所述语音块中对象的数量确定识别次数,并基于注意力模型对所述语音块进行所述识别次数的语音识别处理,得到与所述语音块对应的语音识别结果。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-7所述的流式语音识别方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7所述的流式语音识别方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于联想(北京)有限公司,未经联想(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111150034.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于大数据的交通数据管理装置
- 下一篇:一种用于废水处理的液体固化机