[发明专利]语音识别方法、装置、计算机可读存储介质及计算机设备在审

申请号：	202110731479.6	申请日：	2021-06-30
公开（公告）号：	CN113823264A	公开（公告）日：	2021-12-21
发明（设计）人：	孙思宁	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G10L15/02	分类号：	G10L15/02;G10L15/08
代理公司：	深圳翼盛智成知识产权事务所(普通合伙) 44300	代理人：	李汉亮
地址：	518057 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音识别方法装置计算机可读存储介质设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例公开了一种语音识别方法、装置、计算机可读存储介质及计算机设备，方法通过对待识别的语音信息进行特征提取，得到多个特征向量；计算每个特征向量的稀疏度值，稀疏度值为每个特征向量的自注意力得分序列的分布与自注意力得分序列的均匀分布之间的相对熵；确定稀疏度值大于预设阈值的第一特征向量以及稀疏度值不大于预设阈值的第二特征向量；根据第一特征向量的自注意力计算结果与第二特征向量确定目标矩阵；将目标矩阵与标签序列对应的特征矩阵输入至分类网络进行分类处理，得到对待识别的语音信息对应的识别结果。以此，本申请采用深度学习方法，降低了语音识别过程中自注意力机制的计算量，从而提升了语音识别的效率。

技术领域

本发明涉及语音识别技术领域，具体涉及一种语音识别方法、装置、计算机可读存储介质及计算机设备。

背景技术

语音识别(Automatic Speech Recognition，ASR)技术是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。

近年来，自动语音识别技术发展迅速，其应用也深入人们生活中的各个领域。其中，端到端(End-to-End，E2E)自动语音识别技术以其简化的体系结构和优异的性能广受青睐。转移机和基于注意力的编解码器是两个流行的E2E框架，他们可以直接将输入的音频流特征转化为文本结果，相比传统语音识别模型在资源消耗和准确率上都有一定的优势。

然而，在自注意力机制下，随着输入序列长度的增加，计算复杂度将大大增加，导致语音识别效率较低。

发明内容

本申请实施例提供一种语音识别方法、装置、计算机可读存储介质及计算机设备，该方法可以提高语音识别的效率。

本申请第一方面提供一种语音识别方法，包括：

对待识别的语音信息进行特征提取，得到多个特征向量；

计算每个特征向量的稀疏度值，所述稀疏度值为每个特征向量的自注意力得分序列的分布与自注意力得分序列的均匀分布之间的相对熵；

确定稀疏度值大于预设阈值的第一特征向量以及稀疏度值不大于预设阈值的第二特征向量；

根据所述第一特征向量的自注意力计算结果与所述第二特征向量确定目标矩阵；

将所述目标矩阵与标签序列对应的特征矩阵输入至分类网络进行分类处理，得到对所述待识别的语音信息对应的识别结果。

相应的，本申请第二方面提供一种语音识别装置，装置包括：

提取单元，用于对待识别的语音信息进行特征提取，得到多个特征向量；

计算单元，用于计算每个特征向量的稀疏度值，所述稀疏度值为每个特征向量的自注意力得分序列的分布与自注意力得分序列的均匀分布之间的相对熵；