[发明专利]语音识别方法、装置、计算机可读存储介质及计算机设备在审
申请号: | 202110731479.6 | 申请日: | 2021-06-30 |
公开(公告)号: | CN113823264A | 公开(公告)日: | 2021-12-21 |
发明(设计)人: | 孙思宁 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/08 |
代理公司: | 深圳翼盛智成知识产权事务所(普通合伙) 44300 | 代理人: | 李汉亮 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 装置 计算机 可读 存储 介质 设备 | ||
本发明实施例公开了一种语音识别方法、装置、计算机可读存储介质及计算机设备,方法通过对待识别的语音信息进行特征提取,得到多个特征向量;计算每个特征向量的稀疏度值,稀疏度值为每个特征向量的自注意力得分序列的分布与自注意力得分序列的均匀分布之间的相对熵;确定稀疏度值大于预设阈值的第一特征向量以及稀疏度值不大于预设阈值的第二特征向量;根据第一特征向量的自注意力计算结果与第二特征向量确定目标矩阵;将目标矩阵与标签序列对应的特征矩阵输入至分类网络进行分类处理,得到对待识别的语音信息对应的识别结果。以此,本申请采用深度学习方法,降低了语音识别过程中自注意力机制的计算量,从而提升了语音识别的效率。
技术领域
本发明涉及语音识别技术领域,具体涉及一种语音识别方法、装置、计算机可读存储介质及计算机设备。
背景技术
语音识别(Automatic Speech Recognition,ASR)技术是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。
近年来,自动语音识别技术发展迅速,其应用也深入人们生活中的各个领域。其中,端到端(End-to-End,E2E)自动语音识别技术以其简化的体系结构和优异的性能广受青睐。转移机和基于注意力的编解码器是两个流行的E2E框架,他们可以直接将输入的音频流特征转化为文本结果,相比传统语音识别模型在资源消耗和准确率上都有一定的优势。
然而,在自注意力机制下,随着输入序列长度的增加,计算复杂度将大大增加,导致语音识别效率较低。
发明内容
本申请实施例提供一种语音识别方法、装置、计算机可读存储介质及计算机设备,该方法可以提高语音识别的效率。
本申请第一方面提供一种语音识别方法,包括:
对待识别的语音信息进行特征提取,得到多个特征向量;
计算每个特征向量的稀疏度值,所述稀疏度值为每个特征向量的自注意力得分序列的分布与自注意力得分序列的均匀分布之间的相对熵;
确定稀疏度值大于预设阈值的第一特征向量以及稀疏度值不大于预设阈值的第二特征向量;
根据所述第一特征向量的自注意力计算结果与所述第二特征向量确定目标矩阵;
将所述目标矩阵与标签序列对应的特征矩阵输入至分类网络进行分类处理,得到对所述待识别的语音信息对应的识别结果。
相应的,本申请第二方面提供一种语音识别装置,装置包括:
提取单元,用于对待识别的语音信息进行特征提取,得到多个特征向量;
计算单元,用于计算每个特征向量的稀疏度值,所述稀疏度值为每个特征向量的自注意力得分序列的分布与自注意力得分序列的均匀分布之间的相对熵;
第一确定单元,用于确定稀疏度值大于预设阈值的第一特征向量以及稀疏度值不大于预设阈值的第二特征向量;
第二确定单元,用于根据所述第一特征向量的自注意力计算结果与所述第二特征向量确定目标矩阵;
识别单元,用于将所述目标矩阵与标签序列对应的特征矩阵输入至分类网络进行分类处理,得到对所述待识别的语音信息对应的识别结果。
在一些实施例中,所述计算单元,包括:
第一计算子单元,用于计算每个特征向量的自注意力得分序列;
第二计算子单元,用于计算每个得分序列的分布与均匀分布之间的相对熵,得到每个得分序列对应的特征向量的稀疏度值。
在一些实施例中,所述计算单元,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110731479.6/2.html,转载请声明来源钻瓜专利网。