[发明专利]一种语音识别方法、装置、设备及计算机可读存储介质在审
申请号: | 202110110872.3 | 申请日: | 2021-01-27 |
公开(公告)号: | CN112951209A | 公开(公告)日: | 2021-06-11 |
发明(设计)人: | 马志强;方昕;刘俊华 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/26;G10L19/04;G10L19/16 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 张柳 |
地址: | 230088 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 识别 方法 装置 设备 计算机 可读 存储 介质 | ||
1.一种语音识别方法,其特征在于,包括:
基于预先建立的语音识别模型,依次获取待识别语音中每个语音帧对应的特征向量;
在每获得一语音帧对应的特征向量后,基于所述语音识别模型、当前获得的特征向量和前一解码位置对应的识别结果,确定当前获得的特征向量处是否为解码位置;
若是,则基于所述语音识别模型、当前获得的特征向量和当前获得的特征向量之前的所有特征向量,确定当前解码位置对应的识别结果。
2.根据权利要求1所述的语音识别方法,其特征在于,所述基于预先建立的语音识别模型,依次获取待识别语音中每个语音帧对应的特征向量,包括:
依次获取所述待识别语音中每个语音帧对应的语音特征;
在每获得一语音帧对应的语音特征后,将当前获得的语音特征输入所述语音识别模型的语音编码模块进行编码,以得到所述当前获得的语音特征对应的语音帧所对应的特征向量。
3.根据权利要求1所述的语音识别方法,其特征在于,所述基于所述语音识别模型、当前获得的特征向量和前一解码位置对应的识别结果,确定当前获得的特征向量处是否为解码位置,包括:
将前一解码位置对应的识别结果的表征向量输入所述语音识别模型的文本编码模块进行编码,得到前一解码位置对应的识别结果所对应的特征向量;
基于所述语音识别模型的第一注意力模块、当前获得的特征向量以及前一解码位置对应的识别结果所对应的特征向量,预测当前获得的特征向量处是否为解码位置。
4.根据权利要求3所述的语音识别方法,其特征在于,所述基于所述语音识别模型的第一注意力模块、当前获得的特征向量以及前一解码位置对应的识别结果所对应的特征向量,预测当前获得的特征向量处是否为解码位置,包括:
基于所述语音识别模型的第一注意力模块、当前获得的特征向量以及前一解码位置对应的识别结果所对应的特征向量,预测当前获得的特征向量处为解码位置的概率;
若当前获得的特征向量处为解码位置的概率大于或等于预设的概率阈值,则确定当前获得的特征向量处为解码位置,否则,确定当前获得的特征向量处不为解码位置。
5.根据权利要求4所述的语音识别方法,其特征在于,所述基于所述语音识别模型的第一注意力模块、当前获得的特征向量以及前一解码位置对应的识别结果所对应的特征向量,预测当前获得的特征向量处为解码位置的概率,包括:
利用所述语音识别模型的第一注意力模块,确定当前获得的特征向量与前一解码位置对应的识别结果所对应的特征向量的相关度表征值;
根据确定出的相关度表征值,确定当前获得的特征向量处为解码位置的概率。
6.根据权利要求1所述的语音识别方法,其特征在于,所述基于所述语音识别模型、当前获得的特征向量和当前获得的特征向量之前的所有特征向量,确定当前解码位置对应的识别结果,包括:
基于所述语音识别模型的第二注意力模块、当前获得的特征向量和当前获得的特征向量之前的所有特征向量,确定当前获得的特征向量对应的语音帧所对应的上下文向量;
基于所述语音识别模型的解码模块、当前获得的特征向量对应的语音帧所对应的上下文向量以及前一解码位置对应的识别结果所对应的特征向量,确定当前解码位置对应的识别结果。
7.根据权利要求1~6中任一项所述的语音识别方法,其特征在于,建立所述语音识别模型的过程包括:
从训练语音集中获取训练语音,并获取所述训练语音对应的标注文本;
基于语音识别模型,获取所述训练语音中各语音帧分别对应的特征向量,作为训练特征向量;
依次获取训练特征向量,在每获得一训练特征向量后,基于语音识别模型、当前获得的训练特征向量和所述标注文本中与前一解码位置对应的文本单元,确定当前获得的训练特征向量处是否为解码位置;
若是,则基于语音识别模型、所述训练语音中所有语音帧分别对应的训练特征向量,确定当前解码位置对应的识别结果;
根据当前解码位置对应的识别结果和所述标注文本中与当前解码位置对应的文本单元,确定语音识别模型的第一预测损失;
根据所述第一预测损失,更新语音识别模型的参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110110872.3/1.html,转载请声明来源钻瓜专利网。