[发明专利]语音识别方法及装置、介质和设备有效

申请号：	201910802833.2	申请日：	2019-08-28
公开（公告）号：	CN110797018B	公开（公告）日：	2022-03-25
发明（设计）人：	刘柏基;曹松军	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G10L15/18	分类号：	G10L15/18;G10L15/26
代理公司：	深圳市隆天联鼎知识产权代理有限公司 44232	代理人：	刘抗美
地址：	518000 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音识别方法装置介质设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种语音识别方法，其特征在于，所述方法包括：

将待识别语音输入至语音识别模型，获取所述语音识别模型的编码器的编码隐状态序列，和获取所述语音识别模型的解码器的解码隐状态序列；

对于所述解码器在第t时间步的输出特征，在所述编码隐状态序列中确定至少一个目标编码隐状态；

根据第t-1时间步的解码隐状态和所述目标编码隐状态计算注意力分配概率，其中，t为大于1的整数；

根据所述注意力分配概率确定所述第t时间步的输出特征，以根据所述输出特征得到所述待识别语音对应的目标语音。

2.根据权利要求1所述的语音识别方法，其特征在于，所述对于所述解码器在第t时间步的输出特征，在所述编码隐状态序列中确定至少一个目标编码隐状态，包括：

对于所述解码器在第t-1时间步的输出特征，在所述编码隐状态序列中确定第i个编码隐状态为第一源隐状态；

基于所述第一源隐状态确定第一窗口，将所述第一窗口内的编码隐状态作为所述第t-1时间步的输出特征对应的目标编码隐状态；

对于所述解码器在所述第t时间步的输出特征，在所述编码隐状态序列中确定第j个编码隐状态为第二源隐状态；

基于所述第二源隐状态确定第二窗口，将所述第二窗口内的编码隐状态作为所述第t时间步的输出特征对应的目标编码隐状态，其中，j大于等于i。

3.根据权利要求1或2所述的语音识别方法，其特征在于，所述根据第t-1时间步的解码隐状态和所述目标编码隐状态计算注意力分配概率，包括：

将n1维的所述第t-1时间步的解码隐状态分为k份，以及将n2维的所述目标编码隐状态分为k份，得到k组向量集，每组向量集包含：份第t-1时间步的解码隐状态和份目标编码隐状态；

并行计算所述k组向量集的关联度，得到k个关联度值；

根据所述k个关联度值确定所述第t时间步的输出特征对应的注意力分配概率，其中，n1、n2为正整数，k为大于1的整数。

4.根据权利要求3所述的语音识别方法，其特征在于，所述并行计算所述k组向量集的关联度，包括：

基于相同的模型参数计算每组向量集的关联度。

5.根据权利要求3所述的语音识别方法，其特征在于，所述根据所述k个关联度值确定所述第t时间步的输出特征对应的注意力分配概率，包括：

计算所述k个关联度值的平均值，并通过激活函数将所述平均值映射为所述注意力分配概率。

6.根据权利要求3所述的语音识别方法，其特征在于，所述根据所述注意力分配概率确定所述第t时间步的输出特征，包括：

根据所述目标编码隐状态和所述注意力分配概率计算目标语义特征；

根据所述目标语义特征和所述第t-1时间步的解码隐状态确定所述第t时间步的输出特征。

7.根据权利要求3所述的语音识别方法，其特征在于，所述方法还包括：

通过数据增强算法处理所述语音识别模型的训练样本的频谱图；

根据处理后的频谱图训练所述语音识别模型。

8.一种语音识别装置，其特征在于，所述装置包括：

隐状态序列获取模块，被配置为：将待识别语音输入至语音识别模型，获取所述语音识别模型的编码器的编码隐状态序列，和获取所述语音识别模型的解码器的解码隐状态序列；

目标编码隐状态确定模块，被配置为：对于所述解码器在第t时间步的输出特征，在所述编码隐状态序列中确定至少一个目标编码隐状态；

注意力分配概率计算模块，被配置为：根据第t-1时间步的解码隐状态和所述目标编码隐状态计算注意力分配概率，其中，t为大于1的整数；

目标语音确定模块，被配置为：根据所述注意力分配概率确定所述第t时间步的输出特征，以根据所述输出特征得到所述待识别语音对应的目标语音。

9.一种计算机存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的语音识别方法。

10.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至7中任意一项所述的语音识别方法。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于腾讯科技（深圳）有限公司，未经腾讯科技（深圳）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910802833.2/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载