[发明专利]语音识别方法、装置、电子设备及可读存储介质有效
| 申请号: | 202011402934.X | 申请日: | 2020-12-04 |
| 公开(公告)号: | CN112542162B | 公开(公告)日: | 2023-07-21 |
| 发明(设计)人: | 赖勇铨 | 申请(专利权)人: | 中信银行股份有限公司 |
| 主分类号: | G10L15/197 | 分类号: | G10L15/197;G10L15/16 |
| 代理公司: | 北京市兰台律师事务所 11354 | 代理人: | 于越;张峰 |
| 地址: | 100020 北京市朝*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语音 识别 方法 装置 电子设备 可读 存储 介质 | ||
1.一种语音识别方法,其特征在于,包括:
获取基于集束搜索方法对目标音频进行语音识别得到的候选语句列表,所述候选语句列表包括多个候选语句;
确定所述候选语句列表中各候选语句的概率;所述确定所述候选语句列表中各候选语句的概率,包括:基于预训练的基于掩码的神经网络模型确定任一候选语句中各文字出现的概率,并基于所述任一候选语句中各文字出现的概率确定所述任一候选语句的概率;
基于确定的所述候选语句列表中各候选语句的概率,对所述候选语句列表中的各候选语句进行重排序,得到重排序后的目标候选语句列表;
所述基于预训练的基于掩码的神经网络模型确定任一候选语句中各文字出现的概率,包括:
基于预训练的基于掩码的神经网络模型确定各个位置的文字类别及概率,包括:将任一位置的文字通过掩码的方式抹去,得到该任一位置的文字抹去的任一候选语句;将所述任一位置的文字抹去的任一候选语句输入至所述预训练的基于掩码的神经网络模型,得到所述任一位置的文字类别及概率;
基于所述各个位置的文字类别及概率确定所述任一候选语句中各文字出现的概率;
所述基于所述任一候选语句中各文字出现的概率确定所述任一候选语句的概率,包括:
将候选语句中所有位置的文字的概率值乘积作为所述任一候选语句的概率。
2.根据权利要求1所述的方法,其特征在于,所述预训练的基于掩码的神经网络模型的最后一层为softmax激活函数,用于对掩码抹去的位置对应的文本进行分类。
3.根据权利要求1-2任一项所述的方法,其特征在于,所述预训练的基于掩码的神经网络模型为基于时序序列的神经网络模型。
4.根据权利要求3所述的方法,其特征在于,该方法还包括:
将所述重排序后的目标候选语句列表中概率值最高的目标候选语句作为所述目标音频的语音识别结果。
5.一种语音识别模型,其特征在于,包括:
获取模块,用于获取基于集束搜索模型对目标音频进行语音识别得到的候选语句列表,所述候选语句列表包括多个候选语句;
确定模块,用于确定所述候选语句列表中各候选语句的概率;所述确定模块,具体用于基于预训练的基于掩码的神经网络模型确定任一候选语句中各文字出现的概率,并基于所述任一候选语句中各文字出现的概率确定所述任一候选语句的概率;所述确定模块包括:第一确定单元,用于基于预训练的基于掩码的神经网络模型确定各个位置的文字类别及概率;第二确定单元,用于基于所述各个位置的文字类别及概率确定所述任一候选语句中各文字出现的概率;作为单元,用于将候选语句中所有位置的文字的概率值乘积作为所述任一候选语句的概率;
重排序模块,用于基于确定的所述候选语句列表中各候选语句的概率,对所述候选语句列表中的各候选语句进行重排序,得到重排序后的目标候选语句列表。
6.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行根据权利要求1至4任一项所述的语音识别方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机指令,当其在计算机上运行时,使得计算机可以执行上述权利要求1至4中任一项所述的语音识别方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中信银行股份有限公司,未经中信银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011402934.X/1.html,转载请声明来源钻瓜专利网。





