[发明专利]语音识别方法、装置、电子设备及可读存储介质有效
| 申请号: | 202011402934.X | 申请日: | 2020-12-04 |
| 公开(公告)号: | CN112542162B | 公开(公告)日: | 2023-07-21 |
| 发明(设计)人: | 赖勇铨 | 申请(专利权)人: | 中信银行股份有限公司 |
| 主分类号: | G10L15/197 | 分类号: | G10L15/197;G10L15/16 |
| 代理公司: | 北京市兰台律师事务所 11354 | 代理人: | 于越;张峰 |
| 地址: | 100020 北京市朝*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语音 识别 方法 装置 电子设备 可读 存储 介质 | ||
本申请提供了一种语音识别方法、装置、电子设备及可读存储介质,应用于语音识别技术领域,其中该方法包括:通过预训练的基于掩码的神经网络模型,突破n‑gram模型的限制,能够利用整句的上下文信息,从而更准确的得到候选语句中各个位置对应的文字的类别与概率,进而确定集束搜索确定的各候选语句的概率并进行候选语句的重排序,使得语音识别的结果更准确。
技术领域
本申请涉及语音识别技术领域,具体而言,本申请涉及一种语音识别方法、装置、电子设备及可读存储介质。
背景技术
集束搜索是一种宽度优先的启发式搜索算法,用在路径搜索中。假设有三个节点,每个节点的可能取值为abc,那么所有可能的路径包括aaa,aab,aac,...ccc一共有3*3*=27种。出于效率和存储空间的考虑,集束搜索算法先从宽度进行扩展,建立一个候选列表,列表的容量最大为w,通常又称w为beamwidth,即束的宽度。
对于上述问题,假设w=2,即每一步搜索后当前列表只保留两个最可能的路径。那么一个完整的集束搜索过程如下:第一步先考虑a,b,c的排序,选择最大概率对应的两个组合假设为b,c,从中选择最大概率的两个组合并从高到低排列,更新到列表中;第二步考虑以下6种情况,ba,bb,bc,ca,cb,cc,从中选择最大概率的两个组合并从高到低排列,假设为bc,ca,更新在列表中;第三步考虑以下6种情况,bca,bcb,bcc,caa,cab,cac,从中选择最大概率的两个组合并从高到低排列,假设为caa,cac;结束搜索,并输出caa,cac作为最终的集束搜索搜索结果。
以上计算过程中涉及的组合之间的概率可以通过n-gram语言模型得到。以2-gram为例,通常会从大量语料中计算出小于等于2阶的文字的组合频率用于表示该组合的概率。假设一共有三个字,a,b,c,那么2-gram会通过统计大量文本语料得到如下组合的概率值:
a,b,c,aa,ab,ac,ba,bb,bc,ca,cb,cc。于是上述搜索过程中的概率计算就通过查表的方式得到,例如计算abc组合的概率则分解为ab,bc的模率值相乘得到。
集束搜索通过n-gram的语言模型增强语音识别的效果,ngram通过查表实现。在实际的应用中,对于一个音频输入,集束搜索输出一个语句列表,列表中每一条语句代表一种可能的转写结果。列表的语句按照概率从高到低进行排序,概率的值是通过声学模型和ngram语言模型各自的概率加权得到。n-gram语言模型属于局部模型,优点在于效率非常高,缺点便是无法实现较长的上下文的理解。其不足之处在n-gram模型难以对长句进行建模,无法利用整句的上下文信息,对于上下文的理解通常不够精确。
发明内容
本申请提供了一种语音识别方法、装置、电子设备及可读存储介质,用于突破n-gram模型的限制,能够利用整句的上下文信息,从而更准确的得到候选语句中各个位置对应的文字的类别与概率,进而确定集束搜索确定的各候选语句的概率并进行候选语句的重排序,使得语音识别的结果更准确。
本申请采用的技术方案如下:
第一方面,提供了一种语音识别方法,其特征在于,包括:
获取基于集束搜索方法对目标音频进行语音识别得到的候选语句列表,候选语句列表包括多个候选语句;
确定候选语句列表中各候选语句的概率;确定候选语句列表中各候选语句的概率,包括:基于预训练的基于掩码的神经网络模型确定任一候选语句中各文字出现的概率,并基于任一候选语句中各文字出现的概率确定任一候选语句的概率;
基于确定的候选语句列表中各候选语句的概率,对候选语句列表中的各候选语句进行重排序,得到重排序后的目标候选语句列表。
可选地,基于预训练的基于掩码的神经网络模型确定任一候选语句中各文字出现的概率,包括:
基于预训练的基于掩码的神经网络模型确定各个位置的文字类别及概率;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中信银行股份有限公司,未经中信银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011402934.X/2.html,转载请声明来源钻瓜专利网。





