[发明专利]语音识别方法、装置和系统及存储介质在审
| 申请号: | 202011212947.0 | 申请日: | 2020-11-02 |
| 公开(公告)号: | CN112133294A | 公开(公告)日: | 2020-12-25 |
| 发明(设计)人: | 王杰;李秀林 | 申请(专利权)人: | 标贝(北京)科技有限公司 |
| 主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/14;G10L15/26 |
| 代理公司: | 北京睿邦知识产权代理事务所(普通合伙) 11481 | 代理人: | 徐丁峰;戴亚南 |
| 地址: | 100192 北京市海淀区西小口路66号中关*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语音 识别 方法 装置 系统 存储 介质 | ||
本发明提供一种语音识别方法、装置和系统及存储介质。方法包括:获取待识别语音;提取待识别语音的声学特征;将声学特征输入转换器模型,以在第i个时间步获得转换器模型输出的与第i个语音段相对应的模型分数集合,i=1,2,……,n,模型分数集合包括与转换器模型所建模的文字集合中的所有文字一一对应的模型分数,每个模型分数表示第i个语音段属于该模型分数所对应的文字的概率;结合模型分数集合以及加权有限状态机模块,计算从第1个语音段至第i个语音段中的所有语音段所对应的至少一个转移路径各自的路径分数;基于至少一个转移路径各自的路径分数,获得与第i个语音段相对应的文字解码结果。该方法有助于提高整个语音识别系统的识别正确率。
技术领域
本发明涉及语音处理技术领域,具体地,涉及一种语音识别方法、装置和系统及存储介质。
背景技术
在语音识别领域,端到端(seq2seq)模型最近取得了长足的进步。它们消除了隐马尔可夫模型(HMM)和连接时序分类模型(CTC)所做出的不合理的帧独立性假设,从而使自己能够学习隐式语言模型,并更直接地优化词错误率(WER)。端到端模型中一个典型的代表是基于自注意(self-attention)的转换器(Transformer)模型。
现有技术使用Transformer模型作为语音识别的整个处理模型。对于通用的场景,诸如日常聊天等一些常见表达时没什么问题。但是,当要预测比较生僻的词,或者人名地名这种专有名词时,就比较容易识别错。如果重新训练Transformer模型也会有很大困难:一是训练数据少,二是训练周期长,不能满足快速迭代的产品需求。
发明内容
为了至少部分地解决现有技术中存在的问题,提供一种语音识别方法、装置和系统及存储介质。
根据本发明一个方面,提供一种语音识别方法,包括:获取待识别语音;提取待识别语音的声学特征;将声学特征输入转换器模型,以在第i个时间步获得转换器模型输出的与第i个语音段相对应的模型分数集合,其中,待识别语音包括n个语音段,i=1,2,……,n,模型分数集合包括与转换器模型所建模的文字集合中的所有文字一一对应的模型分数,每个模型分数表示第i个语音段属于该模型分数所对应的文字的概率;结合模型分数集合以及加权有限状态机模块,计算从第1个语音段至第i个语音段中的所有语音段所对应的至少一个转移路径各自的路径分数;以及基于至少一个转移路径各自的路径分数,获得与第i个语音段相对应的文字解码结果。
示例性地,将声学特征输入转换器模型,以在第i个时间步获得转换器模型输出的与第i个语音段相对应的模型分数集合包括:将待识别语音的声学特征输入转换器模型的编码器模块,以获得编码器模块输出的编码结果;在第i个时间步下,将在第i个语音段之前的所有语音段的文字解码结果与编码结果一起,输入转换器模型的解码器模块,以获得解码器模块输出的模型分数集合。
示例性地,结合模型分数集合以及加权有限状态机模块,计算从第1个语音段至第i个语音段中的所有语音段所对应的转移路径各自的路径分数包括:从加权有限状态机模块中获取第i个语音段所对应的转移分数集合,转移分数集合包括与从先前状态转移到当前状态集合的所有转移弧一一对应的转移分数,其中,在i=1的情况下,先前状态为起始状态,并且在i>1的情况下,先前状态为与第i-1个语音段的文字解码结果相对应的状态,当前状态集合包括先前状态链接到的所有当前状态;对于从起始状态出发转移至当前状态集合的过程中经历的所有转移路径中的任一当前转移路径,将先前转移路径的路径分数、转移分数集合中的与特定转移弧相对应的转移分数、以及模型分数集合中的与特定文字相对应的模型分数相加,以获得当前转移路径的路径分数,其中,当前转移路径包括先前转移路径和特定跳转弧,先前转移路径是从起始状态出发转移至先前状态的过程中经历的转移路径,特定转移弧是从先前状态转移至当前状态集合中的当前状态之一的转移弧,特定文字是与特定转移弧上的输出标签一致的文字;其中,至少一个转移路径是从起始状态出发转移至当前状态集合的过程中经历的所有转移路径。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于标贝(北京)科技有限公司,未经标贝(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011212947.0/2.html,转载请声明来源钻瓜专利网。





