[发明专利]用于语音识别的实时解码方法和装置在审
申请号: | 202110299121.0 | 申请日: | 2021-03-20 |
公开(公告)号: | CN113096648A | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 杨西同 | 申请(专利权)人: | 杭州知存智能科技有限公司 |
主分类号: | G10L15/08 | 分类号: | G10L15/08;G10L15/14;G10L15/183 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 311121 浙江省杭州市余杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 语音 识别 实时 解码 方法 装置 | ||
本发明实施例提供一种用于语音识别的实时解码方法和装置,该方法包括:实时获取在解码网络内进行帧同步搜索过程中转移id跳转时跳转前节点与跳转后节点之间的弧输出的音素以及对应的两节点的标识;根据所述音素以及对应的两节点的标识得到当前路径所对应的音素序列;将当前路径所对应的音素序列与关键词信息进行匹配以实现语音识别,其中,解码网络内进行帧同步搜索过程中会把关键词的音素信息输出来,解码过程中保存路径上的输出的音素序列,并根据关键词进行实时匹配,不需要在录音结束时再对已缓存的路径历史信息进行回溯才能给出解码结果,提高了解码的实时性。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种用于语音识别的实时解码方法和装置。
背景技术
基于HMM-DNN的语音识别技术已被广泛应用,在HMM-DNN中,DNN作为声学模型,输出各个HMM状态的概率,结合基于WFST(即加权有限状态转换机)的解码器,通过Viterbi解码,得到在WFST上最优的路径得分,从而得到识别结果。
现有WFST解码方案需要在一段确定长度的语音上进行解码,当用于连续语音解码时,需要对连续语音进行切分。以对“小美小美”的识别为例,“小美小美”的音素序列为:x,iao_3,m,ei_3,x,iao_3,m,ei_3,其语言模型的WFST如图1所示,解码时从节点0出发,当语音段结束时,WFST上会到达节点8(实际的WFST整合了HMM模型、三音素模型等,会包含更多的信息,是一个有向有环图,本例为简述解码原理,对WFST进行了简化),此时,对已缓存的路径历史信息进行回溯,回溯从节点8开始,当有多条路径时,根据Viterbi算法,对缓存的路径信息进行最优路径搜索,仅当回溯到节点0时,弧上输出“小美小美”的关键词,而在其他节点上时,输出空信号eps。
现有方案的优点是提高了解码的可靠性,可以在一段长度确定的录音上,搜索到最佳路径。但由于必须在这段录音结束时,再对已缓存的路径历史信息进行回溯,进而才能给出解码结果,影响了解码的实时性,同时,由于需要保存大量的历史路径信息,且这些信息和解码计算量会随着语音长度的增长而增长,需要的存储资源较高。
发明内容
针对现有技术中的问题,本发明提供一种用于语音识别的实时解码方法和装置、电子设备以及计算机可读存储介质,能够至少部分地解决现有技术中存在的问题。
为了实现上述目的,本发明采用如下技术方案:
第一方面,提供一种用于语音识别的实时解码方法,包括:
实时获取在解码网络内进行帧同步搜索过程中转移id跳转时跳转前节点与跳转后节点之间的弧输出的音素以及对应的两节点的标识;
根据所述音素以及对应的两节点的标识得到当前路径所对应的音素序列;
将当前路径所对应的音素序列与关键词信息进行匹配以实现语音识别。
进一步地,所述根据所述音素以及对应的两节点的标识得到当前路径所对应的音素序列,包括:
根据所述音素对应的两节点的标识、历史音素数据进行反演得到当前路径,所述历史音素数据包括:本次帧同步搜索过程中历史输出的音素以及对应的两节点的标识;
根据当前路径所经过的所有弧的输出音素合成该路径对应的音素序列。
进一步地,所述音素序列包括:音素序列本体以及最后一个音素对应的跳转后节点标识,
所述根据所述音素以及对应的两节点的标识得到当前路径所对应的音素序列,包括:
根据所述音素对应的跳转前节点的标识获取对应的历史音素序列,所述历史音素序列的最后一个音素对应的跳转后节点标识与所述音素对应的跳转前节点的标识相同;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州知存智能科技有限公司,未经杭州知存智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110299121.0/2.html,转载请声明来源钻瓜专利网。