[发明专利]用于语音识别的实时解码方法和装置在审
申请号: | 202110299121.0 | 申请日: | 2021-03-20 |
公开(公告)号: | CN113096648A | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 杨西同 | 申请(专利权)人: | 杭州知存智能科技有限公司 |
主分类号: | G10L15/08 | 分类号: | G10L15/08;G10L15/14;G10L15/183 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 311121 浙江省杭州市余杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 语音 识别 实时 解码 方法 装置 | ||
1.一种用于语音识别的实时解码方法,其特征在于,包括:
实时获取在解码网络内进行帧同步搜索过程中转移id跳转时跳转前节点与跳转后节点之间的弧输出的音素以及对应的两节点的标识;
根据所述音素以及对应的两节点的标识得到当前路径所对应的音素序列;
将当前路径所对应的音素序列与关键词信息进行匹配以实现语音识别。
2.根据权利要求1所述的用于语音识别的实时解码方法,其特征在于,所述根据所述音素以及对应的两节点的标识得到当前路径所对应的音素序列,包括:
根据所述音素对应的两节点的标识、历史音素数据进行反演得到当前路径,所述历史音素数据包括:本次帧同步搜索过程中历史输出的音素以及对应的两节点的标识;
根据当前路径所经过的所有弧的输出音素合成该路径对应的音素序列。
3.根据权利要求1所述的用于语音识别的实时解码方法,其特征在于,所述音素序列包括:音素序列本体以及最后一个音素对应的跳转后节点标识,
所述根据所述音素以及对应的两节点的标识得到当前路径所对应的音素序列,包括:
根据所述音素对应的跳转前节点的标识获取对应的历史音素序列,所述历史音素序列的最后一个音素对应的跳转后节点标识与所述音素对应的跳转前节点的标识相同;
根据所述音素以及对应的跳转后节点的标识更新所述历史音素序列的音素序列本体以及最后一个音素对应的跳转后节点标识得到当前路径所对应的音素序列。
4.根据权利要求3所述的用于语音识别的实时解码方法,其特征在于,转移id跳转时同一跳转前节点对应多个跳转后节点,则对应的跳转前节点相同、跳转后节点不同的音素有多个;
所述根据所述音素以及对应的两节点的标识得到当前路径所对应的音素序列,还包括:
将对应多个跳转后节点的跳转前节点所对应的历史音素序列复制为多个。
5.根据权利要求1所述的用于语音识别的实时解码方法,其特征在于,还包括:
实时获取所述音素对应的两节点之间的权重;
根据所述权重获取当前路径的权重累计值;
根据当前路径的权重累计值控制音素序列与关键词信息的匹配。
6.根据权利要求1所述的用于语音识别的实时解码方法,其特征在于,所述关键词的数量为多个,所述将当前路径所对应的音素序列与关键词信息进行匹配,包括:
判断所述转移id是否前进到终止节点;
若是,将各路径所对应的音素序列与关键词信息进行匹配,根据匹配结果得到语音识别结果;
若否,将各路径所对应的音素序列与关键词信息进行匹配,根据匹配结果筛选关键词。
7.根据权利要求6所述的用于语音识别的实时解码方法,其特征在于,所述根据匹配结果得到语音识别结果,包括:
将最优路径对应的匹配度最好的关键词作为语音识别结果。
8.根据权利要求1所述的用于语音识别的实时解码方法,其特征在于,所述解码网络为WFST,所述WFST在转移id前进跳转过程中输出跳转前节点与跳转后节点之间的弧输出的音素、对应的两节点的标识以及权重。
9.一种用于语音识别的实时解码装置,其特征在于,包括:
音素实时获取模块,实时获取在解码网络内进行帧同步搜索时转移id前进过程中节点之间的弧输出的音素;
音素序列获取模块,根据所述音素得到各路径所对应的音素序列;
关键词匹配模块,将各路径所对应的音素序列与关键词信息进行匹配以实现语音识别。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至8任一项所述的用于语音识别的实时解码方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州知存智能科技有限公司,未经杭州知存智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110299121.0/1.html,转载请声明来源钻瓜专利网。