[发明专利]用于语音识别系统的联合解码方法及系统有效
| 申请号: | 201811583120.3 | 申请日: | 2018-12-24 |
| 公开(公告)号: | CN109559749B | 公开(公告)日: | 2021-06-18 |
| 发明(设计)人: | 俞凯;钱彦旻;郭嘉祺;游永彬 | 申请(专利权)人: | 思必驰科技股份有限公司 |
| 主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/06;G10L25/30 |
| 代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 方挺;车江华 |
| 地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 语音 识别 系统 联合 解码 方法 | ||
1.一种用于语音识别系统的联合解码方法,应用于第一语音识别系统和第二语音识别系统之间的联合解码,所述方法包括:
获取所述第一语音识别系统的第一后验分数序列,和所述第二语音识别系统的第二后验分数序列;
采用DTW算法确定所述第一后验分数序列和所述第二后验分数序列之间的对齐关系;
根据所述对齐关系融合所述第一后验分数序列和所述第二后验分数序列以得到融合结果;
对所述融合结果进行解码处理;
所述第一语音识别系统为CTC语音识别系统,所述第二语音识别系统为混合语音识别系统;
所述获取所述第一语音识别系统的第一后验分数序列,和所述第二语音识别系统的第二后验分数序列包括:
获取所述CTC语音识别系统的输出序列作为所述第一后验分数序列;
获取所述混合语音识别系统输出的所有senone状态;
建立所述所有senone状态与相应的音素之间的映射关系,其中,每一个音素对应多个senone状态;
分别将所述每一个音素所对应的多个senone状态中的最大概率值确定为后验概率值;
将对应于所述每一个音素的后验概率值构成所述第二后验分数序列。
2.根据权利要求1所述的方法,其中,所述对齐关系为:所述第一后验分数序列中的一个序列值与所述第二后验分数序列中的多个序列值相对应形成一对多序列值对和/或所述第二后验分数序列中的一个序列值与所述第一后验分数序列中的多个序列值相对应形成一对多序列值对。
3.根据权利要求2所述的方法,其中,所述根据所述对齐关系融合所述第一后验分数序列和所述第二后验分数序列以得到融合结果包括:
将所述一对多序列值对中的单独一方的序列值数量扩展成与另一方的序列值数量相等,扩展得到的序列值与所述单独一方的序列值相等。
4.根据权利要求2所述的方法,其中,所述根据所述对齐关系融合所述第一后验分数序列和所述第二后验分数序列以得到融合结果包括:
选择所述第一后验分数序列或者所述第二后验分数序列作为参考序列,另一个序列作为可变序列;
保持所述参考序列中的序列值数量不变,将所述可变序列中的同时与所述参考序列中的同一个序列值相对应的多个序列值的均值作为新的序列值与所述同一个序列值相对应;
将所述可变序列中的同时与所述参考序列中的多个序列值相对应的序列值进行等值扩展,以形成与所述参考序列中的多个序列值的一一对应。
5.根据权利要求2所述的方法,其中,所述根据所述对齐关系融合所述第一后验分数序列和所述第二后验分数序列以得到融合结果包括:
将所述一对多序列值对中的单独一方的序列值相对应的多个序列值的均值作为新的序列值与所述单独一方的序列值相对应。
6.根据权利要求1所述的方法,其中,所述根据所述对齐关系融合所述第一后验分数序列和所述第二后验分数序列以得到融合结果包括:
根据所述对齐关系确定所述第一后验分数序列和所述第二后验分数序列中对应于相同音素的序列值之间的一一对应关系;
基于以下公式实现对对应于相同音素的序列值之间的融合:
Pnew(y|x)=Pctc(y|x)+α·(1-Pctc(yblk|x))·Phyb(y|x)
其中,Pctc(y|x)是来自CTC模型的原始音素声学得分,Phyb(y|x)是来自混合系统的映射音素概率,α是混合声学得分的融合权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思必驰科技股份有限公司,未经思必驰科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811583120.3/1.html,转载请声明来源钻瓜专利网。





