[发明专利]基于多层级标识的端到端语音识别模型及建模方法在审
申请号: | 202110642751.3 | 申请日: | 2021-06-09 |
公开(公告)号: | CN113160803A | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | 唐健;胡宇晨;戴礼荣 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/16;G10L15/22;G10L15/26 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 孙蕾 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多层 标识 端到端 语音 识别 模型 建模 方法 | ||
1.一种基于多层级标识的端到端语音识别建模方法,其特征在于,包括解码推论,所述解码推论采用后推理算法,所述后推理算法包括:
对应细粒度文本序列的模型产生后验概率输出序列
所述输出序列能够唯一对应出粗粒度子序列计算模型生成所述粗粒度子序列的对数似然值,并以此作为现有预测输出序列的交叉验证;
依据以上两步计算获得似然概率得分对于现有解码路径进行裁剪,保证搜索路径控制在束宽度范围内。
2.根据权利要求1所述的建模方法,其特征在于,所述后推理算法的核心在于,在解码推论阶段使用序列间对齐映射信息。
3.根据权利要求1所述的建模方法,其特征在于,在所述交叉验证的过程中并未生成新的解码路径,而是从另一个角度对于现有路径输出结果进行得分的重排序。
4.根据权利要求1所述的建模方法,其特征在于,每条解码路径的得分增量均由一个细粒度对数似然概率得分和多个粗粒度对数似然概率得分构成。
5.一种由权利要求1-4任一项所述的建模方法所得到的端到端语音识别模型,其特征在于,所述语音识别模型包括交互解码器,所述交互解码器包括字符模块、交互模块、子词隐层模块和子词分类模块;其中,
所述字符模块用于建模字符子序列的输出预测并为后续运算过程提供字符历史状态
所述交互模块用于融合字符状态和子词状态,并使用融合后的交互状态作为交互注意力模块的计算。
6.根据权利要求5所述的语音识别模型,其特征在于,所述字符模块包括字符注意力模块计算、循环神经网络层和全连接层;所述字符模块的输入是字符历史输出的信息表征以及编码器输出序列
7.根据权利要求5所述的语音识别模型,其特征在于,所述交互模块包括交互注意力机制与循环神经网络层;所述交互模块的输入是字符历史状态、子词状态以及编码器输出序列
8.根据权利要求5所述的语音识别模型,其特征在于,所述子词隐层模块的输入是子词历史输出的信息表征以及编码器输出序列通过所述子词注意力模块和所述循环神经网络层结构分别实现对子词注意力向量的计算和子词状态的更新。
9.根据权利要求5所述的语音识别模型,其特征在于,所述子词分类模块的的输入是交互状态和子词状态,将所述交互状态和子词状态分别通过全连接层实现对子词的输出预测,将两项输出分别称为子词输出和辅助子词输出。
10.根据权利要求5所述的语音识别模型,其特征在于,所述交互解码器生成三种类型的输出:字符输出、子词输出和辅助子词输出,这三类输出对应三项交叉熵损失,三者共同构成了模型训练的损失函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110642751.3/1.html,转载请声明来源钻瓜专利网。