[发明专利]基于触发式非自回归模型的语音识别方法及系统有效
| 申请号: | 202010987375.7 | 申请日: | 2020-09-18 |
| 公开(公告)号: | CN112037798B | 公开(公告)日: | 2022-03-01 |
| 发明(设计)人: | 田正坤;温正棋 | 申请(专利权)人: | 中科极限元(杭州)智能科技股份有限公司 |
| 主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L15/02;G10L15/06;G10L25/27;G06N3/04;G06N3/08 |
| 代理公司: | 杭州浙科专利事务所(普通合伙) 33213 | 代理人: | 杨小凡 |
| 地址: | 310016 浙江省杭州市*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 触发 回归 模型 语音 识别 方法 系统 | ||
1.基于触发式非自回归模型的语音识别方法,其特征在于包括如下步骤:
S11,获取语音训练数据和对应的文本标注训练数据,并提取一系列语音训练数据的特征,构成声学特征序列;
S12,将声学特征序列输入卷积降采样模块中,计算并输出卷积降采样序列;
S13,将卷积降采样序列输入声学编码器中,输出声学编码状态序列;
S14,将声学编码状态序列输入线性变换层,并结合文本标注训练数据计算联结时序损失,所述线性变换层用于计算得到预测标记的概率分布;
S15,根据预测标记的概率分布计算尖峰的位置和个数,非空格标记的概率大于触发阈值时,标记为一个尖峰位置,相邻的尖峰仅保留第一个,并存储尖峰位置;
S16,将尖峰位置对应的触发声学编码状态序列和声学编码状态序列输入声学解码器,并结合文本标注训练数据计算交叉熵损失;
S17,将联结时序损失和交叉熵损失进行加权,根据两者的联合损失计算梯度,进行反向传播;
S18,循环执行S12至S17,直至达到预设的训练结束条件,完成训练。
2.如权利要求1所述的基于触发式非自回归模型的语音识别方法,其特征在于所述S11,通过对时域下的语音波形信号加窗分帧后进行离散傅里叶变换,提取特定频率分量的系数组成特征向量,一系列的特征向量构成语音特征序列,所述系数是梅尔频率倒谱系数或梅尔滤波器组系数。
3.如权利要求1所述的基于触发式非自回归模型的语音识别方法,其特征在于所述S12,卷积降采样模块采用两层二维卷积,卷积核大小均为3×3,步长均为2。
4.如权利要求1所述的基于触发式非自回归模型的语音识别方法,其特征在于所述编码器是基于自注意力机制的声学编码器,卷积降采样模块将语音特征序列转换为卷积降采样序列后,对序列中的特征加上正余弦位置编码,所述正余弦位置编码包括偶数位置编码PE(t,2i)=sin(t/100002i/d_model)和奇数位置编码PE(t,2i+1)=cos(t/100002i/d_model),t表示转换后的语音特征的时间步,i表示转换后的语音特征的第i个位置,d_model表示维度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科极限元(杭州)智能科技股份有限公司,未经中科极限元(杭州)智能科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010987375.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种有机油茶树栽培用营养土
- 下一篇:痔疮栓剂推注器





