[发明专利]一种融合多模态语义不变性的语音识别文本增强系统有效

申请号：	202110815743.4	申请日：	2021-07-19
公开（公告）号：	CN113270086B	公开（公告）日：	2021-10-15
发明（设计）人：	陶建华;张帅;易江燕	申请（专利权）人：	中国科学院自动化研究所
主分类号：	G10L15/00	分类号：	G10L15/00;G10L15/02;G10L15/04;G10L15/16;G10L15/26;G06N3/04
代理公司：	北京华夏泰和知识产权代理有限公司 11662	代理人：	孙剑锋;李永叶
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种融合多模态语义不变性语音识别文本增强系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种融合多模态语义不变性的语音识别文本增强系统，其特征在于，包括：

声学特征提取模块、声学降采样模块、编码器和融合多模态语义不变性的解码器；所述声学特征提取模块对语音数据分帧处理分割成固定长度的短时音频帧，对所述短时音频帧提取fbank声学特征，将所述声学特征输入到所述声学降采样模块进行降采样，得到声学表示；将所述语音数据输入现有语音识别模块，得到输入文本数据，将所述输入文本数据输入到所述编码器，得到输入文本编码表示；将所述声学表示和所述输入文本编码表示输入到所述解码器融合，通过声学模态和文本模态的表示进行相似性约束损失，得到解码表示；

所述编码器由多个结构相同的基于多头自注意力的模块连接而成；两个基于多头自注意力的模块之间由残差连接；

所述基于多头自注意力的模块包括：两个子部分，第一子部分是多头自注意力层，后面接第二子部分，为全连接映射层，每个子部分进行层归一化操作；所述多头自注意力层和全连接映射层中间进行残差连接；

所述语音识别文本增强系统还包括，标注目标序列的高维表示模块，将所述输入文本数据对应的标注目标文本进行词嵌入表示，将所述词嵌入表示输入所述基于多头自注意力的模块，得到目标序列的高维表示，所述高维表示作为查询向量；

具体的方法为：

使用词嵌入模块将所述输入文本数据对应的标注目标文本表示为目标文本连续特征向量；

对目标文本连续特征向量增加位置编码信息，对特征向量的时间先后顺序信息进行建模，得到目标文本位置编码序列；

将所述目标文本位置编码序列输入所述基于多头自注意力的模块得到目标序列的高维表示；

将所述声学表示和所述输入文本编码表示输入到所述解码器融合，通过声学模态和文本模态的表示进行相似性约束损失，得到解码表示的具体方法为：

将所述声学表示和所述输入文本编码表示输入到解码器中，作为待查询的声学键和声学值集合，文本键和文本值集合；

应用所述查询向量对声学键集合和文本键集合进行逐元素计算余弦距离，根据距离的大小得到声学的注意力分数和文本的注意力分数；

使用所述声学的注意力分数对声学值集合进行加权平均，得到声学上下文向量表示；

使用所述文本的注意力分数对文本值集合进行加权平均，得到文本上下文向量表示；

将所述声学上下文向量表示与所述文本上下文向量表示进行逐元素进行相似性约束，得到两种模态信号表示的相似性损失；

将声学上下文向量表示和文本上下文向量表示通过全连接映射层进行维度转换，通过上述相似性损失，得到最终的解码表示。

2.根据权利要求1所述的融合多模态语义不变性的语音识别文本增强系统，其特征在于，所述语音识别文本增强系统还包括，将所述解码表示输入到softmax函数得到概率最大的目标。

3.根据权利要求1所述的融合多模态语义不变性的语音识别文本增强系统，其特征在于，对声学特征降采样的方法为：通过所述声学特征拼接得到降采样后的声学特征序列，即所述声学表示。

4.根据权利要求3所述的融合多模态语义不变性的语音识别文本增强系统，其特征在于，所述声学特征拼接的具体方法为：将前后5帧的所述声学特征进行拼接，将拼接后的所述声学特征通过全连接映射层进行维度转换，转换为256维特征向量。

5.根据权利要求1所述的融合多模态语义不变性的语音识别文本增强系统，其特征在于，所述语音识别文本增强系统还包括，训练数据扩增模块；所述训练数据扩增模块生成数据用于训练所述语音识别文本增强系统的输入文本数据，具体方法为：

(1)将用于训练的语音数据分成10份，选择其中九份数据训练所述语音识别模块，剩下的一份识别出结果；

(2)应用步骤(1)所述方法将用于训练的10份语音数据依次轮次一遍，即可得到10份数据的识别结果作为语音识别文本增强系统的训练的输入文本数据；

(3) 在识别时应用dropout模型扰动技术，谱文本增强数据扰动技术对所述10份语音数据添加扰动，通过使用不同的扰动比例进行多次识别，获得语音识别文本增强系统训练的输入文本数据。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所，未经中国科学院自动化研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110815743.4/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种融合多模态语义不变性的语音识别文本增强系统有效

专利文献下载