[发明专利]一种融合多模态语义不变性的语音识别文本增强系统有效

申请号：	202110815743.4	申请日：	2021-07-19
公开（公告）号：	CN113270086B	公开（公告）日：	2021-10-15
发明（设计）人：	陶建华;张帅;易江燕	申请（专利权）人：	中国科学院自动化研究所
主分类号：	G10L15/00	分类号：	G10L15/00;G10L15/02;G10L15/04;G10L15/16;G10L15/26;G06N3/04
代理公司：	北京华夏泰和知识产权代理有限公司 11662	代理人：	孙剑锋;李永叶
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种融合多模态语义不变性语音识别文本增强系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种融合多模态语义不变性的语音识别文本增强系统，包括：声学特征提取模块、声学降采样模块、编码器和融合多模态语义不变性的解码器；声学特征提取模块对语音数据分帧处理分割成固定长度的短时音频帧，对短时音频帧提取声学特征，将声学特征输入到声学降采样模块进行降采样，得到声学表示；将语音数据输入现有语音识别模块，得到输入文本数据，将输入文本数据输入到编码器，得到输入文本编码表示；将声学表示和所述输入文本编码表示输入到解码器融合，声学模态和文本模态的表示进行相似性约束，得到解码表示；该方法通过融合跨模态语义不变性约束损失，减少模型对数据的依赖，提高模型的性能，适用于中英混合语音识别。

技术领域

本申请涉及中英混合语音识别文本增强领域，尤其涉及一种融合多模态语义不变性的语音识别文本增强系统。

背景技术

中英混合现象是指在说话过程中切换语言，主要包括句间转换和句内转换两种类型。这种现象给语音识别技术带来了巨大挑战。主要有说话人发音不标准带来的口音问题；建模单元更多，更复杂；不同语言协同发音；数据搜集困难；数据标注困难等问题。随着深度学习技术的发展，特别是端到端模型，单语语音识别技术已有极大地提升。但是端到端模型只能使用语音-文本对数据进行训练，模型对文本数据的利用是极其有限的，大量的纯文本数据无法被直接使用，这限制了模型的性能提升。在实际的语音识别系统中，往往会对模型初步识别的结果进行进一步的处理，以提高语音识别系统的的性能。

常见的处理技术有语言模型重打分，语言模型融合等，这种方法使用大量的额外文本语料训练语言模型，然后使用语言模型对识别结果进行重打分，以提高识别系统的性能。但是这种语言模型是单独训练的，学到的是通用的语言信息，学习不到识别系统的错误模式，无法针对特定的识别系统进行优化。因此一些端到端的语音识别文本增强系统用来解决这个问题。这种模型以语音识别系统的识别结果作为输入，标注文本作为目标。意图通过学习识别系统的错误分布，将识别错误的部分纠正过来以提高语音识别的准确率。

公开号为CN112257437A的专利公开了一种语音识别文本增强方法、装置、电子设备和存储介质，其中方法包括：确定待文本增强的语音数据的识别文本；将所述识别文本，以及所述语音数据的用户关联文本和/或所述语音数据的历史语音数据的历史识别文本输入至语音识别文本增强系统，得到所述语音识别文本增强系统输出的文本增强结果；其中，所述语音识别文本增强系统是基于样本语音数据的样本识别文本及其样本文本增强结果，以及样本用户关联文本和/或所述样本语音数据的历史语音数据的样本历史识别文本训练得到的。

公开号为CN108417202B的专利公开一种语音识别方法及系统。所述语音识别方法包括：提取待识别的语音数据的声学特征；基于声学-音素神经网络模型，将所述声学特征解码为音素阵列；以及基于音素-语言神经网络模型，将所述音素阵列进一步解码为文字序列。本发明实施例的语音识别系统，声学-音素神经网络模型的输出的音素阵列就可以作为音素-语言神经网络模型的输入，无缝衔接了声学-音素神经网络模型和音素-语言神经网络模型，从整体上看，提供了另一种全新的端到端的语音识别架构。

现有技术缺点

已有的端到端语音识别文本增强系统只将语音识别系统的识别结果作为输入，标注文本作为目标，没有考虑相应的声学信息。由于当代语音识别系统的准确率已经很高，大部分识别结果是正确的，因此语音识别文本增强系统的输入和输出大部分是相同的，只有少量识别错误的部分是不一样，语音识别文本增强系统就是为了学习到这种差异。同时由于神经网络强大的建模能力，已有的端到端语音识别文本增强系统非常容易过拟合，需要大量的训练数据,没有融合声学模态与文本模态语义上的相似性。无法适用于中英混合语音识别问题，模型训练困难，错误率高。

发明内容

有鉴于此，本发明第一方面提供一种融合多模态语义不变性的语音识别文本增强系统，所述系统包括：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所，未经中国科学院自动化研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110815743.4/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种融合多模态语义不变性的语音识别文本增强系统有效

专利文献下载