[发明专利]多模态语音识别模型训练方法、装置、设备及存储介质在审

申请号：	202010247184.7	申请日：	2020-03-31
公开（公告）号：	CN111462733A	公开（公告）日：	2020-07-28
发明（设计）人：	景子君;潘嘉;吴华鑫	申请（专利权）人：	科大讯飞股份有限公司
主分类号：	G10L15/06	分类号：	G10L15/06;G10L15/02;G10L15/25;G06K9/62
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	薛娇
地址：	230088 安徽***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	多模态语音识别模型训练方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例公开了一种多模态语音识别模型训练方法、装置、设备及存储介质，在多模态语音处理模型的训练过程中，训练数据可以包含单音频信号(即未同步采集视频信号)，以及用于基于单音频信号生成对应的图像特征的数据集，丰富了多模态语音处理模型训练过程中的训练数据集，从而提高了多模态语音处理方法的泛化能力，提高了多模态语音识别模型的可靠性。

技术领域

本申请涉及机器学习技术领域，更具体地说，涉及一种多模态语音识别模型训练方法、装置、设备及存储介质。

背景技术

传统的语音识别技术是通过仅对语音信号进行处理得到识别结果，这种语音识别方法在语音清晰的环境下已经能够达到很高的识别效果。然而，在一些高噪声，远场的环境下，传统的语音识别技术的识别率会迅速下降。为了提高语音识别率，有方案提出借助唇部动作视频协助进行语音识别的多模态语音识别方法，在一定程度上提高了高噪声场景下语音的识别率。

然而，现有的用于多模态语音识别的多模态语音识别模型的泛化能力弱，导致多模态语音识别模型的可靠性差。

因此，如何提高多模态语音识别模型的可靠性成为亟待解决的技术问题。

发明内容

有鉴于此，本申请提供了一种多模态语音识别模型训练方法、装置、设备及存储介质，以提高多模态语音识别模型的可靠性。

为了实现上述目的，现提出的方案如下：

一种多模态语音识别模型训练方法，包括：

通过所述多模态语音识别模型获取训练数据；

若所述训练数据仅包含样本语音信号，则所述多模态语音识别模型利用所述样本语音信号对预置数据集中的各个基本图像特征进行处理，得到与所述样本语音信号对应的目标图像特征；所述基本图像特征根据已知的唇动相关区域图像获得；

根据所述样本语音信号的语音特征和所述目标图像特征进行语音识别，得到所述样本语音信号的语音识别结果；

以所述样本语音信号的语音识别结果趋近于所述样本语音信号的语音内容为目标，对所述多模态语音识别模型的参数进行更新。

上述方法，优选的，还包括：

若所述训练数据同时包含样本语音信号及与之同步采集的唇动相关区域图像，则所述多模态语音识别模型获取所述唇动相关区域图像的特征，作为与所述样本语音信号对应的目标图像特征。