[发明专利]多模态语音识别模型训练方法、装置、设备及存储介质在审
| 申请号: | 202010247184.7 | 申请日: | 2020-03-31 |
| 公开(公告)号: | CN111462733A | 公开(公告)日: | 2020-07-28 |
| 发明(设计)人: | 景子君;潘嘉;吴华鑫 | 申请(专利权)人: | 科大讯飞股份有限公司 |
| 主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/02;G10L15/25;G06K9/62 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 薛娇 |
| 地址: | 230088 安徽*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 多模态 语音 识别 模型 训练 方法 装置 设备 存储 介质 | ||
本申请实施例公开了一种多模态语音识别模型训练方法、装置、设备及存储介质,在多模态语音处理模型的训练过程中,训练数据可以包含单音频信号(即未同步采集视频信号),以及用于基于单音频信号生成对应的图像特征的数据集,丰富了多模态语音处理模型训练过程中的训练数据集,从而提高了多模态语音处理方法的泛化能力,提高了多模态语音识别模型的可靠性。
技术领域
本申请涉及机器学习技术领域,更具体地说,涉及一种多模态语音识别模型训练方法、装置、设备及存储介质。
背景技术
传统的语音识别技术是通过仅对语音信号进行处理得到识别结果,这种语音识别方法在语音清晰的环境下已经能够达到很高的识别效果。然而,在一些高噪声,远场的环境下,传统的语音识别技术的识别率会迅速下降。为了提高语音识别率,有方案提出借助唇部动作视频协助进行语音识别的多模态语音识别方法,在一定程度上提高了高噪声场景下语音的识别率。
然而,现有的用于多模态语音识别的多模态语音识别模型的泛化能力弱,导致多模态语音识别模型的可靠性差。
因此,如何提高多模态语音识别模型的可靠性成为亟待解决的技术问题。
发明内容
有鉴于此,本申请提供了一种多模态语音识别模型训练方法、装置、设备及存储介质,以提高多模态语音识别模型的可靠性。
为了实现上述目的,现提出的方案如下:
一种多模态语音识别模型训练方法,包括:
通过所述多模态语音识别模型获取训练数据;
若所述训练数据仅包含样本语音信号,则所述多模态语音识别模型利用所述样本语音信号对预置数据集中的各个基本图像特征进行处理,得到与所述样本语音信号对应的目标图像特征;所述基本图像特征根据已知的唇动相关区域图像获得;
根据所述样本语音信号的语音特征和所述目标图像特征进行语音识别,得到所述样本语音信号的语音识别结果;
以所述样本语音信号的语音识别结果趋近于所述样本语音信号的语音内容为目标,对所述多模态语音识别模型的参数进行更新。
上述方法,优选的,还包括:
若所述训练数据同时包含样本语音信号及与之同步采集的唇动相关区域图像,则所述多模态语音识别模型获取所述唇动相关区域图像的特征,作为与所述样本语音信号对应的目标图像特征。
上述方法,优选的,所述利用所述样本语音信号对预置数据集中的各个基本图像特征进行处理,包括:
利用所述样本语音信号获得各个基本图像特征的权重;
利用各个基本图像特征的权重,将所述各个基本图像特征加权求和,得到与所述样本语音信号对应的目标图像特征。
上述方法,优选的,所述利用所述样本语音信号获得各个基本图像特征的权重,包括:
利用空间转换参数对所述样本语音信号的语音特征以及各个基本图像特征分别进行空间转换;
利用转换后的语音特征,以及转换后的基本图像特征,计算各个基本图像特征的权重。
上述方法,优选的,所述对所述多模态语音识别模型的参数进行更新,包括对所述空间转换参数的更新。
上述方法,优选的,所述样本语音信号为第一语种的语音信号;在所述多模态语音识别模型训练好之后,还包括:
通过所述多模态语音识别模型的语音特征提取模块,获取第二语种的样本语音信号的语音特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010247184.7/2.html,转载请声明来源钻瓜专利网。





