[发明专利]一种跨模态多特征融合的音视频语音识别方法及系统在审

专利信息
申请号: 202011001648.2 申请日: 2020-09-22
公开(公告)号: CN112053690A 公开(公告)日: 2020-12-08
发明(设计)人: 李树涛;宋启亚;孙斌 申请(专利权)人: 湖南大学
主分类号: G10L15/25 分类号: G10L15/25;G10L15/26;G10L25/30;G10L15/02;G10L15/20;G06K9/00;G06K9/62;G06T7/269
代理公司: 湖南兆弘专利事务所(普通合伙) 43008 代理人: 谭武艺
地址: 410082 湖*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 跨模态多 特征 融合 视频 语音 识别 方法 系统
【说明书】:

发明涉及音视频语音识别技术,考虑到在实际机器人应用环境中,语音交互易受复杂环境噪声影响、而面部运动信息通过视频获取、且相对较稳定这一情况,本发明提供一种跨模态多特征融合的音视频语音识别方法及系统,本发明通过注意力机制对语音信息、视觉信息和视觉运动信息进行融合,利用不同模态之间的关联性,更加准确的获取用户所表达的语音内容,提升复杂背景噪音条件下语音识别精度,提高人机交互中语音识别性能,有效克服噪声环境下纯语音识别准确率低的问题。

技术领域

本发明涉及音视频语音识别技术,具体涉及一种跨模态多特征融合的音视频语音识别方法及系统。

背景技术

自动语音识别(Automatic Speech Recognition, ASR)技术的目的是让机器能够“听懂”人类的语音,将人类语音信息转化为可读的文字信息,是实现人机语音交互的关键技术。在人类的各种表达方式中,语言所包含的信息最丰富也最精确。随着深度学习的逐渐发展,安静环境下的语音识别率高于95%,已经超越人类的识别准确率。

但在人机交互的实际应用中,复杂的背景噪声会对语音质量和语音清晰度产生较大影响,严重影响语音识别性能,导致语音识别失效。然而本质上人类语言互动是多模态的,人类大脑可以整合语音信息以及与发音密切相关的嘴唇运动视觉信息进行语言交互。语言感知不仅与听觉相关,还与视觉紧密相关,利用跨模态多特征融合的音视频语音识别方法成为提升复杂背景噪音条件下语音识别精度的重要途径。但是,具体如何融合语音-视频信息实现跨模态多特征融合的音视频语音识别以提升复杂背景噪音条件下语音识别精度,则仍然是一项亟待解决的关键技术问题。

发明内容

本发明要解决的技术问题:针对现有技术的上述问题,考虑到在实际机器人应用环境中,语音交互易受复杂环境噪声影响、而面部运动信息通过视频获取、且相对较稳定这一情况,本发明提供一种跨模态多特征融合的音视频语音识别方法及系统,本发明通过注意力机制对语音信息、视觉信息和视觉运动信息进行融合,利用不同模态之间的关联性,更加准确的获取用户所表达的语音内容,提升复杂背景噪音条件下语音识别精度,提高人机交互中语音识别性能,有效克服噪声环境下纯语音识别准确率低的问题。

为了解决上述技术问题,本发明采用的技术方案为:

一种跨模态多特征融合的音视频语音识别方法,包括:

1)针对说话人的音频数据进行预处理,得到语谱图序列Xa;针对说话人的视频数据进行预处理,提取唇部区域图像序列Xv,提取唇部运动信息得到光流图序列Xo

2)针对语谱图序列Xa进行特征提取得到语音时序特征Ha,针对唇部区域图像序列Xv进行特征提取得到唇部时序特征Hv,针对光流图序列Xo进行特征提取得到唇部间运动时序特征Ho

3)采用多头注意力机制针对得到的语音时序特征Ha、唇部时序特征Hv和唇部间运动时序特征Ho计算不同模态下的关联表示,得到语音特征的关联表示Ac、唇部特征的关联表示Vl和唇部间运动特征的关联表示Vo 。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011001648.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top