[发明专利]一种基于深度卷积和注意力机制的唇语识别方法有效

申请号：	202110801803.7	申请日：	2021-07-15
公开（公告）号：	CN113343937B	公开（公告）日：	2022-09-02
发明（设计）人：	袁全波;王慧娟;蒲刚强	申请（专利权）人：	北华航天工业学院
主分类号：	G06V40/16	分类号：	G06V40/16;G06V10/44;G06V10/82;G06N3/04;G06N3/08
代理公司：	北京东方盛凡知识产权代理事务所(普通合伙) 11562	代理人：	许佳
地址：	065099 ***	国省代码：	河北;13
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度卷积注意力机制识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于深度卷积和注意力机制的唇语识别方法，包括步骤：S1)对大型唇读数据集进行预处理，获取唇部识别图像；S2)将唇部识别图像批量输入到3D卷积网络模型，进行时空特征提取；S3)将唇部识别图像提取的时空特征输入卷积和注意力机制的混合网络模型，进行局部和全局的空间特征提取；S4)将提取的空间特征输入到双向门控循环单元，进行长短期特征序列提取；S5)将提取的长短期特征序列输入到多层感知机，获取各个类别的置信度分数；S6)基于各个类别的置信度分数，经过带有标签平滑机制的交叉熵损失函数输出识别概率值。本发明在卷积网络的基础上加入注意力机制模型，并改善其结构，提高了唇语识别率并减小了计算开支。

技术领域

本发明涉及计算机视觉与自然语言处理技术领域，特别是涉及一种基于深度卷积和注意力机制的唇语识别方法。

背景技术

唇语识别也称为视觉语音识别，是指通过说话人的嘴唇运动变化来判断说话内容，其研究过程涉及到了计算机视觉、自然语言处理等技术。唇语识别在身份认证、语音识别、说话人脸合成、改善聋哑人交流以及公共安全等方面有着广泛的应用。

目前，随着深度学习的快速发展，唇语识别也取得了一定的成果，但是由于说话人的主观因素以及所处背景环境的复杂性，唇语识别还存在着巨大的挑战，如不同字词间发音的相识性，同一字词在不同人的发音里嘴唇运动变化也有所不同，在现有公开的大型唇语数据集中的识别率都不是很高。近两年针对唇读的新方法也在不断的被提出，但大多数方法提取到的唇动特征都没有很好的考虑到图片相邻帧之间的相关性、局部和全局的特征空间信息、嘴唇及其周围的细微变化以及因分辨率降低而导致的信息损失。

发明内容

本发明的目的是提供一种基于深度卷积和注意力机制的唇语识别方法，在卷积网络的基础上加入注意力机制模型，并改善其结构，提高了唇语识别率并减小了计算开支。

为实现上述目的，本发明提供了如下方案：

一种基于深度卷积和注意力机制的唇语识别方法，包括步骤：

S1)对大型唇读数据集进行预处理，获取唇部识别图像；所述大型唇读数据集中含有多个唇读视频；

S2)将唇部识别图像批量输入到3D卷积网络模型，进行时空特征提取；

S3)将唇部识别图像提取的时空特征输入卷积和注意力机制的混合网络模型，进行局部和全局的空间特征提取；

S4)将提取的空间特征输入到双向门控循环单元，进行长短期特征序列提取；

S5)将提取的长短期特征序列输入到多层感知机，获取各个类别的置信度分数；

S6)基于各个类别的置信度分数，经过带有标签平滑机制的交叉熵损失函数输出识别概率值。

可选的，所述步骤S1中，对大型唇读数据集进行预处理，获取唇部识别图像，具体包括：

在每一轮上对输入唇读视频帧的顺序进行打乱，将其大小调整为96×96，并随机裁剪为88×88，作为3D卷积模型的输入；