[发明专利]一种基于深度卷积和注意力机制的唇语识别方法有效
申请号: | 202110801803.7 | 申请日: | 2021-07-15 |
公开(公告)号: | CN113343937B | 公开(公告)日: | 2022-09-02 |
发明(设计)人: | 袁全波;王慧娟;蒲刚强 | 申请(专利权)人: | 北华航天工业学院 |
主分类号: | G06V40/16 | 分类号: | G06V40/16;G06V10/44;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 北京东方盛凡知识产权代理事务所(普通合伙) 11562 | 代理人: | 许佳 |
地址: | 065099 *** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 卷积 注意力 机制 识别 方法 | ||
本发明公开了一种基于深度卷积和注意力机制的唇语识别方法,包括步骤:S1)对大型唇读数据集进行预处理,获取唇部识别图像;S2)将唇部识别图像批量输入到3D卷积网络模型,进行时空特征提取;S3)将唇部识别图像提取的时空特征输入卷积和注意力机制的混合网络模型,进行局部和全局的空间特征提取;S4)将提取的空间特征输入到双向门控循环单元,进行长短期特征序列提取;S5)将提取的长短期特征序列输入到多层感知机,获取各个类别的置信度分数;S6)基于各个类别的置信度分数,经过带有标签平滑机制的交叉熵损失函数输出识别概率值。本发明在卷积网络的基础上加入注意力机制模型,并改善其结构,提高了唇语识别率并减小了计算开支。
技术领域
本发明涉及计算机视觉与自然语言处理技术领域,特别是涉及一种基于深度卷积和注意力机制的唇语识别方法。
背景技术
唇语识别也称为视觉语音识别,是指通过说话人的嘴唇运动变化来判断说话内容,其研究过程涉及到了计算机视觉、自然语言处理等技术。唇语识别在身份认证、语音识别、说话人脸合成、改善聋哑人交流以及公共安全等方面有着广泛的应用。
目前,随着深度学习的快速发展,唇语识别也取得了一定的成果,但是由于说话人的主观因素以及所处背景环境的复杂性,唇语识别还存在着巨大的挑战,如不同字词间发音的相识性,同一字词在不同人的发音里嘴唇运动变化也有所不同,在现有公开的大型唇语数据集中的识别率都不是很高。近两年针对唇读的新方法也在不断的被提出,但大多数方法提取到的唇动特征都没有很好的考虑到图片相邻帧之间的相关性、局部和全局的特征空间信息、嘴唇及其周围的细微变化以及因分辨率降低而导致的信息损失。
发明内容
本发明的目的是提供一种基于深度卷积和注意力机制的唇语识别方法,在卷积网络的基础上加入注意力机制模型,并改善其结构,提高了唇语识别率并减小了计算开支。
为实现上述目的,本发明提供了如下方案:
一种基于深度卷积和注意力机制的唇语识别方法,包括步骤:
S1)对大型唇读数据集进行预处理,获取唇部识别图像;所述大型唇读数据集中含有多个唇读视频;
S2)将唇部识别图像批量输入到3D卷积网络模型,进行时空特征提取;
S3)将唇部识别图像提取的时空特征输入卷积和注意力机制的混合网络模型,进行局部和全局的空间特征提取;
S4)将提取的空间特征输入到双向门控循环单元,进行长短期特征序列提取;
S5)将提取的长短期特征序列输入到多层感知机,获取各个类别的置信度分数;
S6)基于各个类别的置信度分数,经过带有标签平滑机制的交叉熵损失函数输出识别概率值。
可选的,所述步骤S1中,对大型唇读数据集进行预处理,获取唇部识别图像,具体包括:
在每一轮上对输入唇读视频帧的顺序进行打乱,将其大小调整为96×96,并随机裁剪为88×88,作为3D卷积模型的输入;
在3D卷积模型每次训练迭代中选择部分视频帧,对每个视频帧以0.5的概率水平翻转转换成灰度图;
对灰度图进行归一化处理,获取唇部识别图像。
可选的,所述步骤S2中,3D卷积网络模型的构建,具体包括:
设定一层3D卷积,卷积核大小为(5,7,7),步幅为(1,2,2),填充为(2,3,3),然后进入批归一化处理,再经过一层激活函数,最后送入最大池化层处理,该池化层的内核大小为(1,3,3),步幅为(1,2,2),3D卷积计算公式如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北华航天工业学院,未经北华航天工业学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110801803.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种使用方便的红光理疗腰带
- 下一篇:一种实木颗粒板生产制造压制复合工艺