[发明专利]一种基于多注意力机制的唇语识别方法、设备及存储介质在审
申请号: | 202310562028.3 | 申请日: | 2023-05-18 |
公开(公告)号: | CN116580278A | 公开(公告)日: | 2023-08-11 |
发明(设计)人: | 张晖;杨胜;宝音都古楞;飞龙;巩政 | 申请(专利权)人: | 内蒙古大学 |
主分类号: | G06V10/82 | 分类号: | G06V10/82;G06V40/16;G06N3/045;G06N3/0464;G06N3/09 |
代理公司: | 西安知诚思迈知识产权代理事务所(普通合伙) 61237 | 代理人: | 闵媛媛 |
地址: | 010021 内蒙古自治区呼*** | 国省代码: | 内蒙古;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 机制 识别 方法 设备 存储 介质 | ||
1.一种基于多注意力机制的唇语识别方法,其特征在于,包括以下步骤:
步骤1,对视频数据集进行预处理,得到连续的人物嘴部灰度图像,同时进行数据增强处理;
步骤2,通过时域卷积神经网络对连续的唇部图像进行初步的特征提取,然后通过基于频域注意力机制的残差卷积神经网络进行深层特征提取;
步骤3,通过卷积增强Transformer编码器对提取的特征进行编码;
步骤4,对特征进行混合CTC/Attention解码;
步骤5,按照比例划分训练集,通过所构建的模型及混合CTC/Attention的损失函数,进行训练;
步骤6,通过基于RNN的语言模型进一步改善模型的输出结果。
2.根据权利要求1所述一种基于多注意力机制的唇语识别方法,其特征在于,所述步骤1包括:
步骤1-1,分离视频数据集中每一帧的图像数据,得到视频所对应的连续图像数据;
步骤1-2,将连续图像数据进行灰度化处理,消除嘴唇颜色带来的影响,通过人脸识别库进行人脸检测,标记面部关键点,根据唇部关键点的坐标,得到唇部中心点坐标,以中心点为原点,切出包括全部嘴唇、部分下颚和部分环境的唇部图像;
步骤1-3,对唇部图像做数据增强处理,对每一帧的唇部图像进行随机水平或垂直翻转,并随机掩盖掉部分区域;
步骤1-4,为步骤1-3得到的唇部连续图像匹配对应的文本内容,将对应文本内容直接作为连续图像的标签。
3.根据权利要求1所述一种基于多注意力机制的唇语识别方法,其特征在于,所述步骤2中,采用2维时域卷积神经网络,通过因果卷积和空洞卷积进行特征提取,因果卷积下一层的特征值来自于上一层相邻的几个特征图,以提取时间序列的特征;空洞卷积作用在唇部图像上的二维卷积核的形状不是连在一起,而是间隔开的,以最大程度提取全局的信息。
4.根据权利要求1所述一种基于多注意力机制的唇语识别方法,其特征在于,所述步骤2中,基于频域注意力机制的残差卷积神经网络将Res-Net每个Block输出的多通道特征图转换为对应频域图,并选取频域图中某个位置的值,该值通过前馈神经网络进行学习,最终得到该通道的权重;通道权重与通道上的特征图进行相乘,起到注意力的作用。
5.根据权利要求1所述一种基于多注意力机制的唇语识别方法,其特征在于,所述步骤3中,卷积增强Transformer编码器包括一个Emdedding模块和一组Conformer模型;所述Emdedding模块包括卷积下采样层和一个线性层,卷积下采样层将特征维数降低,随后通过线性层将特征映射为Dk维;所述Conformer模型由前馈神经网络模块、多头自注意模块、卷积模块和前馈神经网络模块按顺序堆叠组成,每个模块均前接一个层归一化层后接一个随机失活层,且每一模块内部都有残差链连接,残差数据为输入数据本身,以防止梯度爆炸和过拟合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古大学,未经内蒙古大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310562028.3/1.html,转载请声明来源钻瓜专利网。