[发明专利]一种基于深度卷积和注意力机制的唇语识别方法有效
申请号: | 202110801803.7 | 申请日: | 2021-07-15 |
公开(公告)号: | CN113343937B | 公开(公告)日: | 2022-09-02 |
发明(设计)人: | 袁全波;王慧娟;蒲刚强 | 申请(专利权)人: | 北华航天工业学院 |
主分类号: | G06V40/16 | 分类号: | G06V40/16;G06V10/44;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 北京东方盛凡知识产权代理事务所(普通合伙) 11562 | 代理人: | 许佳 |
地址: | 065099 *** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 卷积 注意力 机制 识别 方法 | ||
1.一种基于深度卷积和注意力机制的唇语识别方法,其特征在于,包括步骤:
S1)对大型唇读数据集进行预处理,获取唇部识别图像;所述大型唇读数据集中含有多个唇读视频;
S2)将唇部识别图像批量输入到3D卷积网络模型,进行时空特征提取;
所述S2中,3D卷积网络模型的构建,具体包括:
设定一层3D卷积,卷积核大小为(5,7,7),步幅为(1,2,2),填充为(2,3,3),然后进入批归一化处理,再经过一层激活函数,最后送入最大池化层处理,该池化层的内核大小为(1,3,3),步幅为(1,2,2),3D卷积计算公式如下:
其中:为第i层中位置(x,y,z)处第j个featuremap中的值,relu为激活函数,b为偏置,m为i-1层featuremap连接到当前层featuremap的索引,中Pi、Qi、Ri分别为卷积核的宽度、高度和时间维度;
S3)将唇部识别图像提取的时空特征输入卷积和注意力机制的混合网络模型,进行局部和全局的空间特征提取;
所述S3中,卷积和注意力机制的混合网络模型的构建,具体包括:
经过卷积标记嵌入层处理,嵌入核大小为(7,7),步幅为(2,2),个数为128;
进入卷积transformer模块,该模块由卷积投影层、多头注意力层、全连接层组成,一共经过三步堆叠;其中:第一步卷积投影层核大小为(3,3),个数为128,注意力为1头,深度为1;第二步卷积投影层核大小为(3,3),个数为256,注意力为3头,深度为4;第三步卷积投影层核大小为(3,3),个数为512,注意力为6头,深度为16;
S4)将提取的空间特征输入到双向门控循环单元,进行长短期特征序列提取;
S5)将提取的长短期特征序列输入到多层感知机,获取各个类别的置信度分数;
所述S5中,将提取的长短期特征序列输入到多层感知机,获取各个类别的置信度分数,具体包括:
将提取的长短期特征序列输入到多层感知机中,其结构为输入维度2048,输出维度1000,以一个展平成一维张量的形式接收,然后乘以权重矩阵,权重矩阵乘法产生输出特征,得到各个类别的置信度分数;
S6)基于各个类别的置信度分数,经过带有标签平滑机制的交叉熵损失函数输出识别概率值;
所述S6中,基于各个类别的置信度分数,经过带有标签平滑机制的交叉熵损失函数输出识别概率值,具体包括:
基于各个类别的置信度分数,将获取的输出特征与真实标签送入带有标签平滑机制的交叉熵损失函数中输出识别概率值,传统的交叉熵损失函数计算公式如下:
其中:p为预测概率值,q为1-p,y为真实标签值;在带有标签平滑机制的交叉熵损失函数中把q值改为:
其中:ε为一个小常数取为0.1,N为类别数。
2.根据权利要求1所述的基于深度卷积和注意力机制的唇语识别方法,其特征在于,所述S1中,对大型唇读数据集进行预处理,获取唇部识别图像,具体包括:
在每一轮上对输入唇读视频帧的顺序进行打乱,将其大小调整为96×96,并随机裁剪为88×88,作为3D卷积模型的输入;
在3D卷积模型每次训练迭代中选择部分视频帧,对每个视频帧以0.5的概率水平翻转转换成灰度图;
对灰度图进行归一化处理,获取唇部识别图像。
3.根据权利要求1所述的基于深度卷积和注意力机制的唇语识别方法,其特征在于,所述S4中,双向门控循环单元的设定,具体包括:
设定输入维度为512,隐层维度为1024,共有3层,输出维度为2048,门控循环单元计算公式如下:
其中:zt=σ(Wzxt+Uzht-1),rt=σ(Wrxt+Urht-1)z为更新门,r为复位门, 为单元值,h为隐藏值,W和U分别为输入和隐藏的权重矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北华航天工业学院,未经北华航天工业学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110801803.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种使用方便的红光理疗腰带
- 下一篇:一种实木颗粒板生产制造压制复合工艺