[发明专利]一种基于视频人物唇读识别的时序集中预测方法有效

申请号：	202010562822.4	申请日：	2020-06-19
公开（公告）号：	CN111753704B	公开（公告）日：	2022-08-26
发明（设计）人：	陈志;刘玲;岳文静;祝驭航	申请（专利权）人：	南京邮电大学
主分类号：	G06V40/16	分类号：	G06V40/16;G06V10/80;G06V10/82;G06N3/04;G06N3/08
代理公司：	南京瑞弘专利商标事务所(普通合伙) 32249	代理人：	秦秋星
地址：	210000 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于视频人物识别时序集中预测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于视频人物唇读识别的时序集中预测方法，其特征在于，该方法包括以下步骤：

步骤1)：唇读内容解码，步骤如下：

步骤11)：输入Frames，所述Frames＝{frame₁,frame₂,...,frame_n}，表示n个连续的人物唇动视频帧序列，先使用3D-CNN提取唇部时空特征，再通过嵌入了SENet模块的残差网络提取唇部多通道特征，获取X^～＝{x₁,x₂,...,x_m}，所述X^～＝{x₁,x₂,...,x_m}表示m维的人物唇部的特征向量，其中三维卷积神经网络有三层架构，每层具有3D卷积层，在每个卷积操作后对特征图使用批归一化，接着使用Leaky ReLU激活函数，再增加3D dropout层，最后除第三层外都接入3D最大池化层；

步骤12)：设置两个双向门控循环单元，将X^～作为第一个双向门控循环单元的输入，在第二个双向门控循环单元的全连接层后使用softmax函数归一化在每个时间步上对应字符的概率；

步骤13)：引入连接主义者的时间分类：设置所述表示空白标签，L'表示除空白标签外的所有标签，∪表示并集，L表示所有标签集合，设置CTC在T的π，所述T表示时间步长，其中π＝(π₁,π₂,...,π_T)，所述π表示某个需要识别标签序列的路径，定义Trans变换路径π，所述Trans表示能够映射出所有路径π在时间步长T内接近y'的转换方式，所述y'表示真实标签序列；

步骤2)：建立注意力集中窗口，增设前后时序关联，步骤如下：

步骤21)：以q为中心将h＝[h_q-τ,...,h_q,...,h_q+τ]作为混合注意力窗口，所述q表示当前时间，h＝[h_q-τ,...,h_q,...,h_q+τ]表示经过两个双向门控循环单元输出的隐藏状态序列，τ表示混合注意力窗口两侧的长度，设置该窗口总长度为Length_win＝2τ+1；

步骤22)：计算所述Conv’表示卷积核，t∈[q-τ,q+τ]表示时间段，context_q表示集中了在t∈[q-τ,q+τ]内即Length_win长度下所有特征的位置信息和内容信息的上下文向量，设置θ_q＝[θ_q-τ,...,θ_q,...,θ_q+τ]，所述θ_q＝[θ_q-τ,...,θ_q,...,θ_q+τ]表示在t∈[q-τ,q+τ]内即在长度Length_win下的所有注意力概率分布向量，将记做即令其中g_t表示在时间段t经卷积的特征信号，θ_q,t表示在t∈[q-τ,q+τ]的注意力概率分布向量权重；

步骤3)：强化前后时序关联，步骤如下：

步骤31)：计算decoder_q＝Conv_softcontext_q+b_soft，所述decoder_q表示在当前时间q的解码状态，Conv_soft表示经过softmax函数对数操作的卷积核，b_soft表示经过softmax函数对数操作的偏置值；

步骤32)：融合上一时间q-1的解码状态decoder_q-1、注意力概率分布向量θ_q-1与特征信号g_t，计算所述Single_feedforward表示单层前馈网络，表示卷积运算，η、U、W、V'、ξ、b都表示网络在解码训练过程中学习到的混合注意力参数，tanh(·)表示tanh激活函数，若学习到足够的混合注意力参数，则至步骤33)，否则重复步骤32)的训练过程；

步骤33)：计算θ_q,t＝Attention(decoder_q-1，θ_q-1，g_t)，所述Attention(·)为注意力单元，表示通过softmax激活函数对步骤32)的结果进行归一化处理，即计算

步骤35)：通过步骤22)中的计算方式加权求和在t∈[q-τ,q+τ]内即混合注意力窗口在长度Length_win下的所有注意力概率分布向量权重[θ_q,t-τ,...,θ_q,t,...,θ_q,t+τ]得到当前时间q的上下文向量context_q，计算所述Loss_CTC表示用于统计字符概率的CTC损失函数，在每一时间节点处对齐标签的概率向量p(π_t|X^～)和每个真实标签序列y'并进行逐个字符预测，其中解码期间使用前缀束搜索生成解码序列，将序列组成完整语句输出。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京邮电大学，未经南京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010562822.4/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于区块链的传媒数据交易方法、系统及计算机存储介质
下一篇：一种磁性材料加工用真空烧结装置

同类专利

专利分类

G 物理

G06 计算；推算；计数

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于视频人物唇读识别的时序集中预测方法有效

专利文献下载