[发明专利]一种基于视频人物唇读识别的时序集中预测方法有效

专利信息
申请号: 202010562822.4 申请日: 2020-06-19
公开(公告)号: CN111753704B 公开(公告)日: 2022-08-26
发明(设计)人: 陈志;刘玲;岳文静;祝驭航 申请(专利权)人: 南京邮电大学
主分类号: G06V40/16 分类号: G06V40/16;G06V10/80;G06V10/82;G06N3/04;G06N3/08
代理公司: 南京瑞弘专利商标事务所(普通合伙) 32249 代理人: 秦秋星
地址: 210000 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 视频 人物 识别 时序 集中 预测 方法
【权利要求书】:

1.一种基于视频人物唇读识别的时序集中预测方法,其特征在于,该方法包括以下步骤:

步骤1):唇读内容解码,步骤如下:

步骤11):输入Frames,所述Frames={frame1,frame2,...,framen},表示n个连续的人物唇动视频帧序列,先使用3D-CNN提取唇部时空特征,再通过嵌入了SENet模块的残差网络提取唇部多通道特征,获取X={x1,x2,...,xm},所述X={x1,x2,...,xm}表示m维的人物唇部的特征向量,其中三维卷积神经网络有三层架构,每层具有3D卷积层,在每个卷积操作后对特征图使用批归一化,接着使用Leaky ReLU激活函数,再增加3D dropout层,最后除第三层外都接入3D最大池化层;

步骤12):设置两个双向门控循环单元,将X作为第一个双向门控循环单元的输入,在第二个双向门控循环单元的全连接层后使用softmax函数归一化在每个时间步上对应字符的概率;

步骤13):引入连接主义者的时间分类:设置所述表示空白标签,L'表示除空白标签外的所有标签,∪表示并集,L表示所有标签集合,设置CTC在T的π,所述T表示时间步长,其中π=(π12,...,πT),所述π表示某个需要识别标签序列的路径,定义Trans变换路径π,所述Trans表示能够映射出所有路径π在时间步长T内接近y'的转换方式,所述y'表示真实标签序列;

步骤2):建立注意力集中窗口,增设前后时序关联,步骤如下:

步骤21):以q为中心将h=[hq-τ,...,hq,...,hq+τ]作为混合注意力窗口,所述q表示当前时间,h=[hq-τ,...,hq,...,hq+τ]表示经过两个双向门控循环单元输出的隐藏状态序列,τ表示混合注意力窗口两侧的长度,设置该窗口总长度为Lengthwin=2τ+1;

步骤22):计算所述Conv’表示卷积核,t∈[q-τ,q+τ]表示时间段,contextq表示集中了在t∈[q-τ,q+τ]内即Lengthwin长度下所有特征的位置信息和内容信息的上下文向量,设置θq=[θq-τ,...,θq,...,θq+τ],所述θq=[θq-τ,...,θq,...,θq+τ]表示在t∈[q-τ,q+τ]内即在长度Lengthwin下的所有注意力概率分布向量,将记做即令其中gt表示在时间段t经卷积的特征信号,θq,t表示在t∈[q-τ,q+τ]的注意力概率分布向量权重;

步骤3):强化前后时序关联,步骤如下:

步骤31):计算decoderq=Convsoftcontextq+bsoft,所述decoderq表示在当前时间q的解码状态,Convsoft表示经过softmax函数对数操作的卷积核,bsoft表示经过softmax函数对数操作的偏置值;

步骤32):融合上一时间q-1的解码状态decoderq-1、注意力概率分布向量θq-1与特征信号gt,计算所述Singlefeedforward表示单层前馈网络,表示卷积运算,η、U、W、V'、ξ、b都表示网络在解码训练过程中学习到的混合注意力参数,tanh(·)表示tanh激活函数,若学习到足够的混合注意力参数,则至步骤33),否则重复步骤32)的训练过程;

步骤33):计算θq,t=Attention(decoderq-1,θq-1,gt),所述Attention(·)为注意力单元,表示通过softmax激活函数对步骤32)的结果进行归一化处理,即计算

步骤34):对p(y'|X)进行建模,令p(y'|X)=p(πt|X),其中p(πt|X)=softmax(decodert),所述p(y'|X)表示人物唇部特征向量X对应真实标签序列y'的概率向量,p(πt|X)表示在t∈[q-τ,q+τ]内人物唇部特征向量X对应路径πt的概率向量,softmax(·)表示softmax激活函数,decodert表示在t∈[q-τ,q+τ]内的所有解码状态;

步骤35):通过步骤22)中的计算方式加权求和在t∈[q-τ,q+τ]内即混合注意力窗口在长度Lengthwin下的所有注意力概率分布向量权重[θq,t-τ,...,θq,t,...,θq,t+τ]得到当前时间q的上下文向量contextq,计算所述LossCTC表示用于统计字符概率的CTC损失函数,在每一时间节点处对齐标签的概率向量p(πt|X)和每个真实标签序列y'并进行逐个字符预测,其中解码期间使用前缀束搜索生成解码序列,将序列组成完整语句输出。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010562822.4/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top