[发明专利]一种基于视频人物唇读识别的时序集中预测方法有效
| 申请号: | 202010562822.4 | 申请日: | 2020-06-19 |
| 公开(公告)号: | CN111753704B | 公开(公告)日: | 2022-08-26 |
| 发明(设计)人: | 陈志;刘玲;岳文静;祝驭航 | 申请(专利权)人: | 南京邮电大学 |
| 主分类号: | G06V40/16 | 分类号: | G06V40/16;G06V10/80;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 秦秋星 |
| 地址: | 210000 江苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 视频 人物 识别 时序 集中 预测 方法 | ||
1.一种基于视频人物唇读识别的时序集中预测方法,其特征在于,该方法包括以下步骤:
步骤1):唇读内容解码,步骤如下:
步骤11):输入Frames,所述Frames={frame1,frame2,...,framen},表示n个连续的人物唇动视频帧序列,先使用3D-CNN提取唇部时空特征,再通过嵌入了SENet模块的残差网络提取唇部多通道特征,获取X~={x1,x2,...,xm},所述X~={x1,x2,...,xm}表示m维的人物唇部的特征向量,其中三维卷积神经网络有三层架构,每层具有3D卷积层,在每个卷积操作后对特征图使用批归一化,接着使用Leaky ReLU激活函数,再增加3D dropout层,最后除第三层外都接入3D最大池化层;
步骤12):设置两个双向门控循环单元,将X~作为第一个双向门控循环单元的输入,在第二个双向门控循环单元的全连接层后使用softmax函数归一化在每个时间步上对应字符的概率;
步骤13):引入连接主义者的时间分类:设置所述表示空白标签,L'表示除空白标签外的所有标签,∪表示并集,L表示所有标签集合,设置CTC在T的π,所述T表示时间步长,其中π=(π1,π2,...,πT),所述π表示某个需要识别标签序列的路径,定义Trans变换路径π,所述Trans表示能够映射出所有路径π在时间步长T内接近y'的转换方式,所述y'表示真实标签序列;
步骤2):建立注意力集中窗口,增设前后时序关联,步骤如下:
步骤21):以q为中心将h=[hq-τ,...,hq,...,hq+τ]作为混合注意力窗口,所述q表示当前时间,h=[hq-τ,...,hq,...,hq+τ]表示经过两个双向门控循环单元输出的隐藏状态序列,τ表示混合注意力窗口两侧的长度,设置该窗口总长度为Lengthwin=2τ+1;
步骤22):计算所述Conv’表示卷积核,t∈[q-τ,q+τ]表示时间段,contextq表示集中了在t∈[q-τ,q+τ]内即Lengthwin长度下所有特征的位置信息和内容信息的上下文向量,设置θq=[θq-τ,...,θq,...,θq+τ],所述θq=[θq-τ,...,θq,...,θq+τ]表示在t∈[q-τ,q+τ]内即在长度Lengthwin下的所有注意力概率分布向量,将记做即令其中gt表示在时间段t经卷积的特征信号,θq,t表示在t∈[q-τ,q+τ]的注意力概率分布向量权重;
步骤3):强化前后时序关联,步骤如下:
步骤31):计算decoderq=Convsoftcontextq+bsoft,所述decoderq表示在当前时间q的解码状态,Convsoft表示经过softmax函数对数操作的卷积核,bsoft表示经过softmax函数对数操作的偏置值;
步骤32):融合上一时间q-1的解码状态decoderq-1、注意力概率分布向量θq-1与特征信号gt,计算所述Singlefeedforward表示单层前馈网络,表示卷积运算,η、U、W、V'、ξ、b都表示网络在解码训练过程中学习到的混合注意力参数,tanh(·)表示tanh激活函数,若学习到足够的混合注意力参数,则至步骤33),否则重复步骤32)的训练过程;
步骤33):计算θq,t=Attention(decoderq-1,θq-1,gt),所述Attention(·)为注意力单元,表示通过softmax激活函数对步骤32)的结果进行归一化处理,即计算
步骤34):对p(y'|X~)进行建模,令p(y'|X~)=p(πt|X~),其中p(πt|X~)=softmax(decodert),所述p(y'|X~)表示人物唇部特征向量X~对应真实标签序列y'的概率向量,p(πt|X~)表示在t∈[q-τ,q+τ]内人物唇部特征向量X~对应路径πt的概率向量,softmax(·)表示softmax激活函数,decodert表示在t∈[q-τ,q+τ]内的所有解码状态;
步骤35):通过步骤22)中的计算方式加权求和在t∈[q-τ,q+τ]内即混合注意力窗口在长度Lengthwin下的所有注意力概率分布向量权重[θq,t-τ,...,θq,t,...,θq,t+τ]得到当前时间q的上下文向量contextq,计算所述LossCTC表示用于统计字符概率的CTC损失函数,在每一时间节点处对齐标签的概率向量p(πt|X~)和每个真实标签序列y'并进行逐个字符预测,其中解码期间使用前缀束搜索生成解码序列,将序列组成完整语句输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010562822.4/1.html,转载请声明来源钻瓜专利网。





