[发明专利]一种基于门的视频上下文多模态感知特征优化方法在审
| 申请号: | 202010394250.3 | 申请日: | 2020-05-11 |
| 公开(公告)号: | CN111639548A | 公开(公告)日: | 2020-09-08 |
| 发明(设计)人: | 高英;林文根 | 申请(专利权)人: | 华南理工大学 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京盛凡智荣知识产权代理有限公司 11616 | 代理人: | 尚欣 |
| 地址: | 510006 *** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 视频 上下文 多模态 感知 特征 优化 方法 | ||
1.一种基于门的视频上下文多模态感知特征优化方法,其特征在于,具体步骤为,步骤一:输入RGB视频序列和光流序列;
步骤二:通过外观特征提取器和运动特征提取器提取得到双模态的基础特征;
步骤三:输入双流特征优化结构;
步骤四:通过连接的RGB特征优化记忆流和光流特征优化记忆流进行上下文和多模态的感知优化,得到对应的记忆流保留优化特征;
步骤五:对RGB特征优化记忆流和光流特征优化记忆流保留特征进行串联,得到对应模态的优化特征;
步骤六:对RGB特征优化特征和光流特征优化特征进行通道融合,形成视频级的特征表征。
2.根据权利要求1所述基于门的视频上下文多模态感知特征优化方法,其特征在于:所述步骤四中RGB特征优化记忆流和光流特征优化记忆流进行上下文感知优化具体为,设置同模态时序上下文学习器,其输入为前一交互学习后的优化特征及当前模态当前帧的特征,其主要结构为1*1卷积层和通道注意力结构,用于学习联合前后帧的上下文信息后、该模态在这个时间节点保留的特征,这里运用通道注意力的深度卷积网络能够有效提取上下文特征,并以此学习与帧特征尺度一致的掩码矩阵作为参数,实现门的设计,保证了同模态信息的时序传递。
3.根据权利要求1所述基于门的视频上下文多模态感知特征优化方法,其特征在于:所述步骤四中RGB特征优化记忆流和光流特征优化记忆流进行多模态的感知优化,具体为:设置跨模态交互学习器,其输入为当前模态当前节点帧和另一个模态当前节点帧,RGB序列和光流序列的总帧数一致,故能保持每个时间节点的特征帧一一对应,跨模态交互学习器包括1*1的卷积层和通道注意力的网络设计,学习同一时间节点帧下跨模态之间的相互关系,生成同被修改帧相同尺度的更新掩码,即交互学习的参数,同被修改特征相乘,实现门的作用,跨模态交互学习器实现了模态之间交互联系的建模。
4.根据权利要求1所述基于门的视频上下文多模态感知特征优化方法,其特征在于:所述步骤五具体为,循环迭代的长序列特征优化记忆单元串联RGB和光流的双模态输入,每个输入流每一帧嵌入一个同模态时序上下文学习器和一个跨模态交互学习器,实现了同模态上下文保留和跨模态特征学习优化的协同,其中长序列双流特征优化结构整体呈双流对称的设计特点,同模态时序上下文学习器学习当前模态历史与当前帧的上下文的保留信息沿着特征优化记忆流延续到下一个记忆单元,非保留信息则视为可更新优化特征,通过跨模态交互学习器学习的门参数对非保留信息进行特征优化,这部分即为跨模态交互得到的优化特征并与通过同模态时序上下文学习器的上下文保留信息合并成为当前模态当前时间戳的优化记忆特征,并传递到下一个双流特征优化记忆单元。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010394250.3/1.html,转载请声明来源钻瓜专利网。





