[发明专利]一种视频编解码方法及系统在审

专利信息
申请号: 202110483437.5 申请日: 2021-04-30
公开(公告)号: CN113099228A 公开(公告)日: 2021-07-09
发明(设计)人: 郭克华;申长春;奎晓燕;刘斌;王凌风;刘超 申请(专利权)人: 中南大学;手拉手信息技术有限公司
主分类号: H04N19/172 分类号: H04N19/172;H04N19/42;H04N19/44;G06N3/04;G06N3/08
代理公司: 长沙正奇专利事务所有限责任公司 43113 代理人: 王娟;马强
地址: 410083 湖南*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 视频 解码 方法 系统
【说明书】:

发明公开了一种视频编解码方法及系统。首先,将2D特征与经处理的3D特征按时间序列叠加,实现静态和动态信息的深度融合。然后,引入注意力机制在每一时刻t对融合特征进行编码,通过softmax函数得到归一化权重,为融合特征分配不同的权重,得到新的融合特征,以学习以人为本的特征,从而促进与人类行为相关的最终语言描述。最后,将新的融合特征输入到长短期记忆(LSTM)网络中,随着时间的推移进行解码,得到视频描述句。本发明得到的视频描述更加逻辑流畅、语义连贯、清晰。

技术领域

本发明涉及机器学习领域,特别是一种视频编解码方法及系统。

背景技术

目前,虽然人工智能中的深度学习算法能够执行视频描述功能,使得视频信息能轻松转化为语言内容。例如,在用户观看海量视频信息之前,通过对视频信息形成精准的文字摘要让用户快速了解事件发展情况及其影响,将节省诸多时间成本。此外,将两小时的电影抽取出精彩片段并将其转化为总结电影的文字梗概,会给用户带来更加完美的推荐体验。但是,这种无差别的对视频信息执行描述的功能不能充分体现人类理解事物的想象力,好奇心和智慧,而这些本性一直是人类的核心。虽然可从大量视频信息中提取文字信息,但供人们利用的高价值知识却微乎其微。因此,一个优秀的机器智能理解算法,应该充分以人类思维模式叙述发生的事件,同时以人类为第一视角理解事物的发展规律,才能让机器对视频理解达到更加智能化的程度。

一般来说,视频中发生的事件是紧密相连和具有因果关系的,而且这些事件正是执行理解任务的源头。这些事件从结束过渡到另一个新的事件大多是人类的行为所促使的。可以说人类行为主导着事件的发展脉络,以及事件之间的起因与结果,故而跟随人类行为探索事件的发展规律和加强事件理解因果关系十分必要。传统的视频理解方法难以充分考虑视频各帧中的人类行为在时序上关联性和事件发生的因果关系,且提取的全局时序特征中含有大量的冗余帧特征,不仅会耗损巨大的计算力,还使模型在训练阶段变得收敛过慢,不能很好地从行为为线索的人类角度理解事物的发展规律,让机器更智能地理解视频。

发明内容

本发明所要解决的技术问题是,针对现有技术不足,提供一种视频编解码方法及系统,提高视频理解任务的逻辑性和准确性。

为解决上述技术问题,本发明所采用的技术方案是:一种视频编解码方法,包括以下步骤:

S1、分别提取视频帧序列的3D特征和2D特征;

S2、对所述3D特征进行处理,获得关键特征;将所述关键特征与所述2D特征按时间序列叠加,构建融合特征;

S3、在时刻t对融合特征进行编码,通过softmax函数获得归一化权重,将融合特征与归一化权重相乘,获得新的融合特征;

S4、将新的融合特征输入到长短期记忆网络中,得到关于所述视频帧序列的描述句子。

为了在视频中构建一个强大的特征表示,本发明不仅考虑了静态图像信息,还考虑了以时间为线索的动态信息。因此,本发明提出了一种混合2D/3D卷积网络。2D卷积网络和3D卷积网络分别用于提取视频帧的2D特征和3D特征,它们分别代表了静态和动态视频信息。2D特征涵盖环境、对象和人类行为之类的单帧特征信息,3D特征不仅弥补了解码单帧特征时上下文信息的不足,还形成了长时间间隔的事件特征表示,它不仅包含了事件在视觉特征上的时间关系,还增强了最终输出的描述句的逻辑。将2D特征与经处理的3D特征按时间序列叠加,实现静态和动态信息的深度融合。在时刻 t对融合特征进行编码,通过softmax函数获得归一化权重,可以为融合特征分配不同的权重,以学习以人为本的特征,从而促进与人类行为相关的最终语言描述。LSTM可以学习长期依赖性,非常适合处理与时序高度相关的问题。因此,本发明使用LSTM网络来解码人类行为信息的特征,然后用文本来描述。

步骤S1中,利用3D卷积神经网络提取所述视频帧序列的3D特征。3D卷积比2D卷积更适合于时空特征的学习,3D卷积神经网络可以捕捉到视频帧间的时间关系。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学;手拉手信息技术有限公司,未经中南大学;手拉手信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110483437.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top