[发明专利]基于多尺度局部自注意力的视频超分辨率重建方法及系统在审
申请号: | 202210564009.X | 申请日: | 2022-05-23 |
公开(公告)号: | CN115082308A | 公开(公告)日: | 2022-09-20 |
发明(设计)人: | 郭锴凌;黄寅;徐向民 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06T3/40 | 分类号: | G06T3/40;G06V10/40;G06V10/774 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 周春丽 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 尺度 局部 注意力 视频 分辨率 重建 方法 系统 | ||
本发明公开了基于多尺度局部自注意力的视频超分辨率重建方法和系统。所述方法包括:S1:构建低分辨率视频帧序列数据集;S2:通过光流预测网络预测低分辨率视频帧序列输入中相邻帧之间的双向光流信息;S3:构建视频超分辨率重建网络,视频超分辨率重建网络包括特征提取模块、多尺度深层特征提取模块和上采样重建模块;S4:基于数据集和所述双向光流信息训练视频超分辨率重建网络;S5:将需要超分辨率重建的视频序列输入到训练后得到的视频超分辨率重建网络中,即可得到超分辨率重建后的视频序列。本发明能够减少网络的整体计算量,并通过光流预测网络强化信息融合,具备良好的重建效果。
技术领域
本申请属于计算机视觉技术领域,具体涉及一种视频超分辨率重建方法及其系统。
背景技术
视频超分辨率重建技术广泛应用于视频直播、安防监控、卫星遥感等众多场景,具有重大现实意义。随着终端显示设备分辨率的不断提升和视频传输需求的快速发展,现有的海量视频数据亟待寻找一种低成本高效率的重建方案,以期在高分辨率显示设备上获得更好的显示效果。
视频超分辨率重建任务的关键是对视频帧间冗余信息的利用。视频采集设备在时序上的密集采样能够捕捉到物体的亚像素位移,为超分辨率提供了必要的信息。针对视频超分辨率重建的方案有很多,当下主流的解决方案多基于深度学习。主要流程是利用深度学习模型提取视频特征、对齐帧间冗余信息、重建高分辨率视频。处理思路大致划分为滑窗法和循环法。滑窗法将视频重建任务划分为多个多帧重建的子任务,利用多帧低分辨率图像重建出一帧高分辨率图像;循环法一般只需要输入一帧图像,然后参考前序重建图像的输出结果。前者存在冗余计算,但好处是子任务间互不影响。后者效率更高,但存在循环结构差错累积的通病,在针对真实环境的复杂视频的时候性能下降明显。
目前,深度学习中的Transformer结构在自然语言处理领域取得了巨大的成功,在图像的处理分析领域也开始崭露头角。值得注意的是,Transformer结构的自注意力机制也能够很好地契合视频超分辨率任务中融合相似模式的需求。Transformer结构能够长距离聚合特征图的信息,理论上而言,相对于卷积神经网络,Transformer结构的感受野更加大,能够看到更多信息,效果更好。但这需要付出二次计算复杂度和超高内存占用的代价。因此,图像领域会将图块作为计算自注意力的最小单元(token),而非像素。但是,视频中物体像素的移动并不一定与其所在图块一致,导致无法通过图块级的自注意力融合实现精细的融合。另一方面,为了“看到更多信息”而采用的全局自注意力机制,丢弃了图像数据局部强相关的先验信息,因而额外需要很长的训练时间和参数量重新“学会”这个信息。Cao J等在《Video super-resolution transformer[J].arXiv preprint arXiv:2106.06847,2021》中借鉴Transformer结构,设计了一种基于全局自注意力的视频超分辨率重建网络,称作VSR-Transformer。一方面,该网络采用了全局自注意力,资源占用巨大,所以对输入的待处理视频帧的分辨率有严格约束。在计算全局自注意力之前,需要先将视频帧分割成网络能够处理的最大分辨率,并在该分辨率约束下对分割出来的多个视频帧分别计算全局自注意力,最后将各自的结果拼接在一起。为了防止拼接出现的网格效应,分割视频帧时还需要有部分重叠,这导致大量计算冗余。该网络在计算全局自注意力时,还会再次对满足分辨率约束的视频帧进行分割,将分割得到的小图块作为自注意力的最小单元。另一方面,该网络在处理时维持特征图的空间分辨率不变,不利于应对大幅度光流变化,且计算量需求高。该超分网络虽然能够取得很好的效果,但参数量、计算量庞大,训练所需迭代次数过多、硬件要求高,可操作性不足。
发明内容
针对现有技术的上述不足,本发明提出了一种基于多尺度局部自注意力的视频超分辨重建方法。该方法构建了多尺度深层特征提取模块以减少网络的整体计算量,并基于光流预测网络实现了帧间对齐,强化了局部信息融合。同时,本发明将Transformer结构的自注意力从全局约束到局部,使其能够更加专注于信息相关性更高的局部区域,排除了噪声干扰。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210564009.X/2.html,转载请声明来源钻瓜专利网。