[发明专利]一种智能快速帧间编码方法有效
| 申请号: | 202110518364.9 | 申请日: | 2021-05-12 |
| 公开(公告)号: | CN113225552B | 公开(公告)日: | 2022-04-29 |
| 发明(设计)人: | 张佩涵;潘兆庆;彭勃;靳登朝;雷建军 | 申请(专利权)人: | 天津大学 |
| 主分类号: | H04N19/109 | 分类号: | H04N19/109;H04N19/70;G06K9/62;G06N3/04 |
| 代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李林娟 |
| 地址: | 300072*** | 国省代码: | 天津;12 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 智能 快速 编码 方法 | ||
本发明公开了一种智能快速帧间编码方法,所述方法包括:将编码单元的划分视作二分类问题,设计了一种多信息融合卷积神经网络模型作为分类器,实现编码单元划分提前终止;以编码单元的纹理信息和运动信息作为分类器的输入,分别经过非对称卷积核特征提取模块获取输入的特征;再使用基于注意力的特征融合模块得到融合的特征,最终使用分类模块根据融合特征获取分类结果;通过考虑编码单元的运动信息以及多信息融合网络输出的置信度作为条件,实现Merge模式早期决策。本发明尽可能在压缩视频质量不变的条件下缩短帧间编码时间,借助深度学习的特征提取与分析能力,通过充分利用空域、时域及运动场信息,有效降低帧间编码复杂度。
技术领域
本发明涉及深度学习、视频编码领域,尤其涉及一种智能快速帧间编码方法。
背景技术
视频是信息传播的重要载体。近年来,随着互联网和多媒体技术飞速发展,硬件设备性能的不断提升,高清、超高清以及全景视频的应用场景愈发广泛。然而,这些数据量更大的视频为存储和传输带来极大的挑战。
视频压缩编码技术有助于解决庞大的视频数据量与有限的传输带宽之间的矛盾。通过高效的视频压缩编码技术,可以去除视频中存在的冗余信息,降低视频对高传输带宽的需求。然而,视频编码过程计算复杂度高,成为制约视频压缩编码技术在实时场景应用中的瓶颈。
为了尽可能降低编码视频需要的时间,新一代视频编码标准已经集成了一些低复杂度编码工具。随着人工智能的发展,深度学习技术在计算机视觉等领域取得了显著成就,这为视频低复杂度编码提供了新的研究思路。Tang等人提出了一种基于深度学习的形状自适应快速帧内编码单元划分决策方法,利用可变大小的池化层处理不同尺寸的编码单元。Tissier等人提出了一种基于深度学习的帧内编码块边界决策算法,通过神经网络预测64*64编码单元内所有4*4块的边界存在划分边缘的概率值,从而根据概率值跳过不太可能的划分模式。
现有方法主要关注于利用编码单元的纹理信息降低帧内编码复杂度,并没有考虑帧间的时域相关性,因此这些方法并不适合用于降低帧间编码复杂度。目前未见工作研究基于深度学习的低复杂度帧间编码方法。
发明内容
本发明提供了一种智能快速帧间编码方法,本发明尽可能在压缩视频质量不变的条件下缩短帧间编码时间,借助深度学习的特征提取与分析能力,通过充分利用空域、时域及运动场信息,有效降低帧间编码复杂度,详见下文描述:
一种智能快速帧间编码方法,所述方法包括:
将编码单元的划分视作二分类问题,设计了一种多信息融合卷积神经网络模型作为分类器,实现编码单元划分提前终止;
以编码单元的纹理信息和运动信息作为分类器的输入,分别经过非对称卷积核特征提取模块获取输入的特征;
再使用基于注意力的特征融合模块得到融合的特征,最终使用分类模块根据融合特征获取分类结果;
通过考虑编码单元的运动信息以及多信息融合网络输出的置信度作为条件,实现Merge模式早期决策。
其中,所述非对称卷积核特征提取模块对于不同尺寸的编码单元具有不同的结构。
进一步地,所述基于注意力的特征融合模块具体为:使用卷积融合三种特征,得到FFusion=Conv(concat(FF_Luma,FF_Residual,FF_MotionField));
使用残差注意力单元选出更有效的特征,即FEffect=Φ(FFusion),Φ表示残差注意力单元;
最终再通过卷积降低特征图通道数,得到F′Effect,便于后续分类模块得到预测结果。
进一步地,所述Merge模式早期决策具体为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110518364.9/2.html,转载请声明来源钻瓜专利网。





