[发明专利]基于深度学习的端到端视频压缩方法、系统及存储介质有效
申请号: | 202010104772.5 | 申请日: | 2020-02-20 |
公开(公告)号: | CN111405283B | 公开(公告)日: | 2022-09-02 |
发明(设计)人: | 马思伟;贾川民;赵政辉;王苫社 | 申请(专利权)人: | 北京大学 |
主分类号: | H04N19/147 | 分类号: | H04N19/147;H04N19/159;H04N19/177;H04N19/21;H04N19/82 |
代理公司: | 北京辰权知识产权代理有限公司 11619 | 代理人: | 付婧 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 端视 压缩 方法 系统 存储 介质 | ||
1.一种基于深度学习的端到端视频压缩方法,其特征在于,包括以下步骤:
将目标视频分为多个图像组;
对所述图像组中的关键帧进行端到端帧内编码得到关键帧编码数据;其中,采用基于超先验网络结构的端到端自编码器作为帧内编码框架对所述关键帧进行编码,所述自编码器种类包括高斯分布、混合高斯分布及拉普拉斯分布;
其中,采用基于Pixel CNN上下文建模对超先验自编码结构的结果进行提升处理;
所述关键帧编码数据通过环路滤波网络进行重建后得到关键帧重建帧;
基于所述关键帧重建帧对所述图像组中的非关键帧进行端到端帧间编码得到非关键帧编码数据;
所述非关键帧编码数据通过环路滤波网络进行重建后得到非关键帧重建帧;
其中,所述关键帧编码数据以及非关键帧编码数据通过环路滤波网络进行重建时,具体采用基于全卷积网络的环路滤波模块进行重建;根据已编码的重建图像,建立与重建图像的原始图像之间的端到端全卷积映射,通过使用具有全局残差结构的九层卷积神经网络处理该重建图像,并得到最终的重建图像。
2.根据权利要求1所述的基于深度学习的端到端视频压缩方法,其特征在于,所述基于所述关键帧重建帧对所述图像组中的非关键帧进行端到端帧间编码得到非关键帧编码数据,具体包括:
基于所述关键帧重建帧对所述图像组中的非关键帧进行运动场估计得到运动场信息;
根据所述运动场信息得到非关键帧的帧间预测信息;
根据所述非关键帧的帧间预测信息以及所述非关键帧进行预测残差编码。
3.根据权利要求1所述的基于深度学习的端到端视频压缩方法,其特征在于,所述帧内编码框架在训练时的目标函数公式为:
其中,x为输入图像,为输出图像;
其中,y为根据图像编码的隐变量,y=Enc(x);隐变量y的先验分布为服从均值μ,方差为σ的正态分布,y~N(μ,σ);
其中,均值μ和方差σ是根据超先验自编码器通过端到端学习得到,具体为:
z=HyperEnc(y);
其中,为经过量化后的超先验自编码器的码字,为超先验正太分布的初步参数。
4.根据权利要求1所述的基于深度学习的端到端视频压缩方法,其特征在于,所述环路滤波网络基于全卷积网络,所述环路滤波网络采用损失函数L2,所述环路滤波网络具体公式为:
其中,xreci表示输入的已编码图像的重建图像,xi为已编码图像对应的真实标签,n表示帧数。
5.根据权利要求2所述的基于深度学习的端到端视频压缩方法,其特征在于,所述基于所述关键帧重建帧对所述图像组中的非关键帧进行运动场估计得到运动场信息,具体包括:
当所述关键帧重建帧只有一帧时,所述运动场信息需要通过自编码器编码得到,并写入码流中,所述运动场信息flow1的计算公式为:
flow1=Flownet(ft-1);
当所述关键帧重建帧数目大于一帧时,取相对当前非关键帧最临近的两帧重建帧得到运动场信息,此时所述运动场信息无需写入码流中,所述运动场信息flow2的计算公式为:
flow2=Flownet(ft-2,ft-1);
其中,ft-2以及ft-1为可使用的关键帧重建帧,Flownet为光流预测网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010104772.5/1.html,转载请声明来源钻瓜专利网。