[发明专利]一种基于三阶张量自编码网络的视频压缩方法有效
申请号: | 201811168316.6 | 申请日: | 2018-10-08 |
公开(公告)号: | CN109302614B | 公开(公告)日: | 2022-01-18 |
发明(设计)人: | 刘光灿;李阳;陈胜勇 | 申请(专利权)人: | 南京信息工程大学 |
主分类号: | H04N19/42 | 分类号: | H04N19/42;H04N19/85;G06N3/04;G06N3/08 |
代理公司: | 南京汇盛专利商标事务所(普通合伙) 32238 | 代理人: | 张立荣 |
地址: | 210044 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 张量 编码 网络 视频压缩 方法 | ||
本发明提出了一种基于三阶张量自编码网络的视频压缩方法。自编码网络在图像压缩中得到了广泛的使用,但是其需要存储大量的参数和需要大量的图片进行训练网络,为此本文使用三阶张量来代替自编码网络中层与层之间的全连接参数,使用自编码机制和反向传播方法对网络中参数进行迭代求解达到收敛,并对收敛结果进行编码,最终得到压缩后的视频。
技术领域
本发明涉及一种基于三阶张量自编码网络的视频压缩方法,属于视频压缩技术领域。
背景技术
近些年,视频技术得到广泛的使用且增长迅速。到2020年,80%的互联网流量都是视频流量。然而未经压缩过的视频占据了大量的存储空间。目前主要有基于H.264、H.265视频流编码方法,基于神经网络的方法。基于H.264、H.265视频流编码方法压缩率高,但解压速度慢;基于神经网络的方法压缩效率相对较高,但是其需要大量的图像进行训练,且网络参数较多,需要占据终端设备较多的内存空间。
发明内容
本发明为了解决现有技术中存在的问题,提供一种压缩率高且解压速度快的基于三阶张量自编码网络的视频压缩方法。
为了达到上述目的,本发明提出的技术方案为:一种基于三阶张量自编码网络的视频压缩方法,包括如下步骤:
步骤一、对目标视频进行预处理;
步骤二、将目标视频自编码网络中层与层之间的全连接参数设为三阶张量并设置迭代结束条件;
步骤三、进行视频网络的前向传播;
步骤四、判断是否迭代终止,是则跳转到步骤六,输出核张量和解码网络参数;否则继续步骤五;
步骤五、进行视频网络的反向传播;
步骤六、对核张量和解码网络进行编码压缩;
步骤七、输出压缩视频。
对上述技术方案的进一步设计为:步骤二中按照所需的压缩比、峰值信噪比来设置网络的参数和迭代结束条件。
所述步骤三的具体步骤为:使用第一层网络(输入的视频)和下一层网络之间的三个因子矩阵进行模1模2模3乘,对结果再使用sigmoid函数进行映射,得到一个新的三阶张量(下一层网络);分别依次进行5次矩阵和张量模乘得到最终的三阶张量(输出视频)。
所述sigmoid函数公式如下:
所述迭代结束条件为误差或者迭代次数达到上限。当误差值小于设定的误差值时,则迭代结束;或者当迭代次数大于设定的迭代次数时,则迭代结束。
步骤五中反向传播步骤为:
步骤5.1、求解输出层到隐含层的梯度;
根据链式法则得到:
其中:
Etotal为张量自编码网络损失函数,Yreal为输入视频,Yout为输出视频,1≤x≤m,1≤y≤n,1≤z≤p,1≤i≤r,1≤j≤s,1≤k≤t,A、B和C为三个因子矩阵;m、r代表矩阵A的大小,n、s代表矩阵B的大小,p、t代表矩阵C的大小,x代表1到m之间的一个整数,y代表1到n的整数,z代表1到p之间的整数,i代表1到r之间的一个整数,j代表1到s之间的一个整数,k代表1到t之间的一个整数,m、n、p、r、s、t属于正整数,代表实数,代表求导符号;
同理可得:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811168316.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:带宽压缩中基于宏块分割的预测方法
- 下一篇:视频压缩的自适应模板预测方法