[发明专利]一种基于深度神经网络的信号处理方法有效
申请号: | 202011082797.6 | 申请日: | 2020-10-12 |
公开(公告)号: | CN112203093B | 公开(公告)日: | 2022-07-01 |
发明(设计)人: | 侯兴松;李瑞敏 | 申请(专利权)人: | 苏州天必佑科技有限公司 |
主分类号: | H04N19/147 | 分类号: | H04N19/147;H04N19/159;H04N19/172;H04N19/42;H04N19/85;H04N19/91;G06T9/00;G06T7/269 |
代理公司: | 苏州曼博专利代理事务所(普通合伙) 32436 | 代理人: | 宋俊华 |
地址: | 215000 江苏省苏州市吴中*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 神经网络 信号 处理 方法 | ||
1.一种基于深度神经网络的信号处理方法,其特征在于,利用神经网络的非线性表达能力和联合训练,构建一个端到端的视频压缩框架,包括如下步骤:
S1,收集和整理公开的高清视频数据集,构建神经网络训练集和测试集;
S2,对于待压缩视频,计算前后两帧间的均方差,并根据阈值将帧分为关键帧和非关键帧;
对于关键帧,采用帧内预测;
对于非关键帧,则采用帧间预测;
S3,构建和训练两个网络模型分别用于关键帧和非关键帧的压缩;
对于关键帧:构建用于图像压缩的自编码器和基于上下文的熵模型和超先验网络对其进行压缩传输;构建自编码器输入端对帧进行特征提取编码传输到输出端,在输出端根据提取的信息解码恢复图像;构建上下文和超先验网络分别利用帧内的上下文与超先验信息来估计编码的比特率;
对于非关键帧:构建光流网络和深度网络进行帧间预测,估计前一帧与当前帧之间的运动信息,并通过将前一帧像素搬移得到当前帧,并计算其与真实的当前帧之间的残差;光流与深度信息及残差信息都用结合超先验的熵模型卷积神经网络自编码器进行传输和码率估计;
S4,对于步骤S3中的网络,分别采用率失真优化的训练策略进行端到端的联合训练,采用率即编码特征图所需的比特率,失真即重建帧与真实的当前帧之间的均方差。
2.根据权利要求1所述的基于深度神经网络的信号处理方法,其特征在于,步骤S1中,训练集采用viemo90K。
3.根据权利要求1所述的基于深度神经网络的信号处理方法,其特征在于,步骤S1中,测试集采用HEVC标准测试序列:Class A、Class B、Class C、Class D和Class E。
4.根据权利要求1所述的基于深度神经网络的信号处理方法,其特征在于,步骤S3中,光流网络采用SpyNet。
5.根据权利要求1所述的基于深度神经网络的信号处理方法,其特征在于,步骤S3中,深度网络采用MegaDepth;采用Internet SFM+MVS数据来解决单点深度估计问题;首先,采用基于COLMAP的改善的MVS算法,然后,采用语意分割的方法强化和过滤深度映射,并且产生额外的相对深度数据。
6.根据权利要求1所述的基于深度神经网络的信号处理方法,其特征在于,步骤S3中,编码光流和残差的自编码器都分别应用与S3中自编码器相同的网络结构来构建,包含自编码器网络、上下文与超先验网络、熵估计网络。
7.根据权利要求1所述的基于深度神经网络的信号处理方法,其特征在于,步骤S3中,对于关键帧:首先,待压缩帧输入到自编码器编码端,经过卷积神经网络四层下采样,变成192通道特征图,量化后分别输入到上下文和超先验网络,输出记为c1、c2,c1、c2 在通道数上连接之后输入到熵估计网络;熵估计网络的输出分为两部分,分别作为自编码器输出的192个通道的特征图的μ和σ,即192个μ和192个σ,通过高斯误差函数erf进行概率估计,在训练和测试时估计编码特征图所需的码流;在输出端,解码器将来自编码端的数据进行解码,重建当前帧。
8.根据权利要求1所述的基于深度神经网络的信号处理方法,其特征在于,步骤S3中,对于非关键帧:将前一帧和当前帧输入到光流网络获取光流信息,将当前帧输入到深度网络中获取深度信息,将光流信息与深度信息结合,融合前一帧得到当前帧,并计算其与真实的当前帧之间的残差;残差输入到自编码器网络中进行传输;在解码端,根据传输的残差信息、光流与深度信息,将重建的前一帧与光流与深度信息融合,并与残差信息相加,得到重建的当前帧。
9.根据权利要求1所述的基于深度神经网络的信号处理方法,其特征在于,步骤S4中,通过 用优化器Adam对网络模型进行训练;在训练中,通过改变λ的值来训练出具有不同压缩比的网络模型;λ越大,则训练出的网络失真越小,但比特率会相应增加;对于帧内预测:D为帧重建前后的失真,R为编码特征图和超先验特征的比特率;对于帧间预测:D为重建帧与真实的当前帧之间的失真,R包括两部分,一部分是编码光流和深度信息所用的比特率,一部分是编码残差所需的比特率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州天必佑科技有限公司,未经苏州天必佑科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011082797.6/1.html,转载请声明来源钻瓜专利网。