[发明专利]一种基于分区域梯度更新的神经网络训练过程中间值存储压缩方法和装置在审

专利信息
申请号: 202010317520.0 申请日: 2020-04-21
公开(公告)号: CN111783977A 公开(公告)日: 2020-10-16
发明(设计)人: 杨侃;袁之航;孙广宇;汪小林;罗英伟 申请(专利权)人: 北京大学;鹏城实验室
主分类号: G06N3/08 分类号: G06N3/08;G06N3/04
代理公司: 北京君尚知识产权代理有限公司 11200 代理人: 邱晓锋
地址: 100871*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 区域 梯度 更新 神经网络 训练 过程 中间 存储 压缩 方法 装置
【说明书】:

发明涉及一种基于分区域梯度更新的神经网络训练过程中间值存储压缩方法和装置。该方法在神经网络训练的前向传播过程中将特定区域的输入激活值保存在内存中;在神经网络训练的反向传播过程中利用保存的特定区域的输入激活值计算梯度,以更新神经网络的权重参数。所述区域是在输入激活值的长度和宽度方向上划分的区域。通过分块步长和网络稠密度确定所述特定区域,首先根据分块步长对输入激活值划分区域,并确定区域起始位置,然后根据网络稠密度确定保留区域总数。本发明对神经网络训练时需要保存的激活值进行存储优化,能够大幅降低内存成本,提高训练深度更深、规模更大的神经网络的能力,同时也可以在内存受限的设备上在线训练网络。

技术领域

本发明涉及神经网络训练过程中的中间值存储压缩方法和装置,属于人工智能和存储领域。

背景技术

在过去几年中,深度卷积神经网络处理各种视觉任务的性能得到了大幅度的提升。在大多数情况下,越先进的神经网络,其深度也会越深。例如在各种计算机视觉处理任务中表现出色的深度残差神经网络。对深度残差神经网络而言,关键的创新点是残差块。通过残差块,神经网络训练过程中前面的信息可以直接传递到后面的部分,从而使得反向传播过程中梯度不会因为网络过深而消失。这一结构的出现使得我们可以训练具有上百层结构的神经网络,深度大幅增加对网络处理各种任务的精确度有显著的提升。

反向传播是现代神经网络训练的基础。由于反向传播过程中计算梯度值需要网络激活值,所以神经网络需要将网络激活值存储在内存中,以便于进行计算,内存成本与网络中的单元数成正比。这意味着随着网络深度的增加和规模的扩大,存储激活值需要更大的内存空间,这已经成为了许多应用程序的瓶颈。以神经网络训练时常用的图形处理单元(GPU)为例,部分性能显著的神经网络深度达到一千层以上,存储要求经常超出GPU显存限制。训练这些大型网络可能需要跨多个GPU并行处理,实现复杂且成本昂贵。同时由于内存的限制,现代神经网络通常以mini-batch的方式进行训练,这对于随机梯度下降法而言效率很低。减少存储激活值的内存成本能有效提高训练深度更深、规模更大的神经网络的能力。

发明内容

本发明的目的是提出一种针对神经网络训练时需要存储的中间值的存储压缩方法和装置,以降低训练时的内存成本,同时可以在内存受限的设备上进行在线训练。

本发明采用的技术方案如下:

一种基于分区域梯度更新的神经网络训练过程中间值存储压缩方法,包括以下步骤:

在神经网络训练的前向传播过程中,将特定区域的输入激活值保存在内存中;

在神经网络训练的反向传播过程中,利用保存的特定区域的输入激活值计算梯度,以更新神经网络的权重参数。

进一步地,所述区域是在输入激活值的长度和宽度方向上划分的区域。

进一步地,通过两个超参数确定所述特定区域,所述两个超参数为分块步长和网络稠密度。

进一步地,确定所述特定区域的步骤包括:

根据分块步长对输入激活值划分区域,并确定区域起始位置;

根据网络稠密度确定保留区域总数。

进一步地,根据训练时批数据的编号确定所述区域起始位置。

进一步地,所述区域起始位置等于批数据编号与划分区域的总数取模后的结果,以在整个训练过程中依次遍历每个区域。

进一步地,所述根据网络稠密度确定保留区域总数,包括:当区域起始位置的编号与保留区域总数之和大于划分的区域总数时,超出的部分从编号为0的区域开始,依次向后取值,直到实际保留区域数等于保留区域总数为止。

一种基于分区域梯度更新的神经网络训练过程中间值存储压缩装置,其包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学;鹏城实验室,未经北京大学;鹏城实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010317520.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top