[发明专利]计算机可读记录介质、计算处理方法和信息处理设备在审
| 申请号: | 202111075987.X | 申请日: | 2021-09-14 |
| 公开(公告)号: | CN114444710A | 公开(公告)日: | 2022-05-06 |
| 发明(设计)人: | 甲斐雄高;笠置明彦;原靖;檀上匠 | 申请(专利权)人: | 富士通株式会社 |
| 主分类号: | G06N20/00 | 分类号: | G06N20/00;G06N3/04;G06N3/08 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 杜诚;姚文杰 |
| 地址: | 日本神*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 计算机 可读 记录 介质 计算 处理 方法 信息处理 设备 | ||
一种存储计算处理程序的非暂态计算机可读记录介质,该计算处理程序用于使计算机执行处理,该处理包括:在机器学习模型的机器学习时计算包括机器学习模型的输入层的机器学习模型的多个层的误差梯度;选择误差梯度小于阈值的层作为机器学习的抑制目标;以及在机器学习被抑制之前的一定时间段内,在被选为抑制目标的层上控制学习率并且执行机器学习。
技术领域
本文中讨论的实施方式涉及存储计算处理程序的非暂态计算机可读存储介质、计算处理方法和信息处理设备。
背景技术
对于机器学习模型的机器学习的加速,图形处理单元(GPU)的使用是有效的,另外,将处理分发给多个GPU也是有效的。截至目前,已经通过在作为信息处理设备的节点中安装多个GPU以及在节点中并行地执行机器学习处理实现加速。然而,用于聚合GPU之间的梯度信息的处理和反射处理需要时间。
在这种机器学习模型的机器学习中,每次学习时需要频繁地对新的学习部分进行更新。因此,需要将决定更新频率的学习率(LR)设置得更高。另一方面,更靠近输入端的已经对其完成机器学习的现有学习部分具有较低的学习率。在极端情况下,学习率通常被设置为零。虽然没有必要在学习率为零的部分上执行机器学习处理,但是用于聚合梯度信息的处理、反射处理和权重计算处理以新学习部分的频率相同的频率执行,并且执行许多不必要的过程。
为此,近年来,使用梯度跳过技术(Gradient Skip technology),梯度跳过技术识别不需要机器学习且不执行的层,并且跳过梯度信息(Δw)的计算和聚合处理(全规约(Allreduce)处理)。
相关技术的示例包括如下:日本公开特许公报第2019-212206号;国际公开手册第WO2019/239821号;日本公开特许公报第11-126199号;以及美国专利申请公开第2019/0378014号。
发明内容
然而,对于上述技术,可以通过跳过机器学习来增加速度。但是,取决于跳过机器学习的层或跳过的定时,机器学习的精度降低,并且存在如下情况:机器学习在没有达到目标精度的情况下结束。
在一个方面,目的是提供可以实现学习收敛之前的时间的减少和精度提高二者的计算处理程序、计算处理方法和信息处理设备。
根据实施方式的方面,提供了一种非暂态计算机可读记录介质,其存储用于使计算机执行处理的计算处理程序。在示例中,该处理包括:在机器学习模型进行机器学习时,计算包括机器学习模型的输入层的机器学习模型的多个层的误差梯度;选择误差梯度小于阈值的层作为机器学习的抑制目标;以及在机器学习被抑制之前的一定时间段内,在被选为抑制目标的层上控制学习率并且执行机器学习。
[发明的有益效果]
根据一个实施方式,可以实现学习收敛之前的时间的减少和精度提高。
附图说明
图1是用于说明根据第一实施方式的信息处理设备的分布式学习的图;
图2是用于说明机器学习的参考技术的图;
图3是用于说明根据第一实施方式的信息处理设备的机器学习的图;
图4是示出根据第一实施方式的信息处理设备的功能配置的功能框图;
图5是用于说明分布式处理单元的细节的图;
图6是用于说明检测跳过候选的图;
图7是用于说明机器学习模型的块划分的图;
图8是用于说明衰减率的降低与制动距离之间的关系的图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111075987.X/2.html,转载请声明来源钻瓜专利网。





