[发明专利]神经网络的训练方法及装置在审
申请号: | 201910407634.1 | 申请日: | 2019-05-16 |
公开(公告)号: | CN111950689A | 公开(公告)日: | 2020-11-17 |
发明(设计)人: | 胡丁晟;何雷骏;徐斌 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 北京中博世达专利商标代理有限公司 11274 | 代理人: | 申健 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 神经网络 训练 方法 装置 | ||
本申请提供一种神经网络的训练方法及装置,能够有效减少神经网络的训练过程中的计算量,从而提高神经网络的训练效率,拓展神经网络的训练方法的适用范围。该方法包括:利用由大位宽的第一训练数据和第一权重矩阵量化后的小位宽的第二训练数据和第二权重矩阵得到本处理层的大位宽的回传误差,并量化为本处理层对应的小位宽的回传误差,然后再利用小位宽的第二训练数据和小位宽的回传误差,计算本处理层对应的大位宽的第二权重矩阵,从而完成神经网络的一次训练迭代。
技术领域
本申请涉及神经网络领域,尤其涉及一种神经网络的训练方法及装置。
背景技术
神经网络的应用主要有训练(train)和推断(inference)两种任务。其中,推断是指将待识别数据输入神经网络得到识别结果,如识别待分类图像的图像类别。训练是指利用包含真实标签的数据(训练样本),不断迭代优化神经网络的权重矩阵(weight matrix),以提高推断任务的准确性。在上述各个过程中,通常要涉及大量的矩阵乘法运算(主要包括乘加运算),计算量巨大,功耗和成本较高。例如,对于一个深度为16的计算机视觉组(visual geometry group 16,VGG16)神经网络,使用一张224*224图片完成一次训练迭代的计算量高达290*3亿次乘加运算。因此,如图1所示,可以采用云端训练、客户端推断的应用方案降低客户端的计算量。具体地,由云计算设备,如计算能力强大的服务器、大型计算机等完成神经网络的训练任务,更新权重矩阵并下发给客户端,然后由客户端完成推断任务。
容易理解,图1所示的应用方案可能需要客户上传个人信息,存在隐私泄露风险。为此,提出了一种可降低计算量,以便在客户端实施的量化推断方案。具体地,如图2所示,采用离线校准方式确定推断数据的量化参数和量化后的权重矩阵,然后采用在线量化方式量化推断数据,并根据量化后的推断数据和量化后的权重矩阵进行推断,输出反量化后的推断结果。其中,“量化”是指,根据神经网络模型、初始量化参数和校准样例,确定推断数据和权重矩阵校准后的量化参数,如饱和阈值(saturated threshold)和校准后的量化位宽,然后将取值范围较大的推断数据和权重矩阵转换为取值范围较小的推断数据和权重矩阵,从而进一步降低客户端完成推断任务的计算量。例如,可以采用线性饱和量化方式,将32位(bit)的浮点数量化为8位的定点数。
但是,在图2所示的离线校准、在线量化的推断方案中,量化参数是离线校准的,在线推断过程中不能改变,而在训练过程中,样本数据的取值范围是不断变化的,这要求量化参数,如饱和阈值也能够随之调整。因此,图2所示的离线校准、在线量化的推断方案并不适用于的训练过程。也就是说,迄今为止,尚不存在可用于客户端等计算能力受限场景、既能执行推断任务,又能执行训练任务的可行技术方案。
发明内容
本申请提供一种神经网络的训练方法及装置,能够有效减少神经网络的训练任务的计算量,从而提高神经网络的训练效率,拓展神经网络的训练方法的适用范围。
第一方面,提供一种神经网络的训练方法。其中,该神经网络包括多个处理层,该多个处理层包括第一处理层以及一个或多个后级处理层。该神经网络的训练方法由第一处理层执行。该神经网络的训练方法包括:将经过预处理后的第一训练数据量化为第二训练数据,并将第一权重矩阵量化为第二权重矩阵。其中,第一训练数据为第一处理层的前一层的输出数据;第二训练数据的位宽小于第一训练数据的位宽,第二权重矩阵的位宽小于第一权重矩阵的位宽。然后,利用第二训练数据和第二权重矩阵,得到第一中间结果。其中,第一中间结果依次经过一个或多个后级处理层处理后,最终得到第一回传误差。之后,接收第二回传误差,并将第二回传误差量化为第三回传误差。其中,第二回传误差为第一回传误差经过一个或多个后级处理层处理后得到的误差,第三回传误差的位宽小于第二回传误差的位宽。最后,利用第二训练数据和第三回传误差,计算第三权重矩阵。其中,第三权重矩阵作为下次训练的正向过程中输入的第一权重矩阵,且第三权重矩阵的位宽与第一权重矩阵的位宽相同。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910407634.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自发泡洗面奶及其制备方法
- 下一篇:电池组件及其电池覆胶方法