[发明专利]一种深度学习模型训练方法、装置、设备及存储介质在审

申请号：	202011404833.6	申请日：	2020-12-04
公开（公告）号：	CN112465048A	公开（公告）日：	2021-03-09
发明（设计）人：	赵仁明	申请（专利权）人：	苏州浪潮智能科技有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06N20/20
代理公司：	北京连和连知识产权代理有限公司 11278	代理人：	张涛;张元
地址：	215100 江苏省苏州市吴***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种深度学习模型训练方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种深度学习模型训练方法、装置、设备及存储介质。方法包括：将多个训练节点均配置为使用各自的本地样本数据进行模型训练，并统计每一训练节点的训练次数；每次训练后获取本节点和其它节点的训练次数，并将本节点训练次数与其它节点训练次数进行比较；响应于其它节点训练次数大于本节点训练次数，则利用其它节点的模型参数更新本节点的模型参数，以及本节点使用更新后的模型参数和本地样本数据进行模型训练，并更新模型参数和训练次数；响应于其它节点训练次数均小于等于本节点训练次数，则利用本节点前一次训练更新的模型参数和本地样本数据进行模型训练，并更新模型参数和训练次数。本发明的模型收敛快、训练效率、鲁棒性较佳。

技术领域

本发明属于信息安全领域，尤其涉及一种深度学习模型训练方法、装置、设备及存储介质。

背景技术

深度学习已经在现实世界中得到了广泛的运用，例如无人驾驶汽车，收据识别，电影推荐等。深度学习需要大量的数据。对于神经网络，训练样本的多少，对于AI训练的质量影响巨大。为了提升模型的准确度，通常会使用较大量的数据样本进行训练。然而对于用于训练的数据样本的收集，往往不是很容易的事情。特别是对于一些数据隐私性较强的数据，例如医疗数据、个人金融相关的数据。例如对于一个3D的大脑MRI影像数据样本就需要一个受过训练的神经学专家经过一周左右的时间才可以完成收集和标记。使用少量的数据样本，无法有效率的训练出一个DNN模型；同时想要把这样的数据收集汇总到一起，通常会受到伦理和政策法规的限制约束，而无法有效的实施。

图1示出了现有的中心化深度学习训练方式，此种方式存在一个中心服务器用于收集和汇总各个训练基节点模型训练产生的参数数据。中心服务器收到所有的参数之后，进行参数的平均，将平均后的新参数分发给所有的训练节点，各训练节点收到更新后的参数之后，更新本地模型的参数，开始下一轮的训练。现有的中线化深度学习训练的方式严重依赖中心服务器进行参数交互，导致中心服务器的压力较大，假如中心服务器故障会影响各个节点的模型训练；此外各个节点训练速度不同而中心服务器需要等待全部节点完成训练才能进行后续参数的分发，模型收敛较慢训、练效率极低。

发明内容

有鉴于此，有必要针对以上技术问题，提供能够消除的中心服务器通信瓶颈、使各训练节点交互更加频繁的一种深度学习模型训练方法、装置、设备及存储介质。

根据本发明的第一方面，提供了一种深度学习模型训练方法，所述方法包括：

将多个训练节点均配置为使用各自的本地样本数据进行模型训练，并统计每一训练节点的训练次数；

响应于每次训练完成，获取本节点和其它节点的训练次数，并将本节点训练次数与其它节点训练次数进行比较；

响应于其它节点训练次数大于本节点训练次数，则利用其它节点的模型参数更新本节点的模型参数，以及本节点使用更新后的模型参数和本地样本数据进行模型训练，并更新模型参数和训练次数；

响应于其它节点训练次数均小于等于本节点训练次数，则利用本节点前一次训练更新的模型参数和本地样本数据进行模型训练，并更新模型参数和训练次数。

在其中一个实施例中，所述方法还包括：

将本节点训练次数与预设迭代次数进行比较；

响应于本节点训练次数小于预设迭代次数，则返回获取本节点和其它节点的训练次数，并将本节点训练次数与其它节点训练次数进行比较的步骤；

响应于本节点训练次等于预设迭代次数，结束本节点的模型训练。

在其中一个实施例中，所述获取本节点和其它节点的训练次数，并将本节点训练次数与其它节点训练次数进行比较的步骤包括：