[发明专利]一种神经网络模型训练方法和装置在审

申请号：	202010690926.3	申请日：	2020-07-17
公开（公告）号：	CN111860835A	公开（公告）日：	2020-10-30
发明（设计）人：	赵仁明	申请（专利权）人：	苏州浪潮智能科技有限公司
主分类号：	G06N3/08	分类号：	G06N3/08;G06N3/04
代理公司：	北京连和连知识产权代理有限公司 11278	代理人：	杨帆;陈黎明
地址：	215100 江苏省苏州市吴***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种神经网络模型训练方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种神经网络模型训练方法和装置，方法包括：将训练使用的数据集上传到集中存储设备并提交训练任务；由主机根据训练任务确定具有计算力资源的多个节点，并将训练任务拆分为若干训练任务片段分别调度到多个节点；在每个节点上创建调用计算力资源的多个容器并部署深度学习框架和脚本接口；由每个节点从集中存储设备分别获取对应的训练任务片段的元数据信息，将与训练任务片段对应的数据集分片；依次对每个数据集分片下载到节点的本地缓存、加入本地缓存队列、加载到容器内存、加入容器内存队列、由容器调用计算力资源对深度学习框架执行通过脚本接口导入的脚本。本发明能够集中管理数据集，减少数据冗余，提升训练速度，减少资源成本。

技术领域

本发明涉及人工智能领域，更具体地，特别是指一种神经网络模型训练方法和装置。

背景技术

智能技术与实体经济结合与迭代过程中，算法、算力与数据都处在高高在上的位置，一般企业没有技术能力和成本去获取这些东西。对于大部分企业而言，招聘高级AI专家以及在研发时间上需要投入的成本太高，数据管理困难，数据冗余度高，训练速度慢。因此将复杂的AI技术进行封装，搭建一个零门槛的AI平台，用AI赋能不同的行业就变得非常有意义。

针对现有技术中深度学习数据难以管理、高冗余、处理速度慢、成本高的问题，目前尚无有效的解决方案。

发明内容

有鉴于此，本发明实施例的目的在于提出一种神经网络模型训练方法和装置，能够集中管理数据集，减少数据冗余，提升训练速度，减少资源成本。

基于上述目的，本发明实施例的第一方面提供了一种神经网络模型训练方法，包括执行以下步骤：

将训练使用的数据集上传到集中存储设备，并基于数据集和执行训练使用的脚本提交训练任务；

由主机根据训练任务确定具有计算力资源的多个节点，并将训练任务拆分为若干训练任务片段分别调度到多个节点；

在每个节点上创建调用计算力资源的多个容器，并为每个容器部署深度学习框架和脚本接口；

由每个节点从集中存储设备分别获取对应的训练任务片段的元数据信息，并根据元数据信息将与训练任务片段对应的数据集分片；

依次对每个数据集分片执行以下步骤：下载到节点的本地缓存、加入本地缓存队列、加载到容器内存、加入容器内存队列、由容器调用计算力资源对深度学习框架执行通过脚本接口导入的脚本，其中，响应于前一个数据集分片的后一步骤和后一个数据集分片的前一步骤均执行完成而执行后一个数据集分片的后一步骤。

在一些实施方式中，由每个节点从集中存储设备分别获取对应的训练任务片段的元数据信息包括：获取对应的训练任务片段的数据集总大小、数据集中文件个数、数据集消息摘要；

根据元数据信息将与训练任务片段对应的数据集分片包括：根据数据集总大小和预设的单位分片大小将与训练任务片段对应的数据集分片。

在一些实施方式中，依次对每个数据集分片执行以下步骤：下载到节点的本地缓存、加入本地缓存队列、加载到容器内存、加入容器内存队列、由容器调用计算力资源对深度学习框架执行通过脚本接口导入的脚本包括：