[发明专利]一种神经网络模型训练方法和装置在审
| 申请号: | 202010690926.3 | 申请日: | 2020-07-17 |
| 公开(公告)号: | CN111860835A | 公开(公告)日: | 2020-10-30 |
| 发明(设计)人: | 赵仁明 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
| 主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04 |
| 代理公司: | 北京连和连知识产权代理有限公司 11278 | 代理人: | 杨帆;陈黎明 |
| 地址: | 215100 江苏省苏州市吴*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 神经网络 模型 训练 方法 装置 | ||
1.一种神经网络模型训练方法,其特征在于,包括执行以下步骤:
将训练使用的数据集上传到集中存储设备,并基于所述数据集和执行训练使用的脚本提交训练任务;
由主机根据所述训练任务确定具有计算力资源的多个节点,并将所述训练任务拆分为若干训练任务片段分别调度到多个所述节点;
在每个所述节点上创建调用计算力资源的多个容器,并为每个所述容器部署深度学习框架和脚本接口;
由每个所述节点从所述集中存储设备分别获取对应的所述训练任务片段的元数据信息,并根据所述元数据信息将与所述训练任务片段对应的数据集分片;
依次对每个所述数据集分片执行以下步骤:下载到所述节点的本地缓存、加入本地缓存队列、加载到容器内存、加入容器内存队列、由容器调用计算力资源对所述深度学习框架执行通过所述脚本接口导入的所述脚本,其中,响应于前一个所述数据集分片的后一步骤和后一个所述数据集分片的前一步骤均执行完成而执行后一个所述数据集分片的后一步骤。
2.根据权利要求1所述的方法,其特征在于,由每个所述节点从所述集中存储设备分别获取对应的所述训练任务片段的元数据信息包括:获取对应的所述训练任务片段的数据集总大小、数据集中文件个数、数据集消息摘要;
根据所述元数据信息将与所述训练任务片段对应的数据集分片包括:根据所述数据集总大小和预设的单位分片大小将与所述训练任务片段对应的数据集分片。
3.根据权利要求2所述的方法,其特征在于,依次对每个所述数据集分片执行以下步骤:下载到所述节点的本地缓存、加入本地缓存队列、加载到容器内存、加入容器内存队列、由容器调用计算力资源对所述深度学习框架执行通过所述脚本接口导入的所述脚本包括:
由所述节点的节点代理进程控制所述本地缓存从所述集中存储设备读取所述数据集分片以下载并保存到所述本地缓存中;
由所述节点代理进程控制所述本地缓存将保存到所述本地缓存中的所述数据集分片以文件形式置入本地缓存队列;
由所述容器的环境代理进程通过所述节点代理进程确定所述本地缓存队列中具有所述数据集分片的文件,并控制所述容器内存从本地缓存队列中读取所述数据集分片的文件以加载并保存到所述容器内存中;
由所述环境代理进程控制所述容器内存将保存到所述容器内存中的所述数据集分片以文件形式从所述本地缓存队列移除并置入容器内存队列;
由所述环境代理进程使用预设的脚本数据库作为所述脚本接口以封装的形式导入并执行所述脚本,以使用所述数据集分片训练所述深度学习框架。
4.根据权利要求3所述的方法,其特征在于,使用所述数据集分片训练所述深度学习框架包括:
由所述深度学习框架将所述数据集分片的数据转化成张量,将所述张量发送到计算力资源执行矩阵计算,并使用所述矩阵计算的结果重构所述深度学习框架的参数。
5.根据权利要求3所述的方法,其特征在于,所述集中存储设备、所述本地缓存、和所述容器内存在数据平面上通信;所述节点代理进程和所述环境代理进程在不同于所述数据平面的控制平面上通信。
6.根据权利要求1所述的方法,其特征在于,所述计算力资源包括图形处理单元、中央处理单元、内存储器、和/或固态硬盘。
7.根据权利要求1所述的方法,其特征在于,所述集中存储设备使用网络文件系统、Hadoop分布式文件系统、或Luster文件系统。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010690926.3/1.html,转载请声明来源钻瓜专利网。





