[发明专利]训练作业处理方法及系统、计算设备、计算机存储介质在审
申请号: | 201710703279.3 | 申请日: | 2017-08-16 |
公开(公告)号: | CN107480717A | 公开(公告)日: | 2017-12-15 |
发明(设计)人: | 李远策;欧阳文;贾润莹;贾宇晗;王磊 | 申请(专利权)人: | 北京奇虎科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京市浩天知识产权代理事务所(普通合伙)11276 | 代理人: | 宋菲,刘云贵 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练 作业 处理 方法 系统 计算 设备 计算机 存储 介质 | ||
1.一种训练作业处理方法,其包括:
获取待处理的基于深度学习技术的训练作业,将所述训练作业进行封装处理,封装得到的训练作业携带封装参数;
将封装得到的训练作业提交给调度平台,以供所述调度平台根据所述封装参数为训练作业分配作业运行资源;
利用分配的作业运行资源,启动相应的作业执行程序执行所述训练作业,获取执行结果;
将执行结果保存至存储系统中。
2.根据权利要求1所述的方法,其中,所述封装参数包含以下参数的一项或多项:
作业类型、作业执行命令、工作进程数量、每个工作进程所需GPU数量、输入路径、输出路径、以及作业执行程序路径。
3.根据权利要求2所述的方法,其中,在启动相应的作业执行程序执行所述训练作业之前,所述方法还包括:依据所述输入路径从存储系统中读取记录有训练样本数据的输入文件;
所述启动相应的作业执行程序执行所述训练作业,获取执行结果具体为:启动相应的作业执行程序针对训练样本数据进行训练处理,获取训练得到的训练模型;
所述将执行结果保存至存储系统中具体为:将训练得到的训练模型保存至存储系统的输出路径下。
4.根据权利要求3所述的方法,其中,所述调度平台根据所述封装参数为训练作业分配作业运行资源进一步包括:
所述调度平台根据工作进程数量分配工作进程,并根据每个工作进程所需GPU数量分配每个工作进程的GPU;
所述调度平台将训练作业进行分片处理,将分片处理得到的各个分片训练作业分配给各个工作进程。
5.根据权利要求4所述的方法,其中,所述根据每个工作进程所需GPU数量分配每个工作进程的GPU进一步包括:
根据每个工作进程所需GPU数量及通信拓扑结构,采用后续深度优先递归遍历算法分配每个工作进程的GPU。
6.根据权利要求4或5所述的方法,其中,所述利用分配的作业运行资源,启动相应的训练作业执行程序执行所述训练作业进一步包括:
启动各个工作进程执行相应的分片训练作业。
7.根据权利要求6所述的方法,其中,所述依据所述输入路径从存储系统中读取记录有训练样本数据的输入文件进一步包括:
以文件为单位将输入文件分配给各个工作进程;
根据所述输入文件分配结果,从存储系统中下载各个工作进程所需要的输入文件至相应工作进程本地。
8.一种训练作业处理系统,其包括:
客户端,适于获取待处理的基于深度学习技术的训练作业,将所述训练作业进行封装处理,封装得到的训练作业携带封装参数,并将封装得到的训练作业提交给调度平台;
调度平台,适于根据所述封装参数为训练作业分配作业运行资源,利用分配的作业运行资源,启动相应的作业执行程序执行所述训练作业,获取执行结果;
存储系统,适于存储所述执行结果。
9.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器适于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7任一所述的训练作业处理方法对应的操作。
10.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-7任一所述的训练作业处理方法对应的操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司,未经北京奇虎科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710703279.3/1.html,转载请声明来源钻瓜专利网。