[发明专利]分布式机器学习任务启动方法、系统、设备及存储介质在审
申请号: | 201811482001.9 | 申请日: | 2018-12-05 |
公开(公告)号: | CN111352664A | 公开(公告)日: | 2020-06-30 |
发明(设计)人: | 李大超;何云龙;董荦;陈泽友 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F9/445 | 分类号: | G06F9/445;G06N3/08;H04L29/08 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 袁礼君;阚梓瑄 |
地址: | 100086 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 机器 学习 任务 启动 方法 系统 设备 存储 介质 | ||
本发明提供了一种分布式机器学习任务启动方法、系统、设备及存储介质,所述方法包括:配置kubernetes Pod资源中的环境变量,所述环境变量包括所有节点的域名和端口信息;配置kubernetes Pod资源中容器的启动命令,所述启动命令将所述环境变量传入分布式机器学习任务启动脚本;根据所述环境变量和所述容器的启动命令创建kubernetes Pod资源,所述kubernetes Pod资源中容器配置为执行所述启动命令。本发明使用灵活、不固定的网络元组信息,同时也省去需要二次登录再执行启动命令的步骤,来实现在启动容器时直接执行启动命令,从而提高分布式机器学习任务启动过程的灵活性和高效性。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种分布式机器学习任务启动方法、系统、设备及存储介质。
背景技术
随着大数据与云计算的兴起,两者驱动着人工智能在飞速发展。机器学习作为人工智能领域内的一种重要技术,由于有了大数据和云计算的支撑,也在变得越来越普及和实用,这也就是现在非常流行的数据+算法模型推动应用发展的模式。在大数据和云计算时代到临之前,数据规模有限,设计的算法模型也比较简单,大多数的时候都是单台机器(单节点)进行模型训练。但现在,数据量变得非常大,模型结构也越来越复杂,单台机器的容量和计算能力都有限,不能我们的需求,我们需要扩大规模来解决这个问题,因此分布式机器学习越来越成为一种趋势。分布式机器学习指利用多台机器(数十,几百或者上千)来组成一个计算集群,通过这个计算集群来训练需要使用大量数据的复杂算法模型。分布式机器学习能够加速模型训练的过程,缩短训练时间,提升模型训练的效率。
由于需要利用多台机器,分布式机器学习中,一般会设计有不同的角色,角色之间功能不同,每种角色包含多个节点,所有的节点组成一起就是完整的计算集群。一次具体的训练任务,需要将所有的节点都启动,每个节点上的启动命令需要知道其他节点的网络元组信息,如果信息缺少或者有误,整个训练任务将会执行失败。
举例来说,可以假设有Role-A和Role-B(多种角色也可以依此类推),同时假设Role-A有M个,Role-B有N个。那么在分布式训练任务中,需要M+N个节点,每个节点都会有用于网络连接的“HOST:PORT”元组。例如:Role-A,k,Hk:Pa来表示角色A中的第k个组员的网络连接元组。
一般分布式机器学习任务执行过程可以分为四个阶段:
(1)分配每个角色的所有节点。节点可以是物理机或者容器,如果用物理机就是指定M+N个机器作为节点,如果是容器则需要启动M+N个容器。
(2)获取所有节点的HOST:PORT(HOST表示能够同其他机器互相访问的本地计算机,PORT是指接口)。如果节点是物理机,可以用物理机IP,如果节点是容器,需要用容器IP,这里需要保证所有的IP之间网络是互通的。即所有的网络元组:Role-A,1,H1:Pa…Role-A,m,Hm:Pa…Role-B,1,H1:Pb…Role-B,n,Hn:Pb
(3)生成节点启动命令。一般来说,分布式机器学习任务比单机任务在启动命令上的最主要的不同在于启动命令需要加上网络元组信息。例如:Role-A的所有网络元组是RoleAHosts=[H1:Pa,…,Hm:Pa];Role-B的所有网络元组RoleBHosts=[H1:Pb,…,Hn:Pb],每个节点在执行具体的启动命令时,一般通过带上RoleAHosts和RoleBHosts作为参数传入,例如节点Role-A,1启动命令:start_script--roleA_hosts=RoleAHosts--roleB_hosts=RoleBHosts。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811482001.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种室分小区故障定位方法及装置
- 下一篇:一种像素电路、显示装置和驱动方法