[发明专利]作业分配方法、装置、电子设备及可读存储介质在审

申请号：	202110574633.3	申请日：	2021-05-25
公开（公告）号：	CN113190358A	公开（公告）日：	2021-07-30
发明（设计）人：	苏勇;李斌;万伟;刘耀华	申请（专利权）人：	曙光信息产业(北京)有限公司
主分类号：	G06F9/50	分类号：	G06F9/50
代理公司：	北京超凡宏宇专利代理事务所(特殊普通合伙) 11463	代理人：	唐正瑜
地址：	100000 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	作业分配方法装置电子设备可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供一种作业分配方法、装置、电子设备及可读存储介质，涉及计算机技术领域。该方法通过获取各个计算节点之间的通信延迟，然后将作业按照通信延迟由小到大的顺序依次分配给对应的计算节点，这样可以使得执行作业的计算节点之间的通信延迟尽可能是比较小的，即可有提高计算效率，提升计算集群的计算性能。

技术领域

本申请涉及计算机技术领域，具体而言，涉及一种作业分配方法、装置、电子设备及可读存储介质。

背景技术

高性能计算集群具有强大的计算能力，可向用户提供大量的计算服务，集群管理系统会根据用户的需求进行作业调度，分配计算资源，提供合适的计算服务。高性能计算集群通常具有大量计算节点，高性能互连网络负责将这些计算节点有序连接起来，提供高效的通信服务，使得各个独立的计算节点协调通信，形成一个有机整体，提供强大的计算能力和存储资源。

高性能互连网络的主要功能是实现大量计算节点间的消息传递，现有的作业分配方式是随机选择一些计算节点来执行作业，但是若这些计算节点之间的消息传递不及时，则导致计算效率较低，大大影响了高性能计算集群的计算能力。

发明内容

本申请实施例的目的在于提供一种作业分配方法、装置、电子设备及可读存储介质，用以改善现有技术中的作业分配方式导致计算效率较低，影响了高性能计算集群的计算能力。

第一方面，本申请实施例提供了一种作业分配方法，所述方法包括：获取执行目标作业所需的计算节点数；获取计算集群中的各个计算节点之间的通信延迟，所述通信延迟为根据各个计算节点之间的通信路径的链路信息确定的；按照所述通信延迟由小到大的顺序选取用于执行所述目标作业的目标计算节点，直至所选取的所述目标计算节点的数量达到所述计算节点数；将所述目标作业分配至所述目标计算节点上执行。

在上述实现过程中，通过获取各个计算节点之间的通信延迟，然后将作业按照通信延迟由小到大的顺序依次分配给对应的计算节点，这样可以使得执行作业的计算节点之间的通信延迟尽可能是比较小的，即可有提高计算效率，提升计算集群的计算性能。

可选地，通过以下方式获取各个计算节点之间的通信延迟：

获取所述计算集群所形成的网络结构中各个计算节点之间的通信路径；

解析所述通信路径上的链路信息，所述链路信息包括所述通信路径上的各个转发设备信息、相互连接的设备之间的链路类型和链路长度；

根据所述链路信息获取各个计算节点之间的通信延迟。

在上述实现过程中，通过根据各个计算节点之间的通信路径上的链路信息来获取通信延迟，如此可以考虑实际的链路部署情况，从而获得更准确的通信延迟。

可选地，所述根据所述链路信息获取各个计算节点之间的通信延迟，包括：

根据所述各个转发设备信息确定各个转发设备对应的设备转发延迟；

基于所述链路类型和所述链路长度确定各个设备之间的链路延迟；

根据所述设备转发延迟和所述链路延迟确定各个计算节点之间的通信延迟。

在上述实现过程中，根据设备转发延迟和链路延迟来确定通信延迟，这样可以将设备转发延迟也考虑进来，以获得更为准确的通信延迟，进而可以为作业选取通信延迟最小的计算节点，以提高其计算效率。

可选地，所述基于所述链路类型和所述链路长度确定各个设备之间的链路延迟，包括：