[发明专利]用于执行基于模型并行的分布式推理的方法、设备和介质在审
| 申请号: | 202011175065.1 | 申请日: | 2020-10-28 |
| 公开(公告)号: | CN114416863A | 公开(公告)日: | 2022-04-29 |
| 发明(设计)人: | 潘碧莹;张笛;崔思静;牛思杰;庞涛 | 申请(专利权)人: | 中国电信股份有限公司 |
| 主分类号: | G06F16/27 | 分类号: | G06F16/27;G06N5/04 |
| 代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 鲍进 |
| 地址: | 100033 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 执行 基于 模型 并行 分布式 推理 方法 设备 介质 | ||
本公开涉及用于执行基于模型并行的分布式推理的方法、设备和介质。在移动终端处执行基于模型并行的分布式推理的方法包括:下载并运行根据当前应用模型构建的回归模型,所述回归模型用来预测当前应用模型的层间输出数据的数量和将层间输出数据上传给云服务器所需的网络传输速率、当前应用模型的层间推理时间和功耗;确定移动终端的当前电量是否低于阈值电量;基于所述确定的结果计算当前应用模型的退出点;以及将计算出的退出点传输给所述云服务器;其中,在所述退出点处所述移动终端停止所述当前应用模型的推理并且把所获得的层间输出数据推送到所述云服务器以供所述云服务器执行所述当前应用模型的剩余部分的推理。
技术领域
本公开总体上涉及人工智能领域,更具体地涉及用于执行基于模型并行的分布式推理的方法、设备和介质。
背景技术
模型并行(model parallelism)在分布式技术中被广泛使用,本文所把模型并行方法应用在深度神经网络在移动终端进行推断计算。目前,移动终端上的人工智能(AI,Artificial Intelligence)应用主要是基于深度神经网络,深度神经网络推断计算会给移动终端带来计算负担和时延。这种情况下可以使用模型并行,从而将模型的不同层部署到不同设备上,比如把深度网络的不同层部署到不同硬件计算单元,彼此通信来实现一个流水线。在基于模型并行的处理中,前一次的输出数据被输入到下一层作为输入数据,在最后一层结束全部处理,并返回结果。
近年来,基于AI/ML(Machine Learning,机器学习)模型的移动应用程序的计算资源、内存消耗和功耗越来越高。然而,受到硬件资源限制的移动终端已经不能满足支持这么大的计算量的延迟和功耗。但如果将AI/ML模型推理从移动终端卸载到云端进行处理,可能会暴露用户的隐私数据或受到无法满足对实时性要求高的应用需求。
因此,在现有技术中存在对于能够在移动终端和边缘/云服务器之间分布式执行模型推理的技术的需求。
发明内容
在下文中给出了关于本公开的简要概述,以便提供关于本公开的一些方面的基本理解。但是,应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图用来确定本公开的关键性部分或重要部分,也不是意图用来限定本公开的范围。其目的仅仅是以简化的形式给出关于本公开的某些概念,以此作为稍后给出的更详细描述的前序。
本专利提出了一种基于模型并行的终端-边缘/云服务器的分布式协同推理方案,解决纯云端或终端AI/ML模型推理计算所带来的问题,如:
①终端侧算力受限、功耗消耗过大、推理时间过长;
②卸载到云端可能会导致用户数据暴露的安全问题和不能满足实时性要求高的应用需求。
本发明人提出的终端侧决策引擎实时计算AI/ML模型的每一帧的最佳退出点,根据实时环境因素(诸如模型计算量、移动终端算力、移动终端能耗、网络环境、应用时延要求等)将AI/ML模型拆分成两部分,移动终端将进行第一部分的模型推理,边缘/云服务将进行剩余部分模型推理,从而优化端到端的延迟和减轻移动终端模型推理计算的负担。
根据本公开的一个方面,提供一种在移动终端处执行基于模型并行的分布式推理的方法包括:下载并运行根据当前应用模型构建的回归模型,所述回归模型用来预测当前应用模型的层间输出数据的数量和将层间输出数据上传给云服务器所需的网络传输速率、当前应用模型的层间推理时间和功耗;确定移动终端的当前电量是否低于阈值电量;基于所述确定的结果计算当前应用模型的退出点,所述计算包括:如果移动终端的当前电量低于阈值电量,则基于移动终端的最低计算功耗为当前应用模型的下一帧计算退出点,并且如果移动终端的当前电量大于阈值电量,则根据当前应用模型的时延要求、由所述回归模型预测的所需的网络传输速率、层间输出数据的数量和层间推理时间及能耗中的一个或多个,为当前应用模型的下一帧计算退出点;以及将计算出的退出点传输给所述云服务器;其中,在所述退出点处所述移动终端停止所述当前应用模型的推理并且把所获得的层间输出数据推送到所述云服务器以供所述云服务器执行所述当前应用模型的剩余部分的推理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电信股份有限公司,未经中国电信股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011175065.1/2.html,转载请声明来源钻瓜专利网。





