[发明专利]操作方法和电子装置在审
申请号: | 202110481068.6 | 申请日: | 2021-04-30 |
公开(公告)号: | CN114239794A | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 辛桑奎;李永植 | 申请(专利权)人: | 三星电子株式会社 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/063;G06N3/08 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 黄晓燕;张川绪 |
地址: | 韩国京畿*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 操作方法 电子 装置 | ||
公开了一种操作方法和电子装置。所述操作方法包括:将要在加速器中执行的模型划分为多个级;针对所述多个级中的每个级,确定在加速器的片上存储器中能够处理的最大批大小;将确定的最大批大小确定为将应用于模型的候选批大小,以及将确定的候选批大小之中的使在加速器中执行模型的计算成本与存储器访问成本之和最小化的候选批大小确定为将应用于模型的最终批大小。
本申请要求于2020年9月9日提交到韩国知识产权局的第10-2020-0115565号韩国专利申请的权益,所述韩国专利申请的全部公开出于所有目的通过引用包含于此。
技术领域
下面的描述涉及主处理器和加速器的操作方法以及包括主处理器和加速器的电子装置。
背景技术
在基于神经网络的推断服务中,用于处理多个批(batch)而不是处理单个批的技术可能无法实现有效的低时延。此外,随着神经网络所需的存储器容量和带宽逐渐增加,当前技术可能无法以有限的资源有效且快速地处理多个批。
发明内容
提供本发明内容以便以简化的形式介绍将在下面的具体实施方式中进一步描述的构思的选择。本发明内容不意在确定要求权利的主题的关键特征或必要特征,也不意在用于帮助确定要求权利的主题的范围。
在一个总体方面,一种操作方法包括:将要在加速器中执行的模型划分为多个级,针对所述多个级中的每个级,确定在加速器的片上存储器中能够处理的最大批大小,将确定的最大批大小确定为将应用于模型的候选批大小,以及将确定的候选批大小之中的使在加速器中执行模型的计算成本与存储器访问成本之和最小化的候选批大小确定为将应用于模型的最终批大小。
存储器访问成本可基于模型的权重的存储器访问成本、模型的中间特征图的存储器访问成本、模型的总的批大小、将从其计算存储器访问成本的候选批大小、以及加速器的片外存储器的带宽来确定。
存储器访问成本可以是用于访问加速器的片外存储器的成本。
可在所述多个级之中的具有小于将从其计算存储器访问成本的候选批大小的最大批大小的级中,发生中间特征图的存储器访问成本。
中间特征图的存储器访问成本可基于在所述级中发生的中间特征图的一次性存储器访问成本、将从其计算存储器访问成本的候选批大小、以及针对所述级确定的最大批大小来确定。
权重的存储器访问成本可以是将应用于模型的权重的一次性存储器访问成本。
计算成本可基于加速器处理所述多个级中的每个级所使用的计算时间、将从其计算计算成本的候选批大小、模型的总的批大小以及将从其计算存储器访问成本的候选批大小来确定。
计算成本可基于在处理模型的总的批大小时由模型执行的迭代次数以及每个任务处理候选批大小所使用的净计算时间的总和来确定。
针对所述多个级中的每个级确定最大批大小的步骤可包括:基于每个级的权重的大小、输入特征图、输出特征图、以及片上存储器的大小来确定最大批大小。
划分的步骤可包括:基于以下中的任一个将模型划分为所述多个级:包括在加速器中的处理元件一次能够处理的计算的单位,以及包括在模型中的层的单位。
所述方法还可包括:基于最终批大小来生成用于在加速器中执行模型的指令集。
所述方法可包括:在所述多个级中,基于指令集处理与最终批大小相关联的多个输入,最终批大小是相同地应用于所述多个级的公共批大小。
模型可以是神经网络模型,并且所述多个级中的每个级可对应于神经网络的一个或多个层。
一种非暂时性计算机可读存储介质可存储指令,所述指令在被处理器执行时,配置处理器执行所述方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三星电子株式会社,未经三星电子株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110481068.6/2.html,转载请声明来源钻瓜专利网。