[发明专利]基于统一后端引擎的深度学习框架与硬件设备适配方法有效
申请号: | 202111408005.4 | 申请日: | 2021-11-25 |
公开(公告)号: | CN113835695B | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 王宏升;杨非;华炜;鲍虎军 | 申请(专利权)人: | 之江实验室 |
主分类号: | G06F8/34 | 分类号: | G06F8/34;G06F8/30;G06N3/08 |
代理公司: | 北京志霖恒远知识产权代理事务所(普通合伙) 11435 | 代理人: | 奚丽萍 |
地址: | 310023 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 统一 后端 引擎 深度 学习 框架 硬件 设备 配方 | ||
本发明公开了一种基于统一后端引擎的深度学习框架与硬件设备适配方法,包括如下步骤:S1:深度学习框架添加统一后端引擎;S2:硬件设备添加统一后端引擎;S3:转换计算图,将深度学习框架编译生成的计算图转换为统一后端引擎的中间表示;S4:编译中间表示,统一后端引擎在硬件设备上编译中间表示生成可执行对象;S5:运行可执行对象,深度学习框架在硬件设备上运行可执行对象;S6:统一后端引擎的内存管理。本发明打通了深度学习框架与硬件设备,将深度学习框架源码与芯片底层软件全面对接,尽可能最大限度地释放芯片的硬件能力,为端侧AI提供强劲算力。
技术领域
本发明涉及人工智能和国产化AI芯片技术领域,特别涉及一种基于统一后端引擎的深度学习框架与硬件设备适配方法。
背景技术
我国国产化AI芯片相对于国际主流品牌仍有一定的差距。主要是国产芯片计算性能比较薄弱,适配性较差。随着国家对集成电路领域的大力支持,国内华为、百度、旷视科技等都已经开源了国产AI框架,寒武纪、天数智芯、燧原科技等都自研了多款国产AI芯片。但针对国产的适配,仍处于初步阶段,不利于国产自主可控设备的推广建设。主流深度学习框架搭建国产AI芯片,提升国产整机计算能力,面向不同智能化应用场景提供模型算法,推动国产基础平台的应用推广和发展,成为本领域亟待解决的重大课题。而实现上述目的,本领域面临一个现实性的技术难题:如何解决商用AI卡与国产深度学习框架不兼容问题。
发明内容
本发明的目的在于提供一种基于统一后端引擎的深度学习框架与硬件设备适配方法,以克服现有技术中的不足。
为实现上述目的,本发明提供如下技术方案:
本发明公开了一种基于统一后端引擎的深度学习框架与硬件设备适配方法,包括如下步骤:
S1:深度学习框架添加统一后端引擎;
S2:硬件设备添加统一后端引擎;
S3:转换计算图,将深度学习框架编译生成的计算图转换为统一后端引擎的中间表示;
S4:编译中间表示,统一后端引擎在硬件设备上编译中间表示生成可执行对象;
S5:运行可执行对象,深度学习框架在硬件设备上运行可执行对象;
S6:统一后端引擎的内存管理。
所述步骤S1包括如下子步骤:
S11:深度学习框架注册硬件设备,向深度学习框架源码里添加一个硬件设备对应的设备字段,为统一后端引擎针对的硬件创建一个设备类型的枚举类,在设备类型中增加硬件对应的设备字段;
S12:深度学习框架注册统一后端引擎,向深度学习框架添加一个统一后端引擎字段;
S13:深度学习框架添加统一后端引擎的编译器;
S14:深度学习框架注册统一后端引擎的编译器,将新添加的编译器注册到统一后端引擎中;
S15:深度学习框架添加统一后端引擎的计算图可执行对象,为统一后端引擎增加一个对应的计算图可执行对象,并实现运行接口。
所述步骤S2包括如下子步骤:
S21:硬件设备添加统一后端引擎的编译器,硬件设备添加统一后端引擎,在硬件设备对应的基础软件库中添加统一后端引擎的编译器;
S22:硬件设备注册统一后端引擎的编译器;
S23:硬件设备添加统一后端引擎的可执行对象。
所述步骤S3包括如下子步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111408005.4/2.html,转载请声明来源钻瓜专利网。