[发明专利]一种CNN推理加速系统、加速方法及介质有效
申请号: | 202011519581.1 | 申请日: | 2020-12-21 |
公开(公告)号: | CN112667289B | 公开(公告)日: | 2023-01-10 |
发明(设计)人: | 杨继林 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
主分类号: | G06F9/30 | 分类号: | G06F9/30;G06N3/063;G06N5/04 |
代理公司: | 北京权智天下知识产权代理事务所(普通合伙) 11638 | 代理人: | 王新爱 |
地址: | 215124 江苏省苏州*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 cnn 推理 加速 系统 方法 介质 | ||
本发明公开了一种CNN推理加速系统,包括指令操作模块、数据存储模块、IMC指令模块、向量指令模块和向量寄存器模块;指令操作模块存储指令,并将指令进行译码解析,将解析后的指令发送至IMC指令模块和向量指令模块;数据存储模块存储系统数据;IMC指令模块接收指令模块发送的解析后的指令,并执行图像预处理、激活处理和池化处理;向量指令模块,执行向量指令,将向量指令的执行结果写入向量寄存器模块中;向量寄存器模块存储执行向量指令的结果;本发明能够满足CNN加速的需求,并且还具有开放、模块化和可扩展的特点,此外在软件方面可以做二次开发构建完整的软件工具链,从而满足用户个性化的需求。
技术领域
本发明涉及CNN推理加速领域,特别是涉及一种CNN推理加速系统、加速方法及介质。
背景技术
GPU(Graphics Processing Unit,图形处理器)单指令流多数据流的结构对矢量运算的支持较好,可以用来加速CNN(卷积神经网络,Convolutional Neural Networks)。但是GPU并不是为实现CNN加速专门设计的,运行CNN算法的能效较低。
ASIC(Application Specific Integrated Circuit,特殊应用集成电路)是为了满足特定的要求而定制的芯片,定制的特点有助于提高性能功耗比,基于ASIC实现CNN加速相比于GPU具有明显的能效优势,但是如果设计ASIC时采用无指令的方式则会导致灵活性不足且无法利用现有的软件生态。
目前业界占据市场份额最大的指令集是x86和ARM(Advanced RISC Machines,微处理器)指令集,x86架构在桌面和服务器领域占优,而ARM架构则在移动手持领域和嵌入式领域占优,x86和ARM都是受专利保护的商业指令集,使用这些指令集需要授权,在指令集发展过程中为了向下兼容导致现在的x86和ARM指令集已经比较复杂,此外用户难以对x86和ARM指令集进行自定义扩展从而满足个性化需求。
发明内容
本发明主要解决的是现有ASIC实现CNN加速会导致灵活性不足,无法利用现有软件生态,以及x86和ARM无法进行自定义扩展的问题。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种CNN推理加速系统,包括:指令操作模块、数据存储模块、IMC指令模块、向量指令模块和向量寄存器模块;
所述指令操作模块存储指令,并将指令进行译码解析,将解析后的所述指令发送至所述IMC指令模块和所述向量指令模块;
所述数据存储模块存储系统数据;
所述IMC指令模块接收所述指令操作模块发送的解析后的所述指令,并执行图像预处理、激活处理和池化处理;
所述向量指令模块接收所述指令操作模块发送的解析后的所述指令,并执行向量指令,将所述向量指令的执行结果写入所述向量寄存器模块中;
所述向量寄存器模块存储所述执行向量指令的结果。
进一步,所述指令操作模块包括指令存储模块、取指令模块、译码模块和指令派遣模块;
所述指令存储模块存储所述指令;所述取指令模块从所述指令存储模块中读取所述指令,并发送给所述译码模块;所述译码模块接收所述取指令模块发送的所述指令,并将所述指令解析;所述指令派遣模块将解析后的所述指令发送至所述IMC指令模块和所述向量指令模块;
所述取指令模块包括地址生成模块和接口协议转换模块;所述地址生成模块生成所述指令的访问地址;所述接口协议转换模块将地址生成模块中接口进行转换并通过转换后的所述接口连接所述指令存储模块。
进一步,所述向量指令模块包括向量指令执行模块和向量指令回写模块;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011519581.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种清理口香糖的环保装置
- 下一篇:一种基于网格与包围盒的碰撞检测方法