[发明专利]子单元、MAC阵列、位宽可重构的模数混合存内计算模组在审
| 申请号: | 202010382467.2 | 申请日: | 2020-05-08 |
| 公开(公告)号: | CN113627601A | 公开(公告)日: | 2021-11-09 |
| 发明(设计)人: | 杨闵昊;刘洪杰;阿隆索·莫尔加多;尼尔·韦伯;克里斯蒂安·恩茨 | 申请(专利权)人: | 深圳市九天睿芯科技有限公司 |
| 主分类号: | G06N3/063 | 分类号: | G06N3/063;G06N3/04;G06N3/08 |
| 代理公司: | 深圳国新南方知识产权代理有限公司 44374 | 代理人: | 周雷 |
| 地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 单元 mac 阵列 位宽可重构 混合 计算 模组 | ||
本发明涉及一种模数混合存内计算的子单元,用于1位乘法计算,仅需要9个晶体管,在此基础上,提出多个子单元共用计算电容器、晶体管以组成1个计算单元,使得平均下来子单元的晶体管数量逼近6个,进而提出一种MAC阵列,用于乘加计算,包含多个计算单元,每个单元内的子单元以时分复用的方式被激活。进一步地,提出MAC阵列的差分体系,提高计算的容错能力。进一步地,提出一种用于内存内模数混合运算模组,对MAC阵列的并行模拟输出数字化并进行其它数字域的运算。所述运算模组中的模数转换模块充分利用MAC阵列的电容器,既能减少运算模组的面积,又能降低运算误差。进一步地,提出一种充分利用数据稀疏性来节省模数转换模块能耗的方法。
技术领域
本发明涉及一种模数混合存内计算领域,并且更具体地,涉及一种子单元、MAC阵列、位宽可重构的模数混合存内计算模组。
背景技术
目前,现有移动和物联网之类的新兴边缘应用要求高能效和高单位面积的运算速率。高能效意味着更长的电池寿命,而高单位面积的运算速率意味着在指定的运算速率下减小面积,进而降低成本。如今,深度神经网络(Deep Neural Network,DNN)中的前馈推理计算以乘法累加(Multiply-And-Accumulate,MAC)计算为主导,需要MAC计算的高能效和低面积的实现,同时减少待处理数据的搬运量。传统数字集成电路实现MAC有抗噪声能力强、精度高、扩展性好、设计方法成熟等优点,但是数字电路占用的芯片面积大,功耗大,难以实现高能效的大规模神经网络。并且传统数字电路采用的冯诺依曼结构带来的存储器和中央运算单元之间的数据交换瓶颈在DNN应用中的大规模数据搬运下会严重限制运算能效和运算速度。模拟电路实现MAC具有结构简单、功耗较低的优点,所以模拟和模数混合信号计算具有实现高能效的潜力。而为了打破冯诺依曼架构的瓶颈,近年来成为研究热点的存内计算从本质上无法以纯数字电路的形式实现,需要模拟电路的辅助。同时由于DNN对包括电路噪声造成的计算错误的承受能力较高,DNN专用集成电路(ASIC)正重新引起关注。
论文“Amixed-signal binarized convolutional-neural-network acceleratorintegrating dense weight storage and multiplication for reduced datamovement”,DOI:10.1109/VLSIC.2018.8502421(以下称“论文1”)和论文“AMicroprocessorimplemented in65nm CMOS with configurable and bit-scalableaccelerator for programmable in-memory computing”,arXiv:1811.04047(以下称“论文2”),阐述1位MAC计算的乘法阶段是等效于1位权重和1位输入进行同或(XNOR)运算,把XNOR运算结果以电压的形式存储到电容器,加法阶段是利用电荷共享,每个电容器的电荷相同但所有电容器的总电荷不变,得出1位MAC计算结果。上述1位MAC计算的每个1位计算单元都有10个晶体管。论文1和论文2的现有技术存在的问题为:(1)对于每个加法操作,将无条件驱动每个计算单元中的传输门,而无法利用输入数据的稀疏性达到节省能耗的目的;(2)每一个进行1位乘法的运算单元配置一个独立电容器,逐次逼近型(SuccessiveApproximation,SAR)模拟数字转换器(Analog to Digital Converter,ADC)的金属氧化物金属(Metal Oxide Metal,MOM)电容器位于静态随机存储器(Static Random AccessMemory,SRAM)计算阵列之外,因为该阵列内部没有空间,从而降低了面积效率;(3)利用电荷共享的加法阶段需要连接存储XNOR运算结果的电容器的顶板。这种电路拓扑使加法容易受到非理想效应的影响,例如电荷注入,时钟馈通,传输门晶体管的漏极或源极处的非线性寄生电容,以及连接到电容器顶板的晶体管的漏电等,从而导致计算错误。此外,因为物理版图的不匹配而带来的运算电容器与ADC中的数模转换器里的电容器之间的不匹配也会导致计算错误。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市九天睿芯科技有限公司,未经深圳市九天睿芯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010382467.2/2.html,转载请声明来源钻瓜专利网。





