[发明专利]具有正确舍入的浮点点积运算器在审
申请号: | 202010578649.7 | 申请日: | 2020-06-23 |
公开(公告)号: | CN112130803A | 公开(公告)日: | 2020-12-25 |
发明(设计)人: | N.布鲁尼 | 申请(专利权)人: | 卡雷公司 |
主分类号: | G06F7/485 | 分类号: | G06F7/485;G06F7/487 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 邸万奎 |
地址: | 法国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 具有 正确 浮点 运算器 | ||
本发明涉及一种用于点积计算的硬件运算器,包括多个乘法器(10),每个乘法器接收以第一精度格式(fp16)编码的浮点数格式的两个被乘数(a,b);与每个乘法器相关联的对准电路(12),被配置为基于相应被乘数的指数,将乘法的结果转换成具有足够位数(80)以覆盖乘法的整个动态范围的相应固定点数;以及多加法器(30),被配置为将乘法器提供的固定点数无损失地相加,提供固定点数的格式的和。
技术领域
本发明涉及用于在处理器内核中处理浮点数的硬件运算器,并且更具体地说,涉及用于基于通常被称为FMA的融合乘加运算器(Fused Multiply-Add operator)来计算点积的运算器。
背景技术
人工智能技术,尤其是深度学习,在大型矩阵的乘法方面要求特别高,其中大型矩阵可以有数百行和数百列。因此,专门从事混合精度矩阵乘法的硬件加速器正在出现。
大矩阵的乘法通常以块实施,即通过将矩阵分解成大小适合于计算资源的子矩阵。加速器因此被设计来有效地计算这些子矩阵的乘积。这种加速器包括能够在一个指令周期中计算表示子矩阵的行和列的向量的点积并将相应部分结果加到先前周期中累积(accumulate)的部分结果的运算器。经过多个周期后,部分结果的累积是表示完整矩阵的一行和一列的向量的点积。
这种运算器利用了FMA技术。
图1示意性地示出了传统的FMA运算器。运算器通常采用三个二进制浮点操作数,即两个乘法操作数(即被乘数a和b)以及加法操作数c。它计算项ab+c以在指定为ACC的寄存器中产生结果s。之所以这样指定寄存器,是因为它通常用于在数个周期内累积数个乘积,并在下一个周期内将寄存器的输出作为加法操作数c重新使用,如虚线所示。
在[″Modified Fused Multiply and Add for Exact Low Precision ProductAccumulation″,Nicolas Brunie,IEEE 24th Symposium on Computer Arithmetic(ARITH),July2017]的文章中,根据IEEE-754标准,被乘数a和b是半精度浮点格式,也称为“二进制16”或“fp16”。“fp16”格式的数具有一个符号位、5位指数和10+1位尾数(包括以指数编码的隐式位)。
ACC寄存器旨在以定点格式容纳乘积ab的全部动态范围。对于“fp16”格式的被乘数,80位寄存器(加上可能几个溢出位)就足够了,固定点位于寄存器的位置49。加法操作数c的格式与ACC寄存器的内容相同。
只要寄存器不溢出,这种结构就有可能获得每个运算ab+c的精确结果,并一个周期接一个周期地保持精确累积结果,从而避免在将相反符号但绝对值接近的数进行相加之后的舍入误差和精度损失。
上述文章还提出,在混合精度FMA配置中,在累积阶段结束时,将寄存器的内容转换成更高精度的格式,例如“二进制32”。然而,这样转换的数并没有涵盖“二进制32”格式的全部动态范围,因为乘积ab的指数只定义为6位而不是8位。
图2示意性地示出了将FMA结构应用于累积点积运算器,例如在美国专利申请2018/0321938中描述的。四对被乘数(a1,b1)、(a2,b2)、(a3,b3)和(a4,b4)被提供给相应乘法器。四个结果乘积p1至p4(称为部分乘积)和一个加法操作数c由加法器树同时相加。被乘数和加法操作数都是相同的浮点格式。加法的结果被归一化和舍入,以转换成初始浮点格式,使得它可以被重新用作操作数c。
为了将部分乘积和加法操作数相加,比较这些项的指数,以使这些项的尾数彼此对准。只有对应于最高指数的有效位窗口被保留用于加法和舍入,窗口对应于加法器的大小。结果,较低指数项的尾数被截断,或者一起被消除,当两个较大指数的部分乘积相互抵消时,产生较大的误差。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于卡雷公司,未经卡雷公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010578649.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:吻切拉刀
- 下一篇:照明装置以及投射型显示装置