[发明专利]一种48位混合精度矩阵向量乘法实现方法及装置在审
申请号: | 202310256795.1 | 申请日: | 2023-03-16 |
公开(公告)号: | CN116304513A | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 姜浩;黄春;唐滔;鲁轻风;陈磊;于恒彪;沈洁;彭林;漆海俊 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F17/16 | 分类号: | G06F17/16;G06F9/30;G06F9/315 |
代理公司: | 湖南兆弘专利事务所(普通合伙) 43008 | 代理人: | 谭武艺 |
地址: | 410073 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 48 混合 精度 矩阵 向量 乘法 实现 方法 装置 | ||
本发明公开了一种48位混合精度矩阵向量乘法实现方法及装置,本发明方法包括:针对48位混合精度矩阵向量乘法y=αAx+βy,从内存空间取出64位双精度类型的矩阵A中的元素asubgt;ij/subgt;,将各元素asubgt;ij/subgt;强制转换为48位的元素asubgt;ij/subgt;并组成双精度类型的矩阵A′;将矩阵A′暂存到CPU中的向量寄存器中,通过CPU中的运算部件基于矩阵A′计算得到48位混合精度矩阵向量乘法y=aAx+βy的计算结果。本发明能够在带宽受限时利用混合精度的优势提高数据的传输效率,能够达到解决带宽受限问题的目的,实现矩阵向量乘法运算的加速。
技术领域
本发明涉及微处理器的数据处理加速技术领域,具体涉及一种48位混合精度矩阵向量乘法实现方法及装置。
背景技术
现如今,人工智能、工程科学、图形图像处理等很多领域都有大型矩阵的计算,其中大型矩阵可以有数百行和数百列,尤其对高效顺利地实施矩阵乘法有非常高的要求。如何对访存密集的大型矩阵进行访存结构优化,一直是众多科研工作者关注的重点。
对浮点标量α和β,浮点向量x∈Rn,y∈Rm,以及m行n列的浮点矩阵Am×n(简称矩阵A),需要完成以下矩阵向量乘法运算:
y=αAx+βy,或y=αATx+βy,
其中,矩阵与向量的乘积Ax表现为矩阵A对一个向量x作用的结果,通过用矩阵A乘以向量x,把向量x变换为另一个向量y。其作用过程是对向量x进行旋转和缩放的综合过程,即线性变换的过程,矩阵Am×n把向量x∈Rn线性变换到y∈Rm。
根据IEEE 754标准,一个浮点数表示为:(-1)s×M×2e。其中s∈{0,1}是符号位,0表示正数,1表示负数。M=m0.m1m2…mp是有效数字,其中m0是隐藏位,规格化的数中,m0是1,p是尾数位数,m1m2…mp组成尾数部分。e是指数,也称为阶码,采用移码形式。
本申请关注双精度浮点数的运算,即64位double类型的浮点数。在双精度环境中,浮点数由1位符号位,11位阶码,52位尾数组成,考虑到隐藏位,有效数字有53位。两个double类型的浮点数a=(-1)s1×M1×2e1和b=(-1)s2×M2×2e2之间的乘积是通过把两个带偏差的指数e1和e2相加并减去一个偏差,获得乘积的新指数。然后将把两个有效位M1和M2相乘,接着根据需要进行规格化。指数的大小用来检查上溢和下溢,然后对乘积进行舍入。当舍入引起进一步的规格化时,需要再次检查指数的大小。最后如果两个数的符号位相异,就将符号位设为1,如果相同,就设为0。
一般的线性矩阵的存储方式有两种,行主序和列主序。例如,对于矩阵Am×n,aij是它的第i行第j列的元素,即:
以行主序存储的矩阵为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310256795.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于加工石材的铣磨床及其使用方法
- 下一篇:一种全自动涂胶机