[发明专利]一种48位混合精度矩阵向量乘法实现方法及装置在审

专利信息
申请号: 202310256795.1 申请日: 2023-03-16
公开(公告)号: CN116304513A 公开(公告)日: 2023-06-23
发明(设计)人: 姜浩;黄春;唐滔;鲁轻风;陈磊;于恒彪;沈洁;彭林;漆海俊 申请(专利权)人: 中国人民解放军国防科技大学
主分类号: G06F17/16 分类号: G06F17/16;G06F9/30;G06F9/315
代理公司: 湖南兆弘专利事务所(普通合伙) 43008 代理人: 谭武艺
地址: 410073 湖南*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 48 混合 精度 矩阵 向量 乘法 实现 方法 装置
【说明书】:

发明公开了一种48位混合精度矩阵向量乘法实现方法及装置,本发明方法包括:针对48位混合精度矩阵向量乘法y=αAx+βy,从内存空间取出64位双精度类型的矩阵A中的元素asubgt;ij/subgt;,将各元素asubgt;ij/subgt;强制转换为48位的元素asubgt;ij/subgt;并组成双精度类型的矩阵A′;将矩阵A′暂存到CPU中的向量寄存器中,通过CPU中的运算部件基于矩阵A′计算得到48位混合精度矩阵向量乘法y=aAx+βy的计算结果。本发明能够在带宽受限时利用混合精度的优势提高数据的传输效率,能够达到解决带宽受限问题的目的,实现矩阵向量乘法运算的加速。

技术领域

本发明涉及微处理器的数据处理加速技术领域,具体涉及一种48位混合精度矩阵向量乘法实现方法及装置。

背景技术

现如今,人工智能、工程科学、图形图像处理等很多领域都有大型矩阵的计算,其中大型矩阵可以有数百行和数百列,尤其对高效顺利地实施矩阵乘法有非常高的要求。如何对访存密集的大型矩阵进行访存结构优化,一直是众多科研工作者关注的重点。

对浮点标量α和β,浮点向量x∈Rn,y∈Rm,以及m行n列的浮点矩阵Am×n(简称矩阵A),需要完成以下矩阵向量乘法运算:

y=αAx+βy,或y=αATx+βy,

其中,矩阵与向量的乘积Ax表现为矩阵A对一个向量x作用的结果,通过用矩阵A乘以向量x,把向量x变换为另一个向量y。其作用过程是对向量x进行旋转和缩放的综合过程,即线性变换的过程,矩阵Am×n把向量x∈Rn线性变换到y∈Rm

根据IEEE 754标准,一个浮点数表示为:(-1)s×M×2e。其中s∈{0,1}是符号位,0表示正数,1表示负数。M=m0.m1m2…mp是有效数字,其中m0是隐藏位,规格化的数中,m0是1,p是尾数位数,m1m2…mp组成尾数部分。e是指数,也称为阶码,采用移码形式。

本申请关注双精度浮点数的运算,即64位double类型的浮点数。在双精度环境中,浮点数由1位符号位,11位阶码,52位尾数组成,考虑到隐藏位,有效数字有53位。两个double类型的浮点数a=(-1)s1×M1×2e1和b=(-1)s2×M2×2e2之间的乘积是通过把两个带偏差的指数e1和e2相加并减去一个偏差,获得乘积的新指数。然后将把两个有效位M1和M2相乘,接着根据需要进行规格化。指数的大小用来检查上溢和下溢,然后对乘积进行舍入。当舍入引起进一步的规格化时,需要再次检查指数的大小。最后如果两个数的符号位相异,就将符号位设为1,如果相同,就设为0。

一般的线性矩阵的存储方式有两种,行主序和列主序。例如,对于矩阵Am×n,aij是它的第i行第j列的元素,即:

以行主序存储的矩阵为:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310256795.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top