[发明专利]一种人工智能处理器处理二维复数矩阵的方法和设备有效
| 申请号: | 201911349811.1 | 申请日: | 2019-12-24 |
| 公开(公告)号: | CN111028136B | 公开(公告)日: | 2023-04-07 |
| 发明(设计)人: | 请求不公布姓名 | 申请(专利权)人: | 上海寒武纪信息科技有限公司 |
| 主分类号: | G06T1/60 | 分类号: | G06T1/60;G06T1/00;G06T1/20 |
| 代理公司: | 北京维昊知识产权代理事务所(普通合伙) 11804 | 代理人: | 李波;孙新国 |
| 地址: | 201306 上海*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 人工智能 处理器 处理 二维 复数 矩阵 方法 设备 | ||
本公开记载了一种人工智能处理器处理二维复数矩阵的方法、电子设备和计算装置,其中计算装置可以包括在组合处理装置中,该组合处理装置还可以包括通用互联接口和其他处理装置。所述计算装置与其他处理装置进行交互,共同完成用户指定的计算操作。组合处理装置还可以包括存储装置,该存储装置分别与计算装置和其他处理装置连接,用于计算装置和其他处理装置的数据。
技术领域
本发明涉及数据处理领域,更具体地,涉及人工智能处理器上的矩阵运算领域。
背景技术
离散傅里叶变换和离散傅里叶逆变换在数字图像处理和计算机视觉等领域中有着很广泛的作用,这使得离散傅里叶变换的快速工程实现具有十分重要的意义。但是,随着人工智能技术的发展,对图像和视频的处理算法和性能有较高的要求,在各种应用中对计算性能要求的越来越高。
在CPU上只能进行标量的计算,随着数据规模的增加,计算时间快速增加,如果可以直接进行一组数据的计算,即张量的计算,那么计算性能可以显著提升。之前常用快速傅里叶变换进行离散傅里叶变换的计算,通常也是进行的标量的计算,虽然可以减少算法复杂度,但是执行快速傅里叶变换的计算量很大,并且和系统的性能有很大关系。在现有技术中,之所以不直接采用矩阵相乘的方法,是因为CPU和GPU都不能直接进行矩阵相乘,都是在上层开发中进行了算法设计。
当前对高分辨率图像的使用越来越频繁,除了深度学习领域中会使用较小尺寸的图片,在信号处理、图像处理和视频解析等领域,一般图像都很大,最常见的有720p,1080p,4k甚至8k和16k的图像,会出现大量对大尺度图像的傅里叶变换与逆变换运算的需求,但是参与计算的处理器,不管是CPU、GPU还是MLU,它们的片内RAM资源都是有限的,不足以缓存这样的大规模的矩阵数据。同时,由于在片内存储进行运算的速度远高于在片外存储,而且对片外存储访问进行大量的标量操作,会影响算法的性能,导致整个算法的效率很低。
发明内容
本公开的目的在于克服现有技术中无法无法对大规模二维矩阵进行处理的缺陷,提供一种能够对片外存储单元中的大型二维复数矩阵进行处理的方法。
根据本公开的第一方面,提供一种人工智能处理器处理二维复数矩阵的方法,其中,所述二维复数矩阵的尺寸为N×M;与所述二维复数矩阵对应的行系数矩阵的尺寸为M×M,与所述二维复数矩阵对应的列系数矩阵的尺寸为N×N,所述方法包括:根据人工智能处理器上的片上存储单元的第一存储区的容量以及所述二维复数矩阵的尺寸,将所述二维复数矩阵拆分为至少两个子复数矩阵,所述子复数矩阵的尺寸为n×m,且所述子复数矩阵的所有元素均能够存放在所述第一存储区内;将所述子复数矩阵加载至所述人工智能处理器的片上存储单元的第一存储区中;根据所述子复数矩阵的尺寸,将所述行系数矩阵拆分为至少两个子行系数矩阵,以及将所述列系数矩阵拆分为至少两个子列系数矩阵,其中,所述子行系数矩阵的尺寸为m×m,所述子列系数矩阵的尺寸为n×n;将所述子行系数矩阵加载至所述人工智能处理器的片上存储单元的第二存储区中;将所述子列系数矩阵加载至所述人工智能处理器的片上存储单元的第三存储区中;所述人工智能处理器利用所述片上存储单元中的子复数矩阵、子行系数矩阵和子列系数矩阵来进行傅里叶变换,以得到运算结果;以及所述人工智能处理器将所述运算结果传送至所述片外存储单元以进行存储。。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海寒武纪信息科技有限公司,未经上海寒武纪信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911349811.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:出风框结构及具有其的空调室内机
- 下一篇:一种便于卸料的轨道运输装置





