[发明专利]使用层间存储器布局变换的高吞吐量神经网络操作在审
| 申请号: | 202080030834.0 | 申请日: | 2020-05-07 |
| 公开(公告)号: | CN113826118A | 公开(公告)日: | 2021-12-21 |
| 发明(设计)人: | 阿卜杜勒卡迪尔·乌特库·迪里尔;克里希纳库马尔·奈尔;伊赫桑·基什阿德斯坦尼扎德;蒂瓦特萨·穆迪盖雷;奥利维亚·吴;郝宇辰 | 申请(专利权)人: | 脸谱公司 |
| 主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
| 代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 陆建萍;杨明钊 |
| 地址: | 美国加利*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 使用 存储器 布局 变换 吞吐量 神经网络 操作 | ||
1.一种微处理器,包括:
共享存储器;以及
处理元件,其包括:
矩阵处理器单元,其被配置为执行矩阵运算;
转置硬件单元,其被配置为执行矩阵转置运算;
分散硬件单元,其被配置为将数据放置到所述共享存储器中为输出数据布局转换选择的位置;和
收集硬件单元,其被配置为从所述共享存储器的非连续位置获得输入数据用于输入数据布局转换。
2.根据权利要求1所述的微处理器,其中所述转置硬件单元、所述分散硬件单元和所述收集硬件单元是被配置为至少部分并行操作的不同单元。
3.根据权利要求2所述的微处理器,其中所述转置硬件单元、所述分散硬件单元和所述收集硬件单元的操作被配置为被调度为并行执行。
4.根据权利要求2所述的微处理器,其中所述转置硬件单元、所述分散硬件单元和所述收集硬件单元被配置用于流水线操作。
5.根据权利要求1所述的微处理器,其中由所述分散硬件单元放置的数据包括所述矩阵处理器单元的结果数据的至少一部分。
6.根据权利要求1所述的微处理器,其中所述矩阵处理器单元被配置为处理由所述收集硬件单元获得的输入数据。
7.根据权利要求1所述的微处理器,其中执行所述输出数据布局转换包括将第一神经网络层的输出数据布局格式转换为第二神经网络层的不同输入数据布局格式。
8.根据权利要求1所述的微处理器,其中执行所述输出数据布局转换包括将与第一神经网络层的矩阵处理器结果相关联的第一数据布局格式转换为与第二神经网络层相关联的第二数据布局格式,其中所述第一数据布局格式和所述第二数据布局格式不同。
9.根据权利要求8所述的微处理器,其中所述第一数据布局格式的内部维度对应于所述第二数据布局格式的外部维度之一。
10.根据权利要求1所述的微处理器,其中执行所述输入数据布局转换包括将第一神经网络层的输出数据布局格式转换为第二神经网络层的不同输入数据布局格式。
11.根据权利要求1所述的微处理器,其中执行所述输入数据布局转换包括将与第一神经网络层相关联的第一数据布局格式转换为与第二神经网络层相关联的第二数据布局格式,其中所述第一数据布局格式和所述第二数据布局格式不同,并且其中所述第一数据布局格式是输出数据布局格式,并且所述第二数据布局格式是输入数据布局格式。
12.根据权利要求1所述的微处理器,其中所述矩阵处理器单元是点积引擎。
13.根据权利要求1所述的微处理器,其中所述转置硬件单元、所述分散硬件单元和所述收集硬件单元均被配置为以至少满足所述矩阵处理器单元的最大吞吐量的吞吐量进行操作。
14.根据权利要求1所述的微处理器,其中所述收集硬件单元被配置为从所述共享存储器获得所述输入数据,包括通过被配置为执行高速缓存行块读取。
15.根据权利要求1所述的微处理器,其中所述矩阵运算是逐深度卷积或三维卷积。
16.根据权利要求1所述的微处理器,其中为所述输出数据布局转换选择的位置是使用分散操作原语的参数来指定的。
17.根据权利要求1所述的微处理器,其中使用收集操作原语的参数来指定用于所述输入数据布局转换的非连续位置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于脸谱公司,未经脸谱公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080030834.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:车辆及其停车设备
- 下一篇:用于涂层的可固化聚(聚苯醚)低聚物组合物





