[发明专利]用于机器学习的硬件实现的点对点通信原语在审
| 申请号: | 201810419238.6 | 申请日: | 2018-05-04 |
| 公开(公告)号: | CN108805795A | 公开(公告)日: | 2018-11-13 |
| 发明(设计)人: | S·斯瑞哈兰;K·维迪雅纳坦;D·达斯 | 申请(专利权)人: | 英特尔公司 |
| 主分类号: | G06T1/20 | 分类号: | G06T1/20;G06N3/04 |
| 代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 刘瑜;王英 |
| 地址: | 美国加*** | 国省代码: | 美国;US |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 机器学习 组指令 可训练 结构接口 工作流 通用处理器核心 原语 关联 点对点通信 图形处理器 存储器 传输 分发数据 计算操作 神经网络 硬件实现 存储 通信 | ||
1.一种用于计算并且分发数据以用于神经网络的分布式训练的系统,所述系统包括:
第一存储器,其存储包括机器学习框架的第一组指令;
结构接口,其实现与一组可训练机器学习参数相关联的数据的传输和接收;
第一组通用处理器核心,其执行所述第一组指令,所述第一组指令提供训练工作流以用于针对所述可训练机器学习参数的梯度的计算并且与第二组指令通信,所述第二组指令有利于经由所述结构接口来传输和接收所述梯度;以及
图形处理器,其执行与所述训练工作流相关联的计算操作以生成针对所述可训练机器学习参数的所述梯度。
2.如权利要求1所述的系统,所述第二组指令包括一组点对点通信原语以经由所述结构接口来执行一组预定义的通信操作。
3.如权利要求2所述的系统,所述结构接口包括用于加速所述预定义的通信操作的至少一部分或所述点对点原语的至少子集的硬件。
4.如权利要求3所述的系统,所述预定义的通信操作包括存储与通知操作和远程过程调用。
5.如权利要求3所述的系统,所述预定义的通信操作另外包括远程原子存储器操作。
6.如权利要求3所述的系统,所述预定义的通信操作另外包括加载与聚集列表和存储与分散列表。
7.如权利要求3所述的系统,所述结构接口与被配置用于所述神经网络的分布式训练的多个计算节点通信地耦合,所述计算节点中的至少两个经由所述结构接口被间接地连接,其中,所述结构接口在间接连接的计算节点之间对消息进行路由。
8.如权利要求7所述的系统,所述结构接口基于与所述消息相关联的目标存储器地址来在所述间接连接的计算节点之间对所述消息进行路由。
9.如权利要求1所述的系统,另外包括与所述图形处理器耦合的第二存储器,所述第二存储器存储针对所述可训练机器学习参数的所述梯度。
10.如权利要求9所述的系统,所述结构接口具有映射到所述第二存储器的至少一部分的虚拟地址空间。
11.如权利要求10所述的系统,其中,所述第二存储器是在所述结构接口和所述图形处理器之间共享的物理存储器。
12.如权利要求11所述的系统,所述图形处理器将所述梯度存储到所述第二存储器,并且所述结构接口发送来自所述第二存储器的所述梯度。
13.一种图形处理单元,包括:
计算块,其包括一个或多个处理集群,所述一个或多个处理集群执行与机器学习框架工作流相关联的计算操作,所述计算操作生成与神经网络的可训练参数相关联的梯度数据;
存储器设备,其存储在所述神经网络的分布式训练期间的梯度数据;以及
结构接口,其与所述存储器设备耦合,所述结构接口发送存储在所述存储器设备中的梯度数据,其中,所述存储器设备是与所述计算块共享的物理存储器设备。
14.如权利要求13所述的图形处理单元,所述结构接口包括高速缓存,所述高速缓存在所述梯度数据的传输之前或在所述梯度数据的接收之后存储梯度数据。
15.如权利要求13所述的图形处理单元,其中,所述结构接口具有映射到所述存储器设备的至少一部分的地址空间。
16.如权利要求15所述的图形处理单元,其中,所述计算块和所述结构接口具有统一地址空间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810419238.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:乘法-累加"0"数据门控
- 下一篇:用于整数深度学习原语的动态精度管理





