[发明专利]用于深度神经网络的计算优化机制在审
申请号: | 201811534414.7 | 申请日: | 2018-12-14 |
公开(公告)号: | CN109993277A | 公开(公告)日: | 2019-07-09 |
发明(设计)人: | A·布雷韦斯;A·凡卡特斯;G·凯斯金;J·杰拉齐;O·埃尔波尔;T·巴-昂;H·阿比迪;D·伯克;J·梅农;E·努维塔蒂;P·G·托雷霍瑟阿帕吉格达;T·T·施吕斯列尔;D·斯里瓦斯塔瓦;N·帕特尔;A·托马斯 | 申请(专利权)人: | 英特尔公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/063;G06N3/08;G06F9/38 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 张欣;黄嵩泉 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 神经网络 计算逻辑 加速神经 网络计算 处理器 优化 | ||
1.一种用于促进计算优化的装置,所述装置包括:
至少一个处理器,用于执行操作以实现神经网络;以及
计算逻辑,用于加速神经网络计算。
2.如权利要求1所述的装置,其特征在于,所述计算逻辑包括:
本地存储器,用于存储一个或多个图形表示;以及
图形处理单元(GrPU),用于加速所述图形表示的计算。
3.如权利要求2所述的装置,其特征在于,所述GrPU支持多个函数指针和线程,以加速遍历所述一个或多个图形表示。
4.如权利要求2所述的装置,其特征在于,所述计算逻辑进一步包括用于编译着色器内核的编译单元(CU)。
5.如权利要求4所述的装置,其特征在于,所述CU和所述GrPU被实现成计算经优化的着色器操作。
6.如权利要求1所述的装置,其特征在于,所述计算逻辑对所述神经网络执行非均匀量化。
7.如权利要求6所述的装置,其特征在于,执行所述非均匀量化包括向对所述神经网络的准确度具有显著影响的权重值提供较低的误差百分比。
8.如权利要求7所述的装置,其特征在于,离散点被选择成对于大绝对值数具有较低的误差百分比,并且被选择成对于小绝对值数具有较高的误差百分比。
9.如权利要求1所述的装置,其特征在于,所述计算逻辑包括计算语言(OpenCL)以加速所述神经网络上的工作负载。
10.如权利要求9所述的装置,其特征在于,所述OpenCL在所述神经网络的隐藏层之间共享权重。
11.如权利要求10所述的装置,其特征在于,所述神经网络是递归神经网络(RNN)。
12.如权利要求10所述的装置,其特征在于,所述神经网络是长短期记忆网络(LTSM)。
13.如权利要求1所述的装置,其特征在于,所述计算逻辑包括计算架构以用于激活所述神经网络中的深度学习功能。
14.如权利要求13所述的装置,其特征在于,所述计算逻辑包括:
取出级,用于接收输入值;
执行级,用于对所述输入值执行计算操作;以及
回写级,用于打包和准备要输出的结果。
15.如权利要求13所述的装置,其特征在于,所述取出级分析和标识要由快速操作计算的值和要由复杂操作计算的值。
16.如权利要求15所述的装置,其特征在于,所述执行级包括:
一个或多个简单通道,用于对所述快速操作执行计算操作;以及
一个或多个复杂通道,用于对所述复杂操作执行计算操作。
17.如权利要求16所述的装置,其特征在于,所述回写级接收来自所述一个或多个简单通道和所述一个或多个复杂通道的结果,并将所述结果放置在张量输出的布局格式中。
18.如权利要求1所述的装置,其特征在于,所述计算逻辑通过将所述输入图像裁剪成两个以上的图像批次并在所述至少一个处理器处处理所述图像批次来经由所述神经网络处理高分辨率输入图像。
19.如权利要求18所述的装置,其特征在于,所述至少一个处理器包括具有多个计算节点的分布式架构。
20.如权利要求18所述的装置,其特征在于,在所述多个计算节点处并行地处理所述两个或更多个图像批次。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811534414.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于执行人工神经网络反向训练的装置和方法
- 下一篇:机器学习环境中的有效卷积