[发明专利]稀疏注意力神经网络在审

申请号：	202210116524.1	申请日：	2022-02-07
公开（公告）号：	CN114492759A	公开（公告）日：	2022-05-13
发明（设计）人：	阿坎克沙·乔杜里;阿夫罗兹·莫希丁;亨里克·米查列夫斯基;约尼·米卡·卡内尔瓦;卢卡斯·米奇斯瓦夫·凯泽;塞巴斯蒂安·达留什·雅什丘尔;沃伊切赫·加耶夫斯基	申请（专利权）人：	谷歌有限责任公司
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/08;G06N20/00
代理公司：	中原信达知识产权代理有限责任公司 11219	代理人：	周亚荣;邓聪惠
地址：	美国加利***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	稀疏注意力神经网络
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开涉及稀疏注意力神经网络的方法、系统和装置，其包括在计算机存储介质上编码的计算机程序，用于对网络输入执行机器学习任务以生成网络输出。在一个方面中，这些系统之一包括被配置成执行机器学习任务的神经网络，该神经网络包括一个或多个稀疏注意力层。

技术领域

本说明书涉及使用神经网络来对网络输入执行机器学习任务。

背景技术

神经网络是采用一层或多层非线性单元来针对接收到的输入预测输出的机器学习模型。一些神经网络除了包括输出层之外还包括一个或多个隐藏层。每个隐藏层的输出被用作网络中的下一层即下一隐藏层或输出层的输入。网络的每个层依照相应参数集的当前值从接收到的输入生成输出。

发明内容

本说明书描述一种作为计算机程序实现在一个或多个位置中的一个或多个计算机上的系统，该系统使用包括注意力(attention)层的注意力神经网络来对网络输入执行机器学习任务，这些注意力层中的至少一个是稀疏注意力层。

稀疏注意力层是在处理该层的任何给定输入时仅使用该层的权重的一小部分例如不到一半的注意力层。

所描述的稀疏注意力层通过减少从存储器访问层权重以便通过神经网络处理输入所需要的时间来减少神经网络的解码时延，即，因为不需要从存储器访问未在使用的层权重。因此，如在下面更详细地描述的，这些技术允许高性能注意力神经网络，即在质量上与包括常规而不是稀疏注意力层的注意力神经网络相当的注意力神经网络，其被部署在具有受限存储器空间的设备上或在需要低解码时延的设备上，例如，在诸如移动设备、智能扬声器或其他物联网(IoT)设备的边缘设备上或者与机器人或其他物理系统一起嵌入。

能够实现本说明书中描述的主题的特定实施例以便实现以下优点中的一个或多个。

大型基于注意力的神经网络，例如具有Transformer架构的神经网络，在许多机器学习任务上产生给人深刻印象的结果。然而，这些大型模型难以训练，并且即使当被成功地训练时，也消耗大量计算资源并且可能消耗专用硬件上的大量周期。此外，在解码时，即当被部署用于生产目的以在被训练之后执行推理时，这些大型模型非常慢并且在产生输出时导致显著时延，即使当被部署在专用硬件上时也如此。所描述的技术以不会显著地使由这些模型产生的输出的质量降级的方式对此类模型中的注意力块的各种组件强加稀疏。特别地，通过强加稀疏，解码变得比标准Transformer快几个数目级，然而性能在各种任务中的任一个上与标准Transformer的性能匹配。

本说明书还描述了对Transformer的架构的要从解码器中移除交叉注意力的修改，当与所描述的稀疏技术组合时，这产生在甚至非常长的序列上实现高质量性能的神经网络，同时相对于常规方法大大减少计算资源消耗和时延。

在以下附图和描述中阐述本说明书的主题的一个或多个实施例的细节。主题的其他特征、方面和优点将从描述、附图和权利要求中变得显而易见。

附图说明

图1示出示例神经网络系统。

图2示出稀疏前馈子层的操作。

图3示出稀疏注意力子层的操作。

图4A是用于使用稀疏注意力子层来处理输入的示例过程的流程图。

图4B是用于使用稀疏前馈子层来处理输入的示例过程的流程图。

图5示出不包括任何交叉注意力子层的示例解码器的示例。

在各个附图中相似的附图标记和名称指示相似的元件。

具体实施方式

本说明书描述一种作为计算机程序实现在一个或多个位置中的一个或多个计算机上的系统，该系统对网络输入执行机器学习任务以针对该机器学习任务生成网络输出。