[发明专利]稀疏注意力神经网络在审
申请号: | 202210116524.1 | 申请日: | 2022-02-07 |
公开(公告)号: | CN114492759A | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 阿坎克沙·乔杜里;阿夫罗兹·莫希丁;亨里克·米查列夫斯基;约尼·米卡·卡内尔瓦;卢卡斯·米奇斯瓦夫·凯泽;塞巴斯蒂安·达留什·雅什丘尔;沃伊切赫·加耶夫斯基 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06N20/00 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 周亚荣;邓聪惠 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 稀疏 注意力 神经网络 | ||
1.一种用于对网络输入执行机器学习任务以生成网络输出的系统,所述系统包括一个或多个计算机和存储指令的一个或多个存储设备,所述指令当由所述一个或多个计算机执行时,使所述一个或多个计算机实现:
注意力神经网络,所述注意力神经网络被配置成执行所述机器学习任务,所述注意力神经网络包括多个注意力层,每个注意力层包括注意力子层和前馈子层,所述注意力层被配置成:
获得所述注意力层的输入序列,所述输入序列包括一个或多个位置中的每一个位置处的相应层输入;并且
至少部分地通过对所述注意力层的所述输入序列应用一个或多个注意力机制来生成受注意输入序列,所述受注意输入序列包括所述一个或多个位置中的每一个位置处的相应受注意层输入,并且所述前馈层被配置成:
接收所述受注意输入序列;并且
从至少所述受注意输入序列生成所述注意力层的输出序列,所述输出序列包括所述一个或多个位置中的每一个位置处的相应层输出,并且所述生成包括,对于所述一个或多个位置中的每一个位置:
获得所述位置处的受注意层输入;
基于所述受注意层输入来选择被约束成具有零值的元素的真子集为中间输出,其中,所述受注意层输入的不在所述真子集中的其他元素未被约束成具有零值;
在将所述真子集中的所述元素约束成具有零值的同时通过前馈神经网络层来处理所述受注意层输入以生成所述中间输出;
对所述中间输出应用线性变换以生成变换输出;以及
从所述变换输出生成所述位置处的层输出。
2.根据权利要求1所述的系统,其中,每个位置处的所述中间输出的元素被分区成多个块,并且其中,基于所述受注意层输入来选择被约束成具有零值的元素的真子集为中间输出包括:
从所述多个块的每个块中选择相应元素;以及
对于每个块,将该块中与已被从该块中选择的所述相应元素不同的每个元素约束成具有零值。
3.根据权利要求2所述的系统,其中,选择所述真子集包括:
使用学习变换来投射所述受注意层输入以生成具有与所述中间输出相同的维数的投射层输入;以及
对于所述投射层输入的每个块,选择所述块中的任何元素当中具有最高值的元素,并且将所述中间输出中的所述对应块中与所选择的元素不同的每个元素约束成具有零值。
4.根据权利要求3所述的系统,其中,所述学习变换是低秩瓶颈稠密层。
5.根据权利要求1所述的系统,其中,在将所述真子集中的所述元素约束成具有零值的同时通过前馈神经网络层来处理所述受注意层输入以生成所述中间输出包括:
使用仅所述前馈神经网络层的权重矩阵的对应于所述中间输出的未被约束为零的元素的列来计算所述受注意层输入与所述前馈神经网络层的所述权重矩阵之间的乘积。
6.根据权利要求5所述的系统,其中,使用仅所述前馈神经网络层的权重矩阵的对应于所述中间输出的未被约束为零的元素的列来计算所述受注意层输入与所述前馈神经网络层的所述权重矩阵之间的乘积包括:
从存储器仅加载所述前馈神经网络层的所述权重矩阵的对应于所述中间输出的未被约束为零的所述元素的所述列。
7.根据权利要求1所述的系统,其中,对所述中间输出应用线性变换以生成变换输出包括:
使用仅所述线性变换的权重矩阵的对应于所述中间输出的未被约束为零的元素的行来计算所述线性变换的所述权重矩阵与所述中间输出之间的乘积。
8.根据权利要求7所述的系统,其中,使用仅所述线性变换的权重矩阵的对应于所述中间输出的未被约束为零的所述元素的行来计算所述线性变换的所述权重矩阵与所述中间输出之间的乘积包括:
从存储器仅加载所述线性变换的所述权重矩阵的对应于所述中间输出的未被约束为零的所述元素的所述行。
9.根据权利要求1所述的系统,其中,从所述变换输出生成所述层输出包括:
对所述位置处的所述变换输出应用残差连接、层归一化或这两者以生成所述输出序列中的所述层输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210116524.1/1.html,转载请声明来源钻瓜专利网。