[发明专利]用于神经网络的注意力特征获取方法、装置及存储介质有效
申请号: | 201811459423.4 | 申请日: | 2018-11-30 |
公开(公告)号: | CN109635926B | 公开(公告)日: | 2021-11-05 |
发明(设计)人: | 沈卓然;张明远;赵海宇;伊帅;闫俊杰 | 申请(专利权)人: | 深圳市商汤科技有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 北京林达刘知识产权代理事务所(普通合伙) 11277 | 代理人: | 刘新宇 |
地址: | 518054 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 神经网络 注意力 特征 获取 方法 装置 存储 介质 | ||
本公开涉及一种用于神经网络的注意力特征获取方法、装置及存储介质,其中所述方法包括:对输入特征张量进行第一卷积处理,获得多个基准注意力张量;对所述输入特征张量进行第二卷积处理,获得注意力系数张量;基于所述输入特征张量与各所述基准注意力张量,获得与各基准注意力张量对应的基准特征向量,所述基准特征向量由所述输入特征张量和所述基准注意力张量中对应元素的乘积之和构成;利用所述注意力系数张量与基准特征向量,得到各特征点的注意力特征。本公开实施例能够将降低消耗的计算和存储资源。
技术领域
本公开涉及神经网络领域,特别涉及一种用于神经网络的注意力特征获取方法、装置及存储介质。
背景技术
神经网络是一种令计算机系统自行学习解决具体任务的技术。有神经网络模块主要包括卷积模块、循环模块、全连接模块、注意力模块等。其中,卷积模块和循环模块主要用于学习局部相关性,而全连接模块和注意力模块用于学习全局相关性。
在学习全局相关性时,注意力模块的计算和记忆资源消耗均正比于输入大小的平方,因此由于资源限制无法应用于较大输入。值得注意的是,这里的输入大小衡量的是输入中基本单元的数量。例如,全连接和注意力模块的资源消耗,对于文本、语音、强化学习和机器人已编码的过往经验等输入,正比于输入长度的平方;对于图片输入,正比于图片大小的平方,即图片边长的四次方;对于视频、强化学习和机器人未编码的过往经验等输入,正比于其体积的平方,即边长的六次方。
因此,现有技术的神经网络存在由于资源限制不能应用于较大输入的技术问题。
发明内容
本公开实施例提供了一种能够将降低消耗的计算和存储资源的用于神经网络的注意力特征获取方法、装置及存储介质
根据本公开的一方面,提供了一种用于神经网络的注意力特征获取方法,其包括:
对输入特征张量进行第一卷积处理,获得多个基准注意力张量,所述基准注意力张量中的元素为与输入特征张量中各特征点对应的基准注意力;
对所述输入特征张量进行第二卷积处理,获得注意力系数张量,所述注意力系数张量中的元素为与所述输入特征张量内各所述特征点对应的基准注意力系数,并且所述注意力系数张量的通道数与所述基准注意力张量的数量相同;
基于所述输入特征张量与各所述基准注意力张量,获得与各基准注意力张量对应的基准特征向量,所述基准特征向量由所述输入特征张量和所述基准注意力张量中对应元素的乘积之和构成;
利用所述注意力系数张量与各所述基准特征向量,得到各所述特征点的注意力特征。
在一些可能的实施方式中,所述对输入特征张量进行第一卷积处理,获得多个基准注意力张量,包括:
利用第一卷积核对所述输入特征张量进行卷积处理,获得各所述基准注意力张量,其中,
所述各基准注意力张量的长度与输入特征张量的长度相同,以及所述基准注意力张量的宽度与输入特征张量的宽度相同。
在一些可能的实施方式中,所述对所述输入特征张量进行第二卷积处理,获得注意力系数张量,包括:
利用第二卷积核对所述输入特征张量进行卷积处理,获得各所述注意力系数张量,其中,
所述注意力系数张量的长度与输入特征张量的长度相同,所述注意力系数张量的宽度与输入特征张量的宽度相同。
在一些可能的实施方式中,所述基于所述输入特征张量与各所述基准注意力张量,获得与各基准注意力张量对应的基准特征向量,包括:
将所述输入特征张量中各特征点对应的特征向量与基准注意力张量中相同特征点的基准注意力相乘,得到针对基准注意力张量中每个特征点的第一乘积;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市商汤科技有限公司,未经深圳市商汤科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811459423.4/2.html,转载请声明来源钻瓜专利网。