[发明专利]基于深度强化学习网络构建对区域敏感的模型的方法在审

申请号：	202111614735.X	申请日：	2021-12-28
公开（公告）号：	CN114004370A	公开（公告）日：	2022-02-01
发明（设计）人：	黄凯奇;尹奇跃;张俊格;徐沛	申请（专利权）人：	中国科学院自动化研究所
主分类号：	G06N20/20	分类号：	G06N20/20;G06K9/62;G06V10/764;G06V10/82
代理公司：	北京华夏泰和知识产权代理有限公司 11662	代理人：	李永叶
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于深度强化学习网络构建区域敏感模型方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开涉及一种基于深度强化学习网络构建对区域敏感的模型的方法，该方法包括：获取初始化状态下的智能体对图像仿真环境进行搜索的搜索数据；根据搜索数据，生成注意力图，并对注意力图进行离散化处理；将搜索数据中的位置状态信息和离散化处理后的注意力图输入至初始化的虚拟奖励模型中，输出得到虚拟奖励信息；根据虚拟奖励信息来更新搜索数据中的奖励信息，并对应更新智能体的搜索策略模型和更新虚拟奖励模型；根据更新后的搜索数据和虚拟奖励模型，对更新后的搜索策略模型继续进行训练，直至达到训练结束条件，训练完成的搜索策略模型为能够区分相似图像的图像搜索模型。该方法能够对相似图像针对性地采取不同的搜索策略。

技术领域

本公开涉及深度强化学习领域和图像处理技术领域，尤其涉及一种基于深度强化学习网络构建对区域敏感的模型的方法。

背景技术

随着深度强化学习技术的迅猛发展，其在诸如领域都获得了成功。从围棋到电子游戏，深度强化学习技术展现了巨大的潜力。目前绝大多数的成功案例都是在奖励信号稠密且被精心设计的任务中。但是，在许多任务中，智能体获得的奖励信号是极为稀少的。在奖励稠密的任务中，智能体可以通过采取随机的动作序列轻松找到奖励。但是，当环境奖励稀少且难以找到时，希望通过随机探索获得奖励可能是徒劳的。在这些任务中，智能体必须具有有效地进行探索的能力。因此，深度强化学习中的探索问题具有极其重要的研究和应用价值。

传统探索方法利用由两个神经网络组成的虚拟奖励生成器，以图像作为输入，通过这两个神经网络的输出差异输出给智能体的虚拟奖励信号。由于上述方法要求输入数据的稳定性，所以无法以表达能力更强，但不断变化的在线学习的特征作为输入，这就导致现有的深度强化学习模型无法区分相似的图像，从而导致无法给出准确的虚拟奖励。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开的实施例提供了一种基于深度强化学习网络构建对区域敏感的模型的方法。

第一方面，本公开的实施例提供了一种基于深度强化学习网络构建对区域敏感的模型的方法。上述方法包括：获取初始化状态下的智能体对图像仿真环境进行搜索的搜索数据；根据上述搜索数据，生成注意力图，并对上述注意力图进行离散化处理；将上述搜索数据中的位置状态信息和离散化处理后的注意力图输入至初始化的虚拟奖励模型中，输出得到虚拟奖励信息；根据上述虚拟奖励信息来更新上述搜索数据中的奖励信息，并对应更新上述智能体的搜索策略模型和更新上述虚拟奖励模型；以及根据更新后的搜索数据和虚拟奖励模型，对更新后的搜索策略模型继续进行训练，直至达到训练结束条件，训练完成的搜索策略模型为能够区分相似图像的图像搜索模型。

根据本公开的实施例，上述虚拟奖励模型用于激励上述智能体对历史访问次数相对较少的图像位置状态进行访问；上述虚拟奖励模型包括：参数随机初始化且参数固定的目标网络和参数可训练的预测网络；其中，上述目标网络和上述预测网络的输入状态与上述搜索数据中的位置状态信息以及离散化处理后的注意力图均相关，上述离散化处理后的注意力图使得图像相似，但注意力图具有区别的两个状态具有区分性。

根据本公开的实施例，上述搜索数据为针对上述智能体的依时序分布的数据组序列，上述数据组序列中每一时刻的数据组包含：当前状态，针对当前状态的当前搜索动作，针对当前状态实施当前搜索动作后得到的下一时刻状态，本次奖励信息。上述根据上述搜索数据，生成注意力图，包括：针对每一时刻的数据组，将上述当前数据组中的下一时刻状态输入至编码器网络，输出得到下一时刻状态所对应的特征值；以及将上述下一时刻状态所对应的特征值输入至注意力网络，输出得到下一时刻状态所对应的注意力图。

根据本公开的实施例，上述对上述注意力图进行离散化处理，包括：基于预设个数k，将上述注意力图中最大的前k个元素的值设置为1，其余元素的值设置为0。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所，未经中国科学院自动化研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111614735.X/2.html，转载请声明来源钻瓜专利网。

上一篇：基于云计算的带式输送机远程控制方法及系统
下一篇：图像识别模型的训练方法、电子设备和存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于深度强化学习网络构建对区域敏感的模型的方法在审

专利文献下载