[发明专利]一种基于深度学习技术的状态空间分解和子目标创建方法在审

申请号：	201710642392.5	申请日：	2017-07-31
公开（公告）号：	CN107423813A	公开（公告）日：	2017-12-01
发明（设计）人：	王燕清;郑豪	申请（专利权）人：	南京晓庄学院
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/08
代理公司：	暂无信息	代理人：	暂无信息
地址：	211171 江苏省南京市江宁***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度学习技术状态空间分解目标创建方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域：

本发明涉及一种基于深度学习技术的状态空间分解和子目标创建方法。

背景技术

设计一个深度学习框架, 在该框架中，深度学习通过代理机制可以使用一个重复的注意机制，从而通过更小的、更简单的域映射到更复杂的域。学习任务以图像和指定目标的指令呈现给代理，采用元控制器通过在状态空间中设计若干个子任务序列来引导代理实现它的目标，从而有效地分解,元控制器会在关注的范围内创建子目标。采用元控制器，它学习分解状态空间，并在较小的空间内提供可解析的子目标，因为当底层代理解决原始任务时，元控制器正在处理一个延迟的奖赏问题，从而得到正强化。它提出一系列的子目标，从而使这种强化的期望最大化，除了创建子目标之外，元控制器还会对状态空间进行碎片化，使底层代理呈现一个较小的状态，从而可以轻松地为子目标学习一个最优策略，它通过使用一种注意力机制来完成这一过程，类似于重复的注意力模式，元控制器学会控制它的注意力，并且只将状态的一部分传递给代理。

元控制器的公式是:

(1)状态: S，是过去和现在状态表征。

行动:A，是注意力的位置L^attn, 以及一系列子目标的分配g。

奖励: r，如果底层的代理能够解决这个任务，奖励r是负的；否则奖励r是正的。

转换:根据提供的状态和子目标底层代理执行其策略。由于这个策略对元控制来说是未知的，它为环境中的一种附加的因子。

元控制器为L^attn和分配P(g)选择一个值。在这个值的状态空间和一个子目标g，被传递给底层代理。然后，代理选择一个将其移动到实现g的原子动作。新的代理位置L^agent改变了元控制器的环境，它选择了一个新的关注点和子目标。首先，本发明假设底层代理可以访问每个子目标的最优策略。这种依赖于目标的策略可以通过诸如通用近似价值函数 (简称：UVFAs)这样的技术来学习。UVFAs学习接近V(S，g)或关于目标的值函数，使用类似于深度神经网络的函数近似。学习价值函数V(S，g)可以用来构造一个实现目标g的策略。这个值函数可以被训练独立或与元相结合，为实现子目标提供内在的奖励。其次，本发明假设代理仍然保持状态，除非它的位置和子目标都是由元控制器提供给它的状态。一般来说，元控制器会自动被激励去集中注意力，并提供子目标，这样潜在的代理就能够解决给定的任务，因为它的奖励结构。在这种情况下，这意味着在注意中保持代理位置和子目标。例如，在Pacman的游戏中，如果子目标是吃最接近的药丸，那么潜在的代理应该有Pacman和至少一种药丸。否则，代理可能会随机移动，它将无法实现获得高分的总体目标。上面的假设简化了元控制器的训练，但是提供的方法应该适用于基本的设置，也就是底层代理的策略也得到了学习。

发明内容：

本发明的目的是提供一种基于启发式概率Hough变换的道路边缘检测方法。

上述的目的通过以下的技术方案实现：

提供了一个层次结构框架，在这个框架中，代理可以从更高级别的代理设置子目标并在较长时间框架内运行的内在奖励中学习。高级代理的奖励是由环境提供完成任务所提供的。子目标依次通过在面向对象框架中的实体和关系来提供。本发明方法进一步分解了状态空间，使基本代理只能在任何时候看到它的小部分。优点是产生更好的计算效率，因为基础代理现在可以使用更小的网络，并且可以允许将已学习的策略转移到状态空间的不同部分，而不必显式地探索。为了实现这一点，更高级别的代理，或者元控制器，必须学会将信息集成到目前为止所观察到的状态。因此，本发明使用一个循环模型来通过长短期记忆(LSTM)网络来表示元控制器。为了训练本发明的元控制器的注意力机制，本发明采用了一种策略梯度来训练分类和简单控制任务的注意力机制。在本发明方法中，不使用复杂的传感器，而是简单地使用5x5的输入图像。这可以很容易地合并到设置中。此外，没有直接使用连续的输出L^attn，而是使用离散的动作，向上，向下，空（noop），以转移注意力。

强化学习和决策过程(MDP)

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京晓庄学院，未经南京晓庄学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710642392.5/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度学习技术的状态空间分解和子目标创建方法在审

专利文献下载