[发明专利]引导型策略搜索强化学习算法在审

申请号：	201610299987.0	申请日：	2016-05-06
公开（公告）号：	CN105955930A	公开（公告）日：	2016-09-21
发明（设计）人：	赵婷婷;杨巨成;赵希;陈亚瑞;房珊珊	申请（专利权）人：	天津科技大学
主分类号：	G06F17/15	分类号：	G06F17/15;G06N5/02
代理公司：	天津盛理知识产权代理有限公司 12209	代理人：	陈娟
地址：	300222 天津市河***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种引导型策略搜索强化学习算法，首先选择引导型学习样本，然后利用所选样本对目标函数进行梯度估计，根据策略更新原则更新参数，直到收敛为止。本发明通过重构目标函数，大大降低了因使用重要采样技术而降低算法稳定性能及收敛率的问题。本发明定义了对于强化学习而言的引导型高质量学习样本，通过该引导型学习样本的使用，能够更准确的进行策略搜索，从而避免情况较坏的局部最优。
搜索关键词：	引导策略搜索强化学习算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种引导型策略搜索强化学习算法，其特征在于：首先选择引导型学习样本，然后利用所选样本对目标函数进行梯度估计，根据策略更新原则更新参数，直到收敛为止，所述的目标函数为：

<mrow><mi>Φ</mi><mrow><mo>(</mo><mi>ρ</mi><mo>)</mo></mrow><mo>=</mo><msup><mi>J</mi><mrow><mi>I</mi><mi>W</mi></mrow></msup><mrow><mo>(</mo><mi>ρ</mi><mo>)</mo></mrow><mo>+</mo><msub><mi>λ</mi><mn>1</mn></msub><msubsup><mi>logΣ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mrow><msup><mi>N</mi><mo>′</mo></msup></mrow></msubsup><mi>w</mi><mrow><mo>(</mo><msub><msup><mi>θ</mi><mo>′</mo></msup><mi>i</mi></msub><mo>)</mo></mrow><mo>+</mo><msub><mi>λ</mi><mn>2</mn></msub><msubsup><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mrow><msup><mi>N</mi><mo>′</mo></msup></mrow></msubsup><mfrac><mn>1</mn><mrow><mn>1</mn><mo>+</mo><mi>V</mi><mi>a</mi><mi>r</mi><mrow><mo>(</mo><mi>w</mi><mo>(</mo><mrow><msub><msup><mi>θ</mi><mo>′</mo></msup><mi>i</mi></msub></mrow><mo>)</mo><mo>)</mo></mrow></mrow></mfrac></mrow>

J^IW(ρ)为重要采样技术下的原始目标函数，即寻找最优超参数ρ使得期望回报最大化，该目标函数还包括两个正则项，第一个正则项为w(θ)为重要权重，w(θ)＝p(θ|ρ)/p(θ|ρ′)，ρ′为样本采样超参数，ρ为当前学习超参数，P(θ|ρ)为策略参数的概率分布函数；第二个正则项为其中N′表示样本个数，Var(w(θ_i))表示重要权重的方差；λ₁，λ₂表示正则项参数，在算法中通过调整其大小来控制参数搜索范围。所述的引导型学习样本评价指标为：其中η表示采样样本分布，E表示期望，表示该分布的熵，R(h)表示路径样本的累积回报。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于天津科技大学，未经天津科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610299987.0/，转载请声明来源钻瓜专利网。

上一篇：一种超细金刚石微粉的表面改性方法
下一篇：一种氯化副产盐酸用于钛白粉包膜的方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]引导型策略搜索强化学习算法在审

专利文献下载