[发明专利]基于参数空间噪声网络的深度强化学习目标跟踪方法在审
| 申请号: | 202010290926.4 | 申请日: | 2020-04-14 |
| 公开(公告)号: | CN111508000A | 公开(公告)日: | 2020-08-07 |
| 发明(设计)人: | 邢薇薇;杨宇翔;张顺利;于淇;魏翔 | 申请(专利权)人: | 北京交通大学 |
| 主分类号: | G06T7/246 | 分类号: | G06T7/246;G06N3/04 |
| 代理公司: | 北京市商泰律师事务所 11255 | 代理人: | 黄晓军 |
| 地址: | 100044 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 参数 空间 噪声 网络 深度 强化 学习 目标 跟踪 方法 | ||
1.一种基于参数空间噪声网络的深度强化学习目标跟踪方法,其特征在于,构建基于深度强化学习的目标跟踪模型,设计基于参数空间噪声线性层的网络损失函数,所述方法具体包括:
通过所述目标跟踪模型对目标进行视频序列中的逐帧跟踪,输出跟踪得到的当前帧的目标位置;
通过上置信界算法选择最优的模型更新模式,根据所述最优的模型更新模式利用所述基于参数空间噪声线性层的网络损失函数对当前的目标跟踪模型进行参数更新;
基于所述当前帧的目标位置通过更新后的目标跟踪模型进行下一帧的目标跟踪,重复执行上述处理过程,直至完成全部帧的目标跟踪,输出目标在视频序列中完整的位置信息。
2.根据权利要求1所述的方法,其特征在于,所述的构建构建基于深度强化学习的目标跟踪模型,包括:
根据训练数据构建基于深度强化学习的目标跟踪模型,该目标跟踪模型包括执行者模型、评判者模型和动作经验缓冲区;
所述执行者模型用于根据当前跟踪的目标情况进行目标跟踪和定位,给出目标的跟踪结果,其网络主体结构由四层卷积层和两层全连接层组成,每层卷积层结构依次为112*112*3、51*51*96、11*11*256、3*3*512的卷积层,用于提取目标卷积特征提取;两层全连接层结构依次为1*1*512、1*1*512全连接层,用于输出跟踪的目标位置;
所述评判者模型用于根据当前的目标实际情况对执行者模型给出的目标的跟踪位置结果进行评判,判断是否符合真实目标位置,对目标的跟踪位置结果进行评判和反馈,其网络主体结构包含四个卷积层和两个全连接层,四个卷积层结构依次为112*112*3、51*51*96、11*11*256、3*3*512的卷积层,两个全连接层分别是1*1*512和1*1*512+4;
所述动作经验缓冲区用于存储和提取执行者模型在跟踪过程中采取的跟踪策略历史记录,用于网络参数更新。
3.根据权利要求2所述的方法,其特征在于,所述的设计基于参数空间噪声线性层的网络损失函数,包括:
设计参数空间噪声线性层,计算公式如下:
公式中,是输入特征,是权重矩阵,是偏置,代替原有网络权重矩阵ω,代替原有网络偏置b,是可学习参数,是噪声参数;y表示网络参数,用于网络参数更新;
设计基于参数空间噪声线性层的网络损失函数,用于模型在预训练阶段和在线跟踪阶段的模型参数更新,网络损失函数的计算公式如下:
公式中D是动作缓存库,θ-表示目标网络平稳更新后的参数(θ-←θ),Q(x,a,ε|ζ)表示参数化的动作价值函数,γ表示权重系数,是网络损失函数,E表示期望,通过将网络损失值转化为期望,最终得到损失函数值。
4.根据权利要求3所述的方法,其特征在于,所述的通过所述目标跟踪模型对目标进行视频序列中的逐帧跟踪,输出跟踪得到的当前帧的目标位置,包括:
经过预训练得到的初始化的目标跟踪模型网络为原始网络,该原始网络包括初始化的执行者模型和评判者模型,执行者模型和评判者模型分别都有各自的在线网络和目标网络,通过执行者模型中的在线网络对当前跟踪目标以及环境进行在线的学习和评价,预测出目标的当前的位置和尺度,计算公式如下:
Q(st,at)=r(st,at)+γQ(st+1,πθ(st-1))
公式中,πθ是执行者模型,r是价值函数,s是当前环境,a是当前选取的动作,通过训练使得评判者模型能够获得最大的Q(st,at)值,Q(st,at)表示动作评价函数用于中损失函数的计算。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京交通大学,未经北京交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010290926.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种金矿预富集浮选工艺
- 下一篇:信息管理方法、装置及计算机存储介质





