[发明专利]基于深度强化学习的图二值特征学习方法及装置有效
申请号: | 201810043210.7 | 申请日: | 2018-01-17 |
公开(公告)号: | CN108182438B | 公开(公告)日: | 2020-09-25 |
发明(设计)人: | 鲁继文;周杰;段岳圻 | 申请(专利权)人: | 清华大学 |
主分类号: | G06K9/38 | 分类号: | G06K9/38;G06K9/46;G06K9/62;G06N3/04 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 张润 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 图二值 特征 学习方法 装置 | ||
1.一种基于深度强化学习的图二值特征学习方法,其特征在于,包括以下步骤:
提取图像深度实值特征;
根据深度强化学习的位间关系挖掘得到位间关系挖掘网络的基本量,其中,所述基本量包括状态、转移矩阵、行动和奖励,以训练得到所述位间关系挖掘网络;以及
通过所述位间关系挖掘网络和互信息的特征提取网络提取得到鲁棒特征;
其中,所述通过所述位间关系挖掘网络和互信息的特征提取网络提取得到鲁棒特征,进一步包括:
基于所述互信息的特征提取网络输出的二值特征参数,其中,根据不同于二值特征参数的二值化概率p衡量特征位的鲁棒性:
p(bkn|xn)=|tkn-0.5|+0.5,
其中,bkn为二值特征,xn为输入图像,tkn为经符号函数归一化后的实值特征;
通过当前位间关系和损失函数训练所述特征提取网络,所述损失函数为:
其中,J为总损失函数,J1为均匀分布约束,J2为互信息约束,J3为独立性约束,α和β为平衡不同约束权重参数,K为特征位数,N为图片个数,n为当前图片编号,bsn为被指导的二值特征,btn为指导二值特征,p为概率函数;
其中,所述基于强化学习位间关系挖掘网络的基本量应该定义如下:
所述状态,特征当前的位间关系,若某两特征位之间有连接,则将连接矩阵中表示该两位特征之间关系的元素置为1,否则置为0;
所述转移矩阵,所述位间关系挖掘网络的输出表示基于当前状态和奖励函数,下一步应该采取的各个可能行动的概率;
所述行动,a.连接某两位;b.断开某两位的连接;c.停止挖掘,转入特征提取阶段;当所述转移矩阵的最大值高于某一个阈值时,若该最大值元素代表的连接关系没有连接,则采取行动a连接该两位;当所述转移矩阵的某些元素小于某一个阈值时,若这些元素代表的连接关系已经连接,则采用行动b断开这些连接;若上述两种情况都不存在,则采用行动c退出挖掘,转入所述特征提取阶段;
所述奖励,采取行动前后的损失函数的减少值,若采取该行动后鲁棒性增强,则损失函数下降,奖励为正,反之为负。
2.根据权利要求1所述的基于深度强化学习的图二值特征学习方法,其特征在于,所述提取图像深度实值特征,进一步包括:
将原始图像传入预训练的深度卷积神经网络,并在所述深度卷积神经网络的最后层全连接后得到每一张图像的低维的深度实值特征。
3.根据权利要求1所述的基于深度强化学习的图二值特征学习方法,其特征在于,所述训练得到所述位间关系挖掘网络,进一步包括:
采用卷积层、全连接层和反卷积层组合的方式搭建所述位间关系挖掘网络,并且采用决策梯度的强化学习类型并基于蒙特卡洛采样使用REINFORCE训练算法来训练所述位间关系挖掘网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810043210.7/1.html,转载请声明来源钻瓜专利网。