[发明专利]一种面向农业采摘的高效识别控制强化学习算法在审
申请号: | 202111308953.0 | 申请日: | 2021-11-05 |
公开(公告)号: | CN114020945A | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 吴贺俊;游永强;王海涛 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F16/53 | 分类号: | G06F16/53;G06F16/583;G06F17/16;G06F30/27;G06N3/04;G06N3/08 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 禹小明 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 农业 采摘 高效 识别 控制 强化 学习 算法 | ||
1.一种面向农业采摘的高效识别控制强化学习算法,其特征在于,包括以下步骤:
S1:对采集的图片进行数据增强,获得查询(Query)和键(Key);
S2:这些数据通过卷积神经网络CNN编码成查询特征F(Ou)和键特征G(Ov);
S3:通过离散对比学习获得紧密的离散特征输入,其中键Key的卷积神经网络训练时不进行更新,通过查询Query的卷积神经网络的参数来进行更新,最后采用柔性致动/评价Soft Actor-Critic的策略进行评估回传。
2.根据权利要求1所述的面向农业采摘的高效识别控制强化学习算法,其特征在于,步骤S1中,读取n个样本的转移元组其中含有观察输入O,使用随机数据增强方法通过观测输入O产生查询Ou和键Ov。
3.根据权利要求2所述的面向农业采摘的高效识别控制强化学习算法,其特征在于,步骤S2中,使用编码器CNN变成编码F(Ou)和编码G(Ov),再通过符号函数变成U=sign(F(Ou))和V=sign(G(Ov))。
4.根据权利要求3所述的面向农业采摘的高效识别控制强化学习算法,其特征在于,步骤S3中,用步骤S2得到的数据进行离散对比学习:
给出查询表示q和键表示K=k0,k1,…,其中键表示包含正样本键表示k+和负样本键表示K\{k+},采用如下损失函数公式进行离散对比学习:
其中qT是键表示向量的转置向量,W是为了对正样本键表示k+进行线性转换的向量矩阵,ki是采样的下标为i的负样本键表示。
5.根据权利要求4所述的面向农业采摘的高效识别控制强化学习算法,其特征在于,步骤S3中,定义其中c是U的列维度,λ是超参数,Ui*和Vj*分别是U和V的第i行和第j行,Θij可以看作第i个查询表示和第j个键表示的内积相似度,定义A为Θij的sigmoid函数:
得到相似矩阵的似然函数,有公式:
其中矩阵S为相似邻接矩阵,这里设定为单位矩阵,定义p(Sij|U,V)如下:
得到U和V的log似然函数:
步骤S3的任务就是最大化log似然函数,目标可以表示如下:
s.t.U,V∈{-1,1}n*c。
6.根据权利要求5所述的面向农业采摘的高效识别控制强化学习算法,其特征在于,步骤S3中,固定住V更新U,先计算公式(5)的关于U*i的梯度和黑塞矩阵:
其中diag(a1,a2,…,an)是一个对角矩阵,定义其中I是一个单位矩阵,n是样本个数,c是U的列维度,λ是超参数,可以构造一个L(U*i)的下界:
把优化问题转为如下公式:
得到公式(8)的解为:
通过公式(9)可以得到U*i(t+1)。
7.根据权利要求6所述的面向农业采摘的高效识别控制强化学习算法,其特征在于,步骤S3中,固定U更新V,得到V的更新公式:
其中L是U和V的log似然函数,为优化中间变量,其中I是一个单位矩阵,n是样本个数,c是U的列维度,λ是超参数。
通过公式(10)可以得到V*i(t+1)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111308953.0/1.html,转载请声明来源钻瓜专利网。