[发明专利]一种基于模糊SARSA学习的旋翼无人机视觉伺服控制方法有效
申请号: | 201810855339.8 | 申请日: | 2018-07-31 |
公开(公告)号: | CN109143855B | 公开(公告)日: | 2021-04-02 |
发明(设计)人: | 徐梦;史豪斌 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04;G06K9/00 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 陈星 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 模糊 sarsa 学习 无人机 视觉 伺服 控制 方法 | ||
1.一种基于模糊SARSA学习的旋翼无人机视觉伺服控制方法,其特征在于包括以下步骤:
步骤1.利用Canny算法对比图像进行边缘提取,通过过滤、降噪操作可获得N个轮廓坐标的集合,N个轮廓坐标的集合使用费尔曼链码来描述,使用费尔曼链码的轮廓像素记为C={Ci|i=1,...,N};将目标的轮廓像素进行旋转归一化得到费尔曼链码与标准轮廓库中的图形分别计算lenvenshtein距离,lenvenshtein距离的计算方式是形状A变换到形状B所需要的操作数,操作为插入、删除、修改;使用该方法可在图像目标丢失一定程度的边缘的条件下对物体形状进行识别;
步骤2.在通过步骤1获取图像的轮廓像素之后,由于拍摄到的图片有时会有轮廓不完整现象,因此,使用轮廓补偿算法;对于第l个目标,费尔曼链码经过一次处理得到Nl个轮廓特征点的特征点集合为:对集合Fl中的每一个元素进行旋转归一化后得到Nstandard个标准轮廓特征点标准轮廓特征点的集合记为设定Ol为补偿后的特征点轮廓集合,补偿轮廓Ol与标准轮廓Dl之间的转换关系为:Dl.R+L=Ol; 其中R,L分别为旋转矩阵与转换矩阵;补偿轮廓Ol中第j个元素为Pj,集合中共有Nstandard个元素,记为Ol={Pj|j=1,...,Nstandard}; 取目标l的中心特征点作为视觉伺服控制使用的特征点,中心特征点的坐标通过计算补偿轮廓特征点坐标之和的平均得到,记为:
步骤3.在通过步骤2获得目标的中心特征点之后,建立旋翼无人机底部视觉模型,即从三维空间到图像像素平面的转换关系;
步骤4.通过所得到的旋翼无人机视觉模型,构建旋翼无人机解耦的视觉伺服控制模型,该解耦视觉伺服控制模型包含了视觉伺服增益值;
步骤5.建立单步SARSA学习调节伺服增益模型;使用SARSA学习调节步骤4中的旋翼无人机视觉伺服增益值;
1)状态空间设置;通过图像特征提取算法提取出目标的轮廓后,采用中心特征点将目标简化,计算出当前特征点与目标特征点的误差的绝对值,将绝对值求和取定一定的范围作为状态;
2)动作空间设置;通过分析选择伺服增益的差值作为动作,选择初始值λ*作为伺服增益的初始值;设动作集的大小为2*na+1,则动作集构成一个等差数列,设定公差为da,则动作集A={ai|i=1,2,3...,2na},然后分别在线速度与角速度进行调节伺服增益;
3)奖励函数设置;奖励函数分为三部分:到达期望目标,追踪目标丢失和其它情况;如果每一维特征误差δ为阈值,那么就认为四旋翼无人机已经到达目标位置,可给予最高的奖励;如果在四旋翼无人机所拍摄的实时图像通过特征提取后,特征点相比于目标图像的特征点有缺失,那么就认为无人机已经丢失目标,则回报值会为负值;其它情况依据四旋翼无人机距离目标的远近来给予奖励;
4)单步SARSA学习迭代算法设置;设置伺服增益的迭代公式,分别在线速度增益与角速度增益两个空间去设置;依据Q学习设置伺服增益迭代算法的迭代过程,该迭代过程使用了上述设置伺服增益迭代公式,通过该迭代算法完成伺服增益的迭代更新;
5)学习规则设置;设定单步SARSA学习的一个学习回合中最大花费的时间单位为400个时间片,每个回合四旋翼的摆放位置在可行范围,保证四旋翼起飞1.0m后可以看到所有的目标内随机,5000个回合为一次训练;并且限定:①如果400个时间片后四旋翼仍然没有从初始位置达到指定位置,强制重新回到起点进行下一个回合;②如果由于四旋翼运动导致特征点丢失,则本回合结束,重新开始下一回合;③如果四旋翼运动过程中,保持一定时间相对于目标位置的距离在5像素以内,表示到达目标点,结束本回合进入下一回合;④每个回合结束后,进行伺服增益的更新;
步骤6.模糊控制规则:在通过步骤5建立SARSA学习调节视觉伺服增益模型后,使用模糊控制来进行学习率的自适应调节,学习率自适应调节的基本规则如下:如果智能体在采取学习后的增益使得特征误差增大,则减少学习率,反之将学习率增大;使用模糊控制改变强化学习的学习率,将特征误差的变化率作为观察量,将观察量进行模糊化,设置“最大-最小合成操作”的模糊控制规则,将观察量输入到模糊控制规则中,得到控制量学习率,最后通过去模糊化可得到学习率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810855339.8/1.html,转载请声明来源钻瓜专利网。