[发明专利]一种基于任务密集度动态调整的多机器人协作围捕任务分配方法有效
申请号: | 201610234559.X | 申请日: | 2016-04-15 |
公开(公告)号: | CN105843227B | 公开(公告)日: | 2018-10-23 |
发明(设计)人: | 李敏;王忠亚;李杰 | 申请(专利权)人: | 上海大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 上海上大专利事务所(普通合伙) 31205 | 代理人: | 何文欣 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出一种基于任务密集度动态调整的多机器人协作围捕任务分配方法,属于任务分配技术领域。本方法包括:群体搜索及围捕建模、任务分配策略。本发明将经过强化学习方法得到的围捕经验值的概念引入到任务分配算法中,对经过拍卖算法得到的初始任务分配方案进行动态调整,使其能够很好的适应动态变化的围捕环境,减少系统之间的通讯量与计算量;本发明在任务分配拍卖算法中对竞标机器人的代价函数求解进行了优化,提出了任务密集度的概念,便于提高多机器人协作系统任务分配的效率,减少花费成本。 | ||
搜索关键词: | 一种 基于 任务 密集 动态 调整 机器人 协作 围捕 分配 方法 | ||
【主权项】:
1.一种基于任务密集度动态调整的多机器人协作围捕任务分配方法,其特征在于:对传统拍卖算法代价函数进行优化,利用强化学习得到的围捕经验对任务分配动态调整;具体操作步骤如下:1)群体搜索及围捕建模,2)任务分配策略;所述步骤2)任务分配策略是:(1)拍卖机器人任务拍卖:当围捕机器人RR在搜寻目标机器人的时候,发现了目标机器人RT,围捕机器人RR自动成为拍卖机器代理拍卖围捕机器人RT的任务;拍卖机器人RR对目标机器人RT以及周围环境进行评估,计算出对目标机器人展开围捕需要围捕机器人的个数n,并且向其他机器人发布拍卖围捕目标机器人RT的任务,等待其他围捕机器人对围捕机器人RT这项任务进行投标,接收其他围捕机器人发送回来的对围捕RT任务的标值;拍卖机器人RT接收到竞标机器人的投标后,预示着投标机器人进入了由拍卖机器人RT组成的拍卖市场;由于对目标机器人RT的围捕是一种实时在变换的一个状态环境,所以需要对拍卖设定时间限制,超过一定时间后,拍卖机器人就对收到的竞标信息进行评估并公布拍卖结果,拍卖市场结束;当拍卖机器人组成的拍卖市场即将到达规定的时限后,拍卖机器人根据竞标机器人发送的竞标值选择出价最高的n个机器人成为竞标成功机器人,竞拍成功机器人协助拍卖机器人完成对目标机器人RT的围捕任务,竞拍结束;拍卖围捕机器人向外公布的招标信息除了围捕目标机器人的这项任务外,还包括对周围环境的评估;任务密集度是用来反应任务的密集度的影响因子,任务越密集,任务密集度的值就越大;如果被拍卖的任务的周围有很多项其他的任务,那么拍卖该项任务的时候的任务密集度的值就越大;如果一个拍卖机器人将一个任务密集度大的任务发布出去,那么竞标机器人在选择竞标某一项任务的时候,会优先竞标任务密集度大的任务;这种方式下,就会促使任务完成的时间花费的少;任务密集度的计算公式如下:
其中,Intj指任务j的任务密集度大小;随着k值大小的增加,任务密集度也会增加;NTask是指多机器人协作系统中所有的已经被发现的任务的数量大小;
代表拍卖机器人在任务j周围发现的其余任务的数量;(2)竞标围捕机器人竞标:竞标围捕机器人接收到周围拍卖围捕机器人的招标信息后,从所有的围捕任务队列{RT1,RT2,RT3…}中选取参与的投标任务,每一个竞标机器人只参与一个拍卖机器人发布的拍卖围捕任务;而竞标围捕机器人参与哪一个拍卖围捕机器人发布的拍卖任务,需要竞标机器人去评估这项围捕任务;如若竞标机器人竞标成功一项围捕任务,则竞标围捕机器人则协同其他竞标成功的围捕机器人与拍卖围捕机器人一同完成这项围捕目标机器人的任务;当整个多机器人协作系统中存在了多个拍卖任务的时候,由于每一个围捕机器人都是自利的,每一个机器人的目标都是使自己的利益最大化,并不能够保证整个多机器人协作拍卖系统的效用最大化;在决策时间有限以及动态环境不确定因素下,为了使多机器人系统在经过较少次数的拍卖获得较理想的分配方案,降低多机器人系统之间的通信量,减少计算代价,将竞标价格定义为如下公式:
Uj=f(DD,RRA)=γ1·DDj+γ2·RRAj
其中,
表示竞标机器人RRi完成任务RTj所消耗的代价花费,Uj表示机器人完成围捕任务RTj时系统获得的效益值,γ为比例系数;α代表花费的折扣率,为常数;t指的是围捕机器人RRi完成对RTj围捕所花费的时间,而完成对目标机器人的围捕所获得的效益值Uj,目标机器人对系统的危害程度为DD,周围围捕机器人的数目为RRA,γ1,γ2为权值系数;这里,
越小,完成对RTj的围捕任务,机器人系统获得的效益值就越大,总体上使多机器人系统获得最大的效益值,是比较理想的分配方案;竞标机器人从任务队列中选取能获得最大效益值的围捕任务进行投标,最大提高系统的整体效用;(3)拍卖任务的动态调整:多机器人协作围捕系统是一个动态过程的围捕过程,根据拍卖产生的任务的分配结果在理想时间内可能会遇到意料之外的情况,即拍卖产生的任务分配结果不一定能够成功围捕目标机器人;考虑到这种情况,需要对拍卖产生的任务分配结果进行分配后的动态调整,随着多机器人参与围捕任务的进行,每一个机器人都会对围捕任务进行学习,参与围捕任务次数越多,机器人围捕的经验值就会越大,随着任务的进行,机器人学习能力逐渐增强,围捕任务的能力也越强;围捕机器人是异构机器人,不同的组合产生的能力是不同的,所以,针对每一个围捕机器人的不相同的能力,拍卖机器人根据异构机器人的组成、对围捕任务的判断、自己的经验值以及机器人的能量消耗,可实时判定,成功围捕的不确信度;不确信度由两个因素来决定:机器人自身的能量变化W以及机器人在围捕任务过程中的经验值大小Q(s,a),在任务执行过程中,不确信度由以下公式进行定义:
其中,Q(s,a)是指在当前环境s下,拍卖机器人对竞标成功的竞标机器人,选择这些竞标成功机器人的集合去围捕机器人这个选择a,能够成功围捕目标机器人的经验值大小或者说围捕成功的概率大小;c1与c2为常数,β为围捕奖励值的折扣系数;围捕机器人在每周期执行相应动作会减少相应的能量,
S=(s1,s2,…,sn)A=(A1,A2,…,An)其中,集合S与集合A存在映射关系:sn→an表示围捕成功的状态下的围捕机器人选择,随着围捕任务成功的次数增加,状态集合S与机器人选择集合A的维数相应增加;通过对两个集合的综合判定用作对多机器人协作围捕是否能够成功的一个考量;
Q(si,ai)指的是在当前状态si下,选择的中标机器人中占据拍卖围捕机器人有过合作并且围捕成功案例的Ai集合中的个数与中标机器人个数的比值,作为拍卖机器人的经验值大小用于动态调整的判别标准;在多个竞标机器人与拍卖机器人组成的拍卖市场中形成一个围捕团队去围捕一个目标机器人的时候,由拍卖机器人在此时计算该团队完成这项围捕任务的不确信度,如果不确信度高于设定的阈值H时,拍卖机器人就会重新评估这项围捕任务,从新发起一轮拍卖。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610234559.X/,转载请声明来源钻瓜专利网。