[发明专利]非平稳环境中去中心化多智能系统的决策方法有效
申请号: | 202110286015.9 | 申请日: | 2021-03-17 |
公开(公告)号: | CN112668721B | 公开(公告)日: | 2021-07-02 |
发明(设计)人: | 张俊格;李庆明;尹奇跃 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06N5/04 | 分类号: | G06N5/04 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 孙剑锋;刘蔓莉 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 平稳 环境 中心 智能 系统 决策 方法 | ||
本发明提供非平稳环境中去中心化多智能系统的决策方法,包括:在回合t将智能体m拉取臂k得到的回报值记录在智能体m的内嵌私有表;如果公共调度中心信息储存表中没有臂k的回报值和序号记录,则在回合t+1广播所述臂k的回报值和序号;否则进入下一步判断;如果所述臂k的回报值大于经验平均最高回报值,则进入下一步判断;否则在回合t+1拉取臂探索;如果所述臂k的回报置信区间下界大于所述经验平均最高回报值,则进入下一步判断;否则在回合t+1拉取臂探索;如果所述最近τ个回合臂k回报的波动率大于最近τ个回合臂k回报的波动率的移动平均数,则在回合t+1广播所述臂k的回报值和序号;否则在回合t+1拉取臂探索。
技术领域
本申请涉及多智能体、在线学习领域,尤其涉及非平稳环境中去中心化多智能系统的决策方法。
背景技术
多智能体系统的多个方面在过去十年中引起了越来越多的关注,尤其是在多智能体机器人系统和策略优化两个领域。在所有类型的多智能体系统中,其中一些需要要求多智能体系统以团队形式工作以在预定机制下实现目标。在多智能体机器人领域中,多机器人系统被置于动态环境中而去中心化的机器人系统旨在实现集体目标。同时,智能体信息交换机制对策略系统的表现有很大影响。在没有已知知识信息或策略的多智能体系统内进行协调是多智能体系统领域的最新挑战,需要去中心化的智能体采用利用对方过去经验知识并采取行动实现目标的策略。
一个典型的多臂老虎机问题(Multi-armed Bandit, MAB)是一个智能体在每一轮中选择一个它所认为的产生最高回报的手臂以实现回报最大化的目标。在目前已有的,针对经典的MAB问题的各种众所周知解决方案已具有良好的性能。在多智能体的多臂老虎机问题中,去中心化的多智能体系统(Multi-agent System, MAS)中的智能体的目标是在给定数量的轮次之后最大化总体系统的回报。其中,信息共享机制在多智能体系统选臂策略中起着重要作用,原因是信息共享在去中心化的系统中是有成本的。成本在不同的应用环境中有不同的形式。而以非平稳变化的回报过程为背景的MAB问题则更复杂在非平稳的MAB问题中(Restless Multi-armed Bandit, RMAB),臂的奖励随时间动态变化。
授权公告号CN 110351884 B明公开了一种基于双层多臂老虎机统计模型的频谱机会接入方法。该方法为:首先使用双层多臂老虎机统计学模型,建模信道感知与接入过程;然后分析次用户运行场景,如果属于单主用户站下的认知网络,则采用同构信道感知接入方法进行频谱机会接入;如果属于多主用户站下的认知网络,则采用异构信道感知接入方法进行频谱机会接入。本发明在有限时间下保证O( lnt )的收益损失性能,O( lnt )表示算法的收益损失随lnt曲线线性变化,在时间足够大条件下具有统计渐近有效性,能够在对授权用户不造成有害干扰的前提下完成高效数据传输。
申请公布号CN 111028080 A涉及一种基于多臂老虎机和Shapley值的群智感知数据动态交易方法,属于大数据和群智感知技术领域。本发明首先利用Shapley值判定每个“工人”的数据对“买家”的边际贡献,包括考虑新数据的直接贡献和考虑冗余数据的间接贡献。之后,“买家”会选择边际贡献较高的“工人”,并给出意向的交易价格。为了提高交易的成功率并得到最大的回报,“买家”实施一定的学习策略。针对给出高价保证交易成功,和试探底线获得更大回报的两难问题,利用上下文形式的多臂老虎机模型进行学习,该策略在每个轮次中选择可观察到的最佳价格,逐渐进行调整以适应“工人”的心理底线。采用本方法推断出的“工人”的价格预期更接近实际值,“买家”由此获得更大回报。
发明内容
有鉴于此,本发明提供一种非平稳环境中去中心化多智能系统的决策方法,具体地,本发明是通过如下技术方案实现的,包括:
S1:在回合t将智能体m拉取臂k得到的回报值记录在智能体m的内嵌私有表;
S2:如果公共调度中心信息储存表中没有臂k的回报值和序号记录,则在回合t+1广播所述臂k的回报值和序号;如果公共调度中心信息储存表中有臂k的所述回报值和序号记录,则进入下一步判断;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110286015.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种传动带张紧装置及带传动系统
- 下一篇:一种压力管道堵漏装置