[发明专利]交互式动态影响图的最优K模型求解方法在审

申请号：	201710893704.X	申请日：	2017-09-27
公开（公告）号：	CN107797966A	公开（公告）日：	2018-03-13
发明（设计）人：	潘颖慧	申请（专利权）人：	潘颖慧
主分类号：	G06F17/15	分类号：	G06F17/15;G06F17/18
代理公司：	北京细软智谷知识产权代理有限责任公司11471	代理人：	付登云
地址：	330000 江西省南昌市***	国省代码：	江西;36
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	交互式动态影响最优模型求解方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于人工智能技术领域，具体涉及一种交互式动态影响图的最优K模型求解方法。

背景技术

多智能体系统可以完成单个智能体难以胜任的复杂任务，已经在很多领域有着相当广泛的应用，譬如航天、军事、机器人、灾难援救、供应链管理等等。在上述众多的应用中，特别是不确定环境下，如何优化多智能体的决策一直是科学研究中的一个难点。尤其随着多智能体系统规模的日益增大，其求解方法也受到了严峻的考验。

求解不确定性多智能体决策问题的传统方法往往是从整个多智能体系统的角度出发，对系统中所有的智能体进行统一的建模并求解其联合决策，最后把所求的局部决策分配给各个智能体执行。该方法属于典型的集中规划、分散控制的求解机制。显而易见，当多智能体系统随着智能体数目的增加迅速膨胀，其方法将遭遇到无法解决的维数灾难问题。这个问题已经得到多智能体研究者的高度重视，从而引起了对传统集中式规划方法的重新审视。针对规模庞大的智能电网决策问题，著名的智能体研究科学家Nick Jennings研究团队直接指出传统方法的维数灾难问题，并提出采用基于个体控制的多智能体决策求解方法。同时，Edmund H.Durfee研究团队集中研究基于系统维数的多智能体决策的复杂度衡量问题，从理论上证实了集中规划等求解方法的不可扩展性。

多智能体数目增加的直接后果是系统的异质性更为突出：各种各样的智能体存在于一个大规模的系统中，智能体之间的合作和竞争关系并存。譬如，在Web服务问题上，网络中每个服务智能体力争自己的收益最大，它们之间有竞争关系，但在此基础上，智能体还需考虑资源共享以便提高自己的服务质量，因此他们之间还有合作关系。在一个拥有数目众多能源消费者和供应商的智能电网中，供应商彼此相互竞争以争取各自最大的商业利润，与此同时，消费者必须相互协调以优化(从供应商)获取的能源，系统中智能体之间也是合作竞争关系。如果智能体之间存在着竞争关系，它们将不会共享所有的信息，那么基于集中规划的多智能体决策传统求解方法将直接失效。因此，针对系统维数膨胀而带来的多智能体决策问题，也将不是传统求解方法的简单扩展，需要进行全面而细致的研究。

从单个智能体的角度出发研究不确定性多智能体决策问题是目前出现的一种新型建模理论。最为典型的方法是交互式部分可观测马尔可夫决策过程I-POMDP(Interactive Partially Observable Markov Decision Process)和交互式动态影响图I-DID(Interactive Dynamic Influence Diagram)，其核心思想是采用智能体相互建模技术，把多智能体的决策问题转化为个体决策问题。通过建立交互状态空间，个体智能体可以清晰地表示其他智能体决策过程。建模过程并不需要对多智能体决策过程做出共同知识的假设，从而突破了纳什平衡点的解约束。因此，该方法不仅能够求解合作型的多智能体决策问题，也可以求解竞争型的多智能体决策问题。由于难以预知其他智能体的真实模型，模型求解的主要难点在于计算其他智能体的数目众多的候选模型。与I-POMDP相比，I-DID具有更好的问题表征能力，能够有效地利用潜在的问题结构，更为高效地求解模型。

基于BE的I-DID求解方法已经得到了广泛的应用，也是目前I-DID的研究重点和主要方向。求解I-DID的复杂度在于大量的智能体j模型出现在各个阶段的模型节点。因此，如何降低智能体j的模型空间成为求解I-DID的关键，算法的目的在于约减模型空间的规模并分析求解的复杂度和准确性，达到迅速求解I-DID的目的。

目前主流的算法中，精确BE方法的求解能力还是非常有限的，而近似BE算法往往需要复杂的参数调节(譬如ε)，才能提高求解能力和性能。

发明内容

有鉴于此，本发明的目的在于克服现有技术的不足，提供一种交互式动态影响图的最优K模型求解方法。

为实现以上目的，本发明采用如下技术方案：

交互式动态影响图的最优K模型求解方法，具体包括以下步骤：

在模型全集中选取K个模型组成模型子集，使这K个模型的集合能够最大化地覆盖模型全集中所有模型的代表性行为；

采用该模型子集建立交互式动态影响图。

所述模型全集为智能体j的所有决策模型的集合。

所述代表性行为是在智能体的交互过程中频繁发生的行为。

以目标函数

为标准来评价模型子集对模型全集的覆盖程度；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。