[发明专利]基于强化学习的综合能源系统多主体运行优化方法及装置在审
申请号: | 202110318894.9 | 申请日: | 2021-03-25 |
公开(公告)号: | CN113177655A | 公开(公告)日: | 2021-07-27 |
发明(设计)人: | 肖迁;穆云飞;贾宏杰;陆文标;李天翔;余晓丹 | 申请(专利权)人: | 天津大学 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06N20/00;G06Q50/06 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李林娟 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 综合 能源 系统 主体 运行 优化 方法 装置 | ||
1.一种基于强化学习的综合能源系统多主体运行优化方法,其特征在于,所述方法包括:
构建园区综合能源系统多主体模型,将多主体模型的优化过程分为上层多主体博弈与下层设备调度优化,并采用“源-荷”双侧博弈互动;
基于Stackelberg博弈定义以排列组合的形式筛选Nash均衡点,并结合Nash-Q算法获取全时段的最优组合动作,即为当前典型日的最优策略;以各主体生产成本最小为目标函数使用CPLEX求解器求取各主体设备最优运行状态。
2.根据权利要求1所述的一种基于强化学习的综合能源系统多主体运行优化方法,其特征在于,所述基于Stackelberg博弈定义以排列组合的形式筛选Nash均衡点具体为:
应用强化学习中的强化信号去描述多主从博弈中纳什均衡点的实际物理意义,根据强化信号判断组合动作是否满足任一智能体的回报约束条件,若满足则该组合动作为一个Nash均衡解。
3.根据权利要求1或2所述的一种基于强化学习的综合能源系统多主体运行优化方法,其特征在于,所述结合Nash-Q算法获取全时段的最优组合动作,即为当前典型日的最优策略具体为:
1)对动作空间进行离散;
2)各智能体根据回报约束条件,去除不满足约束的动作组合,将满足约束的动作保留作为动作集;
3)计算动作集中所有组合动作下各智能体的收益,将收益数据存于表格中;
4)按照从智能体1至智能体n的顺序选中某一智能体,分别在其余未选中的所有智能体的所有组合动作下搜索选中智能体的最优动作,并删除本次选中的智能体的其余动作,只保留最优动作;
5)将现存的动作集中的组合动作保存,保存的组合动作即为全时段的最优策略。
4.根据权利要求3所述的一种基于强化学习的综合能源系统多主体运行优化方法,其特征在于,所述搜索选中智能体的最优动作具体为:
选取表格中回报值最大的动作,选中过的智能体其动作集中仅有最优动作。
5.一种基于强化学习的综合能源系统多主体运行优化装置,其特征在于,所述装置包括:
构建模块,用于构建园区综合能源系统多主体模型;
划分与互动模块,用于将多主体模型的优化过程分为上层多主体博弈与下层设备调度优化,并采用“源-荷”双侧博弈互动;
筛选与求解模块,用于基于Stackelberg博弈定义以排列组合的形式筛选Nash均衡点,并结合Nash-Q算法获取最优保存的组合动作即为当前状态下的Nash均衡点;
求取模块,用于以各主体生产成本最小为目标函数使用CPLEX求解器求取各主体设备最优运行状态。
6.一种基于强化学习的综合能源系统多主体运行优化装置,其特征在于,所述装置包括:处理器和存储器,所述存储器中存储有程序指令,所述处理器调用存储器中存储的程序指令以使装置执行权利要求1-4中的任一项所述的方法步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时使所述处理器执行权利要求1-4中的任一项所述的方法步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110318894.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高温陶瓷生产温度检测设备
- 下一篇:一种用于磁性材料进料的振动盘
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理