[发明专利]一种基于深度强化学习的智慧家庭能量管理方法及系统有效
申请号: | 201910724530.3 | 申请日: | 2019-08-07 |
公开(公告)号: | CN110458443B | 公开(公告)日: | 2022-08-16 |
发明(设计)人: | 余亮;谢蒂;谢玮玮;邹玉龙 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06Q10/06 | 分类号: | G06Q10/06;G06Q50/06;G06N3/04 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 董建林 |
地址: | 210023 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于深度强化学习的智慧家庭能量管理方法及系统,方法的设计步骤如下:将在无建筑热动力学模型和维持室内温度在舒适范围的情况下最小化智慧家庭能量成本这一能量管理问题建模为马尔可夫决策过程并设计相应的环境状态、行为、奖励函数;利用深度确定性策略梯度算法训练出不同环境状态下能量存储系统或/和可控负载的最优行为,进而最大化奖励函数;将训练好的深度神经网络参数定期拷贝至智慧家庭能量管理系统本地的深度神经网络,用于实际性能测试。本发明提出的方法无需知晓任何不确定性系统参数的先验信息和建筑热动力学模型,且采用本地测试与云端训练相结合的在线学习模式来应对环境变化可能带来的性能降级问题。 | ||
搜索关键词: | 一种 基于 深度 强化 学习 智慧 家庭 能量 管理 方法 系统 | ||
【主权项】:
1.一种基于深度强化学习的智慧家庭能量管理方法,其特征是,包括如下步骤:/n获取智慧家庭的当前环境状态;/n本地深度神经网络根据所述当前环境状态,输出能量存储系统或/和可控负载的当前行为;/n根据所述当前行为,对能量存储系统或/和可控负载实施控制;/n获取智慧家庭的下一时间步环境状态和下一时间步奖励;/n将所述当前环境状态、所述当前行为、所述下一时间步环境状态、所述下一时间步奖励发送至云端经验池;/n从云端经验池中提取训练样本集,以所述奖励最大化为目标,利用深度确定性策略梯度算法对云端深度神经网络进行训练;/n将训练好的云端深度神经网络参数更新至本地深度神经网络。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910724530.3/,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06 计算;推算;计数
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理