[发明专利]一种接单辅助决策的联邦强化学习方法有效

申请号：	202110010968.2	申请日：	2021-01-06
公开（公告）号：	CN112801731B	公开（公告）日：	2021-11-02
发明（设计）人：	冷杰武;张虎;刘强;阮国磊;苏倩怡;王德文;周满	申请（专利权）人：	广东工业大学
主分类号：	G06Q30/06	分类号：	G06Q30/06;G06N20/20
代理公司：	佛山市禾才知识产权代理有限公司 44379	代理人：	曹振;罗凯欣
地址：	510062 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种辅助决策联邦强化学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种接单辅助决策的联邦强化学习方法，其特征在于，包括：

数据采集和处理，各智能体分别收集历史订单数据，然后提取历史订单数据的属性，将所述历史订单数据作为训练数据；

建立模型，根据历史订单数据建立环境模型，各所述智能体建立本地决策模型，所述环境模型模拟当前状态S；所述环境模型设有奖励函数，当所述本地决策模型根据当前状态S对新订单做出接受或拒绝动作后，环境模型对所述本地决策模型的接受或拒绝动作做出相应的奖励；

训练本地决策模型，各所述智能体各自利用所述训练数据对所述本地决策模型进行训练；

联合各方数据进行联邦强化学习，各智能体将训练过程中的所得到的梯度信息加密成加密信息，然后发送至聚合方；所述聚合方接受各智能体的加密信息，然后解密得到各智能体的梯度信息，所述聚合方对所有的智能体的梯度信息进行整合，并训练聚合模型，然后将训练后的聚合模型发送至各个智能体；

依次按照以下步骤进行联邦强化学习：

步骤A、各个所述智能体分别根据对所述环境模型的观察结果进行动作决策；

步骤B、所述环境模型向所述智能体反馈结果，反馈结果包括新的状态S_t+1和奖励；

步骤C、各个所述智能体将得到的反馈结果放入各自的所述强化学习算法中对所述本地决策模型进行强化学习训练，并计算中间结果，然后将所述中间结果加密并发送给所述聚合方；

步骤D、所述聚合方对所有的中间结果进行解密，并使用全部聚合的梯度信息对聚合模型进行训练；

步骤E、聚合方将训练后的聚合模型发送给各个所述智能体；

当所述本地决策模型作出接受动作，所述环境模型计算立即接受订单的奖励r_a：

其中，R为订单利润，T_w为完工期，b为订单成本，c为订单碳耗量，T_y为延期时间，w为延期单位惩罚，J为客户等级；

当所述本地决策模型作出拒绝动作后，所述环境模型给予的奖励为0或者所述环境模型根据客户等级给予惩罚。

2.根据权利要求1所述的一种接单辅助决策的联邦强化学习方法，其特征在于，采用强化学习算法对本地决策模型进行训练；所述强化学习算法包括策略网络π和价值网络q，所述策略网络π用于计算所述本地决策模型做出模拟的接受或拒绝动作的概率分布，然后随机抽样得到动作；所述价值网络q用于对每一个模拟的动作根据当前状态S进行打分，并选出分值最大的动作。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广东工业大学，未经广东工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110010968.2/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法；其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q30-00 商业，例如购物或电子商务
G06Q30-02 .行销，例如，市场研究与分析、调查、促销、广告、买方剖析研究、客户管理或奖励；价格评估或确定
G06Q30-04 .签单或开发票
G06Q30-06 .购买、出售或租赁交易
G06Q30-08 ..拍卖

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种接单辅助决策的联邦强化学习方法有效

专利文献下载