[发明专利]一种基于强化学习的任务分配方法在审

申请号：	202010634907.9	申请日：	2020-07-03
公开（公告）号：	CN111861159A	公开（公告）日：	2020-10-30
发明（设计）人：	徐连;王薇	申请（专利权）人：	武汉实为信息技术股份有限公司
主分类号：	G06Q10/06	分类号：	G06Q10/06
代理公司：	武汉科皓知识产权代理事务所(特殊普通合伙) 42222	代理人：	胡琦旖
地址：	430000 湖北省武汉市江汉***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于强化学习任务分配方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于强化学习的任务分配方法，其特征在于，包括以下步骤：

步骤1、收集获取员工信息、任务信息；

步骤2、根据所述员工信息、所述任务信息建立强化学习模型，初始化Q矩阵、状态向量S、行动向量A、奖励矩阵R，设置超参数，进行Q矩阵的迭代计算；

步骤3、利用强化学习模型更新员工的当前任务分配阈值；

步骤4、根据每个员工的当前任务分配阈值、当前分配到的任务数量得到每个员工的权重信息；根据待分配任务的所有员工的权重信息进行新任务的分配。

2.根据权利要求1所述的基于强化学习的任务分配方法，其特征在于，所述步骤1中，所述员工信息包括员工正在进行的任务数量、员工的当前任务分配阈值；所述任务信息包括任务的分配情况信息、任务的进行情况信息。

3.根据权利要求1所述的基于强化学习的任务分配方法，其特征在于，所述步骤2中，所述强化学习模型基于Q学习算法；

所述Q矩阵为二维矩阵，行为状态空间，列为动作空间；每一行对应一种任务分配阈值状态，每一列对应一种行动；行动包括代表任务分配阈值减一的第一行动A₁、代表任务分配阈值不变的第二行动A₂、代表任务分配阈值加一的第三行动A₃；初始化时将所述Q矩阵的值设为0；

所述奖励矩阵R中的每个元素分别代表一种任务分配阈值状态对应的奖励值；初始化时将所述奖励矩阵R设为：在状态为预设任务分配阈值的位置取值为1，其余位置取值为0。

4.根据权利要求1所述的基于强化学习的任务分配方法，其特征在于，所述Q矩阵为8×3矩阵，状态代表的任务分配阈值的取值范围为[0,7]，且取正整数。

5.根据权利要求1所述的基于强化学习的任务分配方法，其特征在于，所述步骤2中，所述超参数包括：探索次数、迭代轮次、学习率、折扣因子、贪婪因子。

6.根据权利要求3所述的基于强化学习的任务分配方法，其特征在于，所述步骤2中，在每一次的迭代中进行如下操作：

(1)选择一个状态S；

(2)重复如下过程直到状态到达终止状态或者超出探索次数：

初始化一个随机数，随机数的取值范围为[0,1]；如果随机数小于贪婪因子，则随机选择行动A_i，i的取值范围为[1,3]，且为正整数；如果随机数大于贪婪因子，则选择状态S行中值最大的元素对应的行动A_i，并在当前状态采取此行动得到一个新的状态S’，更新Q矩阵和状态S；

其中，所述终止状态为奖励矩阵中奖励值最大的状态。

7.根据权利要求6所述的基于强化学习的任务分配方法，其特征在于，所述更新Q矩阵和状态S如下式所示：

其中，S_t表示t时刻的状态，A_t表示t时刻在状态S_t下采取的动作；S_t+1表示采取完A_t动作后的t+1时刻的状态，即新的状态S’；A_t+1表示t+1时刻在状态S_t+1下采取的动作，R(S_t+1)表示S_t+1的奖励值，α表示学习率，γ表示折扣因子；A(S_t+1)表示t+1时刻，在S_t+1状态下可以采取的行动集合；表示在t+1时刻的状态S_t+1下，从三种不同行动的Q值中选择最大的那个Q值；Q(S_t,A_t)代表在状态S_t下采取行动A的Q值，Q(S_t+1,A_t+1)代表在状态S_t+1下采取行动A的Q值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于武汉实为信息技术股份有限公司，未经武汉实为信息技术股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010634907.9/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于辐照度特征的雷云轨迹跟踪预测方法
下一篇：一种基于多粒度建模技术的仿真系统及构建方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法；其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政；管理
G06Q10-02 .预定，例如用于门票、服务或事件的
G06Q10-04 .预测或优化，例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理，例如组织、规划、调度或分配时间、人员或机器资源；企业规划；组织模型
G06Q10-08 .物流，例如仓储、装货、配送或运输；存货或库存管理，例如订货、采购或平衡订单
G06Q10-10 .办公自动化，例如电子邮件或群件的计算机辅助管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于强化学习的任务分配方法在审

专利文献下载