[发明专利]一种基于强化学习的任务分配方法在审
| 申请号: | 202010634907.9 | 申请日: | 2020-07-03 |
| 公开(公告)号: | CN111861159A | 公开(公告)日: | 2020-10-30 |
| 发明(设计)人: | 徐连;王薇 | 申请(专利权)人: | 武汉实为信息技术股份有限公司 |
| 主分类号: | G06Q10/06 | 分类号: | G06Q10/06 |
| 代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 胡琦旖 |
| 地址: | 430000 湖北省武汉市江汉*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 强化 学习 任务 分配 方法 | ||
1.一种基于强化学习的任务分配方法,其特征在于,包括以下步骤:
步骤1、收集获取员工信息、任务信息;
步骤2、根据所述员工信息、所述任务信息建立强化学习模型,初始化Q矩阵、状态向量S、行动向量A、奖励矩阵R,设置超参数,进行Q矩阵的迭代计算;
步骤3、利用强化学习模型更新员工的当前任务分配阈值;
步骤4、根据每个员工的当前任务分配阈值、当前分配到的任务数量得到每个员工的权重信息;根据待分配任务的所有员工的权重信息进行新任务的分配。
2.根据权利要求1所述的基于强化学习的任务分配方法,其特征在于,所述步骤1中,所述员工信息包括员工正在进行的任务数量、员工的当前任务分配阈值;所述任务信息包括任务的分配情况信息、任务的进行情况信息。
3.根据权利要求1所述的基于强化学习的任务分配方法,其特征在于,所述步骤2中,所述强化学习模型基于Q学习算法;
所述Q矩阵为二维矩阵,行为状态空间,列为动作空间;每一行对应一种任务分配阈值状态,每一列对应一种行动;行动包括代表任务分配阈值减一的第一行动A1、代表任务分配阈值不变的第二行动A2、代表任务分配阈值加一的第三行动A3;初始化时将所述Q矩阵的值设为0;
所述奖励矩阵R中的每个元素分别代表一种任务分配阈值状态对应的奖励值;初始化时将所述奖励矩阵R设为:在状态为预设任务分配阈值的位置取值为1,其余位置取值为0。
4.根据权利要求1所述的基于强化学习的任务分配方法,其特征在于,所述Q矩阵为8×3矩阵,状态代表的任务分配阈值的取值范围为[0,7],且取正整数。
5.根据权利要求1所述的基于强化学习的任务分配方法,其特征在于,所述步骤2中,所述超参数包括:探索次数、迭代轮次、学习率、折扣因子、贪婪因子。
6.根据权利要求3所述的基于强化学习的任务分配方法,其特征在于,所述步骤2中,在每一次的迭代中进行如下操作:
(1)选择一个状态S;
(2)重复如下过程直到状态到达终止状态或者超出探索次数:
初始化一个随机数,随机数的取值范围为[0,1];如果随机数小于贪婪因子,则随机选择行动Ai,i的取值范围为[1,3],且为正整数;如果随机数大于贪婪因子,则选择状态S行中值最大的元素对应的行动Ai,并在当前状态采取此行动得到一个新的状态S’,更新Q矩阵和状态S;
其中,所述终止状态为奖励矩阵中奖励值最大的状态。
7.根据权利要求6所述的基于强化学习的任务分配方法,其特征在于,所述更新Q矩阵和状态S如下式所示:
其中,St表示t时刻的状态,At表示t时刻在状态St下采取的动作;St+1表示采取完At动作后的t+1时刻的状态,即新的状态S’;At+1表示t+1时刻在状态St+1下采取的动作,R(St+1)表示St+1的奖励值,α表示学习率,γ表示折扣因子;A(St+1)表示t+1时刻,在St+1状态下可以采取的行动集合;表示在t+1时刻的状态St+1下,从三种不同行动的Q值中选择最大的那个Q值;Q(St,At)代表在状态St下采取行动A的Q值,Q(St+1,At+1)代表在状态St+1下采取行动A的Q值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉实为信息技术股份有限公司,未经武汉实为信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010634907.9/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理





