[发明专利]一种基于强化学习的任务分配方法在审

申请号：	202010634907.9	申请日：	2020-07-03
公开（公告）号：	CN111861159A	公开（公告）日：	2020-10-30
发明（设计）人：	徐连;王薇	申请（专利权）人：	武汉实为信息技术股份有限公司
主分类号：	G06Q10/06	分类号：	G06Q10/06
代理公司：	武汉科皓知识产权代理事务所(特殊普通合伙) 42222	代理人：	胡琦旖
地址：	430000 湖北省武汉市江汉***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于强化学习任务分配方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明属于强化学习技术领域，公开了一种基于强化学习的任务分配方法，包括收集获取员工信息、任务信息；根据员工信息、任务信息建立强化学习模型，初始化Q矩阵、状态向量S、行动向量A、奖励矩阵R，设置超参数，进行Q矩阵的迭代计算；利用强化学习模型更新员工的当前任务分配阈值；根据每个员工的当前任务分配阈值、当前分配到的任务数量得到每个员工的权重信息；根据待分配任务的所有员工的权重信息进行新任务的分配。本发明解决了现有技术中基于人力成本的任务分配方法无法高效合理地进行任务分配的问题，能够通过强化学习的方法在线自动地进行任务分配，解决人工任务分配存在的弊端。

技术领域

本发明涉及强化学习技术领域，尤其涉及一种基于强化学习的任务分配方法。

背景技术

任务分配是一个企业机构办公时必须面对的问题，很多领域(例如咨询领域)的任务往往不是重复性的，及其需要工作人员的智力与经验，且耗时较长，不同的任务耗时也不一样，难以量化。具体的，例如大型咨询公司因为专业人员多且专业分布广，每个员工的工作任务较为专一，从而在任务分配上比较简单。而小型公司部门少，人员少，项目经验涉猎较少，且不同员工之间对于一个新到达的任务往往没办法找到最优的分配办法。大型咨询领域的公司传统的任务分配往往由部门主管来简单地根据员工特长进行选择分配，或者随机分配，这种需要人力成本的任务分配方法只能达到一个比较一般的效果。然而咨询领域的中小企业很难进行任务分配，因为每个员工都需要负责项目中的多个部分，不同员工间的擅长领域往往有交叉，人力成本的任务分配方法不够有效。且小公司人员变动很大，新老员工交替较快，公司缺乏对新员工的考量，从而也无法高效合理地进行任务分配。

强化学习用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题，如果智能体的某个行为策略导致环境正的奖赏(强化信号)，那么智能体以后产生这个行为策略的趋势便会加强。智能体的目标是在每个离散状态发现最优策略以使期望的折扣奖赏和最大。强化学习可以根据每个人在公司中的工作经历来学习任务分配的方法从而可以高效自动地进行任务分配。避免了不够合理的人力手动分配。通过将强化学习技术应用到某些领域(例如咨询领域)的任务分配上，可以有效地提高相关领域公司(例如咨询领域公司)完成用户要求的任务的效率。

发明内容

本申请实施例通过提供一种基于强化学习的任务分配方法，解决了现有技术中基于人力成本的任务分配方法无法高效合理地进行任务分配的问题。

本申请实施例提供一种基于强化学习的任务分配方法，包括以下步骤：

步骤1、收集获取员工信息、任务信息；

步骤2、根据所述员工信息、所述任务信息建立强化学习模型，初始化Q矩阵、状态向量S、行动向量A、奖励矩阵R，设置超参数，进行Q矩阵的迭代计算；

步骤3、利用强化学习模型更新员工的当前任务分配阈值；

步骤4、根据每个员工的当前任务分配阈值、当前分配到的任务数量得到每个员工的权重信息；根据待分配任务的所有员工的权重信息进行新任务的分配。

优选的，所述步骤1中，所述员工信息包括员工正在进行的任务数量、员工的当前任务分配阈值；所述任务信息包括任务的分配情况信息、任务的进行情况信息。

优选的，所述步骤2中，所述强化学习模型基于Q学习算法；

所述Q矩阵为二维矩阵，行为状态空间，列为动作空间；每一行对应一种任务分配阈值状态，每一列对应一种行动；行动包括代表任务分配阈值减一的第一行动A₁、代表任务分配阈值不变的第二行动A₂、代表任务分配阈值加一的第三行动A₃；初始化时将所述Q矩阵的值设为0；

所述奖励矩阵R中的每个元素分别代表一种任务分配阈值状态对应的奖励值；初始化时将所述奖励矩阵R设为：在状态为预设任务分配阈值的位置取值为1，其余位置取值为0。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。