[发明专利]任务下发方法、装置、电子设备及可读存储介质有效
申请号: | 202110393193.1 | 申请日: | 2021-04-13 |
公开(公告)号: | CN112801430B | 公开(公告)日: | 2021-11-12 |
发明(设计)人: | 冯伟;武晓飞;王文彬 | 申请(专利权)人: | 贝壳找房(北京)科技有限公司 |
主分类号: | G06F17/00 | 分类号: | G06F17/00;G06Q10/04;G06Q10/06;G06K9/62;G06F30/27;G06N7/00;G06F111/04;G06F111/08;G06F119/12 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 杨云云 |
地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 任务 下发 方法 装置 电子设备 可读 存储 介质 | ||
1.一种任务下发方法,其特征在于,包括:
获取目标助手的待下发任务列表,所述待下发任务列表中的每个待下发任务均关联有备选处理人列表;
以所述备选处理人列表所关联的处理人为粒度,确定动态环境,并基于所述动态环境,利用马尔科夫决策模型,确定所述待下发任务列表中目标任务将被下发给的目标处理人;
其中,所述马尔科夫决策模型为通过确定所述所关联的处理人的状态空间和收益,并通过将任务触发的整体决策时间离散化来拟合强化学习场景获取的;
在所述利用马尔科夫决策模型,确定所述待下发任务列表中目标任务将被下发给的目标处理人之前,所述方法还包括:
根据当前时刻和所述所关联的处理人在所述当前时刻可执行的任务数,确定所述所关联的处理人的状态空间,并根据所述待下发任务的被执行情况,确定所述所关联的处理人的动作集合;
通过将任务触发的所述整体决策时间离散化,对所述状态空间和所述动作集合进行降维处理,并基于降维后的状态空间和降维后的动作集合,确定所述所关联的处理人的期望收益函数;
根据任务下发的实际应用场景,确定约束条件,并基于所述约束条件,确定约束条件下的决策目标函数;
基于所述降维后的状态空间、所述降维后的动作集合、所述期望收益函数和所述决策目标函数,构建所述马尔科夫决策模型;
其中,所述构建所述马尔科夫决策模型,包括:
构建(time, chance, [任务包中任务特征], [处理人属性特征])形式的样本数据,其中,time表示当前时刻,chance表示所述所关联的处理人在所述当前时刻可执行的任务数;
根据所述所关联的处理人历史已发生的日志数据,计算所述样本数据的决策收益,并以所述决策收益作为所述样本数据的标签;
基于所述降维后的状态空间、所述降维后的动作集合、所述期望收益函数和所述决策目标函数,通过xgboost模型拟合所述所关联的处理人执行任务时的收益情况,构建初始马尔科夫决策模型;
基于所述样本数据和所述标签,训练所述初始马尔科夫决策模型,构建所述马尔科夫决策模型。
2.根据权利要求1所述的任务下发方法,其特征在于,所述通过将任务触发的整体决策时间离散化,对所述状态空间和所述动作集合进行降维处理,包括:
确定所述整体决策时间和决策周期,并基于所述决策周期,将所述整体决策时间离散化,获取离散的时间索引;
将所述状态空间中状态变量中的所述当前时刻替换为对应的所述时间索引,获取所述降维后的状态空间;
将所述动作集合中所述当前时刻对应的动作变量替换为对应的所述时间索引对应的动作变量,获取所述降维后的动作集合。
3.根据权利要求1或2所述的任务下发方法,其特征在于,基于所述降维后的状态空间和所述降维后的动作集合,确定所述所关联的处理人的所述期望收益函数,包括:
;
式中,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贝壳找房(北京)科技有限公司,未经贝壳找房(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110393193.1/1.html,转载请声明来源钻瓜专利网。