[发明专利]一种基于POMDP模型的众包平台任务分配方法有效
| 申请号: | 201811254337.X | 申请日: | 2018-10-19 |
| 公开(公告)号: | CN109409739B | 公开(公告)日: | 2021-10-26 |
| 发明(设计)人: | 刘峰;夏志伟;张弛;曾虎双 | 申请(专利权)人: | 南京大学 |
| 主分类号: | G06Q10/06 | 分类号: | G06Q10/06 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 210093 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 pomdp 模型 平台 任务 分配 方法 | ||
1.一种基于POMDP模型的众包平台任务分配方法,该方法包括如下步骤:
1)准备阶段
a)准备日常的数据,即历史任务信息;
b)确定常数参数,包括工人等级数、任务种类数;
c)对历史数据进行格式转换,按照特定的数据格式,对数据进行预处理;
2)建模阶段
a)根据应用的数据,确定POMDP模型中的简单元素,包括状态、动作、观察、折扣因子;
b)根据数据集进行函数学习,完成POMDP模型中的复杂元素,包括收益函数、状态转移函数、观察函数;
c)根据需要提供决策支持的任务种类,确定初始信念状态;
d)将2-a)中的初步模型与2-b)中得到的函数以及2-c)中的初始信念状态结合,得到最终的POMDP平台模型;
e)根据标准POMDP模型文件的格式将POMDP平台模型转化为POMDP文件;
3)决策阶段
a)使用POMDP求解程序求解2-e)中得到的POMDP文件,求解得到从信念状态到动作映射的策略;
b)使用得到的决策,根据当前信念状态得到最优动作;
c)执行最优动作,更新信念状态信息,重复执行b)直至终止;
其中步骤1-c)所述的数据格式说明:
1)数据格式需要满足特定的数据结构,首先定义的是一些集合;
任务种类集合T,工人等级集合L,任务完成质量集合Q={A,B,C,D},评估结果集合B={true,false};
2)以下是历史信息的结构:
任务记录集合M={m1,m2,...,mk}中的每个元素包含了一次任务的全部信息,每条任务记录mi={P,t,r}有其对应任务执行过程集合P={p1,p2,...,pn}、任务种类t∈T以及任务请求方支付的酬劳对于每次任务执行过程pi=(ti,li,ci,bi),有对应的种类ti,工人等级li,支付的酬劳ci,评估结果bi;其中种类ti∈T,工人等级li∈L,支付酬劳关于评估结果bi,当i<n时,bi=false,当i=n时,bi=true;
其中步骤2-a)所述的模型说明:
1)状态,其集合以下表示为S:
一共有两种类型的状态,一种是正在执行中的状态(q,t),另一种是终止状态,正在执行的状态有两个元素,完成质量q和任务种类t,因此正在执行中的状态是种类和完成质量的笛卡尔积,数量是种类数乘以完成质量数,终止状态表示任务被提交,已经返回给需求方;
2)动作,其集合以下表示为A:
一共有两种类型的动作:分配和完成;
完成动作表示系统将任务终止,并返回给需求方;分配动作表示将任务分配给某一特定的工人群体,工人群体有两个元素,种类t和等级l,因此分配动作的数量为种类数乘以等级数,这里工人的种类与任务种类相同;
3)观察,其集合以下表示为Z:
一共有两种观察:true和false;
每次进行动作之后,众包平台都会对任务进行质量评估,评估通过则设观察值为true,否则为false;其中2-b)的收益函数学习过程说明:
1)收益函数的格式为R:设转移前状态为s,动作为a,转移后状态为s’,关于动作a分情况讨论;
2)如果动作a是分配动作,搜索动作a所对应的任务种类的所有任务执行记录组成的集合Ma={m|m∈M,m的种类与a的种类相同},在集合Ma的任务执行过程中获取与动作a对应工人等级相同的任务执行过程组成的集合Pa={p|p∈m.P,m∈M’,p的工人等级与a的工人等级相同},计算Pa平均支付酬劳,取负后为收益,如果Pa是空集,则设R为负无穷,即:
3)如果动作a是结束动作,如果状态s为终止状态,则R=0,否则有状态s=(q,t)检索状态s所对应的任务种类中所有任务执行记录组成的集合Ms={m|m∈M,m的种类与s的种类相同},计算其平均酬劳,如果Ms是空集,则报错,发生数据缺失,即:
其中2-b)的状态转移函数学习过程说明:
τ:设转移前状态为s,动作为a,转移后状态为s’,概率分情况讨论:
1)首先关于动作a分类讨论,如果动作a为完成动作,那么任务必定进入终止状态,即对s’=e,转移概率τ=1,对s’≠e时,概率τ=0;
2)对于a是分配动作,关于转移前状态s分类讨论,如果转移前状态s为终止状态,那么类似情况1),转移后状态s’也一定是终止状态;如果转移前状态s不是终止状态,此时动作a是分配动作,那么转移后状态一定不是终止状态,即对转移后状态为终止状态,转移概率τ=0;
3)最后一种情况是转移前后状态s和s’都不是终止状态,动作a是分配动作;如果转移前后状态s和s’的任务种类不同,概率τ=0;对于转移前后状态s和s’状态任务种类相同,这里使用历史数据进行学习,学习过程如下:
4)对于任意的任务种类X,从M中取出所有任务种类为X的任务记录的集合MX={m|m∈M,m的任务种类为X},关于所有m∈MX,考察执行序列P={p1,p2,...,pn},新设一个对应的跃迁集合U={u1,u2,...,un},其中ui表示pi发生了质量跃迁的概率,即质量发生了提高的概率;初始质量为D,最终质量为A,发生了3次跃迁;故有在执行了pn之后,必然发生了质量由B到A的跃迁,可以得到公式1,un=1,以及公式2,ui的值与pi对应的工人等级li相关,不同工人等级对应的ui与工人的平均酬劳线性相关,即可得公式3,uH∶uM∶uL=RH∶RM∶RL,其中RH,RM,RL的计算方法为收益函数中分配动作的计算方法,联立公式1、公式2和公式3可解得所有ui,然后对于所有的m∈MX中对应uH,uM,uL求均值,得到最终的UH,UM,UL,在状态转移函数中,由动作a对应的工人等级l,得到其对应的质量跃迁概率ul,则对于转移前状态s,如果s的任务质量为A,则转移后状态质量为A的概率为1,其它状态的概率为0,如果任务质量不为A,则状态发生跃迁的概率为ul,保持原状态的概率为1-ul,其它状态的概率为0,即:
其中2-b)的观察函数学习过程说明:
O:记动作为a,转移后状态为s,获得的观察为z;如果动作a是终止动作或状态s是结束状态,则观察值为true的概率为1,为false的概率为0,如果动作a是分配动作,则状态s是执行中状态,此时观察函数取决于状态的完成质量q,关于q分情况讨论:
当q∈{C,D}时,观察值为true的概率为0,为false的概率是1;当q=B时,观察值为true的概率为0.2,为false的概率是0.8,当q=A时,观察值为true的概率为0.8,为false的概率是0.2;
其中2-c)的信念状态说明:
1)信念状态是信念空间上的一个概率分布,表示系统对当前状态的判断,用来作为决策的依据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811254337.X/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理





