[发明专利]用于驾驶员奖酬的强化学习方法:用于驾驶员-系统互动的生成性对抗网络在审
申请号: | 201980097527.1 | 申请日: | 2019-06-14 |
公开(公告)号: | CN114303162A | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 尚文杰;李卿阳;秦志伟;孟一平;俞扬;叶杰平 | 申请(专利权)人: | 北京嘀嘀无限科技发展有限公司 |
主分类号: | G06Q10/02 | 分类号: | G06Q10/02 |
代理公司: | 成都七星天知识产权代理有限公司 51253 | 代理人: | 袁春晓 |
地址: | 100193 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 驾驶员 强化 学习方法 系统 互动 生成 对抗 网络 | ||
1.一种运输叫车系统,包括:
多个客户端设备,每个客户端设备与网络通信,并运行应用程序以参与运输服务;
多个运输设备,每个运输设备与多个驾驶员中的一个相关联,并运行应用程序以提供运输服务;
存储用于每个驾驶员的状态和行动数据的数据库,状态数据与由驾驶员提供的运输服务相关联,行动数据与驾驶员获得奖酬相关联;
经由网络与所述多个运输设备和客户端设备耦合的奖酬系统,奖酬系统包括:
联合政策模型生成器,其可操作以:
构建所述多个驾驶员中的各驾驶员在预设的时间段中的历史轨迹,其中,历史轨迹包括用于预设时间段的状态和行动数据;
生成奖酬政策,其输入驾驶员的历史轨迹以及输出用于驾驶员的奖酬;
生成混杂式奖酬政策,其输入驾驶员的历史轨迹、输入用于驾驶员的奖酬以及输出用于驾驶员的另一个奖酬;
生成奖酬对象政策,其输入驾驶员的历史轨迹、输入用于驾驶员的奖酬、输入用于驾驶员的另一个奖酬以及输出驾驶员的模拟行动;
判别器,其输入来自政策生成器的用于驾驶员的历史轨迹和模拟行动,判别器的输出是与每个模拟行动相对应的奖励;
强化学习系统,其基于奖励输出,从模拟行动中提供优化的奖酬政策;以及
奖酬服务器,其根据优化的奖酬政策向至少一些运输设备传达选定的奖酬。
2.根据权利要求1所述的运输叫车系统,其中,奖酬系统包括驾驶员价值引擎,所述驾驶员价值引擎可操作以基于数据库中的行动和状态来输出驾驶员的排名优先级。
3.根据权利要求2所述的运输叫车系统,其中,奖酬服务器可操作以基于排名优先级和优化的奖酬政策来向驾驶员提供奖酬。
4.根据权利要求3所述的运输叫车系统,其中,奖酬服务器可操作以在一时间段中分派奖酬预算,并且其中,奖酬在所述时间段中受到所述奖酬预算的限制。
5.根据权利要求4所述的运输叫车系统,其中,奖酬预算在所述时间段中被平均分派。
6.根据权利要求4所述的运输叫车系统,其中,奖酬预算在所述时间段中被分配为有利于特定时间段。
7.根据权利要求1所述的运输叫车系统,其中,联合政策生成器是神经网络。
8.根据权利要求1所述的运输叫车系统,其中,选定的奖酬是允许驾驶员在提供特定数量的运输服务后兑现价值的优惠券。
9.根据权利要求1所述的运输叫车系统,其中,强化学习系统根据策略梯度方法进行操作。
10.根据权利要求1的运输叫车系统,其中,历史轨迹是基于被归类为流逝驾驶员的驾驶员来选择的。
11.一种在运输叫车系统中奖酬驾驶员的方法,运输叫车系统包括多个客户端设备和多个运输设备,每个客户端设备与网络通信并执行应用程序以参与运输服务,每个运输设备与多个驾驶员中的一个相关联并执行应用程序以提供运输服务,所述方法包括:
在与网络耦合的数据库中储存用于每个驾驶员的状态和行动数据,其中,状态数据与由驾驶员提供的运输服务相关联,行动数据与驾驶员接受奖酬相关联;
构建所述多个驾驶员在预设的时间段中的历史轨迹,其中,历史轨迹包括用于预设的时间段的状态和行动数据;
生成奖酬政策,其输入驾驶员的历史轨迹以及输出用于驾驶员的奖酬;
生成混杂奖酬政策,其输入驾驶员历史轨迹、输入用于驾驶员的奖励以及输出用于驾驶员的另一个奖励;
生成奖酬对象政策,其输入驾驶员的历史轨迹、输入用于驾驶员的奖酬、输入用于驾驶员的另一个奖酬以及输出驾驶员的模拟行动;
从判别器的输出中,确定与每个模拟行动相对应的奖励,所述判别器输入历史轨迹和驾驶员的模拟行动;
经由强化学习,基于奖励输出,从模拟行动中提供优化的奖酬政策;以及
根据来自奖酬服务器的优化的奖酬政策,通过网络向至少一些运输设备传达选定的奖酬。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京嘀嘀无限科技发展有限公司,未经北京嘀嘀无限科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980097527.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:运动护目镜
- 下一篇:一种体声波谐振装置及一种体声波滤波器
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理