[发明专利]强化学习方法、装置、计算机可读介质及电子设备有效
| 申请号: | 201910817611.8 | 申请日: | 2019-08-30 |
| 公开(公告)号: | CN110533192B | 公开(公告)日: | 2021-05-04 |
| 发明(设计)人: | 詹仙园;徐浩然;张玥;霍雨森;朱翔宇;王小波;邓欣;郑宇;李春洋;张钧波 | 申请(专利权)人: | 京东城市(北京)数字科技有限公司 |
| 主分类号: | G06N20/00 | 分类号: | G06N20/00 |
| 代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 王辉;阚梓瑄 |
| 地址: | 100086 北京市海淀区知*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本公开实施例提供了一种强化学习方法、强化学习装置、计算机可读介质及电子设备,涉及机器学习技术领域。该强化学习方法包括:通过历史数据构建仿真环境;确定所述仿真环境的第一状态,通过强化模型确定对于所述第一状态的第一响应动作;计算所述第一响应动作的置信度,根据所述第一响应动作的置信度确定探索样本;基于所述探索样本对所述强化模型进行训练。本公开实施例的技术方案能够控制强化学习的探索过程,增强探索的策略的有效性,从而加快强化学习的训练过程。 | ||
| 搜索关键词: | 强化 学习方法 装置 计算机 可读 介质 电子设备 | ||
【主权项】:
1.一种强化学习方法,其特征在于,包括:/n通过历史数据构建仿真环境;/n确定所述仿真环境的第一状态,通过强化模型确定对于所述第一状态的第一响应动作;/n计算所述第一响应动作的置信度,根据所述第一响应动作的置信度确定探索样本;/n基于所述探索样本对所述强化模型进行训练。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东城市(北京)数字科技有限公司,未经京东城市(北京)数字科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910817611.8/,转载请声明来源钻瓜专利网。





