[发明专利]强化学习方法、装置、计算机可读介质及电子设备有效
| 申请号: | 201910817611.8 | 申请日: | 2019-08-30 |
| 公开(公告)号: | CN110533192B | 公开(公告)日: | 2021-05-04 |
| 发明(设计)人: | 詹仙园;徐浩然;张玥;霍雨森;朱翔宇;王小波;邓欣;郑宇;李春洋;张钧波 | 申请(专利权)人: | 京东城市(北京)数字科技有限公司 |
| 主分类号: | G06N20/00 | 分类号: | G06N20/00 |
| 代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 王辉;阚梓瑄 |
| 地址: | 100086 北京市海淀区知*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 强化 学习方法 装置 计算机 可读 介质 电子设备 | ||
1.一种强化学习方法,其特征在于,包括:
通过历史数据构建仿真环境;
确定所述仿真环境的第一状态,通过强化模型确定对于所述第一状态的第一响应动作;
计算所述第一响应动作的置信度,根据所述第一响应动作的置信度确定探索样本;
所述根据所述第一响应动作的置信度确定探索样本,包括:
如果所述第一响应动作的置信度满足预设条件,则将所述第一响应动作以第一概率确定为探索样本;
如果所述第一响应动作的置信度不满足所述预设条件,则对所述第一响应动作添加噪声,计算添加噪声后的第一响应动作的置信度;
如果添加噪声后的第一响应动作的置信度仍不满足所述预设条件,则将添加噪声后的第一响应动作以第二概率确定为探索样本,其中,所述第一概率大于所述第二概率且所述第一概率与所述第二概率之和为1;
基于所述探索样本对所述强化模型进行训练。
2.根据权利要求1所述的方法,其特征在于,所述计算所述第一响应动作的置信度,包括:
根据所述历史数据的变化范围确定多个取值区间;
根据所述历史数据中各样本的动作变量的取值,确定各所述取值区间的置信度;
根据所述第一响应动作所属的目标取值区间的置信度确定所述第一响应动作的置信度。
3.根据权利要求1所述的方法,其特征在于,如果所述第一响应动作的置信度满足预设条件,则将所述第一响应动作以第一概率确定为探索样本,包括:
如果所述第一响应动作的置信度满足预设条件,根据所述第一响应动作确定所述仿真环境的第二状态;
基于所述强化模型确定对于所述第二状态的第二响应动作;
如果所述第二响应动作的置信度满足所述预设条件,则确定所述第一响应动作与所述第二响应动作为探索轨迹;
以所述第一概率,将所述探索轨迹中包含的响应动作确定为探索样本。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
如果所述探索轨迹中包含的所有的响应动作的数量超过预设阈值,则重新确定第一状态。
5.根据权利要求2所述的方法,其特征在于,所述根据所述历史数据中各样本的动作变量的取值,确定各所述取值区间的置信度,包括:
根据所述历史数据中各样本的动作变量的取值,计算各所述取值区间的样本分布概率;
对所述样本分布概率进行数据处理,以得到各所述取值区间的置信度,其中,所述数据处理包括滤波处理、平滑处理和归一化处理中的一种或多种。
6.根据权利要求1所述的方法,其特征在于,所述第一响应动作包括多维变量,所述如果所述第一响应动作的置信度满足预设条件,包括:
如果所述第一响应动作的各维变量的置信度均满足所述预设条件,则确定所述第一响应动作的置信度满足所述预设条件。
7.根据权利要求6所述的方法,其特征在于,根据所述第一响应动作的置信度确定探索样本之前,还包括:
根据历史数据分别确定各维度的取值区间;
分别计算所述各维度的取值区间对应的置信度;
根据所述第一响应动作的各维变量分别所属的各目标取值区间,确定所述第一响应动作的各维变量的置信度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东城市(北京)数字科技有限公司,未经京东城市(北京)数字科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910817611.8/1.html,转载请声明来源钻瓜专利网。





