[发明专利]一种动作预测方法及装置有效

申请号：	202010176214.X	申请日：	2020-03-13
公开（公告）号：	CN111389006B	公开（公告）日：	2023-04-07
发明（设计）人：	宋研;林磊;范长杰;胡志鹏	申请（专利权）人：	网易(杭州)网络有限公司
主分类号：	A63F13/56	分类号：	A63F13/56;A63F13/573;G06N20/00
代理公司：	北京超凡宏宇专利代理事务所(特殊普通合伙) 11463	代理人：	高燕
地址：	310052 浙江省杭州***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种动作预测方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供了一种动作预测方法及装置，其中，该方法包括：获取智能体与所在环境中的环境对象进行交互过程中的轨迹序列；对多个所述轨迹数据集合进行动作奖励值重分配，使得每个轨迹数据集合对应的动作奖励值非零；从进行动作奖励值重分配后的所述轨迹序列中选取目标轨迹序列作为待训练的目标样本；基于多个所述目标样本，训练得到状态转移模型；所述状态转移模型用于为智能体预测待执行的动作。本申请实施例由于训练模型所用的数据量大大减少，可以在降低状态转移建模难度的同时加快训练过程的收敛速度。并且由于本方法无需人工干预和额外辅助数据，具有较强的泛化性。

技术领域

本申请涉及人工智能技术领域，尤其是涉及一种动作预测方法及装置。

背景技术

在强化学习问题中，智能体通常会不断与环境进行交互，并以最大化环境反馈的累积奖励为目标，更新自身的行为策略。然而，在许多复杂情况下，环境往往很少会反馈奖励，进而导致智能体无法获取到有效的信息来更新自身行为策略。这种很难直接从环境中获取到奖励的问题即为稀疏奖励问题。

在稀疏奖励情况下，常见的强化学习方案很难取得有效的成果。一方面，由于智能体的大部分行为不能获得直接奖励，无法根据环境奖励选取动作；另一方面，此类游戏通常较为复杂，需要一定策略才能完成，想要在巨大的状态空间中随机探索到该策略难度很大。

目前解决稀疏奖励问题的方案包括增添额外奖励方案、模仿学习方案、奖励重分配方案和环境建模方案。申请人在研究中发现，现有的这几种方案存在状态转移建模难度大、模型训练过程的收敛速度慢以及泛化性较差。

发明内容

有鉴于此，本申请的目的在于提供一种动作预测方法和装置，以在降低状态转移建模难度的同时加快训练过程的收敛速度。

第一方面，本申请实施例提供了一种动作预测方法，包括：

获取智能体与所在环境中的环境对象进行交互过程中的轨迹序列；所述轨迹序列包括多个连续动作下的轨迹数据集合，每个轨迹数据集合中的参数信息包括动作奖励值；

对多个所述轨迹数据集合进行动作奖励值重分配，使得每个轨迹数据集合对应的动作奖励值非零；

从进行动作奖励值重分配后的所述轨迹序列中选取目标轨迹序列作为待训练的目标样本，每个所述目标样本中包括对应的轨迹数据集合中的至少一种参数信息；