[发明专利]响应信息输出方法、装置、电子设备及可读存储介质在审

专利信息
申请号: 202010791077.0 申请日: 2020-08-07
公开(公告)号: CN112084300A 公开(公告)日: 2020-12-15
发明(设计)人: 何可清;杨玉树;江会星 申请(专利权)人: 北京三快在线科技有限公司
主分类号: G06F16/33 分类号: G06F16/33;G06F16/332;G06F16/36;G06F40/30;G06K9/62;G06N20/00
代理公司: 北京润泽恒知识产权代理有限公司 11319 代理人: 任亚娟
地址: 100083 北京市海*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 响应 信息 输出 方法 装置 电子设备 可读 存储 介质
【说明书】:

本申请实施例提供了一种响应消息输出方法、装置、存储介质和电子设备,所述响应信息输出方法,所述方法包括:获得当前节点的信息;将所述当前节点的信息输入响应节点预测模型,以确定所述当前节点对应的目标响应节点;输出所述目标响应节点的信息;其中,所述响应节点预测模型是根据不同节点之间的转移关系,对预设模型进行多次强化学习训练所得到的模型,每次强化学习训练的奖励值是根据所述预设模型本次预测的响应节点与预设期望响应节点之间的匹配度确定的。在模型针对每次输入而得到的输出结果的基础上,对模型施加即时奖惩,以使模型根据获得的即时奖惩进行迭代更新,从而提高强化学习的效率。

技术领域

本申请实施例涉及数据处理技术领域,尤其涉及一种响应信息输出方法、装置、电子设备及可读存储介质。

背景技术

目前机器学习的学习方法大致可以分为以下三种:监督学习、无监督学习和强化学习。

其中,强化学习(Deep Reinforcement Learning(DRL))是一个通过奖惩来学习正确行为的机制。基于学习过程中是否有模型,强化学习又可以分为基于模型的强化学习和无模型强化学习。

其中,目前的基于模型的强化学习中,模型通常通过以下两种方法获得奖惩:

一、通过人工标注对模型施加奖惩。具体地,通过人工的方式设定统一的评价标准,并基于该评价标准对模型输出的结果进行行为标注,并基于标注结果对模型施加奖惩。这种方法的优点在于人工标注的数据准确率较高,数据噪声小;但这种方法受限于人工所能标注的数据总是有限的,只能适用于实验室中单一化且数据小型化的应用场景,难以适用于工业中多样化且数据大型化(百万量级)的应用场景。

二、延迟奖励机制。具体地,为模型设定期望目标,基于模型最终是否达成期望目标对模型施加奖惩。这种方法总是在模型的最终输出结果上进行决策,以确定该如何对模型施加奖惩,导致模型收敛至期望的最优态的效率较低,进而导致学习时间较为漫长。

发明内容

本申请实施例提供一种响应信息输出方法、装置、电子设备及可读存储介质,以解决相关技术中强化学习效率较低,难以获得适于工业应用的决策预测模型的技术问题。

本申请实施例第一方面提供了一种响应信息输出方法,所述方法包括:

获得当前节点的信息;

将所述当前节点的信息输入响应节点预测模型,以确定所述当前节点对应的目标响应节点;

输出所述目标响应节点的信息;

其中,所述响应节点预测模型是根据不同节点之间的转移关系,对预设模型进行多次强化学习训练所得到的模型,每次强化学习训练的奖励值是根据所述预设模型本次预测的响应节点与预设期望响应节点之间的匹配度确定的。

可选地,所述响应节点预测模型是通过以下步骤得到的:

以包含多个样本节点对的集合为输入,对所述预设模型进行多次强化学习训练,得到响应节点预测模型,每个样本节点对包括具有转移关系的两个样本节点;

其中,在对所述预设模型进行多次强化学习训练的过程中:

根据所述预设模型每次预测的响应节点与预设期望响应节点之间的匹配度,确定所述预设模型本次强化学习训练的奖励值,其中,所述预设期望响应节点为样本节点对中除输入所述预设模型的样本节点外剩余的样本节点;

根据所述预设模型本次强化学习训练的奖励值,对所述预设模型进行更新;

对更新后的预设模型进行下一次强化学习训练。

可选地,每次强化学习训练的奖励值是按照以下方式确定的:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司,未经北京三快在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010791077.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top