[发明专利]响应信息输出方法、装置、电子设备及可读存储介质在审

申请号：	202010791077.0	申请日：	2020-08-07
公开（公告）号：	CN112084300A	公开（公告）日：	2020-12-15
发明（设计）人：	何可清;杨玉树;江会星	申请（专利权）人：	北京三快在线科技有限公司
主分类号：	G06F16/33	分类号：	G06F16/33;G06F16/332;G06F16/36;G06F40/30;G06K9/62;G06N20/00
代理公司：	北京润泽恒知识产权代理有限公司 11319	代理人：	任亚娟
地址：	100083 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	响应信息输出方法装置电子设备可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例提供了一种响应消息输出方法、装置、存储介质和电子设备，所述响应信息输出方法，所述方法包括：获得当前节点的信息；将所述当前节点的信息输入响应节点预测模型，以确定所述当前节点对应的目标响应节点；输出所述目标响应节点的信息；其中，所述响应节点预测模型是根据不同节点之间的转移关系，对预设模型进行多次强化学习训练所得到的模型，每次强化学习训练的奖励值是根据所述预设模型本次预测的响应节点与预设期望响应节点之间的匹配度确定的。在模型针对每次输入而得到的输出结果的基础上，对模型施加即时奖惩，以使模型根据获得的即时奖惩进行迭代更新，从而提高强化学习的效率。

技术领域

本申请实施例涉及数据处理技术领域，尤其涉及一种响应信息输出方法、装置、电子设备及可读存储介质。

背景技术

目前机器学习的学习方法大致可以分为以下三种：监督学习、无监督学习和强化学习。

其中，强化学习(Deep Reinforcement Learning(DRL))是一个通过奖惩来学习正确行为的机制。基于学习过程中是否有模型，强化学习又可以分为基于模型的强化学习和无模型强化学习。

其中，目前的基于模型的强化学习中，模型通常通过以下两种方法获得奖惩：

一、通过人工标注对模型施加奖惩。具体地，通过人工的方式设定统一的评价标准，并基于该评价标准对模型输出的结果进行行为标注，并基于标注结果对模型施加奖惩。这种方法的优点在于人工标注的数据准确率较高，数据噪声小；但这种方法受限于人工所能标注的数据总是有限的，只能适用于实验室中单一化且数据小型化的应用场景，难以适用于工业中多样化且数据大型化(百万量级)的应用场景。

二、延迟奖励机制。具体地，为模型设定期望目标，基于模型最终是否达成期望目标对模型施加奖惩。这种方法总是在模型的最终输出结果上进行决策，以确定该如何对模型施加奖惩，导致模型收敛至期望的最优态的效率较低，进而导致学习时间较为漫长。

发明内容

本申请实施例提供一种响应信息输出方法、装置、电子设备及可读存储介质，以解决相关技术中强化学习效率较低，难以获得适于工业应用的决策预测模型的技术问题。

本申请实施例第一方面提供了一种响应信息输出方法，所述方法包括：

获得当前节点的信息；

将所述当前节点的信息输入响应节点预测模型，以确定所述当前节点对应的目标响应节点；

输出所述目标响应节点的信息；

其中，所述响应节点预测模型是根据不同节点之间的转移关系，对预设模型进行多次强化学习训练所得到的模型，每次强化学习训练的奖励值是根据所述预设模型本次预测的响应节点与预设期望响应节点之间的匹配度确定的。

可选地，所述响应节点预测模型是通过以下步骤得到的：

以包含多个样本节点对的集合为输入，对所述预设模型进行多次强化学习训练，得到响应节点预测模型，每个样本节点对包括具有转移关系的两个样本节点；

其中，在对所述预设模型进行多次强化学习训练的过程中：

根据所述预设模型每次预测的响应节点与预设期望响应节点之间的匹配度，确定所述预设模型本次强化学习训练的奖励值，其中，所述预设期望响应节点为样本节点对中除输入所述预设模型的样本节点外剩余的样本节点；