[发明专利]响应信息输出方法、装置、电子设备及可读存储介质在审
| 申请号: | 202010791077.0 | 申请日: | 2020-08-07 |
| 公开(公告)号: | CN112084300A | 公开(公告)日: | 2020-12-15 |
| 发明(设计)人: | 何可清;杨玉树;江会星 | 申请(专利权)人: | 北京三快在线科技有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332;G06F16/36;G06F40/30;G06K9/62;G06N20/00 |
| 代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 任亚娟 |
| 地址: | 100083 北京市海*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 响应 信息 输出 方法 装置 电子设备 可读 存储 介质 | ||
本申请实施例提供了一种响应消息输出方法、装置、存储介质和电子设备,所述响应信息输出方法,所述方法包括:获得当前节点的信息;将所述当前节点的信息输入响应节点预测模型,以确定所述当前节点对应的目标响应节点;输出所述目标响应节点的信息;其中,所述响应节点预测模型是根据不同节点之间的转移关系,对预设模型进行多次强化学习训练所得到的模型,每次强化学习训练的奖励值是根据所述预设模型本次预测的响应节点与预设期望响应节点之间的匹配度确定的。在模型针对每次输入而得到的输出结果的基础上,对模型施加即时奖惩,以使模型根据获得的即时奖惩进行迭代更新,从而提高强化学习的效率。
技术领域
本申请实施例涉及数据处理技术领域,尤其涉及一种响应信息输出方法、装置、电子设备及可读存储介质。
背景技术
目前机器学习的学习方法大致可以分为以下三种:监督学习、无监督学习和强化学习。
其中,强化学习(Deep Reinforcement Learning(DRL))是一个通过奖惩来学习正确行为的机制。基于学习过程中是否有模型,强化学习又可以分为基于模型的强化学习和无模型强化学习。
其中,目前的基于模型的强化学习中,模型通常通过以下两种方法获得奖惩:
一、通过人工标注对模型施加奖惩。具体地,通过人工的方式设定统一的评价标准,并基于该评价标准对模型输出的结果进行行为标注,并基于标注结果对模型施加奖惩。这种方法的优点在于人工标注的数据准确率较高,数据噪声小;但这种方法受限于人工所能标注的数据总是有限的,只能适用于实验室中单一化且数据小型化的应用场景,难以适用于工业中多样化且数据大型化(百万量级)的应用场景。
二、延迟奖励机制。具体地,为模型设定期望目标,基于模型最终是否达成期望目标对模型施加奖惩。这种方法总是在模型的最终输出结果上进行决策,以确定该如何对模型施加奖惩,导致模型收敛至期望的最优态的效率较低,进而导致学习时间较为漫长。
发明内容
本申请实施例提供一种响应信息输出方法、装置、电子设备及可读存储介质,以解决相关技术中强化学习效率较低,难以获得适于工业应用的决策预测模型的技术问题。
本申请实施例第一方面提供了一种响应信息输出方法,所述方法包括:
获得当前节点的信息;
将所述当前节点的信息输入响应节点预测模型,以确定所述当前节点对应的目标响应节点;
输出所述目标响应节点的信息;
其中,所述响应节点预测模型是根据不同节点之间的转移关系,对预设模型进行多次强化学习训练所得到的模型,每次强化学习训练的奖励值是根据所述预设模型本次预测的响应节点与预设期望响应节点之间的匹配度确定的。
可选地,所述响应节点预测模型是通过以下步骤得到的:
以包含多个样本节点对的集合为输入,对所述预设模型进行多次强化学习训练,得到响应节点预测模型,每个样本节点对包括具有转移关系的两个样本节点;
其中,在对所述预设模型进行多次强化学习训练的过程中:
根据所述预设模型每次预测的响应节点与预设期望响应节点之间的匹配度,确定所述预设模型本次强化学习训练的奖励值,其中,所述预设期望响应节点为样本节点对中除输入所述预设模型的样本节点外剩余的样本节点;
根据所述预设模型本次强化学习训练的奖励值,对所述预设模型进行更新;
对更新后的预设模型进行下一次强化学习训练。
可选地,每次强化学习训练的奖励值是按照以下方式确定的:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司,未经北京三快在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010791077.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种进水装置
- 下一篇:搜索排序模型训练方法及装置、搜索排序方法及装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





