[发明专利]一种推理模型的训练方法、装置、电子设备及存储介质有效
申请号: | 201811583983.0 | 申请日: | 2018-12-24 |
公开(公告)号: | CN109858627B | 公开(公告)日: | 2021-08-20 |
发明(设计)人: | 金霄然 | 申请(专利权)人: | 上海仁静信息技术有限公司 |
主分类号: | G06N5/04 | 分类号: | G06N5/04 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 200331 上海市普陀*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 推理 模型 训练 方法 装置 电子设备 存储 介质 | ||
本公开实施例公开了一种推理模型的训练方法、装置、电子设备及存储介质,该推理模型的训练方法包括:通过针对训练样本中的当前题目,获取所述当前题目的当前题目状态;根据所述当前题目状态选取当前待执行动作;执行所述当前待执行动作,得到新的题目状态;将所述新的题目状态作为当前题目的当前题目状态,继续选取并执行相应的当前待执行动作,直到满足停止条件,这样的技术方案可以使推理模型能够不断积累解题经验,优化推理的准确率,训练出的推理模型在实际使用中可以实现对复杂初等数学题目的自动推理。
技术领域
本公开涉及互联网技术领域,尤其涉及一种推理模型的训练方法、装置、电子设备及存储介质。
背景技术
自动推理是机器解题的核心技术之一,是根据题目给定的条件、问题以及系统内部定义的一系列动作(推理规则),通过执行动作对条件和问题不断进行变化,直到新的条件满足新的问题,即找出可行的解题路径。
目前的推理技术主要是基于前推、后推和双向搜索推理方法。这三种推理方法主要存在的问题是搜索空间随着条件、问题和推理规则的数量增加而几何级增长,因此只能用解决一些简单的推理问题。虽然在一些特定领域可以通过针对性设计独特的推理策略和优化方法,如几何推理的消点法,解决特定领域的复杂问题。但是这些方法局限于自身的领域无法推广,同时,这些方法依靠特定机械的方法和策略,无法达到类似人一样的推理的灵活性。
发明内容
本公开提供一种推理模型的训练方法、装置、电子设备及存储介质,可以实现对题目的自动推理。
第一方面,本公开实施例提供了一种推理模型的训练方法,包括:
针对训练样本中的当前题目,获取所述当前题目的当前题目状态;
根据所述当前题目状态选取当前待执行动作;
执行所述当前待执行动作,得到新的题目状态;
将所述新的题目状态作为当前题目的当前题目状态,继续选取并执行相应的当前待执行动作,直到满足停止条件;
其中,所述题目状态包括题目中的条件和问题。
进一步的,根据所述当前题目状态选取当前待执行动作,包括:
根据所述当前题目状态在动作数据库中获取相关解题动作;
根据预设的规则在所述相关解题动作中选取当前待执行动作。
进一步的,将所述新的题目状态作为当前题目的当前题目状态,继续选取并执行相应的当前待执行动作,直到满足停止条件之后,还包括:
当解题成功或失败时,根据预设的收益规则计算所述推理模型的收益值;
其中,所述解题成功包括:初始的题目条件满足题目问题时;所述解答不成功包括以下情况至少之一:
初始的题目条件不满足题目问题;
推理步骤超过预设长度;
题目状态的复杂度超过预设复杂度阈值。
进一步的,根据预设的规则在所述相关解题动作中选取当前待执行动作,包括:
根据预先设定的与所述解题动作相关的抽取概率选出当前待执行动作。
进一步的,根据预设的规则在所述相关解题动作中选取当前待执行动作,包括:
通过在神经网络模型中输入当前题目状态和各解题动作,预测所述各解题动作对应的收益;
选取收益值最大的解题动作为当前待执行动作。
进一步的,根据预设的规则在所述相关解题动作中选取当前待执行动作,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海仁静信息技术有限公司,未经上海仁静信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811583983.0/2.html,转载请声明来源钻瓜专利网。