[发明专利]基于强化学习的信息处理方法、装置、设备和存储介质有效

申请号：	201910991379.X	申请日：	2019-10-18
公开（公告）号：	CN110928936B	公开（公告）日：	2023-06-16
发明（设计）人：	刘卓;孙行智;赵惟;徐卓扬	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G06F16/25	分类号：	G06F16/25;G06F16/28;G06F40/289;G06F40/284;G06N20/00
代理公司：	北京市京大律师事务所 11321	代理人：	谢文强
地址：	518033 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于强化学习信息处理方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及数据分析技术领域，尤其涉及一种基于强化学习的信息处理的方法、装置、设备和存储介质，包括：获取原始数据并对原始数据进行预处理，得到样本数据；获取目标值，提取样本数据中的实际值，将目标值与实际值入参到预设的奖惩函数中进行计算，得到实际值的评分权重；获取样本数据对应的多个备选方案数据，将各备选方案数据和实际值的评分权重导入到用于强化学习模型中进行评分后，得到各备选方案数据的初始评分；根据预设的加分策略对初始评分进行处理后得到备选方案数据的最终评分；根据预设的业务逻辑对各备选方案数据进行过滤，以过滤后的备选方案数据中最终评分最高项作为原始数据的目标方案数据。提升了信息处理的速度和准确性。

技术领域

本申请涉及数据分析技术领域，尤其涉及一种基于强化学习的信息处理的方法、装置、设备和存储介质。

背景技术

目前，人工智能已经被广泛应用于生产生活的各个领域，计算机可以利用强化学习、深度学习和神经网络等方式对信息进行处理，从而提出最优方案以解决复杂问题。

然而，单一的利用强化学习模型对信息进行处理，然后得到最终方案，存在着准确性低，收敛速度慢等缺点，无法应用到复杂信息处理场景。

发明内容

基于此，针对单一的利用强化学习模型对信息进行处理，然后得到最终方案，存在着准确性低，收敛速度慢等缺点，无法应用到复杂信息处理场景的问题，提供一种基于强化学习的信息处理方法、装置、设备和存储介质。

一种基于强化学习的信息处理方法，包括如下步骤：

获取原始数据并对所述原始数据进行预处理，得到样本数据；

获取所述样本数据中达到参数期望的目标值，提取所述样本数据中参数的实际值，并将所述目标值与所述实际值入参到预设的奖惩函数中进行计算，得到所述实际值的评分权重；

获取所述样本数据对应的多个备选方案数据，将各所述备选方案数据和所述实际值的评分权重导入到用于评分的强化学习模型中进行评分后，得到各所述备选方案数据的初始评分；

根据预设的加分策略对所述初始评分进行处理后得到所述备选方案数据的最终评分；