[发明专利]基于强化学习的信息处理方法、装置、设备和存储介质有效
申请号: | 201910991379.X | 申请日: | 2019-10-18 |
公开(公告)号: | CN110928936B | 公开(公告)日: | 2023-06-16 |
发明(设计)人: | 刘卓;孙行智;赵惟;徐卓扬 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/28;G06F40/289;G06F40/284;G06N20/00 |
代理公司: | 北京市京大律师事务所 11321 | 代理人: | 谢文强 |
地址: | 518033 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 信息处理 方法 装置 设备 存储 介质 | ||
本申请涉及数据分析技术领域,尤其涉及一种基于强化学习的信息处理的方法、装置、设备和存储介质,包括:获取原始数据并对原始数据进行预处理,得到样本数据;获取目标值,提取样本数据中的实际值,将目标值与实际值入参到预设的奖惩函数中进行计算,得到实际值的评分权重;获取样本数据对应的多个备选方案数据,将各备选方案数据和实际值的评分权重导入到用于强化学习模型中进行评分后,得到各备选方案数据的初始评分;根据预设的加分策略对初始评分进行处理后得到备选方案数据的最终评分;根据预设的业务逻辑对各备选方案数据进行过滤,以过滤后的备选方案数据中最终评分最高项作为原始数据的目标方案数据。提升了信息处理的速度和准确性。
技术领域
本申请涉及数据分析技术领域,尤其涉及一种基于强化学习的信息处理的方法、装置、设备和存储介质。
背景技术
目前,人工智能已经被广泛应用于生产生活的各个领域,计算机可以利用强化学习、深度学习和神经网络等方式对信息进行处理,从而提出最优方案以解决复杂问题。
然而,单一的利用强化学习模型对信息进行处理,然后得到最终方案,存在着准确性低,收敛速度慢等缺点,无法应用到复杂信息处理场景。
发明内容
基于此,针对单一的利用强化学习模型对信息进行处理,然后得到最终方案,存在着准确性低,收敛速度慢等缺点,无法应用到复杂信息处理场景的问题,提供一种基于强化学习的信息处理方法、装置、设备和存储介质。
一种基于强化学习的信息处理方法,包括如下步骤:
获取原始数据并对所述原始数据进行预处理,得到样本数据;
获取所述样本数据中达到参数期望的目标值,提取所述样本数据中参数的实际值,并将所述目标值与所述实际值入参到预设的奖惩函数中进行计算,得到所述实际值的评分权重;
获取所述样本数据对应的多个备选方案数据,将各所述备选方案数据和所述实际值的评分权重导入到用于评分的强化学习模型中进行评分后,得到各所述备选方案数据的初始评分;
根据预设的加分策略对所述初始评分进行处理后得到所述备选方案数据的最终评分;
根据预设的业务逻辑对各所述备选方案数据进行过滤,并以过滤后的备选方案数据中最终评分最高项作为所述原始数据的目标方案数据。
在其中一个可能的实施例中,所述获取原始数据并对所述原始数据进行预处理,得到样本数据,包括:
对所述原始数据中的文字数据进行词向量转换,得到多个数据词向量;
根据预设的筛选策略对所述数据词向量进行词向量转换,得到策略词向量;
将各所述数据词向量和所述策略词向量进行乘积,得到多个词向量矩阵,计算各所述词向量矩阵的特征值,并根据所述特征值对所述文字数据进行处理后,得到所述样本数据。
在其中一个可能的实施例中,所述获取所述样本数据中达到参数期望的目标值,提取所述样本数据中参数的实际值,并将所述目标值与所述实际值入参到预设的奖惩函数中进行计算,得到所述实际值的评分权重,包括:
采用实体抽取技术抽取所述样本数据中的实体名称信息,并根据所述实体名称信息从预置数据库中提取出包含有所述实体名称信息的信息字段;
从所述信息字段中提取出所述目标值;
将所述目标值和所述实际值入参到预设的奖惩函数进行计算,得到所述实际值的评分权重,其中,评分权重的计算公式为:
r(St+1)=a[sgn(A-St+1)]+b(St-St+1),
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910991379.X/2.html,转载请声明来源钻瓜专利网。