[发明专利]基于强化学习的信息处理方法、装置、设备和存储介质有效
| 申请号: | 201910991379.X | 申请日: | 2019-10-18 |
| 公开(公告)号: | CN110928936B | 公开(公告)日: | 2023-06-16 |
| 发明(设计)人: | 刘卓;孙行智;赵惟;徐卓扬 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
| 主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/28;G06F40/289;G06F40/284;G06N20/00 |
| 代理公司: | 北京市京大律师事务所 11321 | 代理人: | 谢文强 |
| 地址: | 518033 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 强化 学习 信息处理 方法 装置 设备 存储 介质 | ||
1.一种基于强化学习的信息处理方法,其特征在于,包括:
获取原始数据并对所述原始数据进行预处理,得到样本数据;
获取所述样本数据中达到参数期望的目标值,提取所述样本数据中参数的实际值,并将所述目标值与所述实际值入参到预设的奖惩函数中进行计算,得到所述实际值的评分权重;
获取所述样本数据对应的多个备选方案数据,将各所述备选方案数据和所述实际值的评分权重导入到用于评分的强化学习模型中进行评分后,得到各所述备选方案数据的初始评分;
根据预设的加分策略对所述初始评分进行处理后得到所述备选方案数据的最终评分;
根据预设的业务逻辑对各所述备选方案数据进行过滤,并以过滤后的备选方案数据中最终评分最高项作为所述原始数据的目标方案数据;
所述获取所述样本数据中达到参数期望的目标值,提取所述样本数据中参数的实际值,并将所述目标值与所述实际值入参到预设的奖惩函数中进行计算,得到所述实际值的评分权重,包括:
采用实体抽取技术抽取所述样本数据中的实体名称信息,并根据所述实体名称信息从预置数据库中提取出包含有所述实体名称信息的信息字段;
从所述信息字段中提取出所述目标值;
将所述目标值和所述实际值入参到预设的奖惩函数进行计算,得到所述实际值的评分权重,其中,评分权重的计算公式为:
r(St+1)=a[sgn(A-St+1)]+b(St-Si+1),
式子中,r(St+1)为第t+1个实际值的评分权重,a,b为平衡常数0≤a≤1、0≤b≤1,sgn()为符号函数,A为目标值,St为第t个实际值,St+1为第t+1个实际值;
所述根据预设的加分策略对所述初始评分进行处理后得到所述备选方案数据的最终评分,包括:
获取所述备选方案数据中符合所述加分策略且达到所述样本数据的参数期望的目标值以及所述样本数据中参数的实际值;
获取所述加分策略对应的预置等级分,并将所述目标值、所述实际值和所述等级分入参到附加评分函数进行计算,得到所述附加评分:
其中,所述附加评分函数为:
式子中,rnew为附加评分,{match}为备选方案数据符合加分策略的数量,di为第i个加分策略对应的等级分,gi为在第i个加分策略下的目标值与实际值的差值,h为常数;
将所述初始评分和所述附加评分相加后得到所述最终评分;
所述根据预设的业务逻辑对各所述备选方案数据进行过滤,包括:
采用预置分词器对所述备选方案数据进行分词,得到各方案数据对应的分词集;
依次将所述分词集中的分词与预置敏感词库进行对比,输出所述备选方案数据对应的分词集中所包含的多个敏感词;
采用预置正则匹配式,确定各敏感词在所述备选方案数据中的逻辑表述关系,并判断所述逻辑关系是否符合预设的业务逻辑;
若所述逻辑表述关系符合所述业务逻辑,则保留该备选方案数据,否则删除该备选方案数据。
2.根据权利要求1所述的基于强化学习的信息处理方法,其特征在于,所述获取原始数据并对所述原始数据进行预处理,得到样本数据,包括:
对所述原始数据中的文字数据进行词向量转换,得到多个数据词向量;
根据预设的筛选策略对所述数据词向量进行词向量转换,得到策略词向量;
将各所述数据词向量和所述策略词向量进行乘积,得到多个词向量矩阵,计算各所述词向量矩阵的特征值,并根据所述特征值对所述文字数据进行处理后,得到所述样本数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910991379.X/1.html,转载请声明来源钻瓜专利网。





