[发明专利]数据处理方法、终端、装置及存储介质在审
| 申请号: | 201911050727.X | 申请日: | 2019-10-31 |
| 公开(公告)号: | CN110766168A | 公开(公告)日: | 2020-02-07 |
| 发明(设计)人: | 陈瑞钦;黄启军;李诗琦;唐兴兴;林冰垠 | 申请(专利权)人: | 深圳前海微众银行股份有限公司 |
| 主分类号: | G06N20/00 | 分类号: | G06N20/00;G06K9/62 |
| 代理公司: | 44287 深圳市世纪恒程知识产权代理事务所 | 代理人: | 王韬 |
| 地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 概率 修正 统计数据 预测 预测目标 字典 特征数据 预测模型 预设 存储介质 存储空间 输入分类 数据处理 数据对应 原始目标 字典生成 相等 样本 终端 分类 合并 | ||
本发明公开了一种数据处理方法,包括以下步骤:将预设的样本集中的特征数据输入分类预测模型,得到所述特征数据对应的预测目标数据以及所述预测目标数据对应的预测概率,而后基于预设精度对所述预测概率进行修正,并将修正后预测概率相等的统计数据进行合并,得到修正概率以及所述修正概率对应的统计数据,统计数据为原始目标数据与预测目标数据的对应关系,接下来基于所述修正概率以及所述修正概率对应的统计数据,生成所述分类预测模型对应的目标字典。本发明还公开了一种装置、终端及存储介质。通过对预测概率进行修正,极大的缩小了预测概率的值域,字典大小与预测概率的值域相关,故在提升字典生成效率的同时降低了字典所需的存储空间。
技术领域
本发明涉及终端技术领域,尤其涉及一种数据处理方法、终端、装置及存储介质。
背景技术
当前越来越多的领域开始使用机器学习技术,而各种机器学习模型层出不穷,如何对所建模型进行公正的评价就显得尤为重要。主流的机器学习模型类型有二分类模型、多分类模型和回归模型,其中分类模型是用的最多也是最常见的模型,例如判断一个人是否符合信贷要求,判断图片中是否包含人脸等。常见的二分类模型指标有模型的AUC值、KS值、ROC曲线、Precision-Recall曲线和KS曲线等,上述分类评估的评估指标计算都涉及到根据不同预测概率计算截止值的问题。
目前,现有计算评估指标方法是根据所有预测概率不同取值,对模型预测结果进行分组,相同预测概率的数据放置在同一个组中,然后使用字典记录预测结果的统计数据,然后根据预测概率大小,根据字典中的统计数据计算评估指标。预测概率是0~1之间的数,可能取到小数点下6~8位甚至更高的精度,那么每个模型的预测概率不同值的个数可能高达[106,108],这是一个非常大的数量级,如果直接用这些预测概率生成字典,则需要海量的存储空间,并且生成字典的速度较慢。
发明内容
本发明的主要目的在于提供一种数据处理方法、终端、装置及存储介质,旨在解决现有在计算分类模型的评估指标过程中,由于模型对应的预测概率取值数量庞大,导致用于记录预测结果统计信息的字典需要海量存储空间,且生成字典的速度较慢的技术问题。
将预设的样本集中的特征数据输入分类预测模型,得到所述特征数据对应的预测目标数据以及所述预测目标数据对应的预测概率,其中,所述预测概率有M种取值,M是正整数;
基于预设精度对所述预测概率进行修正,并将修正后预测概率相等的统计数据进行合并,得到修正概率以及所述修正概率对应的统计数据,其中,所述修正概率有N种取值,N是正整数且N小于M,统计数据为原始目标数据与预测目标数据的对应关系;
基于所述修正概率以及所述修正概率对应的统计数据,生成所述分类预测模型对应的目标字典。
进一步地,在一实施方式中,所述基于预设精度对所述预测概率进行修正的步骤包括:
基于所述预设精度对所述预测概率进行近似计算,其中,所述近似计算为所述预测概率只保留预设精度对应的小数位上的数值。
进一步地,在一实施方式中,所述基于所述修正概率以及所述修正概率对应的统计数据,生成所述分类预测模型对应的目标字典的步骤包括:
基于所述预设精度和预设数据结构,生成所述分类预测模型对应的初始字典;
遍历所有修正概率以及所述修正概率对应的统计数据,对所述初始字典进行更新,得到所述目标字典。
进一步地,在一实施方式中,所述基于所述预设精度和预设数据结构,生成所述分类预测模型对应的初始字典的步骤包括:
基于所述分类预测模型的类型获取所述预设数据结构;
基于所述预设精度得到概率步长,并基于所述概率步长生成概率集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳前海微众银行股份有限公司,未经深圳前海微众银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911050727.X/2.html,转载请声明来源钻瓜专利网。





