[发明专利]特征数据处理方法、终端、装置及可读存储介质在审
| 申请号: | 201911072209.8 | 申请日: | 2019-11-05 |
| 公开(公告)号: | CN110751347A | 公开(公告)日: | 2020-02-04 |
| 发明(设计)人: | 唐兴兴;黄启军;陈瑞钦;林冰垠;李诗琦 | 申请(专利权)人: | 深圳前海微众银行股份有限公司 |
| 主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q10/06 |
| 代理公司: | 44287 深圳市世纪恒程知识产权代理事务所 | 代理人: | 王韬 |
| 地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 特征数据 验证数据 预设 分布式计算 数据块 可读存储介质 单机处理 分块处理 公式计算 似然函数 数据处理 评分卡 样本集 线程 终端 申请 | ||
本发明公开了一种特征数据处理方法,包括以下步骤:对待验证数据集进行分块处理,利用分布式线程、预设的分布式计算公式和预设的似然函数,分别计算各个数据块各自对应的分布值和似然值,基于各个数据块对应的分布值以及似然值确定所述待验证数据集对应的总体分布值及总体似然值,将所述总体分布值和所述总体似然值输入到预设的评分卡方公式,得到卡方值,并基于所述卡方值确定所述待验证数据集中特征数据对应的评价结果。本发明还公开了一种装置、终端及可读存储介质。通过卡方公式计算特征值的卡方值并进行特征数据的评价时,与单机处理相比,本申请的分布式计算方式提升了计算速度,尤其是样本集较大时,进一步提升了特征数据的评价效率。
技术领域
本发明涉及人工智能领域,尤其涉及一种特征数据处理方法、终端、装置及可读存储介质。
背景技术
当前越来越多的领域开始使用机器学习技术,机器学习模型的准确性和鲁棒性至关重要,这需要大量优质数据集进行训练。
由于逻辑回归模型具有良好的可解释,金融风控、医疗模型等要求可解释的场景通常会使用逻辑回归模型建模。训练数据集包括特征值和目标值,其中,特征值的评分卡方值是评价未进入逻辑回归模型的特征的重要量化指标,目前,评分卡方值主要是单机数据处理。然而,单机内存有限,若样本集较大,采用单机确定评分卡方值,会造成评分卡方值的处理速度较慢,从而导致特征数据的处理效率较低。
发明内容
本发明的主要目的在于提供一种特征数据处理方法、终端、装置及可读存储介质,旨在解决样本数量较大时,使用评分卡方值对未进入逻辑回归模型的特征进行评价,评价效率不高的技术问题。
为实现上述目的,本发明提供一种特征数据处理方法,所述的特征数据处理方法包括以下步骤:
对待验证数据集进行分块处理,得到预设数量的数据块;
利用分布式线程、预设的分布式计算公式和预设的似然函数,分别计算各个数据块各自对应的分布值和似然值;
基于所述各个数据块对应的分布值以及似然值确定所述待验证数据集对应的总体分布值及总体似然值;
将所述总体分布值和所述总体似然值输入到预设的评分卡方公式,得到卡方值,并基于所述卡方值确定所述待验证数据集中特征数据对应的评价结果。
进一步地,在一实施方式中,所述对待验证数据集进行分块处理,得到预设数量的数据块的步骤之前,还包括:
将预设的样本集输入预测模型,生成所述样本集对应的预测概率;
将所述样本集和所述预测概率作为所述待验证数据集。
进一步地,在一实施方式中,所述利用分布式线程、预设的分布式计算公式和预设的似然函数,分别计算各个数据块各自对应的分布值和似然值的步骤包括:
利用所述分布式线程分别获取各个数据块中数据对,并将所述数据对输入所述分布式计算公式和所述似然函数,得到各个数据块各自对应的分布值和似然值,其中,所述数据对为所述待验证数据集中的特征数据、目标数据和预测概率的组合。
进一步地,在一实施方式中,所述数据块包括多组数据对,所述将所述数据对输入所述分布式计算公式和所述似然函数,得到各个数据块各自对应的分布值和似然值的步骤包括:
将数据块的所有数据对输入所述分布式计算公式,得到各个数据对各自对应的子分布值,并分别累加各个数据块内所有数据对对应的子分布值,得到各个数据块各自对应的分布值;
将数据块的所有数据对输入所述似然函数,得到各个数据对各自对应的子似然值,并分别累加各个数据块内所有数据对对应的子似然值,得到各个数据块各自对应的似然值;
进一步地,在一实施方式中,所述将所述总体分布值和总体似然值输入到预设的评分卡方公式,得到预测评分的步骤包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳前海微众银行股份有限公司,未经深圳前海微众银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911072209.8/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理





