[发明专利]一种样本数据处理方法、装置及计算机设备有效
| 申请号: | 202011513899.9 | 申请日: | 2020-12-21 |
| 公开(公告)号: | CN112257818B | 公开(公告)日: | 2021-03-09 |
| 发明(设计)人: | 顾凌云;谢旻旗;段湾;汪仁杰;张涛;潘峻 | 申请(专利权)人: | 上海冰鉴信息科技有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 成都顶峰专利事务所(普通合伙) 51224 | 代理人: | 匡睿 |
| 地址: | 200000 上海市浦东新区*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 样本 数据处理 方法 装置 计算机 设备 | ||
本发明实施例所提供的样本数据处理方法、装置及计算机设备,首先获取待处理样本数据并确定多个类别标签,根据类别标签将待处理样本数据划分为多个样本子集,其次根据接收到的业务需求信息将多个类别标签进行排序得到类别排序队列,最后依次为类别排序队列中的每个类别标签下的每个样本子集分配样本权重。如此,当待处理样本数据涉及多个层级的类别标签时,上述方法能够快速求取每个样本子集的样本权重,使得统一级别下的各样本子集的总权重相等,同时又能保证不同层级类别间的样本总权重一致,这在保留有效信息的同时使得待处理样本数据的整体权重均衡更准确。
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种样本数据处理方法、装置及计算机设备。
背景技术
在应用分类模型建模时,可能面临的问题有误分类代价高,例如对合法用户和非法用户进行分类,将非法用户识别为合法用户的代价远远大于将合法用户识别为非法用户的代价;又或者样本高度失衡影响预测结果,比如10000用户样本中只有1条是非法用户,9999条是合法用户,那么直接将所有的样本预测为合法用户准确率是99.99%,这显然是没有意义的。
因此对于类别不均的样本,应该想办法平衡类别间的权重,一般使得各类别的权重均等时,最能有效避免因为类别权重不均带来的高误分类代价以及模型预测能力下降的问题。而一个类别的权重为该类别中所有单个样本权重加总得到。而往往实际风控场景中能获取的建模样本在各类别上数量不均,可能导致样本不是实际总样本的无偏估计,假设实际业务中合法用户和非法用户的比例是10:1,而建模的样本中合法用户和非法用户的比例是5:1,那么该样本分布就不能代表实际上的分布,从而影响模型的预测效果。
发明内容
为了改善上述问题,本发明提供了一种样本数据处理方法、装置及计算机设备。
基于本发明实施例的第一方面,提供一种样本数据处理方法,应用于计算机设备,所述方法包括:
获取待处理样本数据并确定所述待处理样本数据的多个类别标签,根据所述类别标签将所述待处理样本数据划分为多个样本子集;其中,每个样本子集对应一个类别标签;
接收业务需求信息,根据所述业务需求信息将所述多个类别标签进行排序,得到类别排序队列;
依次为所述类别排序队列中的每个类别标签下的每个样本子集分配样本权重。
可选地,依次为所述类别排序队列中的每个类别标签下的每个样本子集分配样本权重,包括:
根据所述样本子集的总数确定整体样本权重;
基于所述整体样本权重以及所述类别排序队列中的每个类别标签下的样本子集的数量,确定每个类别标签下的样本子集的当前样本权重。
可选地,确定每个类别标签下的样本子集的当前样本权重,包括:
针对每个类别标签,确定该类别标签下的所有样本子集所属的上一层样本子集,并获取所述上一层样本子集的样本权重;
根据所述上一层样本子集的样本权重确定该类别标签下的所有样本子集中的每个样本子集的当前样本权重,直至确定出最后一个类别标签下的每个样本子集的当前样本权重。
可选地,根据所述业务需求信息将所述多个类别标签进行排序,得到类别排序队列,包括:
确定业务需求信息对应的需求类别清单,构建所述类别标签对应的标签特征清单,所述需求类别清单和所述标签特征清单分别包括多个不同清单事件权重的清单元素;
提取所述业务需求信息在所述需求类别清单的任一清单元素的需求样本数据,将所述标签特征清单中具有最小清单事件权重的清单元素确定为目标清单元素;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海冰鉴信息科技有限公司,未经上海冰鉴信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011513899.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:语音的处理方法和装置
- 下一篇:用户信息分类方法及装置





