[发明专利]一种基于数据拼接的模型训练方法、装置、系统和记录介质在审
| 申请号: | 201910330935.9 | 申请日: | 2019-04-23 |
| 公开(公告)号: | CN110135467A | 公开(公告)日: | 2019-08-16 |
| 发明(设计)人: | 姜润洲;苏绥绥;常富洋 | 申请(专利权)人: | 北京淇瑀信息科技有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06Q40/02 |
| 代理公司: | 北京清诚知识产权代理有限公司 11691 | 代理人: | 乔东峰 |
| 地址: | 100012 北京市朝阳*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 标签数据 分箱 评分模型 数据拼接 用户数据 模型训练 信贷 计算机可读介质 模型准确性 人工工作量 离线模拟 模拟结果 自动地 拼接 标签 | ||
本发明公开了基于数据拼接的模型训练方法、装置、系统和计算机可读介质。所述方法包括获取用户数据,所述用户数据由多个标签数据构成,所述标签数据包括标签名及标签值,根据所述用户数据的至少一个标签数据进行分箱,获得分箱标签数据,将所述分箱标签数据与未分箱的其他标签数据进行拼接后输入信贷评分模型进行训练,对训练后的所述信贷评分模型进行离线模拟,根据模拟结果对标签数据进行调整。本发明能够自动地、高效地进行数据分箱,减少人工工作量,并且利用数据拼接方法对信贷评分模型进行训练后,模型准确性、稳定性高。
技术领域
本发明属于数据处理技术领域,具体涉及用于商业、金融等目的的数据处理系统和方法,特别是基于数据拼接的模型训练方法、装置、系统和计算机刻度介质。
背景技术
互联网金融网贷平台种类多样、名目繁多,通过网贷平台申请贷款的信贷模式长足发展。相比于传统的信贷模式,网上申请贷款给人们带来便利性的同时,由于网络用户申请贷款的门槛低,个人信息不完善,网贷用户出现无法偿还贷款的情况时有发生,为信贷业务部门带来了欺诈骗贷风险,为了降低信贷风险,可以直接利用现有的信贷评分模型对信贷申请人进行评分,根据评分来量化借贷申请人的总体信用可靠度。
但是,现有技术建立的信贷评分模型在进行训练时需要手工分箱用户的样本数据,工作量大且效率低,并且在优化模型的过程中缺省大量未分箱的其他样本数据,这使得当前的模型训练方法不能准确、高效地进行对信贷申请人进行信用评估,导致信贷风险评估不准确。
发明内容
本发明所要解决的技术问题是信贷评分模型在训练过程中效率低,准确率低的问题。
为解决上述技术问题,本发明的第一方面提出一种基于数据拼接的模型训练方法,包括如下步骤:获取用户数据,所述用户数据由多个标签数据构成,所述标签数据包括标签名及标签值;根据所述用户数据的至少一个标签数据进行分箱,获得分箱标签数据;将所述分箱标签数据与未分箱的其他标签数据进行拼接后输入信贷评分模型进行训练;对训练后的所述信贷评分模型进行离线模拟,根据模拟结果对标签数据进行调整。
根据本发明的一种优选实施方式,所述用户数据,包括在线产生的数据、预先生成并存储的数据、通过输入装置或传输媒介而从外部接收的数据中的至少一种。
根据本发明的一种优选实施方式,所述标签名包括性别、城市、年龄、职业、住房状况、供养人数、小孩数、信用卡、借贷额、借贷期限中的至少一个。
根据本发明的一种优选实施方式,在根据所述用户数据的至少一个标签数据进行分箱,获得分箱标签数据之前,还包括对用户数据的清洗。
根据本发明的一种优选实施方式,所述清洗过程包括:缺失值分析处理、单变量异常分析。
根据本发明的一种优选实施方式,所述分箱步骤为:根据预定的规则对标签数据进行自动分箱。
根据本发明的一种优选实施方式,所述信贷评分模型为xgboost模型。
根据本发明的一种优选实施方式,将所述分箱标签数据与未分箱的其他标签数据进行拼接后输入信贷评分模型进行训练包括:将所述分箱标签数据与未分箱的其他标签数据进行拼接后输入信贷评分模型进行定期或不定期训练。
根据本发明的一种优选实施方式,所述对标签数据进行调整的步骤包括:根据标签对信贷评分的影响程度进行排序,将影响程度低于预设阈值的标签数据从所述用户数据中进行剔除。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京淇瑀信息科技有限公司,未经北京淇瑀信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910330935.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种污染物排放超标车辆判断方法及系统
- 下一篇:一种煤矸石的识别方法





