[发明专利]数据特征获取方法、系统及电子设备在审

专利信息
申请号: 202110487432.X 申请日: 2021-04-30
公开(公告)号: CN113191877A 公开(公告)日: 2021-07-30
发明(设计)人: 蔡鹏;常宏达;陈树华 申请(专利权)人: 顶象科技有限公司
主分类号: G06Q40/02 分类号: G06Q40/02;G06N20/00
代理公司: 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 代理人: 安卫静
地址: 311121 浙江省杭州市余杭*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据 特征 获取 方法 系统 电子设备
【说明书】:

发明提供了一种数据特征获取方法、系统及电子设备,涉及金融数据处理领域,该方法首先获取金融数据,并根据金融数据配置金融特征字段和标注字段;再将金融数据输入至已完成训练的筛选模型进行特征筛选;其中,筛选模型包括:训练集筛选单元和验证集筛选单元;训练集筛选单元根据金融特征字段对金融数据的特征进行筛选,生成训练集;验证集筛选单元根据标注字段对金融数据的特征进行筛选,生成验证集;然后根据筛选模型输出的训练集和/或验证集确定金融数据的特征贡献度,并获取特征贡献度达到预设阈值的金融数据的特征。该方法能够同步获取特征的重要性指标,在减少特征数量的同时提升了模型性能,有利于提高金融数据相关特征的提取精度。

技术领域

本发明涉及金融数据处理领域,尤其是涉及一种数据特征获取方法、系统及电子设备。

背景技术

在用户信贷前的信用评估中,金融机构通过个人征信、用户在金融机构的历史行为数据、用户的第三方信用报告等大量数据源来实现对用户的信用进行准确评价。但仅通过人民银行征信过程中就有上千个字段,整个特征表一般在3000-5000维,甚至更高。可见,在现有的信用评估中需要对数据源进行特征筛选,尽可能的选择较少的、且能够表征用户信用的数据。具体实施过程中,通常使用人工智能模型来对个人信用数据中的重要性进行特征筛选,但现有的人工智能模型的模型性能较低且模型结构复杂。

综上所述,现有技术中在进行个人信用数据筛选时所用的模型,还存在着性能较低、结构复杂的问题。

发明内容

有鉴于此,本发明的目的在于提供一种数据特征获取方法、系统及电子设备,在特征获取过程中利用筛选模型的训练集筛选单元和验证集筛选单元,能够同步获取特征的重要性指标,在减少特征数量的同时提升了模型性能,有利于提高金融数据相关特征的提取精度。

第一方面,本发明实施例提供了一种数据特征获取方法,该数据特征获取方法应用于金融数据的特征提取,包括:

获取金融数据,并根据金融数据配置金融特征字段和标注字段;

将金融数据输入至已完成训练的筛选模型进行特征筛选;其中,筛选模型包括:训练集筛选单元和验证集筛选单元;训练集筛选单元根据金融特征字段对金融数据的特征进行筛选,生成训练集;验证集筛选单元根据标注字段对金融数据的特征进行筛选,生成验证集;

根据筛选模型输出的训练集和/或验证集确定金融数据的特征贡献度,并获取特征贡献度达到预设阈值的金融数据的特征。

在一些实施方式中,上述训练集的获取过程,包括:

设定特征筛选比例以及特征个数;

将金融数据输入至训练集筛选单元中,训练集筛选单元根据特征筛选比例,对金融数据的金融特征字段进行随机筛选;

训练集筛选单元对金融数据的金融特征字段进行多次迭代筛选后,生成训练集;其中,迭代筛选的次数与特征个数相同。

在一些实施方式中,上述验证集的获取过程,包括:

设定特征筛选比例以及特征个数;

将金融数据输入至验证集筛选单元中,验证集筛选单元根据特征筛选比例,对金融数据的标注字段进行随机筛选;

验证集筛选单元对金融数据的标注字段进行多次迭代筛选后,生成验证集;其中,迭代筛选的次数与特征个数相同。

在一些实施方式中,上述根据筛选模型输出的训练集和验证集确定金融数据的特征贡献度,包括:

获取训练集和验证集中金融数据的特征;

计算特征在筛选模型中的贡献值及权重值;其中,贡献值用于表示特征在金融数据中的贡献程度;权重值用于表示特征在金融数据中的重要性;

根据贡献值和权重值,确定金融数据的特征贡献度。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于顶象科技有限公司,未经顶象科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110487432.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top