[发明专利]数据特征获取方法、系统及电子设备在审
申请号: | 202110487432.X | 申请日: | 2021-04-30 |
公开(公告)号: | CN113191877A | 公开(公告)日: | 2021-07-30 |
发明(设计)人: | 蔡鹏;常宏达;陈树华 | 申请(专利权)人: | 顶象科技有限公司 |
主分类号: | G06Q40/02 | 分类号: | G06Q40/02;G06N20/00 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 安卫静 |
地址: | 311121 浙江省杭州市余杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 特征 获取 方法 系统 电子设备 | ||
本发明提供了一种数据特征获取方法、系统及电子设备,涉及金融数据处理领域,该方法首先获取金融数据,并根据金融数据配置金融特征字段和标注字段;再将金融数据输入至已完成训练的筛选模型进行特征筛选;其中,筛选模型包括:训练集筛选单元和验证集筛选单元;训练集筛选单元根据金融特征字段对金融数据的特征进行筛选,生成训练集;验证集筛选单元根据标注字段对金融数据的特征进行筛选,生成验证集;然后根据筛选模型输出的训练集和/或验证集确定金融数据的特征贡献度,并获取特征贡献度达到预设阈值的金融数据的特征。该方法能够同步获取特征的重要性指标,在减少特征数量的同时提升了模型性能,有利于提高金融数据相关特征的提取精度。
技术领域
本发明涉及金融数据处理领域,尤其是涉及一种数据特征获取方法、系统及电子设备。
背景技术
在用户信贷前的信用评估中,金融机构通过个人征信、用户在金融机构的历史行为数据、用户的第三方信用报告等大量数据源来实现对用户的信用进行准确评价。但仅通过人民银行征信过程中就有上千个字段,整个特征表一般在3000-5000维,甚至更高。可见,在现有的信用评估中需要对数据源进行特征筛选,尽可能的选择较少的、且能够表征用户信用的数据。具体实施过程中,通常使用人工智能模型来对个人信用数据中的重要性进行特征筛选,但现有的人工智能模型的模型性能较低且模型结构复杂。
综上所述,现有技术中在进行个人信用数据筛选时所用的模型,还存在着性能较低、结构复杂的问题。
发明内容
有鉴于此,本发明的目的在于提供一种数据特征获取方法、系统及电子设备,在特征获取过程中利用筛选模型的训练集筛选单元和验证集筛选单元,能够同步获取特征的重要性指标,在减少特征数量的同时提升了模型性能,有利于提高金融数据相关特征的提取精度。
第一方面,本发明实施例提供了一种数据特征获取方法,该数据特征获取方法应用于金融数据的特征提取,包括:
获取金融数据,并根据金融数据配置金融特征字段和标注字段;
将金融数据输入至已完成训练的筛选模型进行特征筛选;其中,筛选模型包括:训练集筛选单元和验证集筛选单元;训练集筛选单元根据金融特征字段对金融数据的特征进行筛选,生成训练集;验证集筛选单元根据标注字段对金融数据的特征进行筛选,生成验证集;
根据筛选模型输出的训练集和/或验证集确定金融数据的特征贡献度,并获取特征贡献度达到预设阈值的金融数据的特征。
在一些实施方式中,上述训练集的获取过程,包括:
设定特征筛选比例以及特征个数;
将金融数据输入至训练集筛选单元中,训练集筛选单元根据特征筛选比例,对金融数据的金融特征字段进行随机筛选;
训练集筛选单元对金融数据的金融特征字段进行多次迭代筛选后,生成训练集;其中,迭代筛选的次数与特征个数相同。
在一些实施方式中,上述验证集的获取过程,包括:
设定特征筛选比例以及特征个数;
将金融数据输入至验证集筛选单元中,验证集筛选单元根据特征筛选比例,对金融数据的标注字段进行随机筛选;
验证集筛选单元对金融数据的标注字段进行多次迭代筛选后,生成验证集;其中,迭代筛选的次数与特征个数相同。
在一些实施方式中,上述根据筛选模型输出的训练集和验证集确定金融数据的特征贡献度,包括:
获取训练集和验证集中金融数据的特征;
计算特征在筛选模型中的贡献值及权重值;其中,贡献值用于表示特征在金融数据中的贡献程度;权重值用于表示特征在金融数据中的重要性;
根据贡献值和权重值,确定金融数据的特征贡献度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于顶象科技有限公司,未经顶象科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110487432.X/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置