[发明专利]一种数据特征重要性的分析方法及系统在审
| 申请号: | 202010464925.7 | 申请日: | 2020-05-28 |
| 公开(公告)号: | CN111612624A | 公开(公告)日: | 2020-09-01 |
| 发明(设计)人: | 吴凌坤 | 申请(专利权)人: | 深圳博普科技有限公司 |
| 主分类号: | G06Q40/04 | 分类号: | G06Q40/04;G06Q10/06;G06N3/00 |
| 代理公司: | 深圳市智胜联合知识产权代理有限公司 44368 | 代理人: | 齐文剑 |
| 地址: | 518000 广东省深圳市福*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 数据 特征 重要性 分析 方法 系统 | ||
1.一种数据特征重要性的分析方法,其特征在于,包括:
获取债券风险评估所需的债券样本,并标记出债券样本中样本点的时间粒度,将其作为原始数据集;
对所述原始数据集进行预处理,获取均衡数据集;
构建用于分析数据特征重要性的随机森林模型;
将所述均衡数据集输入进所述随机森林中进行计算,分析出各个数据特征的重要性排名。
2.根据权利要求1所述的方法,其特征在于,所述债券风险评估所需的债券样本,具体为:所述债券样本的样本点以季度为时间粒度;
所述债券样本的样本点,具体为:按照所述样本点所对应的债券在季度中以是否发生过违约情况或重大风险事件为标准,从而标记出正负样本。
3.根据权利要求2所述的方法,其特征在于,所述正负样本,具体为:
当此债券在季度中发生过违约情况或重大风险事件时,标记为负样本;
当此债券在季度中未发生过违约情况或重大风险事件时,标记为正样本。
4.根据权利要求1所述的方法,其特征在于,所述对所述原始数据集进行预处理包括欠采样和过采样两种方法。
5.根据权利要求1所述的方法,其特征在于,所述随机森林模型,具体为:
利用bootstrap抽样方法从经过所述预处理后的均衡数据集N中有放回地重复随机抽取K个样本生成新的数据样本合集;
根据所述新的数据样本集生成T个分类树组成随机森林;
对每个经过所述bootstrap抽样法得来的样本进行决策树建模,组成多棵决策树进行预测,并通过投票得出最终预测结果。
6.根据权利要求5所述的方法,其特征在于,所述决策树,具体为:
每棵决策树由样本量为K的训练样本X和随机向量θk生成;
随机向量序列{θk,k=1,2,…,k}独立同分布;
随机森林即所有决策树的集合{h(X,θk),k=1,2,…,K};
每个决策树模型h(X,θk)均有一票投票权来选择输入变量x的分类结果:
其中,H(x)表示随机森林分类结果,hi(x)是单个决策树分类结果,Y表示分类目标,I(●)为示性函数。
7.根据权利要求1所述的方法,其特征在于,所述所述数据特征输入进所述随机森林中进行计算,具体为:
对于所述随机森林中的每一棵决策树,使用相应的袋外数据(OOB)来计算带外数据的预测误差,记为errOOB1;
随机的对所述袋外数据OOB所有样本的特征X加入噪声干扰,再次计算它的袋外数据误差,记为errOOB2;
设随机森林中有N棵树,那么特征X重要性=∑(eerOOB2-eerOOB1)/N。
8.一种数据特征重要性的分析系统,其特征在于,包括:
采集模块,用于获取债券风险评估所需的债券样本,将其作为原始数据集;
预处理模块,用于对所述原始数据集进行预处理,获取均衡数据集;
建模模块,用于构建用于分析数据特征重要性的随机森林模型;
计算模块,用于将所述均衡数据集输入进所述随机森林中进行计算,分析出各个数据特征的重要性排名。
9.电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至8中任一项所述的数据特征重要性的分析方法的步骤。
10.计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的数据特征重要性的分析方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳博普科技有限公司,未经深圳博普科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010464925.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种脚踏式按摩椅
- 下一篇:一种债券风险预测方法和系统
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





