[发明专利]特征筛选方法、预警方法、装置、电子设备、介质和程序在审
申请号: | 202111449097.0 | 申请日: | 2021-11-29 |
公开(公告)号: | CN114119207A | 公开(公告)日: | 2022-03-01 |
发明(设计)人: | 李钰;于洋;杨丝雨;焦勇博 | 申请(专利权)人: | 中国工商银行股份有限公司 |
主分类号: | G06Q40/02 | 分类号: | G06Q40/02;G06K9/62;G06F16/2455;G08B31/00 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 张琛 |
地址: | 100140 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征 筛选 方法 预警 装置 电子设备 介质 程序 | ||
1.一种用于数据的特征筛选方法,其特征在于,包括:
确定数据样本,所述数据样本中包括多种特征;
第一阶段筛选数据,所述第一阶段筛选数据包括:运用最大相关-最小冗余算法、运用特征权重算法和运用T检验算法分别对所述数据样本进行特征筛选,将筛选结果求并集得到第一阶段特征子集;
第二阶段筛选数据,所述第二阶段筛选数据包括:
运用包装式特征选择方法对所述第一阶段特征子集进行特征筛选,得到第四特征子集;
运用嵌入式特征选择方法对所述第一阶段特征子集进行特征筛选,得到第五特征子集;以及
根据第四特征子集和第五特征子集得到最终特征。
2.根据权利要求1所述的用于数据的特征筛选方法,其特征在于,所述运用包装式特征选择方法对所述第一阶段特征子集进行特征筛选包括运用特征排序算法对第一阶段特征子集进行迭代,在迭代过程中得到第四特征子集。
3.根据权利要求1所述的用于数据的特征筛选方法,其特征在于,所述运用嵌入式特征选择方法对所述第一阶段特征子集进行特征筛选包括运用梯度增强算法对第一阶段特征子集进行迭代,在迭代过程中得到第五特征子集。
4.根据权利要求1所述的用于数据的特征筛选方法,其特征在于,所述根据第四特征子集和第五特征子集得到最终特征包括根据指示函数计算每个特征的重要性得分,将所述重要性得分升序或者降序排列,得到Nfinal个最终特征,Nfinal为大于等于1的整数,所述指示函数包括以下公式:
其中,fi代表各个特征;m代表包装式特征选择方法的模型或者嵌入式特征选择方法的模型;ti代表第四特征子集或者第五特征子集的个数;accm,k代表模型m在第k次运行时的精度;Nfinal代表最终特征的个数;r(fi,m,k)表示第k次运行时模型m的特征fi的秩,每个模型m中特征的最大秩记为
5.根据权利要求1所述的用于数据的特征筛选方法,其特征在于,所述确定数据样本包括:
从数据存储系统中获取第一数据,将所述第一数据作为所述数据样本。
6.根据权利要求1所述的用于数据的特征筛选方法,其特征在于,所述确定数据样本包括:
从数据存储系统中获取第一数据;以及
将所述第一数据中的异常特征值回归,得到第二数据,将所述第二数据作为所述数据样本。
7.根据权利要求6所述的用于数据的特征筛选方法,其特征在于,所述异常特征值包括缺失值,所述将所述第一数据中的异常特征值回归包括用所述异常特征下的数据的均值或中位数填充所述缺失值或者用归纳法确定所述缺失值。
8.根据权利要求1所述的用于数据的特征筛选方法,其特征在于,所述确定数据样本包括:
分别从多个所述数据存储系统中获取第一数据;
将所述第一数据中的异常值回归,得到第二数据;以及
将不同的数据存储系统中得到的第二数据整合,以形成所述数据样本。
9.根据权利要求8所述的用于数据的特征筛选方法,其特征在于,所述确定数据样本还包括:
采用标准化方法对整合后的所述第二数据进行标准化转换,标准化转换后的数据为所述数据样本。
10.一种银行客户流失的预警方法,其特征在于,包括:
执行根据权利要求1-9中任一项所述的用于数据的特征筛选方法,以获得最终特征;
将所述最终特征输入模型作为输入层;
将输入所述输入层的特征数据转换为中间数据;以及
将中间数据转换成最终结果,其中,最终结果用于表征客户为易流失客户或非易流失客户。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司,未经中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111449097.0/1.html,转载请声明来源钻瓜专利网。