[发明专利]一种基于交叉聚合的自动特征生成方法有效

专利信息
申请号: 202011285295.3 申请日: 2020-11-17
公开(公告)号: CN112380215B 公开(公告)日: 2023-07-28
发明(设计)人: 周楚杰;杨帆;黄馨 申请(专利权)人: 北京融七牛信息技术有限公司
主分类号: G06F16/22 分类号: G06F16/22;G06F16/2455;G06F16/9537
代理公司: 北京山允知识产权代理事务所(特殊普通合伙) 11741 代理人: 胡冰
地址: 100043 北京市石景山区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 交叉 聚合 自动 特征 生成 方法
【权利要求书】:

1.一种基于交叉聚合的自动特征生成方法,其特征在于,包括:

S1,对于待处理的数据表,按照数据表中的数据类型自行分箱并转换二值特征;

S2,对于生成的所述二值特征进行迭代特征交叉,生成交叉特征,其中,在生成交叉特征的迭代过程中,进行特征筛选,包括:

S21,基于步骤S1生成的二值特征,计算多个特征评价指标;

S22,根据指定的特征生成数量和迭代轮数,计算每轮需保留的特征数量m、交叉特征数量n和待交叉特征数量k;

S23,从步骤S1中生成的二值特征中挑选k个,从上一次迭代生成的交叉特征中挑选n个;

S24,将k个二值特征和n个交叉特征两两进行交叉运算,支持且和或交叉算子,生成新的交叉特征;

S25,从新生成的交叉特征中挑选m个保留,作为本轮迭代生成的交叉特征;

S3,将步骤S2中生成的二值特征与数据表原始字段合并,根据设定的时间窗,筛选在对应时间窗内的记录;

S4,对于每个时间窗筛选数据,包括:1)基于步骤S3中筛选的该时间窗内记录,根据样本列分组聚合,对于二值特征列计算命中记录占比,对于数值型字段计算均值、总和、方差、最大值、最小值、峰度、偏度、对于id型字段计算记录数和去重记录数;2)对于1)中的数值型字段生成的特征,计算在总体样本中的排序,和总体样本均值的比例特征;3)根据用户指定时间窗数量,最大特征维度,计算每个时间窗可保留的最大特征数量m;4)评价该时间窗内生成特征效果,挑选效果最好的m个特征,作为该时间窗最终生成的特征;

S5,合并所有时间窗生成的特征表;

S6,合并所有表生成的特征表。

2.根据权利要求1所述的基于交叉聚合的自动特征生成方法,其特征在于,还包括:

S3,判断停止迭代条件是否满足:迭代次数达到用户指定迭代次数,或者新生成的特征无法继续交叉,如果满足,则迭代完成所生成的组合特征即为最终生成的特征,如果不满足,则返回到步骤S2。

3.根据权利要求1所述的基于交叉聚合的自动特征生成方法,其特征在于,

在步骤S23中,第一次迭代时均从步骤S1中生成的二值特征中挑选,挑选交叉和待交叉特征时,抽取特征效果最好的特征的同时加入随机抽取特征。

4.根据权利要求1所述的基于交叉聚合的自动特征生成方法,其特征在于,步骤S1包括:

S31,对于数据表的每列数据使用至少一种分箱方法,进行分箱计算,分箱完成后,根据分箱效果选择最优分割点;

S32,根据最优分割点分割数据,转换为二值特征。

5.根据权利要求1所述的基于交叉聚合的自动特征生成方法,其特征在于,在进行步骤S1之前,还包括:对分析被选择的所有数据表,判断每个字段的数据类型,并给出每个字段的分析报告。

6.根据权利要求1所述的基于交叉聚合的自动特征生成方法,其特征在于,在进行步骤S1之前,还包括:根据选择的关联关系,依次关联所有数据表;关联过程中,可以根据筛选条件筛选有效记录,形成一张数据表,供特征生成使用。

7.根据权利要求1所述的基于交叉聚合的自动特征生成方法,其特征在于,还包括:对于筛选后的数据,根据数据类型对每列数据挑选异常值处理方法,进行异常值和空值处理,包括:

1)判断异常记录:对于数值型字段,使用异常值检测算法筛选异常值,对于分类型字段,占比极小的类别认为是异常值;

2)异常记录处理:根据预先设置的异常值处理方法替换异常值数据,处理方法包括:删除和填充。

8.根据权利要求1所述的基于交叉聚合的自动特征生成方法,其特征在于,

在步骤S3中,将生成的二值特征与原始字段中数值型,id型字段合并,根据用户设定的时间窗,筛选在对应时间窗内的记录。

9.根据权利要求1所述的基于交叉聚合的自动特征生成方法,其特征在于,通过如下方法计算特征数量m、交叉特征数量n和待交叉特征数量k:

1)根据原始字段数量推断每轮迭代可生成特征数量;

2)根据指定特征数量和迭代轮数计算每轮预期生成特征数量,每轮分配特征数量递减;

3)取步骤1和步骤2中的较小值为本轮预期生成特征数量m;

4)根据特征数量m和原始字段数量以及上一次迭代生成特征数量,确定交叉特征数量n,待交叉特征数量k,保证n*k大于m且与m数量相近。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京融七牛信息技术有限公司,未经北京融七牛信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011285295.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top