[发明专利]一种基于交叉聚合的自动特征生成方法有效
申请号: | 202011285295.3 | 申请日: | 2020-11-17 |
公开(公告)号: | CN112380215B | 公开(公告)日: | 2023-07-28 |
发明(设计)人: | 周楚杰;杨帆;黄馨 | 申请(专利权)人: | 北京融七牛信息技术有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2455;G06F16/9537 |
代理公司: | 北京山允知识产权代理事务所(特殊普通合伙) 11741 | 代理人: | 胡冰 |
地址: | 100043 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 交叉 聚合 自动 特征 生成 方法 | ||
1.一种基于交叉聚合的自动特征生成方法,其特征在于,包括:
S1,对于待处理的数据表,按照数据表中的数据类型自行分箱并转换二值特征;
S2,对于生成的所述二值特征进行迭代特征交叉,生成交叉特征,其中,在生成交叉特征的迭代过程中,进行特征筛选,包括:
S21,基于步骤S1生成的二值特征,计算多个特征评价指标;
S22,根据指定的特征生成数量和迭代轮数,计算每轮需保留的特征数量m、交叉特征数量n和待交叉特征数量k;
S23,从步骤S1中生成的二值特征中挑选k个,从上一次迭代生成的交叉特征中挑选n个;
S24,将k个二值特征和n个交叉特征两两进行交叉运算,支持且和或交叉算子,生成新的交叉特征;
S25,从新生成的交叉特征中挑选m个保留,作为本轮迭代生成的交叉特征;
S3,将步骤S2中生成的二值特征与数据表原始字段合并,根据设定的时间窗,筛选在对应时间窗内的记录;
S4,对于每个时间窗筛选数据,包括:1)基于步骤S3中筛选的该时间窗内记录,根据样本列分组聚合,对于二值特征列计算命中记录占比,对于数值型字段计算均值、总和、方差、最大值、最小值、峰度、偏度、对于id型字段计算记录数和去重记录数;2)对于1)中的数值型字段生成的特征,计算在总体样本中的排序,和总体样本均值的比例特征;3)根据用户指定时间窗数量,最大特征维度,计算每个时间窗可保留的最大特征数量m;4)评价该时间窗内生成特征效果,挑选效果最好的m个特征,作为该时间窗最终生成的特征;
S5,合并所有时间窗生成的特征表;
S6,合并所有表生成的特征表。
2.根据权利要求1所述的基于交叉聚合的自动特征生成方法,其特征在于,还包括:
S3,判断停止迭代条件是否满足:迭代次数达到用户指定迭代次数,或者新生成的特征无法继续交叉,如果满足,则迭代完成所生成的组合特征即为最终生成的特征,如果不满足,则返回到步骤S2。
3.根据权利要求1所述的基于交叉聚合的自动特征生成方法,其特征在于,
在步骤S23中,第一次迭代时均从步骤S1中生成的二值特征中挑选,挑选交叉和待交叉特征时,抽取特征效果最好的特征的同时加入随机抽取特征。
4.根据权利要求1所述的基于交叉聚合的自动特征生成方法,其特征在于,步骤S1包括:
S31,对于数据表的每列数据使用至少一种分箱方法,进行分箱计算,分箱完成后,根据分箱效果选择最优分割点;
S32,根据最优分割点分割数据,转换为二值特征。
5.根据权利要求1所述的基于交叉聚合的自动特征生成方法,其特征在于,在进行步骤S1之前,还包括:对分析被选择的所有数据表,判断每个字段的数据类型,并给出每个字段的分析报告。
6.根据权利要求1所述的基于交叉聚合的自动特征生成方法,其特征在于,在进行步骤S1之前,还包括:根据选择的关联关系,依次关联所有数据表;关联过程中,可以根据筛选条件筛选有效记录,形成一张数据表,供特征生成使用。
7.根据权利要求1所述的基于交叉聚合的自动特征生成方法,其特征在于,还包括:对于筛选后的数据,根据数据类型对每列数据挑选异常值处理方法,进行异常值和空值处理,包括:
1)判断异常记录:对于数值型字段,使用异常值检测算法筛选异常值,对于分类型字段,占比极小的类别认为是异常值;
2)异常记录处理:根据预先设置的异常值处理方法替换异常值数据,处理方法包括:删除和填充。
8.根据权利要求1所述的基于交叉聚合的自动特征生成方法,其特征在于,
在步骤S3中,将生成的二值特征与原始字段中数值型,id型字段合并,根据用户设定的时间窗,筛选在对应时间窗内的记录。
9.根据权利要求1所述的基于交叉聚合的自动特征生成方法,其特征在于,通过如下方法计算特征数量m、交叉特征数量n和待交叉特征数量k:
1)根据原始字段数量推断每轮迭代可生成特征数量;
2)根据指定特征数量和迭代轮数计算每轮预期生成特征数量,每轮分配特征数量递减;
3)取步骤1和步骤2中的较小值为本轮预期生成特征数量m;
4)根据特征数量m和原始字段数量以及上一次迭代生成特征数量,确定交叉特征数量n,待交叉特征数量k,保证n*k大于m且与m数量相近。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京融七牛信息技术有限公司,未经北京融七牛信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011285295.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种防摔圆珠笔
- 下一篇:一种电动牵引车驻车控制方法及装置