[发明专利]一种基于交叉的自动特征生成方法有效
申请号: | 202011285312.3 | 申请日: | 2020-11-17 |
公开(公告)号: | CN112380216B | 公开(公告)日: | 2023-07-28 |
发明(设计)人: | 周楚杰;杨帆;黄馨 | 申请(专利权)人: | 北京融七牛信息技术有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2453;G06F16/2455 |
代理公司: | 北京山允知识产权代理事务所(特殊普通合伙) 11741 | 代理人: | 胡冰 |
地址: | 100043 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 交叉 自动 特征 生成 方法 | ||
1.一种基于交叉的自动特征生成方法,其特征在于,包括:
S1,对于待处理的数据表,对数据表的每列数据使用至少一种分箱方法,进行分箱计算,分箱完成后,根据分箱效果选择最优分割点;根据最优分割点分割数据,转换为二值特征;
S2,对于生成的所述二值特征迭代进行特征交叉,生成交叉特征,其中,在生成交叉特征的迭代过程中,进行特征筛选,包括:
S21,基于步骤S1生成的二值特征,计算多个特征评价指标;
S22,根据指定的特征生成数量和迭代轮数,计算每轮需保留的特征数量m、交叉特征数量n和待交叉特征数量k;
S23,从步骤S1中生成的二值特征中挑选k个,从上一次迭代生成的交叉特征中挑选n个,其中第一次迭代时均从步骤S1中生成的二值特征中挑选,挑选交叉和待交叉特征时,抽取特征效果最好的特征的同时加入随机抽取特征;
S24,将k个二值特征和n个交叉特征两两进行交叉运算,支持且和或交叉算子,生成新的交叉特征;
S25,从新生成的交叉特征中挑选m个保留,作为本轮迭代生成的交叉特征;
S3,判断停止迭代条件是否满足:迭代次数达到用户指定迭代次数,或者新生成的特征无法继续交叉,如果满足,则迭代完成所生成的组合特征即为该最终生成的特征,如果不满足,则返回到步骤S2。
2.根据权利要求1所述的基于交叉的自动特征生成方法,其特征在于,在进行步骤S1之前,还包括:
对分析被选择的所有数据表,判断每个字段的数据类型,并给出每个字段的分析报告。
3.根据权利要求1所述的基于交叉的自动特征生成方法,其特征在于,在进行步骤S1之前,还包括:
根据选择的关联关系,依次关联所有数据表。
4.根据权利要求1所述的基于交叉的自动特征生成方法,其特征在于,还包括:对于筛选后的数据,根据数据类型对每列数据挑选异常值处理方法,进行异常值和空值处理,包括:
1)判断异常记录:对于数值型字段,使用异常值检测算法筛选异常值,对于分类型字段,占比小的类别认为是异常值;
2)异常记录处理:根据预先设置的异常值处理方法替换异常值数据,处理方法包括:删除和填充。
5.根据权利要求1所述的基于交叉的自动特征生成方法,其特征在于,
在S13中,根据每个字段的数据类型来选择分箱方法。
6.根据权利要求3所述的基于交叉的自动特征生成方法,其特征在于,
在关联过程中,根据筛选条件筛选有效记录,形成一张数据表,供特征生成使用。
7.根据权利要求1所述的基于交叉的自动特征生成方法,其特征在于,通过如下方法计算特征数量m,交叉特征数量n,待交叉特征数量k:
1)根据原始字段数量推断每轮迭代可生成特征数量;
2)根据指定特征数量和迭代轮数计算每轮预期生成特征数量,每轮分配特征数量递减;
3)取步骤1)和步骤2)中的较小值为本轮预期生成特征数量m;
4)根据特征数量m和原始字段数量以及上一次迭代生成特征数量,确定交叉特征数量n和待交叉特征数量k,保证n*k大于m且与m数量相近。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京融七牛信息技术有限公司,未经北京融七牛信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011285312.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种台灯
- 下一篇:边缘测距定位和绕开护栏异常段的方法