[发明专利]基于特征工程血缘关系的可回溯、可视化方法有效
| 申请号: | 202010103932.4 | 申请日: | 2020-02-20 |
| 公开(公告)号: | CN111400305B | 公开(公告)日: | 2022-03-08 |
| 发明(设计)人: | 柴磊;许靖;许灿杰 | 申请(专利权)人: | 深圳市魔数智擎人工智能有限公司 |
| 主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/27 |
| 代理公司: | 深圳市神州联合知识产权代理事务所(普通合伙) 44324 | 代理人: | 周松强 |
| 地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 特征 工程 血缘关系 回溯 可视化 方法 | ||
1.一种基于特征工程血缘关系的可回溯、可视化方法,其特征在于所述方法包括:
步骤一、数据库宽表整合的血缘构建:所述数据库宽表整合为按聚合、关联、抽取、衍生机制,按预先定义的表间关系,将多表整合为用于建模的宽表的过程;所述聚合为根据数据表唯一键,对其它特征列采用汇聚计算;所述关联为将表与表,以某共同列进行横向连接;所述抽取为左表与右表,一对多关联时,抽取右表中的一条记录与左表关联;所述衍生为根据业务规则,对特征列进行聚合或列与列间组合计算;涉及聚合、关联、抽取、衍生处理的字段和表,依据字段所属表,以及操作内容进行血缘构建;
步骤二、数据预处理血缘构建:所述数据为步骤一中由数据库产出形成的宽表数据,所述数据预处理为对该宽表的特征进行常见特征工程处理方式的加工,包括变量删除、归一化、填补缺失值、异常值修正、独热编码、标准化、多种类分箱以及自定义衍生,受限于不同的操作内容,步骤二中血缘主要涉及操作内容和操作底层参数;
特征工程的处理方式为可视化的加工,处理过程按单个特征维度,依次对所涉及的各个操作及底层参数进行纪录,输出标准可回溯的数据结构;
步骤三、血缘关系整合:数据处理为分块进行,对两部分数据结构进行匹配和汇总,数据预处理的源变量为数据库聚合与衍生的结果变量,形成以数据预处理结果变量为维度的血缘关系结构数据;
步骤四、可视化交互构建:以步骤三输出完整血缘为基础,按多层面多顺序进行可视化交互构建,包括表级别、字段级别、记录级别,从头至尾,从尾至头,层级选择由用户交互选择;
所述方法的具体步骤如下:
步骤一、数据库宽表整合的血缘构建,包括有:
101、在采用聚合和关联时,需要预先定义多个表之间的关联关系,以及定义特征之间的业务关系;关联关系包括内关联、左关联、右关联方式,特征业务关系类型包括交易流水类型、通话记录类型、短信记录类型;
102、采用数据库聚合的方式,对数据进行汇总计算,汇总计算包括最大值聚合、最小值聚合、求和聚合、计数聚合、标准差聚合、均值聚合多种方式;
103、采取数据库抽取的方式,在左表与右表关联时,右表记录相对于关联字段,记录不唯一时采用;
104、在采取数据库衍生的方式时,依据预先设定的特征之间的交互计算规则,对特征进行衍生处理,形成新特征;
步骤二、宽表特征数据预处理与血缘构建,包括有:
105、获取数据库加工成的宽表,按特征列的形式进行数据拆分;
106、开始特征的预处理,在特征进行预处理过程中,实时记录数据预处理操作所涉及的底层参数,在完成数据预处理时,汇总特征的处理操作和参数流,形成每个特征当前的血缘关系结构;
步骤三、血缘关系整合,具体包括:
107、通过对两个步骤中结果特征的匹配和拼接,最终成功构建每个特征的血缘关系,每个步骤的结果特征均能找寻到对应源特征;
步骤四、特征血缘可视化交互式展示,具体包括:
108、通过计算机编程语言快速复现处理逻辑,从原始特征,快速生成结果特征,并可进行回溯,再以多层级的架构提供可视化交互展示。
2.如权利要求1所述的基于特征工程血缘关系的可回溯、可视化方法,其特征在于步骤一中,在聚合、关联、抽取、衍生过程中,根据每个特征的聚合、关联和衍生业务规则方式的不同,分别以各个单一特征为维度,记录每个变量的聚合、关联和衍生规则以及上一级特征,并输出标准可回溯的数据结构。
3.如权利要求1所述的基于特征工程血缘关系的可回溯、可视化方法,其特征在于在进行数据库聚合和关联时,每个当前特征为上一级表的某个特征,经过聚合操作获得,血缘关系包括所有特征的上一级表、上一级特征,聚合类型、上一级表关联字段以及上一级关联表。
4.如权利要求1所述的基于特征工程血缘关系的可回溯、可视化方法,其特征在于所述105步骤中,对每个不同的特征列,分别预先定义属于该特征所需要进行的数据预处理操作;按特征记录每个操作的内容,构建每个特征的预处理操作流。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市魔数智擎人工智能有限公司,未经深圳市魔数智擎人工智能有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010103932.4/1.html,转载请声明来源钻瓜专利网。





