[发明专利]基于特征工程血缘关系的可回溯、可视化方法有效

专利信息
申请号: 202010103932.4 申请日: 2020-02-20
公开(公告)号: CN111400305B 公开(公告)日: 2022-03-08
发明(设计)人: 柴磊;许靖;许灿杰 申请(专利权)人: 深圳市魔数智擎人工智能有限公司
主分类号: G06F16/22 分类号: G06F16/22;G06F16/27
代理公司: 深圳市神州联合知识产权代理事务所(普通合伙) 44324 代理人: 周松强
地址: 518000 广东省深圳市*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 特征 工程 血缘关系 回溯 可视化 方法
【说明书】:

本发明公开了一种基于特征工程血缘关系的可回溯、可视化方法,所述方法包括:步骤一、数据库宽表整合的血缘构建,步骤二、数据预处理血缘构建,步骤三、血缘关系整合,步骤四,可视化交互构建,以整体血缘关系基础,多层次地构建可回溯的可视化交互界面。本发明解决了当前行业特征工程结果变量难回溯、错误数据的源头难查找问题,同时血缘关系解决特征工程实验和生产脱节,变量处理难以在生产环境复现的问题,最终使得整体流程能基于血缘关系结构快速复现,快速应用于生产环境。

技术领域

本发明通过人工智能进行数据处理的技术领域,尤其涉及一种利用计算机构建特征工程血缘关系,对特征进行回溯与可视化交互构建。

背景技术

在大数据和人工智能的发展中,模型开发速度和模型效果的要求越来越高,与之对应的,数据的采集、汇总以及处理的效率要求也越来越高。

数据整合与处理是限制模型开发效率的最主要因素,机器学习建模是不断对模型进行调参和不断输入数据进行调整的过程。因此,对数据特征的处理流进行血缘关系构建,创建可回溯、可视化血缘关系结构变得十分有必要。

构建特征的血缘关系,能使用户在建模过程,快速的调节模型的输入特征,复现从源特征到最终特征的处理流,提供给用户清晰的特征来源路径,并最终有利于实现数据处理跨平台处理。

在模型上线过程中,可回溯的血缘关系结构有利于用户对错误数据进行回溯,及时定位到出现问题的地方,并快速更正。

目前市面上方案较少,现有的方案存在以下几个问题:

1)血缘关系的记录只针对部分流程,没有全流程的记录,无法进行源到结果的复现。

2)血缘关系构建以表为维度,只能提供简单的展示,用户不能根据展示内容详细了解某个特征的情况。。

3)诸如归一化、异常值修正等特征加工方式的底层参数,没有完整纳入血缘关系体系之中,因此在进行特征工程复现时,生成的数据集只可作为训练集,不能作为测试集。

专利申请201610127589.0公开了一种特征工程策略确定方法及装置,该方法通过获取用于训练预设模型的预设维度特征的多个特征值;根据所述多个特征值的排序确定多个分位区间;获取每个分位区间中作为正样本的特征值的数量与所在区间内所有特征值的数量的正样本比例;计算任意两个相邻的所述分位区间的所述正样本比例之间的正样本变化率;根据所有分位区间对应的所述正样本比例之间的正样本变化率,可以确定用于处理所述预设维度特征的目标特征工程策略。

又如专利申请201810669281.8公开了一种用于构建机器学习建模过程的方法及系统。所述方法包括:在用于构建机器学习建模过程的图形界面中显示构建的机器学习建模过程;响应于用于运行所述机器学习建模过程中的至少一个步骤的用户操作,运行所述至少一个步骤;在运行所述至少一个步骤的同时,接收用户的用于修改所述机器学习建模过程的修改操作;响应于所述修改操作,对所述机器学习建模过程进行修改,其中,当运行到所述机器学习建模过程的被修改的部分时,基于修改后的机器学习建模过程来运行。

发明内容

为解决上述问题,本发明提供一种基于特征工程血缘关系的可回溯、可视化方法,该方法能够帮助用户在进行特征工程后,对结果变量进行溯源,以及将特征工程的过程完整地进行可视化交互展现。

本发明的另一个目的在于提供一种基于特征工程血缘关系的可回溯、可视化方法,该方法能完整记录基于全流程的数据处理流,解决用户对最终生成特征的来源存在困惑的问题,同时,以特征为维度的清晰的血缘结构,使用户在选取对建模有用的结果变量时,能通过血缘关系结构复现逻辑,能够清晰且快速地进行模型开发,跨平台上线。

为实现上述目的,本发明的技术方案如下:

一种基于特征工程血缘关系的可回溯、可视化方法,所述方法包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市魔数智擎人工智能有限公司,未经深圳市魔数智擎人工智能有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010103932.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top