[发明专利]一种对结构化数据实时衍生机器学习用特征的方法在审

专利信息
申请号: 201911393160.6 申请日: 2019-12-30
公开(公告)号: CN111832740A 公开(公告)日: 2020-10-27
发明(设计)人: 万晶;李学文;樊静文 申请(专利权)人: 上海氪信信息技术有限公司
主分类号: G06N20/00 分类号: G06N20/00;G06F16/242;G06F16/25
代理公司: 上海智力专利商标事务所(普通合伙) 31105 代理人: 周涛
地址: 200002 上海市长宁区安*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 结构 数据 实时 衍生 机器 习用 特征 方法
【说明书】:

发明公开了一种对结构化数据实时衍生机器学习用特征的方法,所述方法包括:定义包括多个机器学习中特征处理用计算函数的计算机语言;使用所述计算机语言开发特征计算逻辑;根据所述特征计算逻辑生成可执行的程序代码;执行所述程序代码以应用所述特征计算逻辑至对应的原始数据从而衍生机器学习用特征。本发明的有益效果为大大减轻了特征开发的复杂度和开发周期,数据分析背景的建模人员即可灵活方便的产生所需要的机器学习特征。

技术领域

本发明属于机器学习领域,具体涉及一种对结构化数据实时衍生机器学习用特征的方法。

背景技术

机器学习是人工智能的一种实现方法,它是一种利用概率与统计学从数据中获得规律(一般称为模型),并利用此规律对未知数据进行推理的方法。机器学习的应用领域非常广泛,在金融、医学、社会公共事务等都有应用。

在利用机器学习解决实际问题的时候,特征指标加工或者叫做特征指标计算是非常重要的一个步骤。机器学习方法如常用的xgboost、gbdt、lightgbm等一般都不是直接使用原始的数据(一般称为训练数据),而是把数据处理成为特征指标的形式。特征指标一般是对原始数据的统计学衍生或者多个原始数据字段的交叉衍生,从而充分挖掘原始数据中的信息,使得机器学习生成的模型效果达到最优。

特征衍生没有固定的方法,目前在实际生产中,多使用软件代码的方法进行加工,需要新的特征时即编写新的代码。也有将编写的代码进行抽象变为相对更通用的模块,利用配置文件进行配置的方式,可以多次重复使用已编写的代码,减少代码的编写工作。

目前的方法有两个问题。一是特征衍生开发工作大,且机器学习模型的开发人员更多是偏统计与数学机器,需要额外的开发工程师协助,开发周期长;二是机器学习模型在开发人员开发好之后,需要进行生产上线进入在线决策系统,此时在模型开发过程中所做的特征加工工作在此处不能复用,因为模型开发过程中的特征加工并没有一个统一的方式,所编写的代码更注重于批量特征计算,对于在线实时系统来说达不到应有的性能指标,需要重新开发一遍,增加了上线周期。在当前社会行业各业务高速发展的大环境下,对模型的调优和更新频率要求越来越高,原来的方法越来越难满足业务的需求。

发明内容

针对现有技术中存在的问题,本发明提供一种对结构化数据实时衍生机器学习用特征的方法,本发明的部分实施例能够将传统SQL查询方法与机器学习的特征加工相结合,降低用户操作使用门槛,而且在离线与在线处理使用相同的逻辑,加速开发周期,减少上线测试工作量。

为实现上述目的,本发明采用以下技术方案:

一种对结构化数据实时衍生机器学习用特征的方法,所述方法包括:定义包括多个机器学习中特征处理用计算函数的计算机语言;使用所述计算机语言开发特征计算逻辑;根据所述特征计算逻辑生成可执行的程序代码;执行所述程序代码以应用所述特征计算逻辑至对应的原始数据从而衍生机器学习用特征。

优选地,所述计算机语言为SQL。当然技术上来说,是可以基于别的,但是对于模型开发人员或者说分析师来说,SQL他们最熟悉。

优选地,所述执行所述程序代码以应用所述特征计算逻辑至对应的原始数据包括:将原始数据按照预定义的数据格式加载至计算机内存中;对原始数据预处理。

优选地,所述预定义的数据格式包括:数据的字段名称、字段类型和缺失值/异常值处理逻辑。

优选地,所述预处理包括多种处理方法,所述处理方法抽象为可配置的选项。

优选地,所述特征计算逻辑包括扩展函数和聚合函数,所述扩展函数在先地处理所述原始数据,所述聚合函数在后地处理所述原始数据和/或所述扩展函数的输出结果。

优选地,所述根据所述特征计算逻辑生成可执行的程序代码通过现有数据库的解析器或者yacc或者配合相应的文法解析使用正则。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海氪信信息技术有限公司,未经上海氪信信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911393160.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top