[发明专利]特征衍生方法、装置及计算机设备在审
申请号: | 201911108450.1 | 申请日: | 2019-11-13 |
公开(公告)号: | CN111046912A | 公开(公告)日: | 2020-04-21 |
发明(设计)人: | 阮怀玉;章鹏;杨志雄 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 周嗣勇 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征 衍生 方法 装置 计算机 设备 | ||
本说明书实施例提供一种特征衍生方法、装置及计算机设备。从预先训练的决策树模型的至少一条路径上提取若干个节点对应的特征;根据所述特征生成特征集合,其中,不同路径上提取的特征对应不同的特征集合;根据所述特征集合进行特征衍生,以得到衍生特征。通过这种方式衍生得到的特征具有更好的可解释性且更加有效。
技术领域
本说明书涉及人工智能技术领域,尤其涉及一种特征衍生方法、装置及计算机设备。
背景技术
机器学习已广泛用于各个领域,针对某个业务场景构建机器学习模型,一般包括以下过程:数据分析、特征提取和筛选、模型训练和验证、模型应用。在提取特征时,为了得到更多有效的特征,提升模型的效果,通常会采用一些特定的算法(比如加减乘除,笛卡尔积、one-hot编码等)对原始数据中已有的一些原始特征进行计算,衍生出一些新的特征,这个过程为特征衍生过程。比如,原始数据中包括收入和支出,因而可以根据收入和支出计算得到一个收入支出比,这样便得到一个新的特征。
由于特征的有效性对模型的预测效果有很大影响,因而有必要对特征衍生方法加以改进,以便可以自动地从原始数据中提取出一些比较符合业务场景且可解释的有效特征。
发明内容
基于此,本说明书提供了一种特征衍生方法、装置及计算机设备。
根据本说明书实施例的第一方面,提供一种特征衍生方法,所述方法包括:
从预先训练的决策树模型的至少一条路径上提取若干个节点对应的特征;
根据所述特征生成特征集合,其中,不同路径上提取的特征对应不同的特征集合;
根据所述特征集合进行特征衍生,以得到衍生特征。
根据本说明书实施例的第二方面,提供一种特征衍生装置,所述装置包括:
提取模块,用于从预先训练的决策树模型的至少一条路径上提取若干个节点对应的特征;
特征集合生成模块,用于根据所述特征生成特征集合,其中,不同路径上提取的特征对应不同的特征集合;
特征衍生模块,用于根据所述特征集合进行特征衍生,以得到衍生特征。
根据本说明书实施例的第三方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一实施例所述的方法。
应用本说明书实施例方案,在特征衍生时,可以先用原始数据训练得到决策树模型,然后从决策树模型的至少一条路径上提取若干个节点对应的特征,并根据所述特征生成特征集合,其中,不同路径上提取的特征对应不同的特征集合,根据所述特征集合进行特征衍生,以得到衍生特征。由于每个特征集合中的元素对应的都是决策树一条路径上的节点对应的特征,而决策树上的每条判决路径上的特征组合都是效果较佳的组合,因而根据决策树模型的判决路径上的特征去构建特征集合,然后根据特征集合去衍生新的特征,具有更好的可解释性,衍生得到的新特征具有更好的效果。且相比于特征的随机组合,本说明书实施例在进行特征组合时的搜索空间也更小,即组合方式大大减小。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本说明书的实施例,并与说明书一起用于解释本说明书的原理。
图1是本说明书一个实施例的一种特征衍生方法流程图。
图2是本说明书一个实施例的一种决策树模型的示意图。
图3是本说明书一个实施例的一种决策树模型的判决路径示意图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911108450.1/2.html,转载请声明来源钻瓜专利网。