[发明专利]特征工程策略确定方法及装置有效
申请号: | 201610127589.0 | 申请日: | 2016-03-07 |
公开(公告)号: | CN107168965B | 公开(公告)日: | 2021-01-12 |
发明(设计)人: | 杜玮;张柯;施兴;杨强鹏;杨军;谢树坤;王晓光;余舟华;李文鹏 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06K9/62 |
代理公司: | 北京弘权知识产权代理事务所(普通合伙) 11363 | 代理人: | 逯长明;许伟群 |
地址: | 开曼群岛*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征 工程 策略 确定 方法 装置 | ||
本公开实施例提供了一种特征工程策略确定方法及装置,该方法通过获取用于训练预设模型的预设维度特征的多个特征值;根据所述多个特征值的排序确定多个分位区间;获取每个分位区间中作为正样本的特征值的数量与所在区间内所有特征值的数量的正样本比例;计算任意两个相邻的所述分位区间的所述正样本比例之间的正样本变化率;根据所有分位区间对应的所述正样本比例之间的正样本变化率,可以确定用于处理所述预设维度特征的目标特征工程策略。本公开能够挖掘每个特征的本质属性,根据每个特征的本质属性自动的选择最适合该特征的特征工程策略,这样不仅可以发挥每个特征最大的“潜能”,而且可以提高数据模型的预测精度,提高处理效率。
技术领域
本公开涉及线性模型特征处理技术领域,尤其涉及特征工程策略确定方法及装置。
背景技术
目前在建立芝麻信用分数据模型的过程中,需要利用大规模机器学习算法对海量数据进行分类或回归计算,在将海量数据输入到机器学习算法之前,需要首先对海量数据利用特征工程策略进行处理,再将处理后的海量数据输入到机器学习算法中。
由于不同特征的特征值有不同的特点,不同的特征工程策略也有不同的特点,这样如果对所有特征都采用单一的特征工程策略进行处理,将特征工程策略应用在不适合的特征上,可能导致模型的训练效果不理想。
而且,由于能够运用到可能与建模目标有因果关系的特征种类繁多,具初步统计,能够用来进入芝麻信用分数据模型训练的特征数量有上千个甚至上万个,这样如果利用目前常用的人工观察的方法选择特征工程策略将导致效率非常低。
发明内容
为克服相关技术中存在的问题,本公开提供一种特征工程策略确定方法及装置。
根据本公开实施例的第一方面,提供一种特征工程策略确定方法,包括:
获取用于训练预设模型的预设维度特征的多个特征值;
根据所述多个特征值的排序确定多个分位区间;
获取每个分位区间中作为正样本的特征值的数量与所在区间内所有特征值的数量的正样本比例;
计算任意两个相邻的所述分位区间的所述正样本比例之间的正样本变化率;
根据所有分位区间对应的所述正样本比例之间的正样本变化率,确定用于处理所述预设维度特征的目标特征工程策略。
可选地,所述根据多个特征值的排序确定多个分位区间,包括:
将多个特征值进行排序;
根据预设区间数量将至少一个的特征值确定为分位点,以及,每个分位点的位置信息;
按照每个分位点的位置信息,利用分位点将排序后的多个特征值分隔成预设区间数量个分位区间,每个所述分位区间包含相同数量个所述特征值。
可选地,所述确定用于处理所述预设维度特征的目标特征工程策略,包括:
判断所有正样本变化率是否满足预设连续化处理条件;
当所有正样本变化率满足预设连续化处理条件时,计算多个特征值的离差系数;
判断所述离差系数是否大于第一预设阈值;
当所述离差系数大于第一预设阈值时,确定预设特征工程策略为等频率连续归一方式;
当所述离差系数小于或等于第一预设阈值时,确定预设特征工程策略为等域宽连续归一方式。
可选地,所述判断所有正样本变化率是否满足预设连续化处理条件,包括:
按照预设先后顺序依次判断所有正样本变化率是否均大于预设变化率阈值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610127589.0/2.html,转载请声明来源钻瓜专利网。