[发明专利]自适应特征处理方法及装置在审
| 申请号: | 201910722239.2 | 申请日: | 2019-08-06 |
| 公开(公告)号: | CN110443305A | 公开(公告)日: | 2019-11-12 |
| 发明(设计)人: | 李倩兰;袁灿;于政 | 申请(专利权)人: | 北京明略软件系统有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/35;G06F17/27 |
| 代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 刘旺贵 |
| 地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 特征处理 特征列 自适应 预处理 工作效率 技术门槛 模型训练 特征数据 数据列 文本 筛选 分类 | ||
本发明提供了一种自适应特征处理方法及装置,该方法包括:将数据列分成不同类型的特征列,其中,所述特征列的类型至少包括以下之一:离散、连续、日期和文本;对分类后的特征列进行特征预处理;对预处理后的特征列进行筛选获得用于模型训练的特征数据。在本发明中,通过实现自适应特征处理,从而能够有效降低特征处理技术门槛,提升工作效率。
技术领域
本发明涉及数据处理领域,具体而言,涉及一种自适应特征处理方法及装置。
背景技术
随着机器学习的发展,机器学习的使用范围越来越广,不同行业的人们都想要使用机器学习来解决实际场景的问题。为了降低普通人使用机器学习的门槛,自动机器学习是发展趋势。但在数据输入机器学习模型之前,需要先对特征数据进行预处理。由于不同的特征列有不同的数据特点,在特征预处理时,需要针对不同的特征列做不同的预处理。要全面地细致地分析数据,是一件十分耗时的工作。为了提高数据预处理的效率,针对不同特点的特征列自适应地进行预处理是目前机器学习行业亟待解决的问题。
现有的特征列预处理方案,往往是由具备一定算法基础的人员进行。一般方案是:1)观察元数据,包括字段解释、数据来源、代码表等等一切描述数据的信息;2)抽取一部分数据,使用人工查看方式,对数据本身有一个直观的了解,为之后的预处理做准备;3)数据分析:采用一些统计分析、可视化分析方法进行辅助特征选择。
由于现有方案都是由算法相关专业人员操作,通过人工观察再进行特征处理,需要一定的统计与算法知识,不适合一般无相关背景的人员操作。一般人员为了使用机器学习方法,需要花费大量时间预先进行学习,不利于一般人员的工作效率,不利于提高生产力。
发明内容
本发明实施例提供了一种自适应特征处理方法及装置,以至少解决相关技术中相关需要由专业人员进行特征列预处理的问题。
根据本发明的一个实施例,提供了一种自适应特征处理方法,包括:将数据列分成不同类型的特征列,其中,所述特征列的类型至少包括以下之一:离散、连续、日期和文本;对分类后的特征列进行特征预处理;对预处理后的特征列进行筛选获得用于模型训练的特征数据。
可选地,对分类后的特征列进行特征预处理之前,还包括:计算每一特征列的空值率,并筛去空值率大于第一預定阈值的特征列;对离散类型的特征列采用众数填空值,对连续类型的特征列采用均值填空值,对日期或文本类型的特征列采用空字符串填空值。
可选地,对分类后的特征列进行特征预处理包括以下至少之一:对离散类型的特征列进行独热编码或直方图映射;对连续类型的特征列进行分箱或归一化处理;将日期类型的特征列中的日期处理成离散值或连续值,并生成新的离散类型的特征列或连续类型的特征列;对文本类型的特征列进行分词以构成词集。
可选地,对预处理后的特征列进行筛选获得用于模型训练的特征数据至少包括以下之一:对特征预处理后的特征列进行筛选,去除与标签相关性低于第二预设阈值的特征;查看每一特征列的非重复值个数,筛去单一值的特征列;计算列与列之间的相关性,并筛去相关性大于第三预设阈值的特征列;计算特征列的重要性,并筛去重要性低于第三预设阈值的特征列。
根据本发明的另一个实施例,提供了一种自适应特征处理装置,包括:分类模块,用于将数据列分成不同类型的特征列,其中,所述特征列的类型至少包括以下之一:离散、连续、日期和文本;预处理模块,用于对不同类型的特征列采用对应的特征预处理;筛选模块,用于对预处理后的特征列进行筛选获得用于模型训练的特征数据。
可选地,所述装置还包括填空值模块,用于计算每一特征列的空值率,并筛去空值率大于第一預定阈值的特征列;对离散类型的特征列采用众数填空值,对连续类型的特征列采用均值填空值,对日期或文本类型的特征列采用空字符串填空值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略软件系统有限公司,未经北京明略软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910722239.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于机器学习模型的企业风险评估方法
- 下一篇:葡萄酒木塞的鉴伪方法





