[发明专利]数据分类方法、装置、设备及存储介质在审
| 申请号: | 201910955702.8 | 申请日: | 2019-10-09 |
| 公开(公告)号: | CN110704509A | 公开(公告)日: | 2020-01-17 |
| 发明(设计)人: | 熊云 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/28;G06K9/62 |
| 代理公司: | 11205 北京同立钧成知识产权代理有限公司 | 代理人: | 胡艾青;刘芳 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 预测模型 预测目标 目标数据 组合特征 数据分类 样本数据 有效特征 样本数据获取 存储介质 分类处理 获取目标 数据对应 特征获取 特征挖掘 分类 申请 数据库 筛选 挖掘 预测 | ||
本申请公开了数据分类方法、装置、设备及存储介质,涉及数据分类技术领域。具体实现方案为:通过从数据库中获取样本数据,根据样本数据获取初始特征,并确定预测目标参数;根据初始特征获取组合特征,并从组合特征中筛选出有效特征;根据初始特征及有效特征,得到对预测目标参数进行预测的预测模型,并根据样本数据对预测模型进行训练;将待分类的目标数据输入训练后的预测模型中,获取目标数据对应的预测目标参数,以根据预测目标参数对目标数据进行分类处理。本申请实施例中进行了更多的、更深层的特征挖掘、且考虑了挖掘到的组合特征的价值,使得所得到的预测模型更为准确,从而可以根据该预测模型实现对目标数据的准确分类。
技术领域
本申请涉及数据处理技术领域,尤其涉及数据分类技术。
背景技术
随着机器学习领域的发展,建模技术逐渐走向成熟,针对一些表格数据的建模技术也有所进展,例如根据表格数据构建对某一目标参数的预测模型,实现表格数据依据该目标参数的分类。
现有技术中在建模过程中通常需要制定某些特征,并依据该些特征进行建模,或者对该些特征进行简单的特征组合,在依据该些特征进行建模,导致建模过程中对特征的挖掘不足,导致模型准确度不高,无法准确进行数据分类。
发明内容
本申请提供一种数据分类方法、装置、设备及存储介质,以挖掘更多的、更深层的特征,提高模型准确性,从而对数据进行准确分类处理。
本申请第一个方面提供一种数据分类方法,包括:
从数据库中获取样本数据,根据样本数据获取初始特征,并确定预测目标参数;
根据所述初始特征获取组合特征,并从所述组合特征中筛选出有效特征;
根据所述初始特征及所述有效特征,得到对所述预测目标参数进行预测的预测模型,并根据所述样本数据对所述预测模型进行训练;
将待分类的目标数据输入训练后的预测模型中,获取所述目标数据对应的预测目标参数,以根据预测目标参数对所述目标数据进行分类处理。
通过上述方法,由于进行了更多的、更深层的特征挖掘、且考虑了挖掘到的组合特征的价值,使得所得到的预测模型更为准确,从而可以根据该预测模型实现对目标数据的准确分类。
进一步的,所述根据所述初始特征获取组合特征,并从所述组合特征中筛选出有效特征,包括:
将所述初始特征加入有效特征池;
在每一轮的特征组合过程中,对所述有效特征池中的任意的至少两个特征按照预设组合方式进行组合,产生新的组合特征;并从所述新的组合特征中筛选出有效特征,加入所述有效特征池;
进行下一轮的特征组合过程,直至某一轮的特征组合过程产生的新的组合特征中无法筛选出有效特征时,结束特征组合过程。
通过上述方法,可以更高效的获取有价值的组合特征,降低计算量,且能够挖掘到更多的、更深层的有价值的特征,并且能够在无法得到有效特征时自动结束特征挖掘,而不需要设置迭代次数。
进一步的,所述从所述新的组合特征中筛选出有效特征,加入所述有效特征池,包括:
根据所述有效特征池中当前所有特征构建第一测试模型,并获取所述第一测试模型的模型评价指标;
将所述新的组合特征中任一组合特征加入到所述第一测试模型中,形成第二测试模型,并获取所述第二测试模型的模型评价指标;
获取所述第二测试模型的模型评价指标相对于所述第一测试模型的模型评价指标增量;
若所述模型评价指标增量高于预设阈值,则确定该组合特征为有效特征,并加入所述有效特征池。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910955702.8/2.html,转载请声明来源钻瓜专利网。





