[发明专利]数据分类方法、装置、设备及存储介质在审
| 申请号: | 201910955702.8 | 申请日: | 2019-10-09 |
| 公开(公告)号: | CN110704509A | 公开(公告)日: | 2020-01-17 |
| 发明(设计)人: | 熊云 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/28;G06K9/62 |
| 代理公司: | 11205 北京同立钧成知识产权代理有限公司 | 代理人: | 胡艾青;刘芳 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 预测模型 预测目标 目标数据 组合特征 数据分类 样本数据 有效特征 样本数据获取 存储介质 分类处理 获取目标 数据对应 特征获取 特征挖掘 分类 申请 数据库 筛选 挖掘 预测 | ||
1.一种数据分类方法,其特征在于,包括:
从数据库中获取样本数据,根据样本数据获取初始特征,并确定预测目标参数;
根据所述初始特征获取组合特征,并从所述组合特征中筛选出有效特征;
根据所述初始特征及所述有效特征,得到对所述预测目标参数进行预测的预测模型,并根据所述样本数据对所述预测模型进行训练;
将待分类的目标数据输入训练后的预测模型中,获取所述目标数据对应的预测目标参数,以根据预测目标参数对所述目标数据进行分类处理。
2.根据权利要求1所述的方法,其特征在于,所述根据所述初始特征获取组合特征,并从所述组合特征中筛选出有效特征,包括:
将所述初始特征加入有效特征池;
在每一轮的特征组合过程中,对所述有效特征池中的任意的至少两个特征按照预设组合方式进行组合,产生新的组合特征;并从所述新的组合特征中筛选出有效特征,加入所述有效特征池;
进行下一轮的特征组合过程,直至某一轮的特征组合过程产生的新的组合特征中无法筛选出有效特征时,结束特征组合过程。
3.根据权利要求2所述的方法,其特征在于,所述从所述新的组合特征中筛选出有效特征,加入所述有效特征池,包括:
根据所述有效特征池中当前所有特征构建第一测试模型,并获取所述第一测试模型的模型评价指标;
将所述新的组合特征中任一组合特征加入到所述第一测试模型中,形成第二测试模型,并获取所述第二测试模型的模型评价指标;
获取所述第二测试模型的模型评价指标相对于所述第一测试模型的模型评价指标增量;
若所述模型评价指标增量高于预设阈值,则确定该组合特征为有效特征,并加入所述有效特征池。
4.根据权利要求3所述的方法,其特征在于,所述根据所述有效特征池中当前所有特征构建第一测试模型,包括:
将所述有效特征池中当前所有特征按照预设系数构建第一测试模型;
所述将所述新的组合特征中任一组合特征加入到所述第一测试模型中,形成第二测试模型,包括:
将所述新的组合特征中任一组合特征按照预设系数加入到所述第一测试模型中,形成第二测试模型。
5.根据权利要求4所述的方法,其特征在于,所述获取所述第一测试模型的模型评价指标前,还包括:
根据所述样本数据对所述第一测试模型进行训练,以优化所述第一测试模型中的预设系数;
所述获取所述第二测试模型的模型评价指标前,还包括:
根据所述样本数据对所述第二测试模型进行训练,以优化所述第二测试模型中的预设系数。
6.根据权利要求3-5任一项所述的方法,其特征在于,
同一轮的特征组合过程中所述预设阈值相同;
随着各轮特征组合过程的继续,所述预设阈值逐步递减。
7.根据权利要求2-5任一项所述的方法,其特征在于,
在结束特征组合过程后,根据所述有效特征池中当前所有特征构建所述预测模型,并根据所述样本数据对所述预测模型进行训练。
8.根据权利要求1-5任一项所述的方法,其特征在于,所述将待分类的目标数据输入训练后的预测模型中,获取所述目标数据对应的预测目标参数,包括:
根据所述目标数据,获取所述预测模型中所述初始特征及所述有效特征对应的数值,将所述对应的数值输入至所述预测模型中,获取所述目标数据对应的预测目标参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910955702.8/1.html,转载请声明来源钻瓜专利网。





