[发明专利]数据处理方法、装置、电子设备、介质和芯片在审
申请号: | 202310134393.4 | 申请日: | 2023-02-09 |
公开(公告)号: | CN116050543A | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 刘昊骋 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 北京市汉坤律师事务所 11602 | 代理人: | 姜浩然;吴丽丽 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 电子设备 介质 芯片 | ||
1.一种数据处理方法,包括:
获取基于第一样本数据集预训练所生成的树结构,其中,所述第一样本数据集中的第一样本数据具有多个属性;
基于所述树结构的节点,生成规则集合,其中,所述树结构的节点表示所述多个属性中的一个属性所对应的取值区间,所述规则集合为至少一个节点的集合;
基于所述规则集合,确定第二样本数据集中的第二样本数据的特征向量,其中,所述特征向量的各维度分别与所述规则集合中的各个规则相对应;以及
基于所述第二样本数据集中的第二样本数据的特征向量,将所述第二样本数据集划分为至少一个第二样本数据子集。
2.根据权利要求1所述的方法,其中,基于所述第一样本数据集预训练所生成的树结构至少包括一个决策树,所述基于所述树结构的节点,生成规则集合包括:
针对所述至少一个决策树中的每一个决策树中的每一个叶子节点,对该决策树的根节点到该叶子节点的路径上的每一个非叶子节点进行组合以得到该叶子节点对应的规则;以及
将所述至少一个决策树中的每一个决策树的每一个叶子节点对应的规则进行集合,以得到所述规则集合。
3.根据权利要求1或2所述的方法,其中,所述第二样本数据具有对应于所述多个属性的多个属性值,所述基于所述规则集合,确定第二样本数据集中的第二样本数据的特征向量包括:
针对所述规则集合中的至少一个规则,获取所述第二样本数据与该规则对应的属性值;以及
响应于确定所述第二样本数据的属性值符合该规则,确定所述第二样本数据的特征向量中与该规则对应的维度上取值为第一值,或响应于确定所述第二样本数据的属性值不符合该规则,确定所述第二样本数据的特征向量中与该规则对应的维度上取值为第二值,以确定所述第二样本数据的特征向量。
4.根据权利要求1-3中任一项所述的方法,其中,所述基于所述第二样本数据集中的第二样本数据的特征向量,将所述第二样本数据集划分为至少一个第二样本数据子集包括:
利用主成分分析方法对所述第二样本数据的特征向量进行降维,以得到所述第二样本数据对应的降维向量;以及
基于所述第二样本数据对应的降维向量对所述第二样本数据集中的第二样本数据进行聚类,以将所述第二样本数据集划分为至少一个第二样本数据子集。
5.根据权利要求1-4中任一项所述的方法,其中,所述树结构是利用所述第一样本数据集对集成树模型进行预训练得到的。
6.根据权利要求5所述的方法,还包括:
基于所述规则集合,确定所述第一样本数据集中的第一样本数据的特征向量;
基于所述第一样本数据的特征向量,将所述第一样本数据集划分为至少一个第一样本数据子集;
针对所述第一样本数据集中的第一样本数据,基于所述第一样本数据所在的第一样本数据子集,确定所述第一样本数据对应的分类特征;以及
基于所述第一样本数据对应的分类特征,对所述集成树模型进行重新训练,以得到更新的树结构。
7.一种数据处理装置,包括:
获取模块,被配置为获取基于第一样本数据集预训练所生成的树结构,其中,所述第一样本数据集中的第一样本数据具有多个属性;
生成模块,被配置为基于所述树结构的节点,生成规则集合,其中,所述树结构的节点表示所述多个属性中的一个属性所对应的取值区间,所述规则集合为至少一个节点的集合;
第一确定模块,被配置为基于所述规则集合,确定第二样本数据集中的第二样本数据的特征向量,其中,所述特征向量的各维度分别与所述规则集合中的各个规则相对应;以及
第一划分模块,被配置为基于所述第二样本数据集中的第二样本数据的特征向量,将所述第二样本数据集划分为至少一个第二样本数据子集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310134393.4/1.html,转载请声明来源钻瓜专利网。