[发明专利]样本数据处理方法、装置及电子设备在审
| 申请号: | 202211009026.3 | 申请日: | 2022-08-22 |
| 公开(公告)号: | CN115329884A | 公开(公告)日: | 2022-11-11 |
| 发明(设计)人: | 顾凌云;张涛;辛颖;潘峻 | 申请(专利权)人: | 上海冰鉴信息科技有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00 |
| 代理公司: | 成都顶峰专利事务所(普通合伙) 51224 | 代理人: | 李崧岩 |
| 地址: | 200000 上海市浦东新区*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 样本 数据处理 方法 装置 电子设备 | ||
1.一种样本数据处理方法,其特征在于,所述方法包括:
获取多个不同的数据样本集,每个所述数据样本集包括目标标签为正样本的多个数据样本和目标标签为负样本的多个数据样本,每个所述数据样本包括多个数据项;
针对每个所述数据样本集,根据该数据样本集中各所述数据样本的目标标签和数据项训练第一分类模型,并获得所述第一分类模型的第一模型效果评价指标值;
将多个所述数据样本集中的每两个数据样本集组成一个数据样本集对;
针对每个所述数据样本集对,将所述数据样本集对中的数据样本组合为第一合并数据集,根据所述第一合并数据集中各所述数据样本的目标标签和数据项训练第二分类模型,并分别获得所述第二分类模型针对所述两个数据样本集的第二模型效果评价指标值;
根据所述数据样本集对中的两个数据样本集各自的所述第一模型效果评价指标值和所述第二模型效果评价指标值,确定所述数据样本集对的相似度值;
根据各所述数据样本集对的相似度值对多个所述数据样本集进行聚类,获得多个聚类簇,每个所述聚类簇包括至少一个所述数据样本集;
针对每个所述聚类簇,对该聚类簇包括的所有所述数据样本集组合为第二合并数据集,并使用所述第二合并数据集训练与该聚类簇对应的数据分析模型。
2.根据权利要求1所述的方法,其特征在于,所述针对每个所述数据样本集,根据该数据样本集中各所述数据样本的目标标签和数据项训练第一分类模型,并获得所述第一分类模型的第一模型效果评价指标值的步骤,包括:
针对每个所述数据样本集,将该数据样本集分为第一训练数据集和测试数据集;
使用所述第一训练数据集对所述第一分类模型进行训练;
使用所述测试数据集对训练后的所述第一分类模型进行测试,获得所述第一模型效果评价指标值。
3.根据权利要求2所述的方法,其特征在于,所述针对每个所述数据样本集对,将所述数据样本集对中的数据样本组合为第一合并数据集,根据所述第一合并数据集中各所述数据样本的目标标签和数据项训练第二分类模型,并分别获得所述第二分类模型针对所述两个数据样本集的第二模型效果评价指标值的步骤,包括:
针对每个所述数据样本集对,将两个所述数据样本集的所述第一训练数据集组合为第二训练数据集;
使用所述第二训练数据集对所述第二分类模型进行训练;
分别使用所述两个数据样本集各自测试数据集对所述第二分类模型进行测试,获得所述两个数据样本集对应的第二模型效果评价指标值。
4.根据权利要求1所述的方法,其特征在于,所述根据所述数据样本集对中的两个数据样本集各自的所述第一模型效果评价指标值和所述第二模型效果评价指标值,确定所述数据样本集对的相似度值的步骤,包括:
计算所述两个数据样本集各自的所述第二模型效果评价指标值的平均值作为所述数据样本集对的第一相似度值;
分别计算所述两个数据样本集的所述第二模型效果评价指标值和所述第一模型效果评价指标值的差值,将两个所述差值的和值作为所述数据样本集对的第二相似度值;
分别计算所述两个数据样本集的所述第二模型效果评价指标值和所述第一模型效果评价指标值的差值与所述第一模型效果评价指标值的商值,将两个所述商值的和值作为所述数据样本集对的第三相似度值。
5.根据权利要求1所述的方法,其特征在于,所述针对每个所述数据样本集,根据该数据样本集中各所述数据样本的目标标签和数据项训练第一分类模型,并获得所述第一分类模型的第一模型效果评价指标值的步骤之前,所述方法包括:
分别对多个所述数据样本集进行重采样,使各所述数据样本集的数据样本总数和正负样本比例相等。
6.根据权利要求1所述的方法,其特征在于,所述第一分类模型和所述第二分类模型为数据处理结构相同的分类模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海冰鉴信息科技有限公司,未经上海冰鉴信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211009026.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:文件信息处理方法、装置及电子设备
- 下一篇:平行轴式单电机三挡电驱动桥





