[发明专利]样本数据处理方法、装置及电子设备在审

专利信息
申请号: 202211009026.3 申请日: 2022-08-22
公开(公告)号: CN115329884A 公开(公告)日: 2022-11-11
发明(设计)人: 顾凌云;张涛;辛颖;潘峻 申请(专利权)人: 上海冰鉴信息科技有限公司
主分类号: G06K9/62 分类号: G06K9/62;G06N20/00
代理公司: 成都顶峰专利事务所(普通合伙) 51224 代理人: 李崧岩
地址: 200000 上海市浦东新区*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 样本 数据处理 方法 装置 电子设备
【说明书】:

本申请提供的样本数据处理方法、装置及电子设备,通过采用不同数据样本集合并建模的模型效果或效果增益作为两个数据样本集相似度参照标准,解决了现有相似度/距离定义方法中仅考虑数据特征分布、不考虑建模目标和效果的问题,如此,可以将最对模型有增益的渠道数据合并在一起,避免差异化过大的渠道数据合并在一起对模型学习造成影响,使得合并后的渠道簇具有簇内样本建模效果最大化、簇间模型差异最大化的特点,可以更好的发挥各渠道数据的独特性和提升渠道聚合的建模意义,极大地提升渠道组合后模型的效果和泛化性。

技术领域

本申请涉及数据处理技术领域,具体而言,涉及一种样本数据处理方法、装置及电子设备。

背景技术

在一些业务场景中,通过对多渠道的海量数据进行挖掘并建立机器学习模型,可以提升训练样本的质量和数量,从而得到应用性广泛且通用性强的模型。但由于不同渠道的数据间存在差异,不同渠道的数据在相同特征下可能具有完全不同的表现结果,因此将差异性过大的渠道样本进行合并不利于模型的学习。通常,为了让模型更加有针对性地进行学习,首先会对渠道进行聚类得到不同的簇,即不同渠道组合的类,将相近的渠道数据合并在一起,再依此对每个渠道组合簇的数据进行建模。

聚类是数据挖掘中常用的无监督学习方法,目的在于将海量数据按照特性分割为不同类或簇,使得彼此相似的数据点聚合在同一簇中,而差异性大的对象尽可能分离。主要的聚类算法包含基于划分的K-Means算法、基于层次的BIRCH算法、基于密度的DBSCAN算法等。在不同的聚类算法中,通常都需要通过定义“距离”或者“相似度”,来表示对象之间的相似程度,距离越大,相似度越小,表示对象之间的相似性小、差异性越大。

针对该业务场景需求,即对多渠道数据中的渠道进行聚类,现有的技术方案主要有两种。一是直接基于对不同渠道来源数据性质和特点的理解与认知,人为地对渠道进行分类,其受到不同人主观定义的影响,准确度不高。二是利用聚类算法对渠道进行聚类,对渠道的聚类需要首先定义渠道间的相似度或者距离,然后应用聚类算法对渠道进行区分,但是被划为同一簇的数据往往仅在特征上具有相似的分布或聚集性,但并不一定在目标标签上具有相同的趋势或表现,其对应模型可能完全不同,不利于聚类后模型准确性和泛化性的提升。

发明内容

为了克服现有技术中的上述不足,本申请的目的在于提供一种样本数据处理方法,所述方法包括:

获取多个不同的数据样本集,每个所述数据样本集包括目标标签为正样本的多个数据样本和目标标签为负样本的多个数据样本,每个所述数据样本包括多个数据项;

针对每个所述数据样本集,根据该数据样本集中各所述数据样本的目标标签和数据项训练第一分类模型,并获得所述第一分类模型的第一模型效果评价指标值;

将多个所述数据样本集中的每两个数据样本集组成一个数据样本集对;

针对每个所述数据样本集对,将所述数据样本集对中的数据样本组合为第一合并数据集,根据所述第一合并数据集中各所述数据样本的目标标签和数据项训练第二分类模型,并分别获得所述第二分类模型针对所述两个数据样本集的第二模型效果评价指标值;

根据所述数据样本集对中的两个数据样本集各自的所述第一模型效果评价指标值和所述第二模型效果评价指标值,确定所述数据样本集对的相似度值;

根据各所述数据样本集对的相似度值对多个所述数据样本集进行聚类,获得多个聚类簇,每个所述聚类簇包括至少一个所述数据样本集;

针对每个所述聚类簇,对该聚类簇包括的所有所述数据样本集组合为第二合并数据集,并使用所述第二合并数据集训练与该聚类簇对应的数据分析模型。

在一种可能的实现方式中,所述针对每个所述数据样本集,根据该数据样本集中各所述数据样本的目标标签和数据项训练第一分类模型,并获得所述第一分类模型的第一模型效果评价指标值的步骤,包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海冰鉴信息科技有限公司,未经上海冰鉴信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211009026.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top