[发明专利]样本数据处理方法及装置、模型训练方法及设备有效
申请号: | 201910166341.9 | 申请日: | 2019-03-06 |
公开(公告)号: | CN110046247B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 向彪;周俊;李小龙 | 申请(专利权)人: | 创新先进技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京永新同创知识产权代理有限公司 11376 | 代理人: | 林锦辉 |
地址: | 英属开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 数据处理 方法 装置 模型 训练 设备 | ||
本公开提供用于样本数据扩充处理的方法及装置。该方法包括:获取样本数据集中的各个样本数据所对应的数据节点之间的关联关系数据,所述关联关系数据用于反映各个数据节点之间的关联关系强度;以及针对样本数据集中的各个非完备样本数据,至少部分地基于该非完备样本数据所对应的数据节点与所有关联数据节点之间的关联关系数据以及各个关联数据节点的特征数据和/或标签数据,对该非完备样本数据进行数据扩充。
技术领域
本公开通常涉及计算机技术领域,更具体地,涉及用于样本数据处理的方法及装置以及模型训练方法及设备。
背景技术
在大数据时代,通常会产生大量数据。数据根据其性质可以分为两类:标签数据和特征数据。在机器学习领域,一般将标签数据记为y,将特征数据记为x,机器学习的主要任务是寻找x和y之间的数学关系,即,找到一种模型f使得y=f(x)。一旦找到这个模型f,当出现任意一个未知标签的特征数据x’时,只要根据特征x和标签y之间存在的模型f,就能很轻易地推断出这个未知的标签y’,即y’=f(x’),从而完成模型预测。为了找到这个模型f并且使得模型的预测精度达到预定要求,需要使用一定数量的样本数据(即,样本数据集)来进行模型训练,该样本数据同时具备标签数据和特征数据。通常,这个样本数据集被记为D={(x1,y1),(x2,y2),…(xn,yn)}。样本数据集D越完备,通过机器学习方法找到的模型f就会越精准。
然而,在现实情况下,所收集的样本数据经常会遇到两个问题。第一个问题是标签数据太少,即y1~yn中,很多标签可能是未知的,只能表示成“?”。以贷款业务为例,在业务刚刚开始时,由于违约用户还比较少,所以可以使用的标签很少。第二个问题是特征数据缺失,或特征数据采集得不够丰富,即,特征数据x1~xn中,有些特征数据的中部分/全部属性特征值存在缺失。例如,在社交网络上,很多用户并不倾向于将自己个人简介完善,比如有些属性信息不公开,从而使得所收集的样本数据是不完备的样本数据。利用不完备的样本数据集训练得到的模型通常是不够精准的。
发明内容
鉴于上述,本公开提供了一种样本数据处理方法及装置、模型训练方法及装置。利用该样本数据处理方法及装置,可以通过获取样本数据集中的各个样本数据所对应的数据节点之间的关联关系,并基于所获取的各个数据节点之间的关联关系来对非完备样本数据进行数据扩充,从而提高样本数据集的完备度,进而提高模型训练精度。
根据本公开的一个方面,提供了一种用于样本数据扩充处理的方法,所述样本数据包括用户特征数据和标签数据,所述方法包括:获取样本数据集中的各个样本数据所对应的数据节点之间的关联关系数据,所述关联关系数据用于反映各个数据节点之间的关联关系强度;以及针对所述样本数据集中的各个非完备样本数据,至少部分地基于该非完备样本数据所对应的数据节点与所有关联数据节点之间的关联关系数据以及各个关联数据节点的特征数据和/或标签数据,对该非完备样本数据进行数据扩充,其中,所述非完备样本数据是特征数据存在维度缺失和/或标签数据存在维度缺失的样本数据。
可选地,在上述方面的一个示例中,在所述非完备样本数据的标签数据中存在维度缺失时,至少部分地基于该非完备样本数据所对应的数据节点与所有关联数据节点之间的关联关系数据以及各个关联数据节点的数据节点特征数据和/或标签数据,将该非完备样本数据扩充为完备样本数据包括:针对该非完备样本数据的标签数据中的各个维度缺失数据,基于该非完备样本数据所对应的数据节点与所有关联数据节点之间的关联关系数据以及各个关联数据节点的标签数据中的对应维度数据,确定该标签数据的维度缺失数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新先进技术有限公司,未经创新先进技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910166341.9/2.html,转载请声明来源钻瓜专利网。