[发明专利]一种数据有效性的验证方法、装置和设备有效

专利信息
申请号: 201811258169.1 申请日: 2018-10-26
公开(公告)号: CN109657482B 公开(公告)日: 2022-11-18
发明(设计)人: 方文静;王力;周俊 申请(专利权)人: 创新先进技术有限公司
主分类号: G06F21/60 分类号: G06F21/60;G06F21/64;G06N20/00
代理公司: 北京博思佳知识产权代理有限公司 11415 代理人: 林祥
地址: 开曼群岛大开曼岛*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 数据 有效性 验证 方法 装置 设备
【权利要求书】:

1.一种数据有效性的验证方法,所述方法应用于验证第二数据方拥有的第二数据是否有效;所述方法由第一数据方执行,所述第一数据方拥有的第一数据包括:机器学习模型的训练集和测试集;所述训练集包括多个训练样本,所述测试集包括多个测试样本;

所述方法包括:

根据所述训练样本中的入模变量和标签,训练所述机器学习模型;所述训练样本还包括未参与机器学习模型训练的未入模变量;

将所述测试样本中的所述入模变量输入所述机器学习模型得到预测值;所述测试样本还包括标签,所述标签表示测试样本的入模变量输入机器学习模型的预期预测值;

根据所述测试样本的标签和所述预测值,得到所述测试样本对应的残差;

基于所述训练样本中的未入模变量,根据所述残差计算所述未入模变量对应的信息量IV;

将所述残差发送至第二数据方,以使得第二数据方对拥有的第二数据根据所述残差计算对应的信息量;

接收所述第二数据方返回的信息量,以通过比较未入模变量对应的信息量与第二数据的信息量,来确定第二数据的数据有效性。

2.根据权利要求1所述的方法,所述未入模变量的数量是至少一个;所述根据残差计算所述未入模变量的信息量,包括:

对于其中一个所述未入模变量,确定基于所述未入模变量的多个分箱;

根据所述多个分箱,将所述测试集中的测试样本划分到对应的各个分箱中,所述测试样本同样包括所述入模变量和未入模变量;

对于每个分箱,根据划分到所述分箱中的测试样本对应的残差,得到所述分箱对应的信息量;

将各个分箱的信息量加和,得到所述未入模变量对应的信息量。

3.根据权利要求2所述的方法,所述根据划分到所述分箱中的测试样本对应的残差,得到所述分箱对应的信息量,包括:

WOEi=ln{(∑|Yres,i|/∑|Yres,t|)/(∑|1-Yres,i|/∑|1-Yres,t|)}

IVi=(∑|Yres,i|/∑|Yres,t|-∑|1-Yres,i|/∑|1-Yres,t|)*WOEi

其中,WOEi是所述分箱对应的证据权重,∑|Yres,i|是该分箱中的各个残差的绝对值的和;∑|Yres,t|是所有分箱的所有残差的绝对值的和;IVi是所述分箱对应的信息量。

4.根据权利要求1所述的方法,所述将所述残差发送至第二数据方,包括:

将所述训练样本的样本标识发送给所述第二数据方,以使得所述第二数据方查找所述样本标识对应的第二数据用于计算信息量。

5.一种数据有效性的验证方法,所述方法由第二数据方执行,包括:

接收第一数据方发送的残差,所述残差是第一数据方根据测试样本中的入模变量输入机器学习模型得到的预测值以及测试样本的标签得到;所述第一数据方拥有的第一数据包括:训练集和测试集,所述训练集包括多个训练样本,所述测试集包括多个测试样本;所述机器学习模型是根据训练样本中的入模变量和标签训练得到;所述训练样本中还包括未入模变量;

接收所述第一数据方发送的训练样本的样本标识,并根据所述样本标识进行样本匹配获得用于计算信息量的第二数据;

根据所述残差计算所述第二数据对应的信息量;

将所述第二数据对应的信息量返回给第一数据方,以使得第一数据方通过比较所述训练样本中的未入模变量对应的信息量与第二数据的信息量来确定第二数据的数据有效性。

6.根据权利要求5所述的方法,所述方法还包括:

获取所述第二数据的如下至少一项参数:样本匹配率和变量缺失率;

将所述参数返回给第一数据方,以使得第一数据方结合所述参数和所述信息量IV确定第二数据的有效性。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新先进技术有限公司,未经创新先进技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811258169.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top