[发明专利]数据源质量评估方法、装置、设备及计算机可读存储介质在审
申请号: | 202210080607.X | 申请日: | 2022-01-24 |
公开(公告)号: | CN114298328A | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 何元钦;康焱;骆家焕 | 申请(专利权)人: | 深圳前海微众银行股份有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06F21/60;G06F21/62 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 王花丽;张颖玲 |
地址: | 518052 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据源 质量 评估 方法 装置 设备 计算机 可读 存储 介质 | ||
本申请提供了一种数据源质量评估方法、装置、设备和计算机可读存储介质,应用于第一参与方设备;所述方法包括:获取所述第一参与方设备持有的第一特征数据和所述第二参与方设备发送的第二加密特征,所述第二加密特征由所述第二参与方设备基于待评估的数据源中的第二特征数据计算得到;基于所述第一特征数据和所述第二加密特征对预设的第一模型进行训练,得到训练好的第一模型;获取所述第一参与方设备持有的测试数据,基于所述测试数据和所述训练好的第一模型确定测试结果;基于所述测试结果,确定所述待评估的数据源的评估结果。通过本申请,能够通过联合建模对被动方数据源质量进行评估,提高联合建模的模型效果。
技术领域
本申请涉及人工智能技术,尤其涉及一种数据源质量评估方法、装置、电子设备、计算机可读存储介质及计算机程序产品。
背景技术
随着各行各业逐渐加强数据隐私保护的大趋势下,联邦学习,一种可以在保护数据隐私的情况下协同多方数据建立机器学习的技术,成为了各企业/行业间合作的关键之一。纵向联邦学习是在参与者的数据特征重叠较小,而用户重叠较多的情况下,取出参与者用户相同而用户数据特征不同的那部分用户及数据进行联合建模,通过提高模型性能,能够使参与者用户向客户提供更好的服务。
在纵向联邦场景下,拥有标签数据及特征数据X1的主动方,与拥有特征数据X2(X2与X1不完全相同)的被动方联合建模时,被动方拥有的数据质量影响联合建模的主动方模型效果的提升水平。因此,评估被动方数据质量是联邦建模过程中的一个重要步骤。然而,实际场景中,有时主动方标签数据较少,主动方与被动方能匹配的带标签数据更少,数据较少导致无法进行数据质量评估或者评估结果不能反映真实的数据质量,导致联合建模的模型效果不佳。
发明内容
本申请实施例提供一种数据源质量评估方法、装置、电子设备、计算机可读存储介质及计算机程序产品,无需标签数据即可实现对被动方数据源质量进行评估,能够提高联合建模的模型效果。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种数据源质量评估方法,基于联邦学习系统,所述联邦学习系统包括第一参与方设备及至少一个待评估的第二参与方设备,所述方法应用于第一参与方设备,所述方法包括:
获取所述第一参与方设备持有的第一特征数据和所述第二参与方设备发送的加密特征,所述加密特征是由所述第二参与方设备对待评估的数据源中的第二特征数据进行加密处理得到的;
基于所述第一特征数据和所述加密特征对预设的第一模型进行训练,得到训练好的第一模型;
获取所述第一参与方设备持有的测试数据,基于所述测试数据和所述训练好的第一模型确定测试结果;
基于所述测试结果,确定所述待评估的数据源的评估结果。
本申请实施例提供一种数据源质量评估装置,包括:
第一获取模块,用于获取所述第一参与方设备持有的第一特征数据和所述第二参与方设备发送的加密特征,所述加密特征是由所述第二参与方设备对待评估的数据源中的第二特征数据进行加密处理得到的;
训练模块,用于基于所述第一特征数据和所述加密特征对预设的第一模型进行训练,得到训练好的第一模型;
第二获取模块,用于获取所述第一参与方设备持有的测试数据;
第一确定模块,用于基于所述测试数据和所述训练好的第一模型确定测试结果;
第二确定模块,用于基于所述测试结果,确定所述待评估的数据源的评估结果。
上述方案中,所述训练模块,还用于:
利用预设的第一模型对所述第一特征数据进行投影处理,得到投影特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳前海微众银行股份有限公司,未经深圳前海微众银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210080607.X/2.html,转载请声明来源钻瓜专利网。