[发明专利]一种基于对抗迁移的用户识别方法、装置及电子设备在审
| 申请号: | 202010731861.2 | 申请日: | 2020-07-27 |
| 公开(公告)号: | CN111626381A | 公开(公告)日: | 2020-09-04 |
| 发明(设计)人: | 张国光;宋孟楠;苏绥绥 | 申请(专利权)人: | 北京淇瑀信息科技有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/08;G06N3/04;G06Q40/00 |
| 代理公司: | 北京清诚知识产权代理有限公司 11691 | 代理人: | 乔东峰 |
| 地址: | 100012 北京市朝阳*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 对抗 迁移 用户 识别 方法 装置 电子设备 | ||
本发明公开了一种基于对抗迁移的用户识别方法、装置及电子设备,所述方法包括:分别获取源域用户数据和目标域用户数据;所述源域用户数据包含用户属性标签;根据所述源域用户数据和目标域用户数据训练域对抗迁移神经网络模型;通过所述域对抗迁移神经网络模型识别所述目标域用户数据的用户属性标签。本发明通过引入对抗层,在不同域之间选择并提取出可供迁移的特征,根据这些特征训练出在源域有良好性能的标签预测器,并在训练过程中通过域分类器区分源域和目标域,再根据目标函数分别优化标签预测器和域判别器的参数,获得在目标域上也有不错性能的分类器。
技术领域
本发明涉及计算机信息处理技术领域,具体而言,涉及一种基于对抗迁移的用户识别方法、装置、电子设备及计算机可读介质。
背景技术
在风控体系中,通常需要通过带标签的样本数据对风控模型进行训练,再通过训练后的风控模型预测潜在金融风险。而在实际中,只有很少部分业务(比如互联网金融中的金融资源配置业务)会积累大量带标签的样本。对于无标签或者带标签比较少的样本(如H5流量的样本),通常会将有标签样本与无标签或标签比较少的样本混合作为训练样本,而这种方式中,无标签的样本数据量远远大于有标签的样本数据量,会导致标签分类不准确,影响最终的风控效果。
发明内容
本发明旨在解决现有的大数据处理技术中的用户数据中无标签样本的标签分类不准确,导致风险控制模型的效果差,影响最终风控效果的技术问题。
为了解决上述技术问题,本发明第一方面提出一种基于对抗迁移的用户识别方法,所述方法包括:
分别获取源域用户数据和目标域用户数据;所述源域用户数据包含用户属性标签;
根据所述源域用户数据和目标域用户数据训练域对抗迁移神经网络模型;
通过所述域对抗迁移神经网络模型识别所述目标域用户数据的用户属性标签。
根据本发明一种优选的实施方式,所述根据所述源域用户数据和目标域用户数据训练域对抗迁移神经网络模型包括:
将所述源域用户数据和目标域用户数据映射到特征空间,通过特征提取器提取特征数据;
根据所述特征数据对源域用户数据进行标签预测器训练,得到源域用户数据的预测用户属性标签;
对所述特征数据进行域判别器训练,确定所述特征数据来源于源域用户数据还是目标域用户数据;
在训练过程中根据目标函数分别优化所述标签预测器和所述域判别器的参数。
根据本发明一种优选的实施方式,所述根据目标函数分别优化所述标签预测器和所述域判别器的参数包括:
根据所述标签预测器的损失函数和所述域判别器的损失函数确定目标函数;
通过最小化目标函数更新标签预测器的参数,通过最大化目标函数更新域判别器的参数。
根据本发明一种优选的实施方式,所述目标函数为:
;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京淇瑀信息科技有限公司,未经北京淇瑀信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010731861.2/2.html,转载请声明来源钻瓜专利网。





