[发明专利]黑产用户识别模型训练方法、装置、电子设备及存储介质有效
| 申请号: | 202111145600.3 | 申请日: | 2021-09-28 |
| 公开(公告)号: | CN113822684B | 公开(公告)日: | 2023-06-06 |
| 发明(设计)人: | 张徵;秦超;陈柏宇 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
| 主分类号: | G06Q30/018 | 分类号: | G06Q30/018;G06F40/216;G06F40/289;G06N3/0442;G06N3/0499;G06N3/084 |
| 代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 丁芸;马敬 |
| 地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用户 识别 模型 训练 方法 装置 电子设备 存储 介质 | ||
本发明实施例提供了一种黑产用户识别模型训练方法、装置、电子设备及存储介质,该方法包括:利用第一样本集合训练第一基础模型,直至满足第一约束条件,得到第一识别模型,基于第一识别模型中的第二子模型确定第二基础模型,并利用第二样本集合训练第二基础模型,得到第二识别模型,在本发明实施例中,采用联合训练的方式,利用第一样本集合对第一基础模型中的第一子模型和第二子模型进行联合训练。因为第二子模型已经与第一子模型进行了联合训练,而该第二基础模型是基于第二子模型得到的,所以第二样本集合中只需少量标注有标签数据的用户行为特征序列便可以完成训练,从而减少了用于训练用户识别模型的正样本的数量对该模型的准确度的影响。
技术领域
本发明涉及数据处理技术领域,特别是涉及一种黑产用户识别模型训练方法、装置、电子设备及存储介质。
背景技术
随着互联网技术的发展,互联网服务提供商所提供的互联网服务也越来越多,然而,在实际互联网服务场景中,部分人员会基于互联网服务提供商所提供的互联网服务进行异常活动,例如:盗取正常用户信息、恶意刷赞、刷评论、刷订单、发布非法交易信息以及诈骗消息等,这里将进行上述异常活动的人员称为异常用户或黑产用户。互联网服务提供商需要不断识别这些异常用户,以保证正常用户的账户安全以及互联网服务的正常运行。
相关技术中,利用训练好的用户识别模型来对用户的用户行为特征进行分析,从而识别出具有异常行为的异常用户。其中,用户识别模型的训练过程包括:人工选取异常用户的用户行为特征并标记异常用户标签作为正样本,人工选取正常用户的用户行为特征作为负样本,利用正样本及负样本对用户识别模型进行训练,从而得到训练好的用户识别模型。
然而,发明人在研究中发现,采用上述用户识别模型训练方法,需要人工选取大量异常用户的用户行为特征作为正样本,然而实际场景中,异常用户的数量要远远小于正常用户的数量,导致无法选取到足够数量的异常用户的用户行为特征作为正样本,并且人工选取异常用户的用户行为特征的工作量很大,同样限制了异常用户的用户行为特征的正样本的数量,从而导致能够用于训练用户识别模型的正样本的数量较少,最终影响用户识别模型的准确度。
发明内容
本发明实施例的目的在于提供一种黑产用户识别模型训练方法、装置、电子设备及存储介质,以实现减少能够用于训练用户识别模型的正样本的数量对用户识别模型的准确度的影响。具体技术方案如下:
在本发明实施的第一方面,提供了一种黑产用户识别模型训练方法,该方法包括:
利用第一样本集合对第一基础模型进行训练,直至满足第一约束条件,得到第一识别模型;第一识别模型用于基于文本特征序列、用户行为特征序列,预测文本特征序列对应的文本是否为垃圾内容;第一基础模型包括:第一子模型与第二子模型,第一子模型用于对文本特征序列进行分析得到第一垃圾内容预测结果,第二子模型用于对用户行为特征序列进行分析得到第二垃圾内容预测结果;其中,第一约束条件与第一损失相关联,第一损失包括:第二损失、第三损失与第四损失,第二损失为第一子模型的损失,第三损失为第二子模型的损失,第四损失为第一子模型与第二子模型之间的特征损失;
基于第一识别模型中的第二子模型,确定第二基础模型,并利用第二样本集合对第二基础模型进行训练,得到第二识别模型;第二识别模型用于基于用户行为特征序列来识别用户行为特征序列对应的用户是否为黑产用户。
在本发明实施的第二方面,还提供了一种黑产用户识别方法,该方法还包括:
获取待识别用户的用户行为特征序列;
将待识别用户的用户行为特征序列输入到训练完成的第二识别模型中,确定待识别用户是否为黑产用户,其中,训练完成的第二识别模型是通过本申请任一所述的黑产用户识别模型训练方法训练得到的;
基于待识别用户的预测结果,确定待识别用户是否为黑产用户。
在本发明实施的第三方面,还提供了一种黑产用户识别模型训练装置,该装置包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111145600.3/2.html,转载请声明来源钻瓜专利网。





