[发明专利]黑产用户识别模型训练方法、装置、电子设备及存储介质有效
| 申请号: | 202111145600.3 | 申请日: | 2021-09-28 |
| 公开(公告)号: | CN113822684B | 公开(公告)日: | 2023-06-06 |
| 发明(设计)人: | 张徵;秦超;陈柏宇 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
| 主分类号: | G06Q30/018 | 分类号: | G06Q30/018;G06F40/216;G06F40/289;G06N3/0442;G06N3/0499;G06N3/084 |
| 代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 丁芸;马敬 |
| 地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用户 识别 模型 训练 方法 装置 电子设备 存储 介质 | ||
1.一种黑产用户识别模型训练方法,其特征在于,所述方法包括:
利用第一样本集合对第一基础模型进行训练,直至满足第一约束条件,得到第一识别模型;所述第一识别模型用于基于文本特征序列、用户行为特征序列,预测所述文本特征序列对应的文本是否为垃圾内容;所述第一基础模型包括:第一子模型与第二子模型,所述第一子模型用于对所述文本特征序列进行分析得到第一垃圾内容预测结果,所述第二子模型用于对所述用户行为特征序列进行分析得到第二垃圾内容预测结果;其中,所述第一约束条件与第一损失相关联,所述第一损失包括:第二损失、第三损失与第四损失,所述第二损失为所述第一子模型的损失,第三损失为所述第二子模型的损失,第四损失为所述第一子模型与所述第二子模型之间的特征损失;
基于所述第一识别模型中的第二子模型,确定第二基础模型,并利用第二样本集合对所述第二基础模型进行训练,得到第二识别模型;第二识别模型用于基于所述用户行为特征序列来识别用户行为特征序列对应的用户是否为黑产用户。
2.根据利要求1所述的方法,其特征在于,所述第一样本集合包括:文本特征序列、用户行为特征序列以及第一标签数据,所述第一标签数据用于指示所述文本特征序列是否为垃圾内容;
所述利用第一样本集合对第一基础模型进行训练,直至满足第一约束条件,得到第一识别模型,包括:
将所述文本特征序列输入到所述第一子模型中,得到第一全连接层特征及所述第一垃圾内容预测结果;
将所述用户行为特征序列输入到所述第二子模型中,得到第二全连接层特征及所述第二垃圾内容预测结果;
基于所述第一标签数据及所述第一垃圾内容预测结果计算所述第二损失,基于所述第一标签数据及所述第二垃圾内容预测结果计算第三损失,基于所述第一全连接层特征及所述第二全连接层特征计算所述第四损失;
根据所述第二损失、所述第三损失及所述第四损失,确定所述第一损失;
根据所述第一损失调整所述第一基础模型中的训练参数,直至满足所述第一约束条件,得到所述第一识别模型。
3.根据权利要求2所述的方法,其特征在于,所述第一子模型和所述第二子模型均包括:
多个嵌入层、多个双向长短期记忆层、反向前馈神经网络层、正向前馈神经网络层、第一全连接层、隐藏表示层、第二全连接层、逻辑回归层以及归一化层;
其中,所述第一子模型中的第二全连接层输出所述第一全连接层特征;所述第二子模型中的第二全连接层输出所述第二全连接层特征。
4.根据权利要求2所述的方法,其特征在于,所述基于所述第一全连接层特征及所述第二全连接层特征计算第四损失,包括:
计算所述第一全连接层特征及所述第二全连接层特征之间的最大均值差异;并将所述最大均值差异确定为所述第四损失。
5.根据权利要求2所述的方法,其特征在于,所述根据所述第二损失、所述第三损失及所述第四损失,确定所述第一损失,包括:
对所述第二损失、所述第三损失以及所述第四损失进行加权处理,得到所述第一损失。
6.根据权利要求1所述的方法,其特征在于,所述基于所述第一识别模型中的第二子模型,确定第二基础模型,包括:
获取所述第一识别模型中的第二子模型的模型参数,并将所述第二子模型的模型参数存储至预设的知识库中,所述预设的知识库包含有多个模型的模型参数;
从所述知识库中获取所述第二子模型的模型参数并迁移至所述第二基础模型,其中,所述第二基础模型与所述第二子模型的模型结构相同。
7.一种黑产用户识别方法,其特征在于,所述方法还包括:
获取待识别用户的用户行为特征序列;
将所述待识别用户的用户行为特征序列输入到训练完成的第二识别模型中,确定所述待识别用户是否为黑产用户,其中,所述训练完成的第二识别模型是通过权利要求1-6任一所述的黑产用户识别模型训练方法训练得到的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111145600.3/1.html,转载请声明来源钻瓜专利网。





