[发明专利]一种用户行为表征的方法及系统有效
| 申请号: | 201911304558.8 | 申请日: | 2019-12-17 |
| 公开(公告)号: | CN111178946B | 公开(公告)日: | 2023-07-18 |
| 发明(设计)人: | 李秀;张凌霄 | 申请(专利权)人: | 清华大学深圳国际研究生院 |
| 主分类号: | G06Q30/0201 | 分类号: | G06Q30/0201;G06Q30/0202;G06Q30/0601;G06F18/22;G06F18/241 |
| 代理公司: | 深圳新创友知识产权代理有限公司 44223 | 代理人: | 江耀纯 |
| 地址: | 518055 广东省深圳市*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 用户 行为 表征 方法 系统 | ||
本发明提供一种用户行为表征的方法及系统,方法包括:获取用户的行为信息,用户的行为信息包括用户和与用户在一个时间段内发生交互关系的商品对;用户的行为信息表征为序列形式;获取所述商品的商品ID并对所述商品ID进行随机掩码操作;对所述用户和所述商品进行编码和特征提取;计算掩码的损失函数和匹配任务的损失函数;将掩码的损失函数和匹配任务的损失函数求和得到总损失函数;获取新用户的行为信息,新用户的行为信息包括新用户和与新用户发生交互关系的商品对;新用户的行为信息表征为序列形式;对所述新用户和所述商品进行编码,进而得到标准化后的新用户行为序列。本发明的方法和系统较容易的获取用户的周期性兴趣,也可以有效迁移。
技术领域
本发明涉及用户行为表征技术领域,尤其涉及一种用户行为表征的方法及系统。
背景技术
现有的技术,一般是将用户历史行为作为一个集合,然后利用该行为集合的聚类或者加权平均来对用户进行表征,其中的时间因素大多作为行为的一个特征,因此该种模型不易挖掘到用户行为之间的关联性,对于用户周期性兴趣挖掘也不明显,因而表征结果在某种场景下难以令人满意。
例如,Maksims Volkovs等人在《DropoutNet:Addressing Cold Start inRecommender Systems》提出使用DropoutNet进行用户行为表征,整个流程概括如下:对于每一组用户和商品对,模型均使用深度神经网络分别对其偏好和属性进行挖掘,以用户和商品表征结果后向量的点积对训练过程进行监督,并在训练阶段通过选择一个合适的dropout量去泛化缺失的输入,最后利用所训练好的模型对用户行为集合进行表征。该方法利用较为简单的方法对用户行为进行表征,但是缺乏对时间因素的考虑与信息充分性和信息最小性的权衡,同时由于模型简单,所以在大数据规模下,模型不易挖掘到更多的信息。
DropoutNet使用较为简单的深度神经网络多层感知器(Multi-LayerPerception,MLP)作为特征提取器对用户和商品的偏好和属性进行挖掘。模型较为简单,在大数据规模下,模型不易挖掘到更多的信息,并且有过拟合的风险。
DropoutNet在用户行为表征时,将用户行为看作集合。并利用根据用户、商品是否匹配作为监督任务所训练好的模型进行表征。用户行为集合使得模型对于商品之间的互信息利用不充分,并且时间特征并没有突出对待,使得用户周期性兴趣不易挖掘;过多引入具体任务的特征,不满足表征模型的信息最小性,使得模型不利于表征用户跨域行为,模型的迁移性也较差。
发明内容
本发明为了解决现有技术中问题,提供一种用户行为表征的方法及系统。
为了解决上述问题,本发明采用的技术方案如下所述:
一种用户行为表征的方法,包括如下步骤:S1:获取用户的行为信息,所述用户的行为信息包括所述用户和与所述用户在一个时间段内发生交互关系的商品对;所述用户的行为信息表征为序列形式;S2:获取所述商品的商品ID并对所述商品ID进行随机掩码操作;S3:对所述用户和所述商品进行编码,得到编码后的用户行为序列;用2-6层的堆叠提取器提取所述编码后的用户行为序列的隐形特征向量;将所述隐层特征向量进行标准化得到标准化后的隐形特征向量,进而得到标准化后的用户行为序列;S4:根据所述标准化后的用户行为序列计算掩码的损失函数,所述掩码的损失函数的标签为随机掩码操作的中被掩码的所述商品ID;S5:根据所述标准化后的用户行为序列中首个字段所对应的特征向量作为用户行为表征,并与所述商品的编码计算余弦距离;根据所述余弦距离以所述用户和所述商品是否匹配作为标签计算匹配任务的损失函数;S6:将所述掩码的损失函数和所述匹配任务的损失函数求和得到总损失函数;S7:获取新用户的行为信息,所述新用户的行为信息包括所述新用户和与所述新用户发生交互关系的商品对;所述新用户的行为信息表征为序列形式;S8:对所述新用户和所述商品进行编码,得到编码后的新用户行为序列;用2-6层的堆叠提取器提取所述编码后的新用户行为序列的隐形特征向量;将所述隐层特征向量进行标准化得到标准化后的隐形特征向量,进而得到标准化后的新用户行为序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学深圳国际研究生院,未经清华大学深圳国际研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911304558.8/2.html,转载请声明来源钻瓜专利网。





