[发明专利]一种推荐模型的训练方法、推荐方法及推荐系统在审
| 申请号: | 202111346460.6 | 申请日: | 2021-11-15 |
| 公开(公告)号: | CN113987358A | 公开(公告)日: | 2022-01-28 |
| 发明(设计)人: | 何向南;万琪;王翔;吴剑灿 | 申请(专利权)人: | 中国科学技术大学 |
| 主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06N20/00;G06Q30/02 |
| 代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 孙蕾 |
| 地址: | 230026 安*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 推荐 模型 训练 方法 系统 | ||
本发明公开了一种推荐模型的训练方法,包括:获取训练样本数据,其中,训练样本数据包括用户‑物品对,用户‑物品对包括用户信息、物品信息以及用户和物品的交互信息;构建基于交叉配对排序算法的推荐模型并初始化推荐模型的参数;利用推荐模型处理训练样本数据,根据无偏性的损失函数优化推荐模型的参数,获得训练完成的推荐模型。本发明还公开了一种无偏性的推荐方法、无偏性的推荐系统、电子设备及计算机程序产品。
技术领域
本发明涉及机器学习和数据挖掘领域,特别涉及一种推荐模型的训练方法、推荐方法、推荐系统、电子设备及计算机程序产品。
背景技术
对于许多在线平台,包括电子商务、流媒体、社交网络等,推荐系统起到核心作用。现有的推荐模型大多遵循监督学习的范式,将用户的历史上的互动(隐式反馈如点击和购买)作为标记数据,通过拟合标记数据来学习用户-物品的相关性。现有技术通常通过点损失和成对损失用于优化推荐模型的参数,然而这些标准的损失函数很容易受到观察数据中固有的偏差的影响。交互数据通常呈现出关于物品流行度的长尾分布,也就是说,少数流行物品占据了大多数交互。主流的损失函数只关注历史数据的恢复、不考虑偏差效应,当用这些损失函数构建推荐系统时,少数热门物品会占据越来越多的曝光机会,严重损害了小众物品的推荐质量。现有技术中,为了解决上述问题,通常的做法是利用反倾向性得分(Inverse Propensity Score,IPS),它通过倾向性得分(即曝光概率)对每个数据样本重新加权。但它在实际中有局限性:(1)准确估计每个样本的倾向性分数是有难度的,因为暴露机制往往是未知的;(2)重新加权的损失值通常具有较高的方差,这意味着单个样本的损失值相对于预期值的波动很大。
发明内容
为了解决上述问题,本发明提供了一种推荐模型训练方法,推荐方法、推荐系统、电子设备以及计算机程序产品。
根据本发明的第一方面,提供了一种推荐模型的训练方法,包括:
获取训练样本数据,其中,训练样本数据包括用户-物品对,用户-物品对包括用户信息、物品信息以及用户和物品的交互信息;
构建基于交叉配对排序算法的推荐模型并初始化推荐模型的参数;
利用推荐模型处理训练样本数据,根据无偏性的损失函数优化推荐模型的参数,获得训练完成的推荐模型;
其中,无偏性的损失函数由式(1)表示:
其中,k表示训练样本数据中具有交互关系的用户-物品对个数,uk表示第k个用户,ik表示第k个物品,表示第k个用户和第k个物品的相关性分值,是训练样本数据,σ是推荐模型的激活函数。
根据本发明的实施例,上述训练样本数据由式(2)表示:
其中,表示第m个用户和第n个物品有交互关系,表示第m个用户和第n个物品没有交互关系。
根据本发明的实施例,上述无偏的损失函数由式(3)和式(4)进行限定:
P(Yu,i=1)=P(Ru,i=1)P(Qu,i=1|Ru,i=1) (3),
P(Qu,i=1|Ru,i=1)=pu·pi·P(Ru,i=1)α (4),
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111346460.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种黄铜棒表面防滑纹刻印设备
- 下一篇:一种抑菌防霉内墙乳胶漆及其制备方法





