[发明专利]物品推荐方法和装置、计算机可读存储介质、电子设备在审
| 申请号: | 202010929349.9 | 申请日: | 2020-09-07 |
| 公开(公告)号: | CN112036954A | 公开(公告)日: | 2020-12-04 |
| 发明(设计)人: | 王文彬;田琳;张玲玲 | 申请(专利权)人: | 贝壳技术有限公司 |
| 主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06N3/04;G06N3/08 |
| 代理公司: | 北京思源智汇知识产权代理有限公司 11657 | 代理人: | 王晓多 |
| 地址: | 300457 天津市滨海新区经济技术开发*** | 国省代码: | 天津;12 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 物品 推荐 方法 装置 计算机 可读 存储 介质 电子设备 | ||
本公开实施例公开了一种物品推荐方法和装置、计算机可读存储介质、电子设备,其中,方法包括:基于交互场景中获取的用户需求信息,获取n个目标物品;其中,所述n为大于等于1的整数;基于第一排序模型对所述n个目标物品中的每个目标物品进行回报值预测,得到n个目标物品回报值;基于所述n个目标物品回报值对所述n个目标物品进行排序,按照所述排序将m个目标物品推荐给所述用户;本实施例通过第一排序模型实现对未来的影响的建模,能提供权衡用户短期和长期的参与度,由于考虑到当前推荐行为和用户的行为,能够实现对长期回报的预测,解决了仅针对短期目标时不停给用户推荐已有偏好的问题。
技术领域
本公开涉及个性化推荐技术,尤其是一种物品推荐方法和装置、计算机可读存储介质、电子设备。
背景技术
个性化推荐系统是互联网和电子商务发展的产物,它是建立在海量数据挖掘基础上的一种高级商务智能平台,向顾客提供个性化的信息服务和决策支持。近年来已经出现了许多非常成功的大型推荐系统实例,与此同时,个性化推荐系统也逐渐成为学术界的研究热点之一。
实际推荐系统主要关注短期的预测,仅估计用户对推荐的即时响应,优化的目标都是短期奖励short term reward,比如点击率、观看时长。在短期目标下,容易不停的给用户推荐已有的偏好。在另一面,当新用户或者无行为用户来的时候,会更倾向于推荐热门。
发明内容
为了解决上述技术问题,提出了本公开。本公开的实施例提供了一种物品推荐方法和装置、计算机可读存储介质、电子设备。
根据本公开实施例的一个方面,提供了一种物品推荐方法,包括:
基于交互场景中获取的用户需求信息,获取n个目标物品;其中,所述n为大于等于1的整数;
基于第一排序模型对所述n个目标物品中的每个目标物品进行回报值预测,得到n个目标物品回报值;
基于所述n个目标物品回报值对所述n个目标物品进行排序,按照排序将m个所述目标物品推荐给所述用户。
可选地,在基于第一排序模型对所述n个目标物品中的每个目标物品进行回报值预测,得到n个目标物品回报值之前,还包括:
利用已知目标物品集对所述第一排序模型进行训练;其中,所述已知目标物品集包括多个已知目标物品对应的交互双方的操作信息和交互结果信息,以及每个所述已知目标物品对应的已知回报值。
可选地,所述利用已知目标物品集对所述第一排序模型进行训练,包括:
迭代执行:以所述已知目标物品对应的交互双方的操作信息和交互结果信息作为输入信息,结合第二排序模型利用强化学习方法,获得所述已知目标物品对应的损失;
基于所述损失对所述第一排序模型的参数进行调整,直到所述损失满足预设条件,得到训练后的所述第一排序模型。
可选地,所述以所述已知目标物品对应的交互双方的操作信息和交互结果信息作为输入信息,结合第二排序模型利用强化学习方法,获得所述已知目标物品对应的损失,包括:
利用所述第二排序模型对所述已知目标物品对应的交互双方的操作信息和交互结果信息进行处理,得到第二预测回报值;
以所述第二预测回报值和所述已知回报值,对所述第二排序模型进行参数调整,得到第二参数;
基于所述第二参数更新所述第一排序模型,并利用所述更新后的第一排序模型对所述已知目标物品对应的交互双方的操作信息和交互结果信息进行处理,得到第一预测回报值;
根据所述第一预测回报值、所述第二预测回报值和所述已知回报值,确定所述已知目标物品对应的损失。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贝壳技术有限公司,未经贝壳技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010929349.9/2.html,转载请声明来源钻瓜专利网。





