[发明专利]基于离线用户环境和动态奖励的交互式推荐方法和系统有效
| 申请号: | 202110680280.5 | 申请日: | 2021-06-18 |
| 公开(公告)号: | CN113449183B | 公开(公告)日: | 2022-07-12 |
| 发明(设计)人: | 李玉华;饶超;李瑞轩;辜希武 | 申请(专利权)人: | 华中科技大学 |
| 主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06N3/04;G06N3/08 |
| 代理公司: | 华中科技大学专利中心 42201 | 代理人: | 胡秋萍 |
| 地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 离线 用户 环境 动态 奖励 交互式 推荐 方法 系统 | ||
本发明公开了基于离线用户环境和动态奖励的交互式推荐方法和系统,属于交互式推荐技术领域。包括:构建离线用户环境,将其作为强化学习的环境,构建演员‑评论家架构的推荐智能体,将其作为强化学习的智能体;推荐智能体与离线用户环境不断进行交互自主学习,以期望在不断学习过程中获得最大化的累积奖励,得到学习好的推荐智能体,将待推荐用户的状态输入至学习好的推荐智能体,得到推荐项目列表。本发明通过构建并训练一个离线用户环境,捕获用户的兴趣偏好,模拟用户的行为(选择奖励最大的项目),完成环境的状态转移。本发明通过构建离线用户环境学习用户的奖励函数,根据用户的动态兴趣偏好动态调整奖励反馈,从而提高智能体学习效果。
技术领域
本发明属于交互式推荐技术领域,更具体地,涉及基于离线用户环境和动态奖励的交互式推荐方法和系统。
背景技术
推荐系统是一种解决信息过载问题的技术,使用户在海量信息中找到符合自己兴趣的信息,使商家能根据用户的兴趣给用户提供个性化服务,获得一个双赢的结果。传统的推荐系统采用协同过滤和基于内容的推荐方法,广泛运用在各个实际的商业应用中。随着深度学习的发展,深度神经网络强大的特征提取与表示能力被结合到推荐系统中,使得推荐系统得到进一步发展。然而,随着移动互联网的发展,抖音、Pandora广播和InstagramFeed等移动应用程序广泛占据市场,交互式推荐系统也受到越来越多的关注。传统的推荐算法具有静态特点,仅关注用户的即时反馈,比如希望用户尽快下单;而交互式推荐系统注重长期收益,希望用户在系统中停留的时间尽可能长,即应用的使用时间尽可能长,因此,传统推荐算法不适用于交互式推荐场景。
强化学习是一种依靠智能体不断与环境进行交互,依靠环境的奖励反馈进行策略调整,训练出完成特定任务的智能体的机器学习技术。推荐问题可以看作是强化学习问题的特殊实例,由此用户是智能体在其上行动的环境,推荐系统在该环境上作用以接收奖励,例如用户的点击或参与。传统的推荐系统通常关注于预测用户在特定时间点的兴趣,通常是下一个时刻,而基于强化学习的推荐系统的目标是在长期内最大限度地提高用户的参与度和满意度,即增加用户与系统的交互时间,这与交互式推荐系统希望增加用户与系统的交互次数,延长用户的使用时间的目标不谋而合。因此,强化学习技术十分适用于交互式推荐系统。
基于强化学习的推荐系统面临如下挑战:环境对应于登录的在线用户,驱动用户行为的用户兴趣(奖励函数)通常是未知的,但这对于强化学习算法的使用相当重要;在现有的强化学习推荐系统中,奖励函数被手动设计(例如点击奖励为1,不点击奖励为-1),不能反映用户对不同项目的偏好;无模型的强化学习算法通常需要与环境进行大量交互以学习一个好的策略,这在推荐系统中是不切实际的,如果推荐项目看起来是随机而不符合兴趣的,在线用户会很快放弃使用服务;强化学习推荐系统面临“灾难性遗忘”和Q值高估等问题,从而影响推荐的有效性。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了基于离线用户环境和动态奖励的交互式推荐方法和系统,其目的在于提高强化学习推荐系统的推荐效果
为实现上述目的,按照本发明的第一方面,提供了一种基于离线用户环境和动态奖励的交互式推荐方法,该方法包括:
准备阶段:
一、构建离线用户环境,将其作为强化学习的环境
S1.构建用户模型,所述用户模型包括:GRU和前馈神经网络,所述GRU用于从用户t时刻之前的历史项目记录中提取到用户t时刻的状态ht-1;所述前馈神经网络,用于根据用户t时刻的状态ht-1和用户t时刻被推荐的项目列表at,计算出用户t时刻被推荐的项目列表中各项目的奖励;
S2.利用生成对抗网络的思想构建损失函数,使得用户真实项目记录的奖励尽可能大,虚假项目记录的奖励尽可能小;
S3.使用用户历史项目记录数据集训练用户模型,使得损失函数值尽可能小,得到训练好的用户模型,将其作为离线用户环境;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110680280.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:14倍数绕组输出的Y-△移相变压器及供配电系统
- 下一篇:一种洗瓶机





