[发明专利]基于离线用户环境和动态奖励的交互式推荐方法和系统有效
| 申请号: | 202110680280.5 | 申请日: | 2021-06-18 |
| 公开(公告)号: | CN113449183B | 公开(公告)日: | 2022-07-12 |
| 发明(设计)人: | 李玉华;饶超;李瑞轩;辜希武 | 申请(专利权)人: | 华中科技大学 |
| 主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06N3/04;G06N3/08 |
| 代理公司: | 华中科技大学专利中心 42201 | 代理人: | 胡秋萍 |
| 地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 离线 用户 环境 动态 奖励 交互式 推荐 方法 系统 | ||
1.一种基于离线用户环境和动态奖励的交互式推荐方法,其特征在于,该方法包括:
准备阶段:
一、构建离线用户环境,将其作为强化学习的环境
S1.构建用户模型,所述用户模型包括:GRU和前馈神经网络,所述GRU用于从用户t时刻之前的历史项目记录中提取到用户t时刻的状态ht-1;所述前馈神经网络,用于根据用户t时刻的状态ht-1和用户t时刻被推荐的项目列表at,计算出用户t时刻被推荐的项目列表中各项目的奖励;
S2.利用生成对抗网络的思想构建损失函数,使得用户真实项目记录的奖励尽可能大,虚假项目记录的奖励尽可能小;
S3.使用用户历史项目记录数据集训练用户模型,使得损失函数值尽可能小,得到训练好的用户模型,将其作为离线用户环境;
二、构建演员-评论家架构的推荐智能体,将其作为强化学习的智能体;
三、推荐智能体与离线用户环境不断进行交互自主学习,以期望在不断学习过程中获得最大化的累积奖励,得到学习好的推荐智能体;所述交互自主学习包含:推荐智能体观察离线用户环境的状态,并根据状态生成动作用于离线用户环境,所述动作为生成推荐项目列表;离线用户环境在推荐智能体生成的推荐项目列表作用下产生状态转变,同时给出动态奖励作为反馈;推荐智能体根据反馈的奖励调整推荐策略;
应用阶段:
将待推荐用户的状态输入至学习好的推荐智能体,得到推荐项目列表。
2.如权利要求1所述的方法,其特征在于,步骤S1中,获取待推荐领域的各用户的历史项目数据,得到项目空间;对于每个用户的历史项目数据,首先按照时间进行升序排序,以步长a、窗口N滑动方式截取该用户历史项目数据,N个项目数据作为用户状态;对于该用户的每个用户状态,将下一个项目作为对应真实目标,从项目空间和该用户的历史项目的差集中,随机选取K-1个项目作为对应虚假目标,K表示推荐列表的长度,真实目标和K-1个虚假目标构成该用户该状态的推荐列表;最终得到该用户的状态集和推荐列表集,所述状态和推荐列表一一对应。
3.如权利要求1所述的方法,其特征在于,步骤S2中,给定一个用户行为轨迹其对应的用户点击项目的特征为推荐给用户但未被选择的项目记为离线用户环境的损失函数L(θ)可用公式表示:
其中,rθ表示奖励函数,θ表示奖励函数中所有参数,st表示用户的历史项目记录,表示用户真实项目记录,表示用户虚假项目记录。
4.如权利要求1所述的方法,其特征在于,所述构建演员-评论家架构的推荐智能体,具体如下:
推荐智能体包括:推荐策略网络和孪生价值网络;
所述推荐策略网络,用于观察离线用户环境状态并生成推荐列表动作,传递给孪生价值网络;
所述孪生价值网络包含:两个结构相同但参数独立初始化和训练的价值网络,用于根据环境状态和推荐动作计算Q值,基于较小的Q值计算时间差分目标,进而分别更新推荐策略网络和孪生价值网络。
5.如权利要求4所述的方法,其特征在于,推荐策略网络与离线用户环境不断进行交互从而探索策略,并将交互记录{si,ai,ri,si+1}顺序存储在经验池中,si表示i时刻的环境状态,ai表示根据状态si采取的动作,ri表示动作ai的奖励,si+1表示由于动作ai的执行环境从si转移到的下一个状态,然后在网络更新时从经验池随机均匀采样,得到采样结果s,a,r,s′,输入到推荐策略网络和孪生价值网络中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110680280.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:14倍数绕组输出的Y-△移相变压器及供配电系统
- 下一篇:一种洗瓶机





