[发明专利]一种融合用户偏好预测的深度强化学习推荐方法在审
申请号: | 202111519219.9 | 申请日: | 2021-12-09 |
公开(公告)号: | CN114021024A | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 史晓雨;尚明生 | 申请(专利权)人: | 中国科学院重庆绿色智能技术研究院 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/906;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 400714 重庆市北*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 用户 偏好 预测 深度 强化 学习 推荐 方法 | ||
1.一种融合用户偏好预测的深度强化学习推荐方法,其特征在于,该方法包含以下步骤:
S1:录入用户行为和项目的历史交互相关数据,对数据进行预处理;
S2:根据用户行为,建立用户长短期偏好模型,得到历史用户偏好;
S3:利用深度学习方法建立用户未来偏好预测模型,预测下一时刻的未来用户偏好;
S4:建立异质图网络,建立用户、项目、时间之间的上下文知识表征;
S5:利用注意力机制将历史用户偏好、未来用户偏好和用户的上下文知识表征进行融合,得到用户当前时刻的状态表征;
S6:搭建基于强化学习网络的推荐系统,将所有的用户当前时刻的状态表征作为强化学习推荐系统的状态空间,并利用历史交互数据对网络参数进行训练;
S7:利用训练好的推荐系统对用户进行项目推荐;
所述的用户的集合为U=[u1,u2,…,um],所述的项目的集合为I=[i1,i2,…,in],所述的用户行为是统计用户和项目之间交互行为的n×m×k维的矩阵,T=[T1,T2,…,Tk]为时间维度。
2.根据权利要求1所述的一种融合用户偏好预测的深度强化学习推荐方法,其特征在于,所述的强化学习网络的推荐系统由一个包含五个元素的元组组成,其中,R为回报函数,为状态转移概率,γ为折现因子;所述的用户当前时刻的状态表征被抽象成为状态空间S;所述的所有项目集合I被当作动作空间A。
3.根据权利要求1所述的一种融合用户偏好预测的深度强化学习推荐方法,其特征在于,步骤S1所述的对数据进行预处理包括:(1)删除重复数据和缺失、错误数据;(2)统计汇总用户、项目和用户行为;(3)剔除用户行为数据太少会造成冷启动的数据。
4.根据权利要求1所述的一种融合用户偏好预测的深度强化学习推荐方法,其特征在于,所述的所有用户的用户行为P需要按照自定义的时间窗口T=[T1,T2,…,Tk]分割为k个单元,所述的时间窗口为等长时间段。
5.根据权利要求1所述的一种融合用户偏好预测的深度强化学习推荐方法,其特征在于,所述的步骤S2具体为:(1)利用自动编码器将用户uj进行编码,得到用户编号(2)利用自动编码器将用户uj的历史用户行为的时间分别进行编码,得到用户uj的时间编号(3)将用户uj的历史用户行为和用户uj的时间编号的元素分别输入到双向长短时记忆循环网络抽取得到k个时间段用户uj的特征信息;(4)将抽取的前k-1个时间段的用户uj的特征信息和用户编号利用多头注意力机制进行融合,得到用户uj的过去用户偏好(5)再次使用多头注意力机制,将第k个时间段的用户uj的特征信息和过去用户偏好进行融合,得到用户uj的历史用户偏好(6)重复以上步骤(1)~步骤(5),遍历所有用户得到所有用户的历史用户偏好其中,1≤j≤m。
6.根据权利要求1所述的一种融合用户偏好预测的深度强化学习推荐方法,其特征在于,所述的步骤S3具体为:利用深度学习方法建立用户未来偏好预测模型,分别将用户uj的历史用户行为作为输入,预测下一时刻的用户uj的未来用户偏好遍历所有用户,得到所有用户的未来用户偏好其中,1≤j≤m。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院重庆绿色智能技术研究院,未经中国科学院重庆绿色智能技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111519219.9/1.html,转载请声明来源钻瓜专利网。