[发明专利]一种基于强化学习的双聚类推荐方法和系统有效
申请号: | 201811584062.6 | 申请日: | 2018-12-24 |
公开(公告)号: | CN109493195B | 公开(公告)日: | 2021-07-30 |
发明(设计)人: | 王丹;徐滢 | 申请(专利权)人: | 成都品果科技有限公司 |
主分类号: | G06Q30/06 | 分类号: | G06Q30/06;G06K9/62 |
代理公司: | 成都玖和知识产权代理事务所(普通合伙) 51238 | 代理人: | 胡琳梅 |
地址: | 610041 四川省成都市中国(四川)自*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 类推 方法 系统 | ||
本发明公开一种基于强化学习的双聚类推荐方法和系统,属于推荐技术领域,包括步骤:S1.建立用户‑物品矩阵;S2.对所述用户‑物品矩阵进行双聚类,得到多个双聚类簇;S3.将所述双聚类簇映射到低维空间,得到状态集合;S4.根据S3得到的状态集合,通过强化学习,得到最佳状态转移序列;S5.生成推荐列表;本发明针对用户‑物品推荐场景,利用双聚类、降维以及强化学习的方法,显著提高用户‑物品场景的推荐效果,同时解决了冷启动的问题,使用户体验更好;在线情况下,当用户通过搜索或者提供地理位置和时间信息触发新的状态,可通过强化学习快速自主学习到新的推荐列表,从而更好的感知用户当前状态下的偏好,以满足用户当下需求。
技术领域
本发明涉及推荐技术领域,特别是涉及一种基于强化学习的双聚类推荐方法和系统。
背景技术
在信息爆炸的情况下,如何为不同用户提供个性化的内容推动推荐系统在近些年获得了重大的发展。
目前,协同过滤是推荐系统中一种重要的手段,对于用户-物品的推荐方法,在海量场景下,传统的协同过滤算法往往是基于用户或者基于物品单维度来生成推荐,由于矩阵的稀疏性和高维性,往往会导致推荐系统忽略了很多重要的因子,从而造成推荐效果不理想,用户体验不好。此外,推荐系统中还存在一个非常实际的问题,即可能在某一个特定的场景下需要推荐一些特定的东西,而不是对他历史行为的偏好发现上,比如app系统生成的他的个性化推荐列表是基于他历史3个月的数据,他可能历史三个月并没有去海边这个场景,但是他此次打开app,app获取他的实时地理位置在海边,那么他之前对滤镜和贴纸的偏好很有可能不能及时的反应他当时的需要。
发明内容
为了解决上述问题,本发明提供一种基于强化学习的双聚类推荐方法和系统,采用双聚类、降维以及强化学习的方法,解决了目前的用户-物品推荐方法推荐效果不理想,用户体验不好的问题。
为此,本发明采用的技术方案是:
提供一种基于强化学习的双聚类推荐方法,包括以下步骤:
S1.建立用户-物品矩阵;
S2.对所述用户-物品矩阵进行双聚类,得到多个双聚类簇;
S3.将所述双聚类簇映射到低维空间,得到状态集合;
S4.根据S3得到的状态集合,通过强化学习,得到最佳状态转移序列;
S5.生成推荐列表。
进一步的是,步骤S2中,所述双聚类采用BiBit双聚类方法。
进一步的是,步骤S3中,采用主成分分析降维法将高维双聚类簇映射到低维空间。
进一步的是,步骤S3中,采用主成分分析降维法将高维双聚类簇映射到二维空间,得到包含用户集和物品集的二维的状态集合。
进一步的是,所述步骤S4的具体步骤为:
S41.构造强化学习的状态空间、动作空间和回报函数;
S42.针对各用户,利用马尔科夫决策过程优化得到最佳状态转移序列;优选的,采用∈-贪婪蒙特卡洛方法,以最大累积回报为优化目标优化获得最佳状态转移序列。
进一步的是,所述动作空间包括上、下、左和右;所述回报函数定义为两个状态间用户集的相似度,即
其中,Si和Sj表示所述状态集合中的两个不同的状态,Ui和Uj表示两个不同的状态中的用户集,即i≠j。此处采用用户集相似度度量可以有效的避免后续推荐列表仅局限在小范围物品集。
进一步的是,所述状态空间的构造步骤包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都品果科技有限公司,未经成都品果科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811584062.6/2.html,转载请声明来源钻瓜专利网。