[发明专利]一种基于强化学习框架的推荐系统离线训练方法在审

申请号：	201910195737.6	申请日：	2019-03-13
公开（公告）号：	CN109978660A	公开（公告）日：	2019-07-05
发明（设计）人：	皮德常;吴致远;赵晓东	申请（专利权）人：	南京航空航天大学
主分类号：	G06Q30/06	分类号：	G06Q30/06;G06N3/04;G06N3/08
代理公司：	暂无信息	代理人：	暂无信息
地址：	210016 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	离线训练推荐系统强化学习向量表示用户兴趣强化学习算法计算复杂度参考向量动态捕捉矩阵分解商品集合用户维护去除过滤反馈回报更新记录
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开一种基于强化学习框架的推荐系统离线训练方法。包括：使用离线训练的方式，通过矩阵分解得到用户和商品的隐向量表示；通过强化学习算法，根据用户兴趣与所推荐商品的差异以及用户的反馈，对用户兴趣进行动态捕捉和更新；为用户维护一个参考向量，用来记录用户在最近一段时间内感兴趣商品的向量表示之和，并以此为依据对商品集合进行过滤，去除与计算长期回报无关的商品，降低计算复杂度，本发明可适用于大规模的基于评分的推荐系统。

技术领域

本发明涉及一种基于强化学习框架的推荐系统离线训练方法，是针对推荐系统中用户兴趣动态捕捉以及最大化系统长期收益的方法，属于工程应用和信息科学的交叉学科。

背景技术

随着移动互联网和各种智能设备的快速普及，人们进入了一个信息爆炸的时代。相较于过去信息匮乏的年代，现如今，人们面对各大电商网站上充斥着琳琅满目的商品亦或是视频播放网站上成千上万的电影，反而更加难以抉择。因为可供选择的方案太多，人们往往难以快速找到自己感兴趣的物品，浪费了不必要的时间和精力。为了解决上述信息过载问题，智能化、个性化的推荐系统应运而生。

推荐系统根据用户的兴趣偏好、商品的特征、用户与商品的历史交互过程以及一些附加信息(如时空数据)等，为用户推荐商品。推荐系统一般可以分为(1) 基于内容的推荐系统；(2)基于协同过滤的推荐系统；(3)混合推荐系统。针对推荐系统，国内外学者展开了大量的研究，现在主流方法包括使用矩阵分解学习用户和商品的特征表示，使用RNN等神经网络对用户历史行为进行建模等等。

但是这些方法大多存在如下两点缺陷，(1)大多数传统推荐系统，将推荐过程看作是一个静态的过程，一旦模型训练完成，就不会改变。这种做法忽视了用户兴趣的动态变化。现实生活中，用户的兴趣不仅会随着时间变化，还会受到所推荐内容的影响；2)传统推荐系统只考虑当前利益最大化，而忽视了长期回报。

针对上述的问题，本发明提出一种基于强化学习框架的推荐系统离线训练方法。该方法将推荐系统与用户的交互过程看作是一个动态建模的过程，不仅可以有效地捕捉用户兴趣的动态变化，还可以最大化系统的长期回报并有效地减少计算的复杂度，提高了推荐系统的效率。

发明内容

发明目的：本发明的目的是提供一种基于强化学习框架的推荐系统离线训练方法。(1)通过整合矩阵分解和强化学习，对用户对兴趣进行动态捕捉和建模； (2)通过降低计算复杂度以及采用离线训练的方式，使得本发明可适用于大规模的基于评分的推荐系统。

技术方案：为实现上述目的，本发明使用离线训练的方式，首先通过矩阵分解，得到用户和商品的隐向量表示，并实时捕捉用户兴趣的动态变化，然后使用强化学习的框架，使得推荐系统在与用户的交互过程中不断提升性能，并通过整合用户的历史信息，有效地降低了计算的复杂度。其具体的技术方案包括以下几个步骤：

步骤一：建立用户-商品评分矩阵，使用矩阵分解得到隐向量表示。

(1)根据所有用户的历史记录，建立N行M列的全局评分矩阵(N表示用户总数，M表示商品总数)，矩阵中第i行，第j列的元素r_i，j表示用户u_i对商品v_j的评分；

(2)通过隐语义模型LFM矩阵分解得到用户和商品的隐向量表示；

步骤二：使用深度Q网络DQN算法动态更新用户状态，最大化长期回报。

(1)使用DQN算法，选择相应的商品，最大化长期回报

(2)根据用户反馈，实时捕捉用户的兴趣变化

步骤三：结合用户历史信息，降低计算复杂度。

(1)维护一个长度为l的时间窗口，根据时间窗口中历史信息计算用户i的参考向量e_i

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京航空航天大学，未经南京航空航天大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910195737.6/2.html，转载请声明来源钻瓜专利网。

上一篇：一种请求处理方法、服务器及计算机存储介质
下一篇：一种即时通信服务器的购买方法和系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法；其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q30-00 商业，例如购物或电子商务
G06Q30-02 .行销，例如，市场研究与分析、调查、促销、广告、买方剖析研究、客户管理或奖励；价格评估或确定
G06Q30-04 .签单或开发票
G06Q30-06 .购买、出售或租赁交易
G06Q30-08 ..拍卖

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于强化学习框架的推荐系统离线训练方法在审

专利文献下载