[发明专利]一种基于Flink的矩阵分解隐式反馈推荐方法和系统有效

申请号：	201910426635.0	申请日：	2019-05-22
公开（公告）号：	CN110175287B	公开（公告）日：	2020-10-02
发明（设计）人：	李肯立;陈炼;刘楚波;阳王东;肖国庆;陈岑;朱宁波;吴帆;李克勤	申请（专利权）人：	湖南大学
主分类号：	G06F16/9535	分类号：	G06F16/9535;G06F17/16
代理公司：	武汉臻诚专利代理事务所(普通合伙) 42233	代理人：	宋业斌
地址：	410082 湖***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 flink 矩阵分解反馈推荐方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于Flink的矩阵分解隐式反馈推荐方法，其特征在于，包括以下步骤：

(1)使用Flink数据源接口获取用户历史隐式反馈数据，并对该历史隐式反馈数据进行预处理，以得到处理后的历史隐式反馈数据；

(2)根据步骤(1)处理后的历史隐式反馈数据构建矩阵分解模型，利用构建的矩阵分解模型对历史隐式反馈数据进行处理，以生成训练好的用户特征向量矩阵Dataset_umf、项目特征向量矩阵Dataset_imf、以及用户的离线推荐列表；本步骤中根据步骤(1)处理后的历史隐式反馈数据构建矩阵分解模型的过程包括以下步骤：

(2-1)构建目标函数：

其中R表示用户与项目交互信息矩阵，R∈(M×N)，R_ui表示用户u与项目i交互信息，u∈[1，M]，i∈[1，N]，表示R_ui的预测值，P_u表示第u个用户的特征向量，Q_i表示第i个项目的特征向量，W_ui代表R_ui的权重，λ表示正则化系数，w₀表示交互信息矩阵R中缺失数据的权重系数，d_u代表用户u的活跃度，c_i代表项目i的流行度；

(2-2)利用Flink平台的map算子，并根据步骤(1)中生成初始用户-项目交互数据集Dataset₀中的用户id对交互信息矩阵R进行分块，从而得到用户分块集合Dataset_u，用户分块集合Dataset_u中元素的分块id计算公式为：用户分块id＝用户id％用户分块数量，其中用户分块数量等于启动Flink平台时设定的并行度；

(2-3)利用Flink平台的Groupby算子，并根据步骤(2-2)中得到的分块集合Dataset_u聚合每个分块中的用户id，得到每个分块中用户id集合Dataset_ub；

(2-4)利用Flink平台的Cogroup算子，对步骤(2-2)得到的分块集合Dataset_u和步骤(2-3)得到的用户集合Dataset_ub进行合并处理，以得到用户的出块信息集合Dataset_uo；

(2-5)利用Flink平台的Groupreduce算子，对步骤(2-2)得到的分块集合Dataset_u进行分组处理，以得到每个分块对应的项目集合Dataset_ipb；

(2-6)利用Flink平台的Sortgroup算子，对步骤(2-5)得到的项目集合Dataset_ipb进行处理，以得到用户的入块信息Dataset_ui；

(2-7)利用Flink平台的map算子，并根据步骤(1)中生成初始用户-项目交互数据集Dataset₀中的项目id对交互信息矩阵R进行分块，从而得到分块集合Dataset_i，分块集合Dataset_i中元素的计算公式为：项目分块id＝项目id％项目分块数量，其中项目分块数量等于运行Flink平台集群的CPU核数；

(2-8)利用Flink平台的Groupby算子，并根据步骤(2-7)中得到的分块集合Dataset_i聚合每个分块中的项目id，得到每个分块中项目id集合Dataset_ib；

(2-9)利用Flink平台的Cogroup算子，对步骤(2-7)得到的分块集合Dataset_i和步骤(2-8)得到的项目集合Dataset_ib进行合并处理，以得到项目的出块信息集合Dataset_io；

(2-10)利用Flink平台的Groupreduce算子，对步骤(2-7)得到的分块集合Dataset_i进行分组处理，以得到每个分块对应的用户集合Dataset_upb；

(2-11)利用Flink平台的Sortgroup算子，对步骤(2-10)得到的项目集合Dataset_upb进行处理，以得到项目的入块信息Dataset_ii；

(2-12)利用Flink平台的map算子对用户的出块信息Dataset_uo进行处理，以得到用户特征向量矩阵集合Dataset_um，并对项目的出块信息Dataset_io进行处理，以得到项目特征向量矩阵集合Dataset_im；

(2-13)利用Flink平台的Map算子对项目特征向量矩阵Dataset_im处理，以初始化大小k*k用户缓存矩阵DataSet_Hq1和DataSet_Hq2，并利用Flink平台的Broadcast算子将项目缓存矩阵DataSet_Hq1和DataSet_Hq2设为广播变量，该map算子处理过程中需要根据以下公式计算缓存矩阵H^q1和H^q2：

(2-14)利用Flink平台的Map算子对用户特征向量矩阵Dataset_um处理，以初始化大小k*k项目缓存矩阵DataSet_Hp1和DataSet_Hp2，并利用Flink平台的Broadcast算子将项目缓存矩阵DataSet_Hp1和DataSet_Hp2设为广播变量，在该处理过程中需要根据以下公式计算缓存矩阵H^p1和H^p2：

(2-15)利用Flink平台的Iterate迭代算子对用户特征向量矩阵集合Dataset_um和项目特征向量矩阵集合Dataset_im进行交替更新，以得到训练好的用户特征向量矩阵集合Dataset_umf和项目特征向量矩阵集合Dataset_imf；

(2-16)利用Flink平台的Join算子对步骤(2-15)训练好的用户特征向量矩阵Dataset_umf和项目特征向量矩阵Dataset_imf进行合并操作，以生成用户的离线推荐列表；

(3)使用Flink实时数据源接口从用户获取实时隐式反馈数据，并对该实时隐式反馈数据进行预处理，以得到处理后的实时隐式反馈数据，并利用处理后的实时隐式反馈数据、训练好的用户特征向量矩阵Dataset_umf、以及项目特征向量矩阵Dataset_imf对矩阵分解模型进行实时更新，并利用更新后的模型生成用户的实时推荐列表。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于湖南大学，未经湖南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910426635.0/1.html，转载请声明来源钻瓜专利网。

上一篇：结合成对优化和矩阵分解的产品推荐方法及系统
下一篇：一种面向青少年群体的文字和图像数据的过滤方法及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于Flink的矩阵分解隐式反馈推荐方法和系统有效

专利文献下载