[发明专利]基于用户的协同过滤的并行实现方法及系统有效
| 申请号: | 201410808451.8 | 申请日: | 2014-12-22 |
| 公开(公告)号: | CN104572880B | 公开(公告)日: | 2018-03-02 |
| 发明(设计)人: | 宋晨;罗熙;杨婧;徐震;王远 | 申请(专利权)人: | 中国科学院信息工程研究所 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京君尚知识产权代理事务所(普通合伙)11200 | 代理人: | 余长江 |
| 地址: | 100093 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 用户 协同 过滤 并行 实现 方法 系统 | ||
1.一种基于用户的协同过滤的并行实现方法,其特征在于,包括如下步骤:
1)采用分布式文件系统分块保存待进行计算的数据文件;
2)分布式文件系统中的每个文件服务器对存储于其上的数据进行数据规范化处理、用户相似度计算以及推荐物品计算,其中:
所述数据规范化处理将数据整理成可并行处理的形式;
所述用户相似度计算以及所述推荐物品计算,均首先在文件存储的服务器中进行数据整理、同一文件系统数据归并操作,接着将处理结果的键值对发送给中心节点,由中心节点按照主键计算出每个主键需要归并的节点,最后进行跨存储节点的数据归并操作,从而得到用户的最终推荐结果;
所述用户相似度计算首先进行物品评分数据计算,然后以物品评分数据作为衡量用户之间相似程度的指标,通过距离计算方法得到用户相似矩阵;
所述物品评分数据计算的步骤为:
a)读取本地存储文件块的用户、物品、评分三元组数据;
b)启动本地归并过程,提取物品编号作为主键,用户与评分作为值,将本地存储中具有相同物品主键的数据按照物品,用户、评分序列对的格式进行归并;
c)归并结果发送给中心节点,中心节点依据主键分配跨存储归并节点;
d)同一主键的数据被发送到相同节点的相同运算过程中进行跨存储节点的归并操作,并输出最终结果,该结果以物品为主键,用户、评分序列对为值,并以不重复的命名方式保存在分布式文件系统指定的目录下,作为物品评分数据。
2.如权利要求1所述的方法,其特征在于:所述数据规范化处理,是按照用户、物品、评分三元组的方式将数据进行整理。
3.如权利要求1所述的方法,其特征在于,所述用户相似度矩阵计算的步骤为:
a)读取本地存储的物品评分数据;
b)以用户对为主键,用户对物品的评分对为值进行数据的重新整理,计算用户之间评分的距离,输出主键为用户对,值为两两用户对于相同物品的评分距离;
c)启动本地归并过程,将相同用户对的数据进行合并,得到两个用户所有相同物品评分的距离值,归并结果的主键为待推荐用户,值为被推荐用户和其与待推荐用户之间的评分距离;
d)归并结果发送给中心节点,中心节点依据主键分配跨存储归并节点;
e)同一主键的数据被发送到相同节点的相同运算过程中进行跨存储节点的归并操作,并输出最终结果,该结果以待推荐用户为主键,被推荐用户和其与带推荐用户之间的评分距离为值,并以不重复的命名方式保存在分布式文件系统指定的目录下,作为用户相似度矩阵数据。
4.如权利要求3所述的方法,其特征在于,所述推荐物品计算的步骤为:
a)读取本地节点中的物品评分数据和用户相似度矩阵数据,对物品评分数据进行整理,以用户对作为主键,物品与用户对物品的评分作为值;对用户相似度矩阵进行数据整理,以用户对作为主键,用户距离以及距离总和作为值,将两类数据输入至中心节点;
b)中心节点依据主键分配相关数据需要进行归并操作的节点;
c)同一主键的数据被发送到相同节点的相同运算过程中进行跨存储节点的归并操作,查找待推荐用户未选择但是被推荐用户选择的物品以及评分,并计算待推荐用户针对该物品的推荐值,计算完成后以待推荐用户为主键,物品和物品推荐值作为值发送给中心节点;
d)中心节点依据主键分配相关数据需要进行归并操作的节点;
e)同一主键的数据被发送到相同节点的相同运算过程中进行跨存储节点的归并操作,对待推荐用户的所有推荐物品按照推荐值进行排序,选取推荐值最高的物品作为推荐结果。
5.一种采用权利要求1所述方法的基于用户的协同过滤的并行实现系统,其特征在于,采用分布式文件系统分块保存待进行计算的数据文件,系统模块包括数据规范化处理模块、用户相似度矩阵计算模块以及推荐物品计算模块;
所述数据规范化处理模块用于将数据整理成可并行处理的形式;
所述用户相似度矩阵计算模块首先进行物品评分数据计算,然后以用户对物品的评分作为衡量用户之间相似程度的指标,通过距离计算方法得到用户相似度矩阵;
所述推荐物品计算模块,读取物品评分数据与用户相似度矩阵数据,得到两两用户之间的物品评分值和距离值,首先以用户对为主键对结果按照公式进行合并,得到用户对于某个用户所推荐的物品,接着再进行以用户为主键的归并过程,最终得到应当向目标用户推荐的物品。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410808451.8/1.html,转载请声明来源钻瓜专利网。





