[发明专利]一种基于共享近邻聚类的协同过滤方法在审
| 申请号: | 201510359159.7 | 申请日: | 2015-06-25 |
| 公开(公告)号: | CN104933156A | 公开(公告)日: | 2015-09-23 |
| 发明(设计)人: | 周红芳;郭杰;王心怡;刘杰;李锦;段文聪;何馨依 | 申请(专利权)人: | 西安理工大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
| 代理公司: | 西安弘理专利事务所 61214 | 代理人: | 李娜 |
| 地址: | 710048*** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 共享 近邻 协同 过滤 方法 | ||
技术领域
本发明属于数据挖掘方法技术领域,具体涉及一种基于共享近邻聚类的协同过滤方法。
背景技术
协同过滤技术早期的研究过程中,推荐系统需要用户主动有意识提交各自明确喜欢的项目类型等资料来了解用户的兴趣偏好才能做出推荐,而实际上,大部分人对自己的喜好比较模糊,难以表述出来,这样就大大的阻碍了协同过滤技术的发展。经过几年后,智能化的协同过滤算法被运用到推荐系统中,大大的弥补了这一不足,形成自动化推荐系统。
协同过滤算法的基本思想是通过比较目标用户与其他用户在评分行为上的相似性来做推荐,计算用户对目标用户的相似度,形成最近邻居是协同过滤算法的关键步骤。在使用协同过滤算法进行推荐的时候需要搜寻整个用户空间来寻找目标用户的最近邻居,而随着数据集规模的增大,用户和项目数量的增多,遍历所有用户来寻找目标用户的最近邻居非常耗时,这使得协同过滤推荐算法的响应时间与用户数量成正比例增加,实时性和可扩展性都受到了极大影响。
发明内容
本发明的目的是提供一种基于共享近邻聚类的协同过滤方法,解决了现有技术中存在的分类精度较低,且实时性差的问题。
本发明所采用的技术方案是,一种基于共享近邻聚类的协同过滤方法,具体按照以下步骤实施:
步骤1、构建用户-项目评分矩阵R;
步骤2、计算用户的共享近邻相似度;
步骤3、根据每个用户的共享近邻密度进行聚类,形成用户簇C={C1,C2,…,Cn},并计算出用户簇代表点集合CP={cp1,cp2,…,cpn};
其中,cpi是用户簇Ci的代表点,i=1,2,...n;
步骤4、计算目标用户u与用户簇Ci的代表点cpi的相似度sim(u,cpi);
步骤5、从步骤4得到的n个相似度中选出相似度较高的m个代表点,将m个代表点所在的用户簇组成相似簇集合SC={SC1,SC2,…,SCm},其中,m≤n;
步骤6、对每个相似簇SCi中的每个用户uj,计算目标用户u与相似簇SCi中用户uj的相似度sim(u,uj);
步骤7、取步骤6中相似度较高的N个用户作为目标用户u的最近邻用户,得到目标用户u的最近邻用户集合N={v1,v2,...,vN};
步骤8、通过最近邻用户集合N计算目标用户u对项目p的预测评分值pred(u,p);
步骤9、取步骤8中得到的预测评分值中较高的k个项目,生成最终的推荐列表RecList={p1,p2,…,pk},即为对目标用户u的推荐列表。
本发明的特点还在于,
步骤1构建用户-项目评分矩阵R,具体为:用户集U={u1,…un},项目集P={p1,…pm},用户ui对项目pj的评分值为ri,j,评分值ri,j的n×m矩阵R称作用户-项目评分矩阵,其中,如果用户ui未对项目pj评过分,则对应的评分值ri,j为空,其中,i=1,2,...n,j=1,2,...m。
步骤2计算用户的共享近邻相似度,具体为:
对任意两个用户,用户u和用户v,由公式(1)计算用户间的相似度sim(u,v):
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510359159.7/2.html,转载请声明来源钻瓜专利网。





