[发明专利]一种协同过滤中的用户相似度度量方法有效
申请号: | 201510110009.2 | 申请日: | 2015-03-13 |
公开(公告)号: | CN104731887B | 公开(公告)日: | 2018-02-02 |
发明(设计)人: | 顾梁;杨鹏;董永强 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京苏高专利商标事务所(普通合伙)32204 | 代理人: | 李玉平 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 协同 过滤 中的 用户 相似 度量 方法 | ||
技术领域
本发明涉及一种协同过滤中的用户相似度度量方法,用于实现对用户进行高精度的协同过滤个性化推荐,属于计算机网络技术领域。
背景技术
随着信息及互联网技术的不断涌现,人们正面临着日益严重的“信息过载”(Information Overload)问题。而推荐系统(Recommendation System)致力于帮助人们从互联网提供的繁杂信息中找到自己感兴趣的信息。目前,推荐系统已经得到了研究人员的广泛关注,并电子商务、社交网络及智能电视等各个领域取得了大量的实际应用。一般来说,推荐系统可以分为基于内容与协同过滤两大类,而其中,协同过滤技术在1992年由研究人员提出,已经显现出极强的可用性及高效率。协同过滤根据用户对物品的历史评分记录决定用户或物品之间的关系,从而挖掘用户的潜在兴趣,提高用户体验以及商业利润。
协同过滤技术可分从实现策略方面分为基于模型的方法与基于内存的方法,与后者相比前者有着两方面的优势。首先,基于内存的方法与待推荐的物品之间关系较小,也就是说更容易在不同领域得到应用;其次基于内存的方法充分利用了用户与其他用户之间的关系,从而更容易挖掘用户的潜在兴趣。
而相似度度量是协同过滤的基础步骤,只有通过度量用户或物品之间的相似度,才能发现其相似邻居。近些年来,研究人员已经提出了不少相似度度量的方法,包括:余弦相似度(COS:Cosine-based method)、皮尔森相关系数(PCC:Pearson Correlation Coefficient)、欧式距离(ED:Euclidean Distance)等。而这些方法都有着自身存在的缺点,COS方法关注于待比较用户向量之间的夹角而忽视向量的长度,PCC方法比较用户向量的变化趋势而忽略向量的属性量级,ED方法虽然在距离计算中最常用,但在实用中效果往往不好。也有学者提出结合这几种方法以提高度量效果,但提高程度有限。造成这种度量精度瓶颈的根本原因是现有方法没有充分利用用户的社会属性信息,而这种用户的社会属性信息往往更能反映出用户的特征以及其他用户之间的关系。
因此亟需设计一种能够充分考虑用户社会属性信息的相似度度量方法,以突破相似度度量性能的瓶颈,为用户提供精度更高、体验更好的个性化服务。
发明内容
发明目的:针对现有技术中存在的问题与不足,本发明提供一种协同过滤中的用户相似度度量方法,该方法协同过滤中能够提高用户之间相似度度量的准确度,提高了用户兴趣挖掘的精度,增加了网络用户体验度。
技术方案:一种协同过滤中的用户相似度度量方法,通过建立用户分类属性与数值属性之间的联系,采用改进的聚类算法挖掘用户分类信息,使得用户分类更加准确合理;构造相似度度量模型,综合考虑用户属性信息与用户对物品的评分信息,丰富用户之间相似度度量的依据,提高相似度度量精度。具体可分为三个步骤:在用户记录之间的距离计算阶段,针对用户记录的数值属性与分类属性,分别采用不同距离度量方法,并建立二者联系,形成一个全面的用户记录之间距离度量的方法,得到用户记录之间的距离RD;在挖掘用户分类信息阶段,根据用户记录之间的距离RD来判断两个用户之间的差异程度,基于此种差异改进聚类算法,对用户记录聚类后得到全局用户的分组信息,每个分组内的用户差异较小,不同分组内的用户差异较大;在相似度度量阶段,基于已有用户对物品的历史评分信息以及用户的分类信息,得到目标用户与其他用户之间的相似度。
有益效果:本发明与现有技术相比,具有以下优点:
1.分别采用不同方式处理用户记录的数值属性与分类属性,并通过权值决定二者在用户记录距离计算过程中的重要性,实现了对用户记录之间距离的全面度量。
2.改进已有聚类算法,并采用该算法挖掘用户的分类信息,以充分利用用户的社会属性信息。
3.建立统一框架,在相似度度量过程中同时考虑了用户的社会属性信息以及用户对物品的评分信息,开辟了使用用户社会属性信息的新途径。
附图说明
图1本发明实施例的相似度度量过程图;
图2为本发明实施例中用户记录距离计算原理图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,整个相似度度量方法包括用户记录数据集、用户评分数据集、距离计算、用户分类挖掘、相似度度量部分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510110009.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:热力图的展现方法及装置
- 下一篇:一种海量小文件的处理方法及系统