[发明专利]基于用户聚类的局部模型加权融合Top-N电影推荐方法有效
申请号: | 201810169922.3 | 申请日: | 2018-03-01 |
公开(公告)号: | CN108363804B | 公开(公告)日: | 2020-08-21 |
发明(设计)人: | 汤颖;孙康高 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F16/735 | 分类号: | G06F16/735;G06K9/62 |
代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 王兵;黄美娟 |
地址: | 310014 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 用户 局部 模型 加权 融合 top 电影 推荐 方法 | ||
基于用户聚类的局部模型加权融合Top‑N电影推荐方法,包括:步骤1:数据预处理;对不活跃用户以及流行度很小的电影进行数据清洗;构造用户电影标签文档;把显式的评分信息转换成隐式反馈信息,构造用户‑电影隐式反馈矩阵A;步骤2:用户聚类;利用电影标签信息,通过LDA主题模型训练得到用户特征向量,用谱聚类算法实现用户聚类;步骤3确定局部推荐模型和进行全局推荐模型训练;步骤4模型加权融合推荐阶段;步骤5.通过留一法交叉验证来证明模型的有效性。
技术领域
本发明涉及一种网络上的电影推荐方法。
背景技术
随着信息科技和社交网络的快速发展,互联网产生的数据近来呈指数式暴涨,大数据时代来临。随着数据量的增多,人们越来越难以从海量数据中发现自己真正想要的信息。此时,推荐系统则能发挥它的最大应用价值。根据用户资料、物品信息以及用户历史行为数据,推荐算法能够准确预测用户的喜好,个性化地为用户推荐他们可能感兴趣的东西,大大降低了用户发现目标信息的成本。
推荐算法可分为基于内容的推荐以及协同过滤推荐。现代化的推荐系统主要有两个任务,一个是评分预测,另一个是在现实商业场景中应用最多的Top-N推荐。Top-N推荐算法通过给用户推荐一个经过排名且大小为n的物品列表的方式让用户选择自己感兴趣的东西。Top-N推荐模型主要分为两种类型,分别是基于邻域的协同过滤和基于模型的协同过滤。前者又可细分为基于用户的邻域模型(UserKNN)和基于物品的邻域模型(ItemKNN),后者则以隐因子模型为代表。
俗话说“物以类聚人以群分”,不同用户群体内部往往会形成各自独特的行为模式,使得两个相同的物品在不同的人群中相似度发生改变。而单一推荐算法模型往往捕捉不到这些局部的相似度差别,它们认为两个相同的物品在任何场景中的相似度都是一致的,这些模型无法准确捕获用户的真实偏好,降低了个性化推荐的质量。通过训练多个局部推荐模型,再融合局部模型来提升总体推荐效果的推荐算法在一定程度上能解决以上问题,但是这些算法往往没有充分利用推荐场景提供的数据,利用到的数据比较单一,最终的推荐效果也一般。
发明内容
为了克服现有技术的单一模型无法准确捕获用户偏好以及多模型融合算法使用训练数据单一的问题,本发明提供一种新的基于用户聚类的局部模型加权融合电影推荐算法来实现电影的Top-N个性化推荐。
本发明利用电影的文本内容信息,通过LDA主题模型计算语义层次用户特征向量,并基于此通过谱聚类算法来实现用户聚类,构造局部人群。本发明进一步利用用户对电影的评分信息,通过稀疏线性模型构造局部推荐模型和全局推荐模型,通过局部模型和全局模型的线性加权融合来实现最终的电影Top-N个性化推荐。
基于用户聚类的局部模型加权融合Top-N电影推荐方法,总体流程如图1所示,具体包括如下步骤:
步骤1:数据预处理阶段。对一些不活跃用户以及流行度很小的电影进行数据清洗;构造用户电影标签文档;把显式的评分信息转换成隐式反馈信息,构造用户-电影隐式反馈矩阵A;
1.1对原始数据集进行数据清洗工作,剔除观影数小于20部电影的用户,同时剔除被评分次数小于20次的电影,得到新的训练数据集;
1.2统计新数据集里所有用户给电影打的标签生成一个标签字典,把用户看过的所有电影的标签组成的文档来表示当前用户,所有用户的文档组成一个语料库,计算文档中每个词在语料库中的TF-IDF值。词频TF,逆文档频IDF以及词频-逆文档频TF-IDF的计算公式如公式(1)(2)(3)所示;
TFIDFi,j=TFi,j×IDFi (3)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810169922.3/2.html,转载请声明来源钻瓜专利网。