[发明专利]基于hive的协同过滤推荐方法有效

专利信息
申请号: 201910830907.3 申请日: 2019-09-03
公开(公告)号: CN110532330B 公开(公告)日: 2022-06-03
发明(设计)人: 刘洋;孙永强;韩挺;唐潮 申请(专利权)人: 四川长虹电器股份有限公司
主分类号: G06F16/28 分类号: G06F16/28;G06F16/2458;G06F16/435
代理公司: 四川省成都市天策商标专利事务所(有限合伙) 51213 代理人: 王荔
地址: 621000 四*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 hive 协同 过滤 推荐 方法
【说明书】:

发明公开了基于hive的协同过滤推荐方法,hive是建立在Hadoop集群上的数据仓库工具,底层计算采用MapReduce架构,所以hive能够分布式处理数据量巨大的表,本发明的方法基于hivesql语言,应用矩阵分解的思想,解决了协同过滤推荐系统中的超大矩阵的储存运算等问题,实现了计算用户‑商品(影片)评分、商品与商品相似度矩阵及用户‑推荐商品的数据表的计算,完成了推荐系统中的关键算法部分,特别适合应用于大数据背景下的个性化推荐系统领域。

技术领域

本发明涉及个性化推荐技术领域,尤其涉及基于hive的协同过滤推荐方法。

背景技术

在大数据的时代背景下,只有对数据进行充分的挖掘和分析,才能创造出更多的商业价值。影片推荐系统也是如此,只有充分学习大量用户产生的海量历史观影数据,才能从节目源中准确的挑选出用户喜欢的电影进行推荐,进而提高用户观影行为的数量,最终创造更多的收益。

协同过滤推荐算法是一种经典的个性化推荐算法,大致分为三个步骤:根据用户观影行为求解出各用户对其所观影过的影片评分、根据求解出的用户-影片评分求解影片-影片相似度矩阵、根据用于-影片评分及影片-影片相似度矩阵进行推荐。在上述步骤中存在两个难题,一是如何储存及应用用户-影片评分、影片-影片相似度这两个大矩阵,二是如何根据用户对各影片的观影行为进行建模从而求解出评分。针对第一个问题在构建用户-影片评分、影片-影片相似度矩阵的时候则需要构建一M*N及N*N的影片相似度矩阵,然而在实际生产环境中,N的值一般较大,少则数千,多则数万甚至更高,现有的数据库难以储存成千上万列的数据,那么如何储存应用这个大矩阵则是一个难题。

Hive是建立在经典分布式系统基础架构Hadoop上的数据仓库工具,底层计算采用并行运行的MapReduce架构,所以hive能够分布式处理行数巨大的表格(能够处理上亿级乃至更大的数据量),由于hive在大数据处理方面得天独厚的优势,为寻找协同过滤推荐中的大矩阵储存运算的方案提供了可能。针对第二个问题,在求解评分的时候,需要考虑到观影时长影片时长、影片观看次数以及电影电视剧的区别等多个因素,而现有的建模方式没有考虑到这些因素。

发明内容

针对上述问题,本发明提出了基于hive的协同过滤推荐方法,采用基于hive进行大矩阵分解运算的方法,解决了个性化推荐领域协同过滤算法中的大矩阵运算储存难题。

本发明通过以下技术方案来实现上述目的:

基于hive的协同过滤推荐方法,其特征在于,包括以下步骤:

a.数据仓库的选择及源数据的存储;

由于在大数据工业背景下,数据量可能上千万级甚至更高,所以一般的数据分析工具pandas等难以胜任,需要寻找新的工具来解决大量数据的储存计算问题。hive是建立在Hadoop集群上的数据仓库工具,底层计算采用MapReduce架构,所以hive能够分布式处理数据量巨大的表,经综合考虑,最终选择使用hive作为本系统的数据仓库,hivesq1作为编程语言。选择好数据仓库后,把kafak采集到的数据经过过滤清洗后的用户行为数据储存到hive,以方便之后的计算。

b.用户-影片-评分的计算及结果储存;

想要根据用户观影行为数据得到用户-影片-评分结果,需要考虑两个难题,一是如果设计合理的评分计算公式;而是如何计算储存用户-影片-评分结果。

超大矩阵的分解储存计算:储存及使用到M*N的用户-影片评分表、N*N的影片-影片相似度表两个矩阵,在实际生产环境中,列数量N的取值较大,考虑把大矩阵拆分成MAC,CID,SCORE这样的形式,经过拆分后,表的列数变成固定的3列;

结合实际用户观影行为数据,求解出符合储存要求的用户-影片评分表,包括以下三个小步骤:

(1)清洗过滤相关数据;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910830907.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top