[发明专利]基于hive的协同过滤推荐方法有效
| 申请号: | 201910830907.3 | 申请日: | 2019-09-03 |
| 公开(公告)号: | CN110532330B | 公开(公告)日: | 2022-06-03 |
| 发明(设计)人: | 刘洋;孙永强;韩挺;唐潮 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
| 主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/2458;G06F16/435 |
| 代理公司: | 四川省成都市天策商标专利事务所(有限合伙) 51213 | 代理人: | 王荔 |
| 地址: | 621000 四*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 hive 协同 过滤 推荐 方法 | ||
本发明公开了基于hive的协同过滤推荐方法,hive是建立在Hadoop集群上的数据仓库工具,底层计算采用MapReduce架构,所以hive能够分布式处理数据量巨大的表,本发明的方法基于hivesql语言,应用矩阵分解的思想,解决了协同过滤推荐系统中的超大矩阵的储存运算等问题,实现了计算用户‑商品(影片)评分、商品与商品相似度矩阵及用户‑推荐商品的数据表的计算,完成了推荐系统中的关键算法部分,特别适合应用于大数据背景下的个性化推荐系统领域。
技术领域
本发明涉及个性化推荐技术领域,尤其涉及基于hive的协同过滤推荐方法。
背景技术
在大数据的时代背景下,只有对数据进行充分的挖掘和分析,才能创造出更多的商业价值。影片推荐系统也是如此,只有充分学习大量用户产生的海量历史观影数据,才能从节目源中准确的挑选出用户喜欢的电影进行推荐,进而提高用户观影行为的数量,最终创造更多的收益。
协同过滤推荐算法是一种经典的个性化推荐算法,大致分为三个步骤:根据用户观影行为求解出各用户对其所观影过的影片评分、根据求解出的用户-影片评分求解影片-影片相似度矩阵、根据用于-影片评分及影片-影片相似度矩阵进行推荐。在上述步骤中存在两个难题,一是如何储存及应用用户-影片评分、影片-影片相似度这两个大矩阵,二是如何根据用户对各影片的观影行为进行建模从而求解出评分。针对第一个问题在构建用户-影片评分、影片-影片相似度矩阵的时候则需要构建一M*N及N*N的影片相似度矩阵,然而在实际生产环境中,N的值一般较大,少则数千,多则数万甚至更高,现有的数据库难以储存成千上万列的数据,那么如何储存应用这个大矩阵则是一个难题。
Hive是建立在经典分布式系统基础架构Hadoop上的数据仓库工具,底层计算采用并行运行的MapReduce架构,所以hive能够分布式处理行数巨大的表格(能够处理上亿级乃至更大的数据量),由于hive在大数据处理方面得天独厚的优势,为寻找协同过滤推荐中的大矩阵储存运算的方案提供了可能。针对第二个问题,在求解评分的时候,需要考虑到观影时长影片时长、影片观看次数以及电影电视剧的区别等多个因素,而现有的建模方式没有考虑到这些因素。
发明内容
针对上述问题,本发明提出了基于hive的协同过滤推荐方法,采用基于hive进行大矩阵分解运算的方法,解决了个性化推荐领域协同过滤算法中的大矩阵运算储存难题。
本发明通过以下技术方案来实现上述目的:
基于hive的协同过滤推荐方法,其特征在于,包括以下步骤:
a.数据仓库的选择及源数据的存储;
由于在大数据工业背景下,数据量可能上千万级甚至更高,所以一般的数据分析工具pandas等难以胜任,需要寻找新的工具来解决大量数据的储存计算问题。hive是建立在Hadoop集群上的数据仓库工具,底层计算采用MapReduce架构,所以hive能够分布式处理数据量巨大的表,经综合考虑,最终选择使用hive作为本系统的数据仓库,hivesq1作为编程语言。选择好数据仓库后,把kafak采集到的数据经过过滤清洗后的用户行为数据储存到hive,以方便之后的计算。
b.用户-影片-评分的计算及结果储存;
想要根据用户观影行为数据得到用户-影片-评分结果,需要考虑两个难题,一是如果设计合理的评分计算公式;而是如何计算储存用户-影片-评分结果。
超大矩阵的分解储存计算:储存及使用到M*N的用户-影片评分表、N*N的影片-影片相似度表两个矩阵,在实际生产环境中,列数量N的取值较大,考虑把大矩阵拆分成MAC,CID,SCORE这样的形式,经过拆分后,表的列数变成固定的3列;
结合实际用户观影行为数据,求解出符合储存要求的用户-影片评分表,包括以下三个小步骤:
(1)清洗过滤相关数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910830907.3/2.html,转载请声明来源钻瓜专利网。





