[发明专利]一种hadoop实现的ItemCF推荐方法在审
申请号: | 201610147811.3 | 申请日: | 2016-03-09 |
公开(公告)号: | CN107180063A | 公开(公告)日: | 2017-09-19 |
发明(设计)人: | 贾春朴;徐宝华;孙玉林;张福元;陈守森 | 申请(专利权)人: | 山东商务职业学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 264000 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 hadoop 实现 itemcf 推荐 方法 | ||
技术领域
本发明涉及一种数据处理方法,尤其涉及一种计算机大数据处理方法。
背景技术
随着电子商务的快速发展,电子商务网站以其便捷、实惠的特点征服了越来越多的用户,人们越来越倾向于网上购物。同时,商家所提供的商品种类和数量都急剧增长。海量的商品信息同时呈现使得用户感觉无所适从,很难从中找到自己真正想要的商品,信息的使用效率反而降低,因此,如何根据每个用户的偏好信息从电子商务网站海量信息中寻找满足特定用户的需求的商品推荐给用户,已经成为当前一个亟待解决的问题。
发明内容
Hadoop系统是一个分布式存储和计算平台,能够对海量数据进行可靠、高效的处理,其核心架构分为两部分:Hadoop分布式文系统,简称HDFS:Hadoop分布式计算架构MapReduce,用于大数据的计算分析处理。Mahout是Hadoop家族的一员,支持Hadoop的MapReduce实现。并提供一些可扩展的机器学习领域的经典算法,ItemCF是基于项目的协同过滤推荐算法,通过用户对不同item的评分来评测item之间的相似性,基于item之间的相似性做出推荐。Mahout中实现分布式的ItemCF主要分三步:构建用户向量、构造同现矩阵、产生推荐结果。
传统的对基于项目的协同过滤算法实现比较简单,这样做使得推荐的结果不够准确,造成不准确的原因有两点:
1.相似度的计算只考虑项目被共同评价的次数,不再依赖推荐评分;
2.在最后计算对用户的预测偏好值时只是简单的将所有的值加在一起,而没有对和用户评分较高的项目相似的项目奖励推荐值,也没有对与用户评分较低的项目相似的项目惩罚推荐值。
针对Mahout中基于项目协同过滤推荐算法不够准确的问题,本发明提出了基于平均分向量的推荐方法。计算预测评分使用所有用户对每一个项目的平均评分,构建所有项目的平均分向量,即
其中是第i(i=1,2,...,n)项的平均评分。
重新将预测评分的计算方式更改为下面的计算方式:
其中,j表示的是同现矩阵的行号。
步骤一、搭建Hadoop集群平台,每台计算机安装操作系统和Hadoop软件。
步骤二、数据预处理,根据要求对项目评分日志进行清洗,删除与任务不相关的数据并合并某些记录,对用户请求页面时发生错误的记录进行适当的处理。
步骤三:计算项目的平均分向量,使用Map/Reduce将所有用户对某个商品的评分求均值,输入数据为用户的评分日志。
步骤四:构建用户向量,扫描所有的用户评分日志,将用户的评分与项目的平均评分向量作减运算,输入数据为用户的评分日志,输出数据为用户向量。
步骤五:构建同现矩阵,将上一步骤产生的用户向量,转换成同现矩阵,该同现矩阵中的值表示两个项目被相同用户喜欢的次数。
步骤六:矩阵乘法,将用户向量及同现矩阵作矩阵乘法计算用户对商品的偏好值,使用map函数链的方式,将同现矩阵列包装的map函数及用户评分分解map函数的输出作为矩阵部分积输入。
步骤七:产生推荐:推荐值计算出来后并对推荐值排序。
本发明的显著效果在于通过提出一种新的基于平均分向量的方法,可以很好的解决Hadoop在基于项目的协同过滤推荐方法中推荐的结果不够准确的问题。
附图说明
图1为本发明的结构图。
具体实施方式
根据图1所示,本发明的方法具体为步骤一、搭建Hadoop集群平台,每台计算机安装操作系统和Hadoop软件,根据Hadoop的要求,保持所有所有机器上Hadoop的部署目录结构及用户名的账号相同。配置SSH无密钥访问方式。在Hadoop中,主节点是以SSH的方式来管理各个从节点上的守护进程,因此需要配置SSH使用无密码公钥认证的方式。在Hadoop集群的每台机器上安装JDK环境,并配置系统的java环境,然后通过Hadoop/config目录下的hadoop-env.sh中设置Hadoop需要的java环境变量,通过将JAVA_HOME的值来设置java环境变量。配置Hadoop运行参数,主要在core-site.xml,hdfs-site.xml和mapred-site.xml三个文件中配置参数。
步骤二、数据预处理,根据要求对项目评分日志进行清洗,删除与任务不相关的数据并合并某些记录,对用户请求页面时发生错误的记录进行适当的处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东商务职业学院,未经山东商务职业学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610147811.3/2.html,转载请声明来源钻瓜专利网。