[发明专利]一种根据海量数据进行应用相似度判断的方法及系统在审
申请号: | 201210238193.5 | 申请日: | 2012-07-10 |
公开(公告)号: | CN103544625A | 公开(公告)日: | 2014-01-29 |
发明(设计)人: | 刘一丁 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02 |
代理公司: | 北京汉昊知识产权代理事务所(普通合伙) 11370 | 代理人: | 朱海波 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 根据 海量 数据 进行 应用 相似 判断 方法 系统 | ||
技术领域
本发明涉及海量数据分析领域,具体地说涉及一种根据海量数据进行应用相似度判断的方法及系统。
背景技术
随着技术的发展以及更好地提高用户体验的需求,在用户选择某一应用,视频或者书籍等各种内容时,大部分系统都会为用户推荐与用户所选内容相关的内容供用户参考或者选择。这种相关内容的推荐源于推荐系统对海量数据的处理,在经过对海量用户数据进行分析计算之后,才可以为用户推荐更适合、匹配度更好的内容。
在目前推荐系统中,通常使用协同过滤计算产生推荐结果。在这种方法中,需要计算用户-项目(应用)评价矩阵及其转置矩阵的乘法。现有技术中,采用多线程方法计算矩阵乘法,尽管目前多核心计算机应用十分普遍,但多线程编程难以实现,并且容易出错。另外,虽然多线程的计算能力比单线程强,但是仍受限于单机核心数量,因此扩展性很差,无法获得强大的计算性能和扩展能力。
因此,随着用户数据的不断积累,单机计算海量数据组成的矩阵乘法将变得非常困难,采用分布式计算的方式分析处理用户数据势在必行。
发明内容
本发明提供一种根据海量数据进行应用相似度判断的方法,用于根据海量的用户数据,高效、实时、准确地获取各种应用之间的相似度。
根据本发明的一个方面,提供一种根据海量数据进行应用相似度判断的方法,其中,包括以下步骤:
a)获取至少两个用户对至少两个应用的评分;
b)根据所述评分生成评分矩阵;
c)根据Map-Reduce模型计算所述矩阵中任意两个应用的相似度。
根据本发明的另一个方面,提供一种根据海量数据进行应用相似度判断的系统,其中,包括:
获取装置,用于获取至少两个用户对至少两个应用的评分;
生成装置,用于根据所述评分生成评分矩阵;
计算装置,用于根据Map-Reduce模型计算所述矩阵中任意两个应用的相似度。
本发明提供的根据海量数据进行应用相似度判断的方法及系统。在协同计算中,协同过滤的关键在于评价矩阵及其转置矩阵的相乘结果。本发明的方法利用Map-Reduce的计算思想,将矩阵乘法的各个元素乘积与加和分别在Map和Reduce两步实现,再输出最终结果。MapReduce是一种编程模型。在这种编程模型下,用户通过定义一个map函数和一个reduce函数来解决问题。map函数对用户输入的键/值对(key/value pair)进行处理(处理时可能只有值这一项有用),生成一系列新的键/值对作为中间结果;系统(MapReduce的实现)对map函数生成的键/值对进行处理,将同属于一个键(key)的值(value)组合在一起,生成键/值列表((key/list of values)pair)对;reduce函数将键/值列表对作为输入,对同属于一个键的值列表进行处理,生成最终处理结果输出。如果一个问题可以通过MapReduce编程模型来表达和解决,就可以通过MapReduce系统自动获得并行执行能力。程序员不需要有并行程序设计的经验,只需要定义map和reduce函数。由于Map-Reduce的实现一般都是海量分布式计算平台(如Hadoop),因此本方法对海量用户数据的协同过滤计算十分有效,可以充分解决单机计算性能不足、存储空间有限的问题,为协同过滤的推荐系统在海量数据集上的应用提供了可能。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为根据本发明的一种根据海量数据进行应用相似度判断的方法的一种具体实施方式的流程示意图;
图2为根据本发明的一种根据海量数据进行应用相似度判断的系统的一种具体实施方式的结构示意图;
图3为根据本发明的一种根据海量数据进行应用相似度判断的系统的另一种具体实施方式的结构示意图;
图4为根据本发明的一种根据海量数据进行应用相似度判断的系统的又一种具体实施方式的结构示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明的实施例作详细描述。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210238193.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种球磨机自动装球机
- 下一篇:一种畜禽养殖用复合菌剂
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置