[发明专利]基于Haloop的BlogRank算法并行化处理的构建方法无效
| 申请号: | 201310119937.6 | 申请日: | 2013-04-08 |
| 公开(公告)号: | CN103279328A | 公开(公告)日: | 2013-09-04 |
| 发明(设计)人: | 娄渊胜;张文渊;叶枫;许峰;陈胜 | 申请(专利权)人: | 河海大学 |
| 主分类号: | G06F9/38 | 分类号: | G06F9/38 |
| 代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 李玉平 |
| 地址: | 210098 *** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 haloop blogrank 算法 并行 处理 构建 方法 | ||
1.一种基于Haloop的BlogRank算法并行化处理的构建方法,其特征在于,包括如下步骤:
步骤1:运用MapReduce编程模型的计算原理进行数据预处理,即:将数据按照Haloop框架的用户配置进行备份、拷贝、转移;此外,将一次迭代过程转化成两个MapReduce任务,第一个MapReduce任务用于计算每个出链博客所获得BR贡献量,第二个MapReduce任务用于计算汇总所有的BR值贡献量;
步骤2:在第一个MapReduce任务的Map阶段,在各节点中并行地执行Map任务,将输入数据中的循环不变量和循环变量分离开来;
步骤3:在第一个MapReduce任务的Reduce阶段,运用BlogRank算法公式并行地计算出每一个出链博客所获得的本地BR值贡献量;
步骤4:在第二个MapReduce任务的Map阶段,将Job1的输出数据进行排序整合,不经过计算处理直接输出作为该MapReduce任务的中间结果;
步骤5:在第二个MapReduce任务的Reduce阶段,按照BlogRank算法的公式对每一个博客所获得的BR值贡献量进行合计;形成当前的博客BR值表,并进行临界点检测;
步骤6:若超过用户设定的最大迭代次数或结果达到临界点,则停止迭代,向Master节点输出结果;否则,转到步骤2。
2.如权利要求1所述的基于Haloop的BlogRank算法并行化处理的构建方法,其特征在于,在所述步骤2中,通过做标记的形式表示循环不变数据和循环变化数据,将每一对博客链接提取出来,标记为“#”,表示为循环不变数据,将每一个博客及其BR值提取出来,标记为“*”,表示为循环变化数据。
3.如权利要求2所述的基于Haloop的BlogRank算法并行化处理的构建方法,其特征在于,在所述步骤3中,通过使用输入缓存,将Map任务输出中的循环不变数据缓存起来,也就是将输入数据中标记为“#”的数据项缓存起来。
4.如权利要求1所述的基于Haloop的BlogRank算法并行化处理的构建方法,其特征在于,在所述步骤5中,将每一个Reduce任务的输出缓存至Reducer输出缓存中,并进行本地化的临界点检测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310119937.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种任务调度的方法及装置
- 下一篇:一种去屑香波组合物





