转载自:《Hadoop MapReduce 二次排序原理及应用》
关于二次排序主要涉及到这么几个东西:
在0.20.0以前使用的是
- setPartitionerClass
- setOutputkeyComparatorClass
- setOutputValueGroupingComparator
在0.20.0以后使用是
- job.setPartitionerClass(Partitioner p);
- job.setSortComparatorClass([......]
转载自:《Hadoop MapReduce 二次排序原理及应用》
关于二次排序主要涉及到这么几个东西:
在0.20.0以前使用的是
在0.20.0以后使用是
转载自:http://yangguan.org/mapreduce-patterns-algorithms-and-use-cases/
翻译自:http://highlyscalable.wordpress.com/2012/02/01/mapreduce-patterns/
在这篇文章里总结了几种网上或者论文中常见的MapReduce模式和算法,并系统化的解释了这些技术的不同之处。所有描述性的文字和代码都使用了标准hadoop的MapReduce模型,包括Mappers, Red[......]
转载自一个台湾朋友写的PageRank in MapReduce
其实我一直没想到PR怎么算是因为...不知道怎么多次迭代,原来是用反复RunJob来实现的。
前言
有一陣子沒有寫MapReduce程式了,所以找個代表性的實例來練習一下...
PageRank in MapReduce
PageRank演算法最早是由Google兩位創辦人Sergey Brin & Larry Page在1998年的時候發表在World-Wide Web Conference[......]