什么是Mahout?
" Apache Mahout™ project's goal is to build a scalable machine learning library "
我来拓展一下:
(1) Mahout 是Apache旗下的开源项目,集成了大量的机器学习算法。
(2) 大部分算法,可以运行在Hadoop上,具有很好的拓展性,使得大数据上的机器学习成为可能。
本篇主要探讨 Mahout 0.9 中的聚类(Clustering)工具的用法。
一、数据准[......]
什么是Mahout?
" Apache Mahout™ project's goal is to build a scalable machine learning library "
我来拓展一下:
(1) Mahout 是Apache旗下的开源项目,集成了大量的机器学习算法。
(2) 大部分算法,可以运行在Hadoop上,具有很好的拓展性,使得大数据上的机器学习成为可能。
本篇主要探讨 Mahout 0.9 中的聚类(Clustering)工具的用法。
一、数据准[......]
在昨天的文章 TimSort in Java 7 中,我们讨论了升级到JDK 7后,Collection的sort方法,出现兼容性问题的原因。
究其根本,还是我们写的compare函数不够严谨。
本文主要针对Hadoop、Hive,从系统的部署、配置层面提出一些解法。
1、Hive
在执行前,指定JVM选项。
set mapreduce.map.java.opts=-Xmx2000m -Djava.util.Arrays.useLegacyMergeSort=true[......]
有的时候,使用Hadoop Streaming比写Map、Reduce要轻量一些。但是由一些坑要注意。
例如,使用SequenceFile、指定分隔符等等。
hadoop jar /path/hadoop-xxxx-streaming.jar \
-D mapred.reduce.tasks=100 \
-input path/xxx \
-output path/yyy \
-file ./dna.[......]
关于在hadoop中,如何让reduce阶段同一个key下的values有序,一篇很好的文章,写的比《Hadoop权威指南》清楚!
转载自:
http://www.bigdataspeak.com/2013/02/hadoop-how-to-do-secondary-sort-on_25.html
The problem at hand here is that you need to work upon a sorted values set in your reducer.[......]
转载自:http://yangguan.org/mapreduce-patterns-algorithms-and-use-cases/
翻译自:http://highlyscalable.wordpress.com/2012/02/01/mapreduce-patterns/
在这篇文章里总结了几种网上或者论文中常见的MapReduce模式和算法,并系统化的解释了这些技术的不同之处。所有描述性的文字和代码都使用了标准hadoop的MapReduce模型,包括Mappers, Red[......]