有的时候,使用Hadoop Streaming比写Map、Reduce要轻量一些。但是由一些坑要注意。
例如,使用SequenceFile、指定分隔符等等。
hadoop jar /path/hadoop-xxxx-streaming.jar \
-D mapred.reduce.tasks=100 \
-input path/xxx \
-output path/yyy \
-file ./dna.[......]