Hadoop单机测试

经过电话确认，终于把Rackspace激活了，又多了一个玩具，以后再跑大实验时候可以用用看。

以下主要参考Hadoop的官方教程。

2012年6月21日更新：更新到最新的版本Hadoop 1.0.3

1、下载Hadoop

wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.0.3/hadoop-1.0.3-bin.tar.gz

tar -xzvf hadoop-1.0.3-bin.tar.gz

2、设置JAVA_HOME

vim ./conf/hadoop-env.sh
# 设置为你的JDK 6位置
export JAVA_HOME=/usr/lib/jvm/java-6-sun/

3、单机测试

这实际是单机走一遍Hadoop流程，input目录下有一些文件，Hadoop的Grep例子将遍历文件，并找到匹配正则的部分。

用Shell可以轻易完成：

grep ".*dfs.*" *

用Hadoop单机跑明显慢（数据小，流程的开销占了多数）

mkdir input

cp conf/*xml input

./bin/hadoop jar ./hadoop-examples-1.0.3.jar grep input output 'dfs[a-z.]+'

完成后，会出现output文件夹，里面是结果。

四号程序员