经过电话确认,终于把Rackspace激活了,又多了一个玩具,以后再跑大实验时候可以用用看。
以下主要参考Hadoop的官方教程。
2012年6月21日更新:更新到最新的版本Hadoop 1.0.3
1、下载Hadoop
wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.0.3/hadoop-1.0.3-bin.tar.gz tar -xzvf hadoop-1.0.3-bin.tar.gz
2、设置JAVA_HOME
vim ./conf/hadoop-env.sh # 设置为你的JDK 6位置 export JAVA_HOME=/usr/lib/jvm/java-6-sun/
3、单机测试
这实际是单机走一遍Hadoop流程,input目录下有一些文件,Hadoop的Grep例子将遍历文件,并找到匹配正则的部分。
用Shell可以轻易完成:
grep ".*dfs.*" *
用Hadoop单机跑明显慢(数据小,流程的开销占了多数)
mkdir input cp conf/*xml input ./bin/hadoop jar ./hadoop-examples-1.0.3.jar grep input output 'dfs[a-z.]+'
完成后,会出现output文件夹,里面是结果。