Tag Archives: 第六章

Hadoop The Definitive Guide 2nd读书笔记 – 第六章

这张围绕着Map/Reduce的流程和一些优化。

1、Map/Reduce任务执行涉及到的四方：
client：运行JobClient的进程。
JobTracker：分配、调度任务。
TaskTracker：具体运行任务的虚拟机。
HDFS：分布式文件系统。

2、JobClient执行runJob()后，实际是submitJob()，然后进入执行流程

(1)run job
(2)向JobTracker申请JobID
(3)拷贝所需的JAR包、配置文件等到HDFS上[......]