Tag Archives: 读书笔记

Hadoop The Definitive Guide 2nd读书笔记 – 第九章

1、Hadoop集群的机器最好是多核、多通道硬盘,但不要使用RAID。选用中档机器。例如8核、16GB内存、4×1TB硬盘。

2、集群可随着规模而不断扩充,当小集群时(10的数量级),namenode和jobtracker可以放在同一台机器上(同时保证有一份NFS远端的namenode备份)即可。再大就最好分别放在两台机器上。

3、Windows这么不靠谱的东西就不要用于生产环境了,生产环境最好用Linux,或者Unix。

4、Hadoop的网络拓扑结构分为:机架内Rack(在[......]

继续阅读

Hadoop The Definitive Guide 2nd读书笔记 – 第八章

1、计数器,用于Debug或者统计,毕竟分布式系统中,想要调个Bug是非常困难的,因为机器太多。。

2、Hadoop中有10多个内置的计数器,是默认就有的,例如HDFS读/写数据量,等等……

3、用户可以自定义Counter,步骤如下:
(1)Enum
(2)reporter.incrCounter()
(3)从Web管理界面或者getCounter中获得。
class MaxTemperatureWithCounters extends Configured impleme[......]

继续阅读

Hadoop The Definitive Guide 2nd读书笔记 – 第七章

本章主要介绍了Hadoop中的各种数据类型……

1、从泛型的角度看问题。
箭头代表从输入到输出
map(k1, v1) -> list(k2, v2)
combine(k2, list(v2)) -> list(k2, v2)
reduce(k2, list(v2)) -> list(k3, v3)

2、从1中可以看到,map的输出k2 v2和reduce的输入k2和v2必须相同。
如果有combine的话,map的输出也必须和combine相匹配。[......]

继续阅读

Hadoop The Definitive Guide 2nd读书笔记 – 第六章

这张围绕着Map/Reduce的流程和一些优化。

1、Map/Reduce任务执行涉及到的四方:
client:运行JobClient的进程。
JobTracker:分配、调度任务。
TaskTracker:具体运行任务的虚拟机。
HDFS:分布式文件系统。

2、JobClient执行runJob()后,实际是submitJob(),然后进入执行流程

(1)run job
(2)向JobTracker申请JobID
(3)拷贝所需的JAR包、配置文件等到HDFS上[......]

继续阅读

Hadoop The Definitive Guide 2nd读书笔记 - 第五章

这一章主要是走开发Map/Reduce流程,另外介绍Hadoop的配置。

1、配置类org.apache.hadoop.conf.Configuration
属性名是String,Value是boolean、int、long、float、String、Class、File等。

2、上面提到的Configuration是从如下的xml配置文件中读出来的。
注意格式!
<?xml version="1.0"?>
<configuration>
<p[......]

继续阅读