Category Archives: 大数据技术

Hadoop / Hive / HBase / Mahout

升级到JDK 7后,Sort出现兼容性问题的解法。

在昨天的文章 TimSort in Java 7 中,我们讨论了升级到JDK 7后,Collection的sort方法,出现兼容性问题的原因。

究其根本,还是我们写的compare函数不够严谨。

本文主要针对Hadoop、Hive,从系统的部署、配置层面提出一些解法。

1、Hive

在执行前,指定JVM选项。
set mapreduce.map.java.opts=-Xmx2000m -Djava.util.Arrays.useLegacyMergeSort=true[......]

继续阅读

Hive中的TRANSFORM:使用脚本完成Map/Reduce。

数据、例子,修改自:《Hive with Python example》

首先来看一下数据:
hive> select * from test;
OK
1 3
2 2
3 1
假设,我们要输出每一列的md5值。在目前的hive中是没有这个udf的。

我们看一下Python的代码:
#!/home/tops/bin/python

import sys
import hashlib

for line in sys.st[......]

继续阅读