Category Archives: 大数据技术

Hadoop / Hive / HBase / Mahout

Hive自定义UDF/UDAF/UDTF中,如何获得List的ObjectInspector

在Hive中,在使用GenercU**F实现自定义UDF/UDAF/UDTF时,经常要制定输出类型,其中要获得一个ObjectInspector。

对于基础类型:
PrimitiveObjectInspectorFactory.javaStringObjectInspector)
对于List等复合类型,要2步:
ObjectInspectorFactory
.getStandardListObjectInspector(PrimitiveObjectInspectorFa[......]

继续阅读

如何拓展Hadoop的InputFormat为其他分隔符

在Hadoop中,常用的TextInputFormat是以换行符作为Record分隔符的。

在实际应用中,我们经常会出现一条Record中包含多行的情况,例如:
<doc>
....
</doc>
此时,需要拓展TextInputFormat以完成这个功能。

先来看一下原始实现:
public class TextInputFormat extends FileInputFormat<LongWritable, Text> {[......]

继续阅读