Category Archives: 大数据技术

Hadoop / Hive / HBase / Mahout

Hive中的InputFormat、OutputFormat与SerDe

1 Reply

前言
Hive中，默认使用的是TextInputFormat，一行表示一条记录。在每条记录(一行中)，默认使用^A分割各个字段。

在有些时候，我们往往面对多行，结构化的文档，并需要将其导入Hive处理，此时，就需要自定义InputFormat、OutputFormat，以及SerDe了。

首先来理清这三者之间的关系，我们直接引用Hive官方说法：

SerDe is a short name for "Serializer and Deserializer."
Hive us[......]

继续阅读

Hive如何在GROUP BY 后，获取每个GROUP的Top N

1 Reply

转载自：http://stackoverflow.com/questions/9390698/hive-getting-top-n-records-in-group-by-query

原标题：Hive getting top n records in group by query
SELECT page-id, user-id, clicks
FROM (
SELECT page-id, user-id, rank(page-id) as rank, clicks FROM[......]

继续阅读

Hive中Group By的去重

1 Reply

在Hive的是用中，我们经常会有这种需求：

按照同一个id进行Ｇroup By，然后对另一个字段去重，例如下面得数据：
id pic
1 1.jpg
2 2.jpg
1 1.jpg
此时，是用DISTINCT或者2 col得Group By都是不行得，我们可以用这个UDAF：collect_set(col)，它将对同一个group by 得key进行set去重后，转换为一个array。

再举一个例子，我们可以对pic进行去重，拼接：
SELECT id, CONCAT_W[......]

继续阅读

如何在Hive中使用Json格式数据

Hive的SELECT时，打印列名，以及key value显示

四号程序员

Keep It Simple and Stupid

Category Archives: 大数据技术

Hive中的InputFormat、OutputFormat与SerDe

Hive如何在GROUP BY 后，获取每个GROUP的Top N

Hive中Group By的去重

如何在Hive中使用Json格式数据

Hive的SELECT时，打印列名，以及key value显示