如何在Hadoop中控制map的个数

hadoop提供了一个设置map个数的参数mapred.map.tasks，我们可以通过这个参数来控制map的个数。但是通过这种方式设置map的个数，并不是每次都有效的。原因是mapred.map.tasks只是一个hadoop的参考数值，最终map的个数，还取决于其他的因素。
为了方便介绍，先来看几个名词：
block_size : hdfs的文件块大小，默认为64M，可以通过参数dfs.block.size设置
total_size[......]

继续阅读

[转载]Hive 窗口函数、分析函数应用场景

Leave a reply

Hive 0.12后，支持了窗口函数、分析函数 (具体见官方wiki)

转载自《HIVE 窗口及分析函数应用场景》：

窗口函数应用场景：

（1）用于分区排序
（2）动态Group By
（3）Top N
（4）累计计算
（5）层次查询

一、分析函数
用于等级、百分点、n分片等。
函数说明
RANK() 返回数据项在分组中的排名，排名相等会在名次中留下空位
DENSE_RANK() 返回数据项在分组中的排名，排名相等会在名次中不会留下空位
NTILE([......]

继续阅读

MySQL导出库中的多个表

Leave a reply

mysqldump，默认是导出整个库的，我们可以让它导出库的某些表：
mysqldump -h mysql_host -P port -u user -p database_name table_1 table_2 table_3 --default-character-set=utf8 --lock-tables=false
上面还附加了2个选项：默认编码utf8、跳过锁表操作(可能会带来数据不一致，但不要求锁表权限)。

如果只希望导入数据，不删除、添加表，还需要附加：

--[......]
继续阅读

Linux Shell下，将时间戳转化为可读时间格式

Leave a reply

1、从timestamp到"年月日时分秒"
date -d @1398151127 +%Y%m%d%H%M%S
会输出：
20140422151847
2、

[......]

继续阅读

Mahout - Clustering (聚类篇)

7 Replies

什么是Mahout？

" Apache Mahout™ project's goal is to build a scalable machine learning library "

我来拓展一下：
(1) Mahout 是Apache旗下的开源项目，集成了大量的机器学习算法。
(2) 大部分算法，可以运行在Hadoop上，具有很好的拓展性，使得大数据上的机器学习成为可能。

本篇主要探讨 Mahout 0.9 中的聚类(Clustering)工具的用法。

一、数据准[......]

继续阅读

四号程序员

Keep It Simple and Stupid

如何在Hadoop中控制map的个数

[转载]Hive 窗口函数、分析函数应用场景

MySQL导出库中的多个表

Linux Shell下，将时间戳转化为可读时间格式

Mahout - Clustering (聚类篇)