Category Archives: Python

Python中将list等分成N块

#arr是被分割的list,n是每个chunk中含n元素。
def chunks(arr, n):
return [arr[i:i+n] for i in range(0, len(arr), n)]

#或者让一共有m块,自动分(尽可能平均)
#split the arr into N chunks
def chunks(arr, m):
n = int(math.ceil(len(arr) / float(m)))
return [arr[i:i +[......]

继续阅读

Hadoop小集群(5结点)测试

1、Map/Reduce任务
输入:
文件格式
id value
其中id是1~100之间的随机整数,value为1~100之间的随机浮点数。
输出:
每个id的最大value

生成这类文件,可以用python搞定,见本文末尾的附录。

2、Map/Reduce程序
这里就直接使用新(0.20.2)的API了,即org.apache.hadoop.mapreduce.*下的接口。
特别注意:
job.setNumReduceTasks(5)
指定了本Job的Redu[......]

继续阅读

Python中多字符的逐一替换:string.translate()

有的时候,我们需要对多个字符进行逐一替换,一个应用场景就是去掉文章中所有的换行。

而用正则神马的有点大才小用,而一个一个replace也很麻烦,translate提供了这样的功能。
>>> str = " a\tb\rc\n "
>>> print str
ca b

#创建翻译(替换)表,并替换,搞定
>>> import string
>>> tb = string.maketrans("\r\n\t[......]

继续阅读