1. 为什么写这篇文章
这篇文章的根源是在产品中发现了一个诡异的bug:只能在产品环境下重现,在我的本地开发环境无法重现,而双方的代码没有任何区别。最后用remote debug的方法找到异常所在:
Exception in thread "main" java.lang.IllegalArgumentException: Comparison
method violates its general contrac[......]
1. 为什么写这篇文章
这篇文章的根源是在产品中发现了一个诡异的bug:只能在产品环境下重现,在我的本地开发环境无法重现,而双方的代码没有任何区别。最后用remote debug的方法找到异常所在:
Exception in thread "main" java.lang.IllegalArgumentException: Comparison
method violates its general contrac[......]
Bash shell 打 ssh [Tab] * 2, 會列出不少網址, 通常都是 hosts 檔案內 設定的網址, 會秀出蠻多不相關的東西.
此自動補齊的功能, 主要是撈 .bash_history (歷史資料) 來做補齊, 就是 ssh [Tab] * 2, 只會出現之前有連線過的網址, 應該會方便不少.
Bash shell - ssh 命令自動補齊
設定步驟如下述:
將此行加入 .bashrc 最後一行[......]
有的时候,使用Hadoop Streaming比写Map、Reduce要轻量一些。但是由一些坑要注意。
例如,使用SequenceFile、指定分隔符等等。
hadoop jar /path/hadoop-xxxx-streaming.jar \
-D mapred.reduce.tasks=100 \
-input path/xxx \
-output path/yyy \
-file ./dna.[......]
这是 阮一峰 写的系列的文章,共6篇,对于投票类的排名计算,非常有意义,由于图、公式比较多,就直接贴出原文链接了。
基于用户投票的排名算法(一):Delicious和Hacker News
基于用户投票的排名算法(六):贝叶斯平均[......]
RT,在Hive中,使用了Group By后,是无法再sort,再取Top K的,我们可以用UDF + distributed by + sort by 实现这个功能。
参考自:EXTRACT TOP N RECORDS IN EACH GROUP IN HADOOP/HIVE
Assume you have a table with three columns: user, category and value. For each user, you want to select[......]