WordCount的一个变种版本...Hadoop Leave a reply 本来是要用Hadoop给柯西搜索写一下锚文本聚集。但是发现上个版本的爬虫居然没有存锚文本,实在无聊,写了个统计域名(实际是host)的计数器。 输入:一行一个url 流程:提取url的domain,对domain计数+1 输出:域名,域名计数 这次完全用新的API写的。 代码如下: Mapper package com.keseek.hadoop; import java.io.IOException; import java.net.URI; imp[......] 继续阅读