单词 – 四火的唠叨

一篇文章存成一个巨大的文件，总共大约有一亿个单词，要找出里面重复次数最多的。怎么做？

Hadoop 是一把威力巨大的榔头，在使用过 Hadoop 之后，看着任何东西都想把它给 map reduce 了。有一个关于 Jeff Dean 的小笑话，说在睡不着觉的时候，一般人是数羊，Jeff Dean 是 map reduce 他的羊群。所以，我的办法是，把这个文件拆分成若干个小文件，在 map 过程用 hash 算法保证相同的单词落入一个文件（这点很重要），计算单词出现次数，在 reduce 过程取得重复次数最多的单词来。

但是，真有必要这样啰嗦吗？

只有一亿个单词，简单估算一下，一个字母占据两个字节，假设单词平均长度 5，即便

[……]阅读全文

Tag: 单词

给我一把榔头，满世界都是钉子