Hadoop – 四火的唠叨

Hadoop 的 Map-side join 和 Reduce-side join

Posted on 07/13/201406/23/2019 by 四火

hadoop join

Hadoop 中连接（join）操作很常见，Hadoop“连接” 的概念本身，和 SQL 的 “连接” 是一致的。SQL 的连接，在维基百科中已经说得非常清楚。比如 dataset A 是关于用户个人信息的，key 是用户 id，value 是用户姓名等等个人信息；dataset B 是关于用户交易记录的，key 是用户 id，value 是用户的交易历史等信息。我们当然可以对这两者以共同键用户 id 为基准来连接两边的数据。

首先，在一切开始之前，先确定真的需要使用 Hadoop 的连接操作吗？

如果要把两个数据集合放到一起操作，Hadoop 还提供了 Side Data Distribution（data sharing）的方式，

[……]阅读全文

Hadoop 的 Secondary Sorting

Posted on 06/04/201406/23/2019 by 四火

这几天项目中使用 Hadoop 遇到一个问题，对于这样 key-value 的数据集合：id-biz object，对 id 进行 partition（比如根据某特定的 hash 算法 P），分为 a 份；使用数量为 b 的 reducer，在 reducer 里面要使用第三方组件进行批量上传；上传成文件，文件数量为 c，但是有两个要求：

上述 a、b、c 都相等，从而使得每个 partition 的数据最终都通过同一个 reducer 上传到同一个文件中去；
每个 reducer 中上传的数据要求 id 必须有序。

最开始，想到的办法是，为了保证 reducer 中的批量上传，需要使得传入 reducer 的 key 变成一个经过 hash 算法 A 计算得到的

[……]阅读全文

给我一把榔头，满世界都是钉子

Posted on 11/28/201306/23/2019 by 四火

一篇文章存成一个巨大的文件，总共大约有一亿个单词，要找出里面重复次数最多的。怎么做？

Hadoop 是一把威力巨大的榔头，在使用过 Hadoop 之后，看着任何东西都想把它给 map reduce 了。有一个关于 Jeff Dean 的小笑话，说在睡不着觉的时候，一般人是数羊，Jeff Dean 是 map reduce 他的羊群。所以，我的办法是，把这个文件拆分成若干个小文件，在 map 过程用 hash 算法保证相同的单词落入一个文件（这点很重要），计算单词出现次数，在 reduce 过程取得重复次数最多的单词来。

但是，真有必要这样啰嗦吗？

只有一亿个单词，简单估算一下，一个字母占据两个字节，假设单词平均长度 5，即便

[……]阅读全文

不适合 Hadoop 解决的问题

Posted on 11/11/201312/26/2019 by 四火

因为项目的需要，学习使用了 Hadoop，和所有过热的技术一样，“大数据”、“海量” 这类词语在互联网上满天乱飞。Hadoop 是一个非常优秀的分布式编程框架，设计精巧而且目前没有同级别同重量的替代品。另外也接触到一个内部使用的框架，对于 Hadoop 做了封装和定制，使得更满足业务需求。我最近也想写一些 Hadoop 的学习和使用心得，但是看到网上那么泛滥的文章，我觉得再写点笔记一样的东西实在是没有价值。倒不如在漫天颂歌的时候冷静下来看看，有哪些不适合 Hadoop 解决的难题呢？

Hadoop

这张图就是 Hadoop 的架构图，Map 和 Reduce 是两个最基本的处理阶段，之前有输入数据格式定义和数据分片，之后 [……]阅读全文

Notes: Hadoop-based open source projects

Posted on 04/27/201306/23/2019 by 四火

Here's my notes about introduction and some hints for Hadoop-based open source projects. Hope it's useful to you.

Management Tool

Ambari: A web-based tool for provisioning, managing, and monitoring Apache Hadoop clusters which includes support for Hadoop HDFS, Hadoop MapReduce, Hive, HCata

[……]阅读全文