Join – 四火的唠叨

hadoop join

Hadoop 中连接（join）操作很常见，Hadoop“连接” 的概念本身，和 SQL 的 “连接” 是一致的。SQL 的连接，在维基百科中已经说得非常清楚。比如 dataset A 是关于用户个人信息的，key 是用户 id，value 是用户姓名等等个人信息；dataset B 是关于用户交易记录的，key 是用户 id，value 是用户的交易历史等信息。我们当然可以对这两者以共同键用户 id 为基准来连接两边的数据。

首先，在一切开始之前，先确定真的需要使用 Hadoop 的连接操作吗？

如果要把两个数据集合放到一起操作，Hadoop 还提供了 Side Data Distribution（data sharing）的方式，

[……]阅读全文

Tag: Join

Hadoop 的 Map-side join 和 Reduce-side join