排序 – 四火的唠叨

Hadoop 的 Secondary Sorting

Posted on 06/04/201406/23/2019 by 四火

这几天项目中使用 Hadoop 遇到一个问题，对于这样 key-value 的数据集合：id-biz object，对 id 进行 partition（比如根据某特定的 hash 算法 P），分为 a 份；使用数量为 b 的 reducer，在 reducer 里面要使用第三方组件进行批量上传；上传成文件，文件数量为 c，但是有两个要求：

上述 a、b、c 都相等，从而使得每个 partition 的数据最终都通过同一个 reducer 上传到同一个文件中去；
每个 reducer 中上传的数据要求 id 必须有序。

最开始，想到的办法是，为了保证 reducer 中的批量上传，需要使得传入 reducer 的 key 变成一个经过 hash 算法 A 计算得到的

[……]阅读全文

排序算法一览（下）：归并类、分布类和混合类排序

Posted on 12/22/201306/23/2019 by 四火

上半部分请参见《排序算法一览（上）：交换类、选择类和插入类排序》。

归并类排序

归并排序（Merge Sort）

归并排序是一种分治法，它反复将两个已经排序的序列合并成一个序列（平均时间复杂度 O(nlogn)，最好时间复杂度 O(n)）：

申请空间，使其大小为两个已经排序序列之和，该空间用来存放合并后的序列；
设定两个指针，最初位置分别为两个已经排序序列的起始位置；
比较两个指针所指向的元素，选择相对小的元素放入到合并空间，并移动指针到下一位置；
重复步骤直到某一指针达到序列尾；
将另一序列剩下的所有元素直接复制到合并序列尾。

public class Sort {
  public s

[……]阅读全文

排序算法一览（上）：交换类、选择类和插入类排序

Posted on 12/15/201306/23/2019 by 四火

sort

最近在复习常用排序算法发现了下面这个罪恶的排序方法列表页面，我被那些有趣的排序方法诱惑了，就把上面介绍的各种排序方法都整理了一遍（我觉得维基百科比其它我看过的算法书都要易懂一些），前半部分可以说还乐在其中，后半部分就有些厌烦了，不过最后总算是坚持看完了。以下是第一部分，包括交换类排序、选择类排序和插入类排序。