Distributed System – 四火的唠叨

聊一聊分布式系统中的时间

Posted on 10/20/202405/31/2025 by 四火

今天聊一下时间的话题。在分布式系统中，“时间” 是一个挺有趣，但是很难处理的东西。我把自己的理解简单整理下来。

不可靠的物理时钟

首先，单一节点的物理时钟是不可靠的。

物理时钟本身就有偏差，可是除此之外，可以引起节点物理时钟不准确的原因太多了，比如 clock jump。考虑到 NTP 协议，它基于 UDP 通信，可以从权威的时钟源获取信息，进行自动的时间同步，这就可能会发生 clock jump，它就是说，时钟始终会不断进行同步，而同步回来的时间，是有可能不等于当前时间的，那么系统就会设置当前时间到这个新同步回来的时间。即便没有这个原因，考虑到数据从网络传输的延迟，处理数据的延迟等等，物

[……]阅读全文

Continue reading

几个有意思的分布式系统设计模式

Posted on 10/01/202403/15/2025 by 四火

分布式系统有它特有的设计模式，无论意识到还是没有意识到，我们都会接触很多，网上这方面的材料不少，比如《Catalog of Patterns of Distributed Systems》，还有《Cloud Design Patterns》等等。这里简单谈谈几个我接触过的，也觉得比较有意思的模式。

LSM Tree

对于这个话题，基本上第一个在我脑海里蹦出来的就是 LSM 树（Log Structured Merge Tree）。其实，LSM 树本来只是指一种数据结构，这种数据结构对于大吞吐量的写入做了性能上的优化（比如日志写入），同时对于根据 key 的读取也有不错的性能。换言之，对于读写

[……]阅读全文

Continue reading

本地部署 Minikube + Docker 记录

Posted on 09/26/202410/02/2024 by 四火

我有 Mac 和 Windows，这些年折腾软件方面的环境 Linux 用得比较多，最近想安装一个 Kubernetes 的本地环境，本着 “生命不息，折腾不止” 的精神，打算在 Windows 上动手。了解到可以尝试 Minikube，在此简单记录一下。

首先得要安装 Docker，但是在 Windows 下跑 Docker 有两种方式，WSL（Windows Subsystem for Linux）或者 Hyper-V。我首先把这些 Windows 组件都勾上：

我两条路都去走了一下，为了使用 Hyper-V，我还去 BIOS 里面打开虚拟化支持的选项。不过，后来才知道，因为操作系统版本是 Windows 10 Ho

[……]阅读全文

Continue reading

谈谈分布式锁

Posted on 09/18/202409/19/2024 by 四火

不要使用分布式锁

就像 Martin Fowler 说的那样，“分布式调用的第一原则就是不要分布式”，谈分布式锁也要先说，不要使用分布式锁。原因很简单，分布式系统是软件系统中复杂的一种形式，而分布式锁是分布式系统中复杂的一种形式，没有必要的复杂性就不要引入。

有的逻辑是没有副作用的（纯函数代码），那就可以无锁执行；有的数据经过合理的 sharding 之后，可以使用单线程（单节点）执行，那就单线程执行。

比如一种常见的模式就是使用 queue（比如 Kafka），任务全部放到队列中，然后根据 sharding 的逻辑，不同的 consumer 来处理不同的任务，互相之间不会干扰冲突。

还有

[……]阅读全文

Continue reading

从物理时钟到逻辑时钟

Posted on 12/28/201907/04/2022 by 四火

一个分布式系统，经常需要面对同一份数据在不同时间的更改，这个更改可能来自不同节点间数据的同步，也可能来自系统对于客户端写请求的处理，那么这样的更改就可能出现冲突问题。而基于事件发生顺序的冲突问题的解决，是很多分布式系统，在一致性方面，都必须要仔细考虑和妥善处理的问题。我曾经阅读过一些互联网上的材料，但是没有发现哪个能比较系统且简洁地把这个问题和解决描述清楚的，我觉得我也许能够做得更好，于是有了本文。下面我来通过简单的例子介绍这类问题的产生，以及应对的思路。

我来举一个简单例子：

你可以看到，往右的箭头表示在一个分布式系统中，A、B、C 三个节点上，实际时间流逝的时间轴。节点 A[……]阅读全文

Continue reading

分布式系统中唯一 ID 的生成

Posted on 06/30/201706/23/2019 by 四火

其实老早就像写一点这个话题。几乎我见过的所有大型系统中，都需要一个唯一 ID 的生成逻辑。别看小小的 ID，需求和场景还挺多：

这个 ID 多数为数字，但有时候是数字字母的组合；
可能随机，也可能要求随时间严格递增；
有时 ID 的长度和组成并不重要，有时候却要求它严格遵循规则，或者考虑可读性而要求长度越短越好；
某些系统要求 ID 可以预期，某些系统却要求 ID 随机性强，无法猜测（例如避免爬虫等等原因）。

独立的生成服务

比如数据库。最常见的一种，也是应用最多的一种，就是利用数据库的自增长序列。比如 Oracle 中的 sequence 的 nextVal。有多台 application 的 h[……]阅读全文

Continue reading

工作流系统的设计

Posted on 08/19/201606/23/2019 by 四火

workflow

几年前曾经写过一点点对于缓存框架设计的体会，这大半年和工作流系统打交道颇为丰富，因此想总结一点关于工作流系统的设计。

首先，明确工作流（workflow）系统的定义。维基百科上有极其简单的介绍。我记得以前在文章里面说过，作为大公司里面的小 team，为了做一些有趣的东西，从而更好的招人，通常有几个众人皆知的突破口：比如一个更符合业务需求的 storage，再比如一个自定义的工作流系统。在 Amazon 内部，我接触过好多个 workflow，而且大多以 Amazon SWF 为原型（当时学习的时候还写了一点体会，link 1 和 link 2），于是宏观上看，60% 的东西是一样的，大同小异；但是也有很多重

[……]阅读全文

Continue reading

Spark 性能优化——和 shuffle 搏斗

Posted on 05/22/201606/23/2019 by 四火

Spark

Spark 的性能分析和调优很有意思，今天再写一篇。主要话题是 shuffle，当然也牵涉一些其他代码上的小把戏。

以前写过一篇文章，比较了几种不同场景的性能优化，包括 portal 的性能优化，web service 的性能优化，还有 Spark job 的性能优化。Spark 的性能优化有一些特殊的地方，比如实时性一般不在考虑范围之内，通常我们用 Spark 来处理的数据，都是要求异步得到结果的数据；再比如数据量一般都很大，要不然也没有必要在集群上操纵这么一个大家伙，等等。事实上，我们都知道没有银弹，但是每一种性能优化场景都有一些特定的 “大 boss”，通常抓住和解决大 boss 以后，能解决其中一大部分问题。比

[……]阅读全文

Continue reading

一种工作流心跳机制的设计

Posted on 04/28/201606/23/2019 by 四火

最近工作中一直和 SWF（Amazon 的 Simple Work Flow）打交道，在一个基于 SWF 的工作流框架上面开发和修 bug。SWF 的 activity 超时时间是 5 分钟，在 activity task 开始执行以后，activity worker 需要主动发送心跳请求告知 service 端：“我还活着，我还在干活”，如果出现超过 5 分钟（可以配置）没有心跳，SWF 的 service 端就认为，你已经挂了，我需要把这个 activity 安排到别的 activity worker 上来执行了。借用 AWS 官网的一张图：

heartbeat

每台机器上有若干个 activity task 在被执行。可以看到，在 activity 任务启动起来以后

[……]阅读全文

Continue reading

Notes: Spark metrics

Posted on 03/07/201606/23/2019 by 四火

Below are some notes taken for future reference based on the brainstorm meeting last week, with company confidential information removed.

Background

The team use a home made workflow to manage the computation for the cost and profit, and there’s a lack of statistics for the jobs and input/output, us

[……]阅读全文

Continue reading

Spark 的性能调优

Posted on 12/21/201506/23/2019 by 四火

Spark

下面这些关于 Spark 的性能调优项，有的是来自官方的，有的是来自别的的工程师，有的则是我自己总结的。

基本概念和原则

首先，要搞清楚 Spark 的几个基本概念和原则，否则系统的性能调优无从谈起：

每一台 host 上面可以并行 N 个 worker，每一个 worker 下面可以并行 M 个 executor，task 们会被分配到 executor 上面去执行。Stage 指的是一组并行运行的 task，stage 内部是不能出现 shuffle 的，因为 shuffle 的就像篱笆一样阻止了并行 task 的运行，遇到 shuffle 就意味着到了 stage 的边界。
CPU 的 core 数量，每个 executor 可以占用一个或多个 core

[……]阅读全文

Continue reading

Hadoop 的 Map-side join 和 Reduce-side join

Posted on 07/13/201406/23/2019 by 四火

hadoop join

Hadoop 中连接（join）操作很常见，Hadoop“连接” 的概念本身，和 SQL 的 “连接” 是一致的。SQL 的连接，在维基百科中已经说得非常清楚。比如 dataset A 是关于用户个人信息的，key 是用户 id，value 是用户姓名等等个人信息；dataset B 是关于用户交易记录的，key 是用户 id，value 是用户的交易历史等信息。我们当然可以对这两者以共同键用户 id 为基准来连接两边的数据。

首先，在一切开始之前，先确定真的需要使用 Hadoop 的连接操作吗？

如果要把两个数据集合放到一起操作，Hadoop 还提供了 Side Data Distribution（data sharing）的方式，

[……]阅读全文

Continue reading

Hadoop 的 Secondary Sorting

Posted on 06/04/201406/23/2019 by 四火

这几天项目中使用 Hadoop 遇到一个问题，对于这样 key-value 的数据集合：id-biz object，对 id 进行 partition（比如根据某特定的 hash 算法 P），分为 a 份；使用数量为 b 的 reducer，在 reducer 里面要使用第三方组件进行批量上传；上传成文件，文件数量为 c，但是有两个要求：

上述 a、b、c 都相等，从而使得每个 partition 的数据最终都通过同一个 reducer 上传到同一个文件中去；
每个 reducer 中上传的数据要求 id 必须有序。

最开始，想到的办法是，为了保证 reducer 中的批量上传，需要使得传入 reducer 的 key 变成一个经过 hash 算法 A 计算得到的

[……]阅读全文

Continue reading

Dynamo 的实现技术和去中心化

Posted on 04/28/201406/23/2019 by 四火

Amazon Dynamo 是分布式的 key-value 系统，最近阅读了 Dynamo 最初的论文《Dynamo: Amazon's Highly Available Key-value Store》，本文想聊一聊它的去中心化（decentralization）。既有阅读相关材料后对其实现的理解，也有自己的思考，其中如有不正确言论欢迎指出。

中心节点

通常，我们见到的分布式存储结构都是具备中心（总控）节点的，比如 Google File System（GFS），包括了中心的 Master 和数据节点 Chunck Server；再比如 HDFS，包括了中心的 Name Node 和数据节点 Data

[……]阅读全文

Continue reading

不适合 Hadoop 解决的问题

Posted on 11/11/201312/26/2019 by 四火

因为项目的需要，学习使用了 Hadoop，和所有过热的技术一样，“大数据”、“海量” 这类词语在互联网上满天乱飞。Hadoop 是一个非常优秀的分布式编程框架，设计精巧而且目前没有同级别同重量的替代品。另外也接触到一个内部使用的框架，对于 Hadoop 做了封装和定制，使得更满足业务需求。我最近也想写一些 Hadoop 的学习和使用心得，但是看到网上那么泛滥的文章，我觉得再写点笔记一样的东西实在是没有价值。倒不如在漫天颂歌的时候冷静下来看看，有哪些不适合 Hadoop 解决的难题呢？

Hadoop

这张图就是 Hadoop 的架构图，Map 和 Reduce 是两个最基本的处理阶段，之前有输入数据格式定义和数据分片，之后 [……]阅读全文

Continue reading

Notes: Hadoop-based open source projects

Posted on 04/27/201306/23/2019 by 四火

Here's my notes about introduction and some hints for Hadoop-based open source projects. Hope it's useful to you.

Management Tool

Ambari: A web-based tool for provisioning, managing, and monitoring Apache Hadoop clusters which includes support for Hadoop HDFS, Hadoop MapReduce, Hive, HCata

[……]阅读全文

Continue reading

关于“ 无状态”，从 Amazon 的工作流框架中获得的思考

Posted on 03/22/201206/23/2019 by 四火

这个话题是从我对 Amazon 云平台的工作流框架 AWS Flow Framework 的使用研究中想到的，对于一个工作流引擎来说，一个完整工作流的某个阶段完成后，当前阶段的状态必须要被存储下来。

Workflow(Decider) 来决定任务的执行流程，Activity 来执行实际的任务，二者都封装在相应的 Worker 中执行，但不直接交互，而是通过 SWF 管理起来。不过，除了 SWF 的日志，它们都不记录任何当前任务执行状态的信息，即所有的任务执行情况只能从 SWF 的日志中找到。譬如一个 Workflow 由 Activity1 和 Activity2 组成，在执行完 Activity

[……]阅读全文

Continue reading

关于“ 异步”，从 Amazon 的工作流框架中获得的思考

Posted on 03/03/201206/23/2019 by 四火

云平台的工作流框架 AWS Flow Framework 给我带来的另一个有所感触的话题是“ 异步”：

这个框架把异步的行为划分为 Workflow 端执行的部分和 Activity 端执行的部分，Workflow 控制工作流程，Activity 执行具体的工作流 task，二者都以 poll 的模式不断从中心 SWF 去获取任务。对于开发者来说，用类似这样简单的代码，就完成了整个工作流任务的部署，框架为开发人员隐藏了大部分实现细节：

@Workflow  
public interface CalculateWorkflow  
{  
    @Execute  
    pu

[……]阅读全文

Continue reading