System and Architecture – 四火的唠叨

学习 OpenAPI 的一点记录

Posted on 06/17/202306/17/2023 by 四火

我记得在毕业以前，就大致明白这样一件事情，系统之间、模块之间的交互，要确定协议，要定义接口，兜兜转转这些年过去了，我觉得对这件事情认识当然越来越深刻，也说不清其中的程度。最近做的项目中，开始大量地和 OpenAPI 打交道，一方面要最先使用 OpenAPI 来定义接口，让多个其他交互的模块都遵循它来开发，就是 “OpenAPI Driven Development” 的意思，这没啥特别的；但另一方面，系统中还需要把 Protobuf 接口定义转换成 HTTP 接口定义，并实施地使用 swagger-core 来动态创建 OpenAPI Spec，这就比较好玩了。

gRPC 到 HTTP 的协议转换

先

[……]阅读全文

Continue reading

常见分布式应用系统设计图解（十五）：支付系统

Posted on 09/02/202209/02/2022 by 四火

支付（Payment）系统可以很复杂，比如可以和银行打交道，和信用卡系统打交道。如果我们考虑用户在一家电商买东西，在结账的时候，借助电商支持的支付系统（Payment Service Provider）来完成支付行为。

支付系统需要结合商家（包含卖家和买家）一起来看。最典型的一种需求是，卖家在电商网站挂了东西卖，买家挑选了货物，结账并支付，电商依赖于支付系统来完成支付，并通知买家支付成功。

图中用两条虚线分隔出了 3 列，最左边是用户，中间是电商系统（比如 Amazon），右边是 Payment Service Provider（PSP，比如 PayPal）。支付操作需要保证幂等性，

[……]阅读全文

Continue reading

常见分布式基础设施系统设计图解（八）：分布式键值存储系统

Posted on 08/27/202208/27/2022 by 四火

Key-value 存储系统大概是分布式存储系统中最常见的一种类型了。从功能需求的角度说，最核心的包括：

可以创建一张表和删除一张表，同时对于表的数据可以进行：
读，即 get(key) 返回 value
写，即 put(key, value)
删除，即 delete(key)

当然，也有一些其它的功能需求，比如支持事务性，支持 key 排序查询，range key 或者特定列索引，支持同一 key 下 value 的 version 等等。

从非功能需求的角度说，凡是存储系统，Durability 是最重要的，数据不能丢失；其次是 Availability；再次是 Performance，这样的系统需要考虑 thro

[……]阅读全文

Continue reading

常见分布式应用系统设计图解（十四）：日志系统

Posted on 08/14/202208/21/2022 by 四火

典型的互联网应用的日志系统，从功能需求上看主要包括收集，存储和分析，以及展示这样三个部分，因此整个系统我觉得也可以按此思路大致可以分为三个部分：

日志收集，从宿主机上采集业务应用的日志，发送给远端的日志系统；
日志存储、分析和后期处理；
日志查询和分析数据展示。

非功能需求方面，我觉得可以考虑这样几个要点：

Durability：这是最重要的，尽可能不要丢失日志，到服务端的日志不要丢，在客户端的日志，也是如此，即便服务端不可用或连接断开，客户端的日志也要保存在本地。
Availability：其次是可用性，要保证高可用。
Performance：相较来说，日志系统的 performan

[……]阅读全文

Continue reading

常见分布式应用系统设计图解（十三）：短网址系统

Posted on 12/28/202008/14/2022 by 四火

短网址系统可能是最常见的分布式系统设计问题之一了，本身从业务需求上说，读远多过写，而且数据结构确定且简单，数据量小，还易于使用缓存，因此本身难度在分布式系统的问题里面算是比较低的。另外，这个系统本身 “分布式” 的特性也比较弱，而且从组件图的角度来说，没有多少是 “可画的” ，因此之前也就没有介绍它。不过后来我改变想法了，我觉得还是可以总结总结，特别是可以把一些相关的特殊需求考虑进去。

短网址服务就像是 bit.ly 这样的，给一个长长的 URL，它给你吐出一个较短的 URL，往后访问这个 URL 就可以做到 302 重定向到原来那个长 URL 了。

图中上半部分是写的部分，无论是 API 直接调用还是

[……]阅读全文

Continue reading

常见分布式应用系统设计图解（十二）：证券交易系统

Posted on 12/26/202008/19/2022 by 四火

这篇讲的是证券交易系统，这类系统包含的内容很多，但是我们还是把目光放在核心的交易部分，比如说股票交易。在某个可交易时间，如果卖家 A 要以至少 y 的价格卖掉股票 x，卖家 B 愿以至多 y 的价格买入股票 x，那么这个交易就可以发生。

虽说是交易系统，但是它和任何一个支付平台的交易系统有着显著的不同，它的核心是一个竞价匹配的机制，而非货币支付的机制，简单地说，这个机制包含了这样四个步骤：

挂单（可以是买单，也可以是卖单）
匹配（或者叫做撮合）
成交
清算

从非功能的角度看，有这样几条需求是这样的系统尤其要强调的：

Consistency，从单个交易的角度来说，主要就是事务性，这是交易系统最最基

[……]阅读全文

Continue reading

常见分布式基础设施系统设计图解（七）：分布式实时流处理系统

Posted on 11/19/202008/14/2022 by 四火

今天这篇是关于实时流处理（real-time stream processing）的，这一类的系统这几年比较多了，但相对而言并没有之前提到的几类基础设施系统常见。为什么说这类系统如今更为常见呢？因为一般说来，或者说曾经有一个普遍的认知，就是 throughput 和 latency 难以兼得的事实：

同步系统适用于响应实时性要求高的请求，处理实时性要求高的数据，速度快，处理过程中关注的数据粒度小，吞吐量也相对受限；
异步系统适用于响应实时性要求低的请求，处理实时性要求低的数据，处理过程中关注的数据粒度大，但是吞吐量往往要大得多。

可是，越来越多的系统需要大量的数据处理，往往需要上面二者 “鱼和

[……]阅读全文

Continue reading

常见分布式应用系统设计图解（十一）：数据监控系统

Posted on 11/17/202008/14/2022 by 四火

这篇是讲数据监控系统的，常见的包括 Datadog 和 Prometheus 等等。一个比较完整的数据监控系统要包括数据采集和数据展示两个部分。在此基础上，还可以具备告警和其它数据处理的功能。

对于监控的数据，通常包括两类，一类是操作系统层面的数据，比如 CPU、内存、IO 等等；还有一类是应用相关的数据，这些数据就具备明确的业务意义了。

大体上，图中虚线表示控制流，而实现表示实际的统计数据流向。
用户通过 Web UI 来查看数据、定义规则，这些元信息存储在图中上方的元数据库中。
Cluster Manager 和不同集群内的 cluster agent 通信，agent 通过心跳的方式和 mana

[……]阅读全文

Continue reading

常见分布式应用系统设计图解（十）：电商秒杀系统

Posted on 11/16/202008/14/2022 by 四火

这篇是关于电商平台秒杀系统的。

首先，我觉得 “秒杀” 是一个中国色彩浓重的词，这样的概念在西方电商系统中也有，但只有在中国，本来业务量就已经如此之巨大了，还将其如此发扬开来。因此顶尖的秒杀高并发场景，还真是基本上只有在中国的电商平台系统中，才能见得到。

其次，我觉得对于系统设计的学习，电商秒杀系统这样的极致，即便再精彩，还是应当放在第二位的。扎扎实实地把常规的高并发系统设计做好，才是最重要的。因为无论秒杀系统使用怎样的特殊技巧和手段，高并发分布式系统才是一个秒杀系统工作的根基。

有了以上说明，现在再来谈论电商秒杀系统。电商秒杀系统，它首先是一个电商系统，因此一个大型的电商系统一

[……]阅读全文

Continue reading

常见分布式应用系统设计图解（九）：协同编辑系统

Posted on 11/12/202008/14/2022 by 四火

这里讲的 “协同编辑”，指的是 “Collaborative Editing”，多个人同时一起编辑同一个文件，比如说 Google Docs，国内的有有道云协作、石墨文档之类的。这样的系统倒不如我们前面提到的那些应用系统那么 “火”，但是，依然具备相当的典型性。

第一印象，这样的一个系统，我们可以简单做出如下归类：

这是一个文件编辑系统，这是最最基础的一个功能性需求，它就好像是 Windows 下的记事本，只不过它是在线的。
这是一个分布式系统，客户端/浏览器可以在不同的地方，通过网络和服务端联结，用户的编辑行为转化为请求发送给服务端。
这是一个异步系统，编辑编辑过程中，事件都是由不同用户的浏览器

[……]阅读全文

Continue reading

常见分布式基础设施系统设计图解（六）：分布式 MR 系统

Posted on 11/02/202008/14/2022 by 四火

其实对于 MR（Map Reduce）系统来说，可能更重要的是分治和分步处理的思想，因为现在的基于 MR 的数据处理框架或者平台，在实现上数据处理往往已经和最经典的对于 MR 的理解（最早应该是来自 Google 的那篇论文）有了不少区别。当然，我还是按照之前的做法，把一个典型的 MR 系统简单图示画出来了，这个图相对比较简单。

还是老规矩，虚线表示控制流，实线表示数据流。
上半部分用户向 Master 这个 job 管理节点提交一个 job 的请求，这个请求被拆解为若干个 task，下半部分的 slave 节点完成 task 的跟踪和执行。
具体执行逻辑上：
- 首先的输入文件，可以是多个已经拆分了的小文件，也可以是一个大文件

[……]阅读全文

Continue reading

常见分布式基础设施系统设计图解（五）：分布式流控系统

Posted on 10/29/202008/14/2022 by 四火

这一篇记录分布式的流量控制系统。

首先，关于流量控制系统，从功能性需求上考虑，它涉及到使用怎样的规则去限制流量，以及，流量超出限制以后的策略是怎样的。

其次，从非功能性需求上考虑，对于单机系统，有一些比较成熟的流量控制算法，比如 Leaky Bucket，或者 Token Bucket，我在专栏文章中曾经介绍过。再来说分布式的系统，除去我们经常考虑的分布式系统的特点以外，还需要强调对于流量控制的精度要求这一方面。

为什么要提这个精度要求，是因为对于精度要求的不同，我们可以把需求分成两大类。而这两类的分布式流控在实现上，会比较不一样。

类型一：用于 “保护系统” 的流量控制。这一

[……]阅读全文

Continue reading

常见分布式基础设施系统设计图解（四）：分布式工作流系统

Posted on 10/26/202008/14/2022 by 四火

这一篇是记录分布式工作流系统的。我这些年来参与了几个不同的分布式工作流系统的工作（以前从另外的角度写了一些总结放在这里），大部分是基于基础分布式工作流引擎二次开发的，但也有从头开始实现一个的。总的来说，从原理上看可以说它们的实现是大同小异，大致是基于 Amazon 的 SWF 的各种实现变体。

从功能需求上看，一个工作流系统，当然是要完成一个工作流的执行和追踪，因此，它的用户，可以定义工作流的逻辑，启动、停止工作流，并能够查询工作流的当前执行状态。但我觉得有一条需要着重强调——自治（Autonomy）能力。分布式工作流系统通常来说，要比其它常见的分布式基础设施，从用户理解的角度来说，要复杂和困难

[……]阅读全文

Continue reading

常见分布式基础设施系统设计图解（三）：分布式消息队列

Posted on 10/18/202008/14/2022 by 四火

这篇的内容是关于分布式消息队列的，无论是在实时系统，还是在非实时系统中，它都有广泛的应用。作为一个消息队列，基本的功能需求相对好描述，简单说有两条：

首先，围绕着 pub-sub 这样的机制，允许消息发布者发布的特定主题下的消息，能够投递到若干个订阅者。这条几乎是必选的。
其次，消息的有序性，既然是一个队列，那么消息满足先进先出（FIFO）的规则。这一条，部分实际场景方面并非必选。

非功能需求方面，这里面有几个基本的重要特性可以拿来考量，可以说这些基本都是分布式系统所共有的，但其中有几个是异步系统所更为看重的——比如说：

Availability
Security
Consistenc

[……]阅读全文

Continue reading

常见分布式基础设施系统设计图解（二）：分布式数据库

Posted on 10/08/202008/28/2022 by 四火

从大致的非功能需求角度来说，作为一般的分布式持久化存储系统，这样三个需求从重要性依次排列：

Durability > Availability > Performance

即最重要的是，数据绝对不能丢失，其次是要一直提供服务，最后才是要保持一定的性能。当然，有了上述基础以后，我们还可以谈论任何分布式存储系统都涉及的重要特性，比如一致性。最后，作为特定的存储系统——“数据库”，我们还常常谈论一些特定的特性，比如权限管理和事务控制等等。

下面拿的是 Bigtable 来举例的，它建立在 GFS 这样的分布式文件系统上面，有一定代表性。

图中展示的是一个简单的写数

[……]阅读全文

Continue reading

常见分布式基础设施系统设计图解（一）：分布式文件系统

Posted on 10/04/202008/27/2022 by 四火

继续分布式系统的设计图解，下半部分是基础设施，此篇是分布式文件系统。这里面典型就是 GFS，对应开源的版本就是 HDFS。

既然谈到分布式文件系统，我觉得需要从需求层面做一个简单的说明：

这里的文件，通常以 “大” 文件为主，越大效率越高，而不会是小文件。小文件的存储，不一定要选择这里说的分布式文件系统——功能上当然行得通，但容易造成效率低下（比如因为元数据占比高，或者是单一 chunk 的空间利用率低），通常它们也可以：
- 存放到某一种 NoSQL 的数据库中去，并辅以其它优化。
- 在这里说的分布式文件系统上面再加一层，在存储上需要做一定的额外优化，比如在 GFS 上实现的 Bigtable（多个小文件可以

[……]阅读全文

Continue reading

常见分布式系统设计图解（汇总）

Posted on 09/25/202010/15/2023 by 四火

【Updated on 9/15/2023】本来只是自己粗浅的总结，但好几位朋友说这套笔记帮助很大，甚至帮他们通过了系统设计面试并找到了工作，那我就打算置顶一段时间，让更多人看到。

这一篇是给我记录的那些常见分布式系统设计图解系列的文章做一个汇总，也提供一个访问入口。

如同我在第一篇文中说的那样，自己在学习各种各样分布式系统的过程中，做了一些笔记，也有自己的理解，把它们放到一起，用一张图选择最主要的部分来阐释，从我的角度来说，是能够帮助理解和记忆的。事实上，遇到的很多各种各样的分布式系统，绝大多数都逃不出那最常见的十几种，也就是说，逃不出这些 “套路” 和 “玩法”。这就是把它们整理成一

[……]阅读全文

Continue reading

常见分布式应用系统设计图解（八）：文件同步分享系统

Posted on 09/24/202008/14/2022 by 四火

文件同步分享系统包括 Dropbox、Google Drive，也包括国内的各种网盘，比如百度网盘。总的来说，这里讨论的这个系统包含这样几个基本功能：

文件变更检测；
文件增量上传和下载；
文件分享和同步。

总体来说，上半部分是文件变化的检测和上传。上传分为两条路线，一条是控制流，一条是数据流。
客户端方面，包含这样几个关键组件和步骤：
- 有一个 Watcher 用来监控操作系统的文件变化，无论是 Linux 还是 Windows 都可以在文件系统上挂载回调，当文件系统发生变化的时候通知它。
- 有一个 Chunker 帮助给需要传输的数据分块，也负责将收到的 chunks 写入成为文件。对它来说它只负责听从 I

[……]阅读全文

Continue reading

常见分布式应用系统设计图解（七）：爬虫搜索系统

Posted on 09/21/202008/14/2022 by 四火

互联网搜索引擎都有爬虫系统，无论是 Google 还是百度。当然这里我们讨论的只是一个极其简单的版本。

对于爬到的资源，我们这里其实讨论的只是文本而已，还有图片、音频、视频这些媒体，如果我们也需要存下来，那就需要专门的媒体服务。对于媒体文件的存放，在之前的文中已经讨论过，这里就不再覆盖了。

上半部分是爬取的过程，Page Fetcher 根据 URL 队列里面的事件来去实际的页面中爬取内容。不同的网站可以使用不同的 queue，配合从不同 queue 中 poll 的策略，这样可以合理分配资源，避免对某一个网站投入了太多的资源。爬虫需要解析 robot.txt，也要限制爬取的进程/线程数，保证不

[……]阅读全文

Continue reading

常见分布式应用系统设计图解（六）：流媒体系统

Posted on 09/19/202009/25/2023 by 四火

流媒体系统，主要是视频流媒体系统。比如 YouTube，比如 Netflix，比如爱奇艺，还有优酷。再一个许多大型的社交平台上，几乎是一定要内嵌流媒体服务的，以支持用户上传视频类型的内容。

这类系统我们需要考虑的不只有单纯视频文件的存储和传输，还有文件的编码、解码，和视频截图（比如用作 thumbnail）的生成等等基本功能。

视频文件上传、编码、截图这个过程可以说非常消耗资源，因此视频流媒体系统的处理往往和简单的图片分享系统不一样，它的处理要求异步进行。而异步系统就一定要有队列。
图中上半部分，用户向 Web Server 发起一个视频上传的请求，实际视频上传通过 Uploading

[……]阅读全文

Continue reading

1
2
3
Next