Skip to content

四火的唠叨

一个纯正程序员的啰嗦

Menu
  • 所有文章
  • About Me
  • 关于四火
  • 旅行映像
  • 独立游戏
  • 资源链接
Menu

常见分布式应用系统设计图解(十一):数据监控系统

Posted on 11/17/202009/16/2024 by 四火

这篇是讲数据监控系统的,常见的包括 Datadog 和 Prometheus 等等。一个比较完整的数据监控系统要包括数据采集和数据展示两个部分。在此基础上,还可以具备告警和其它数据处理的功能。

对于监控的数据, 通常包括两类,一类是操作系统层面的数据,比如 CPU、内存、IO 等等;还有一类是应用相关的数据,这些数据就具备明确的业务意义了。

  • 大体上,图中虚线表示控制流,而实现表示实际的统计数据流向。
  • 用户通过 Web UI 来查看数据、定义规则,这些元信息存储在图中上方的元数据库中。
  • Cluster Manager 和不同集群内的 cluster agent 通信,agent 通过心跳的方式和 manager 保持连接。
  • 每个集群中,每个节点都有 node agent 负责采集数据,并将它们汇报给 cluster agent,cluster agent 汇总后写到一个队列中,也可以使用专门的数据流处理服务,后者实时性更高。
  • 这个队列或是数据流有多个订阅者,它们从中读取数据并执行相应的操作,比如生成压缩数据,或者生成时序数据。
  • 时序数据既可以被用作主要的数据展示数据来源,又可以被 Monitoring Service 拿来用作告警的判断之用。
  • 这里面接收 metric emission 的核心服务,也可以不通过这种队列+worker 的方式来实现,而是就作为一个普通的 service,但是这种需要有比较高的性能要求(吞吐量),数据还不能丢。其中一种方法就是使用 WAL,然后最近的数据在内存中存放,攒够一批 merge 并写入存储。
[Updated on 9/16/2024] 关于时序数据,也是一个很有意思的话题。Prometheus 提供了一个很好的例子。

时序数据大概是这个样子的:

时序数据的 schema 大致是这个样子的:

(name, label(name, value)*, time, value)*

就是说,一条数据有一个名字,接着是 0 到 n 个的 label,相当于是数据的除了时间以外额外的维度,再是时间戳和具体的值。我们的 metric 大多是由一堆这样的数据构成的。

举个例子,一个 service,要求统计请求处理的 latency:

("application-A", "path"="/record", "method"="get", 1726519187665, 233),
("application-A", "path"="/record", "method"="post", 1726519187667, 57),
("application-A", "path"="/record", "method"="get", 1726519187680, 462),
...

对于每一个请求,都有 HTTP path 和 HTTP method 两个额外的维度。

数据监控系统中使用到的时序数据,往往由这样的读写特点:

  • 写大致是基于时间顺序的,但并不是严格保证的;
  • 数据很少修改,一般都是 append;
  • 主要的查询通常是基于时间范围的,就是说,总是先选取一个时间范围,然后获取数据;
  • 通常近期的数据获取比较频繁,历史数据很少查询;

对于这样的数据,如果采用传统的普通关系数据库来存储,可行,但是在数量比较大的情况下至少会有两个大的 concern:

  • 一个是存储成本;
  • 另一个是查询的效率。

所以,在专门的 TSDB 之外,还有一些出于解决上述 concern 的目的,而基于普通的 RDB 进行扩展优化的方案。比如说,这个使用列压缩技术的例子,其实就是把行数据库变成列数据库(行数据库通常适合 OLTP 系统,而列数据库适合 OLAP 系统),来继续使用 Postgres 来存储时序数据。这种数据库的好处就是,它可以一定程度上同时适配行式数据库和列式数据库的需求。时序数据有一个重要话题就是数据压缩,因为时序数据库它往往存储类似性非常强的数据,比如连续时间单位内,数据的变化往往是渐进的,因此这样的数据很适合用增量压缩的方式来减小存储,Facebook 在 Gorilla 的论文里面详细介绍了这一点。

这是《常见分布式系统设计图解》系列文章中的一篇,如果你感兴趣,请参阅汇总(目录)寻找你其它感兴趣的内容。

文章未经特殊标明皆为本人原创,未经许可不得用于任何商业用途,转载请保持完整性并注明来源链接 《四火的唠叨》

×Scan to share with WeChat

你可能也喜欢看:

  1. 常见分布式应用系统设计图解(九):协同编辑系统
  2. 常见分布式应用系统设计图解(十):电商秒杀系统
  3. 常见分布式应用系统设计图解(一):即时消息系统
  4. 常见分布式应用系统设计图解(五):Proximity 系统
  5. 常见分布式应用系统设计图解(十二):证券交易系统

1 thought on “常见分布式应用系统设计图解(十一):数据监控系统”

  1. Anonymous says:
    12/09/2020 at 11:46 PM

    精彩。一口气看完,感谢分享。

    Reply

Leave a Reply Cancel reply

Your email address will not be published. Required fields are marked *

订阅·联系

四火,啰嗦的程序员一枚,现居西雅图

Amazon Google Groovy Hadoop Haskell Java JavaScript LeetCode Oracle Spark 互联网 亚马逊 前端 华为 历史 同步 团队 图解笔记 基础设施 工作 工作流 工具 工程师 应用系统 异步 微博 思考 技术 数据库 曼联 测试 生活 眼界 程序员 管理 系统设计 缓存 编程范型 美股 英语 西雅图 设计 问题 面向对象 面试

分类

  • Algorithm and Data Structure (30)
  • Concurrency and Asynchronization (6)
  • System Architecture and Design (43)
  • Distributed System (18)
  • Tools Frameworks and Libs (13)
  • Storage and Data Access (8)
  • Front-end Development (33)
  • Programming Languages and Paradigms (55)
  • Testing and Quality Assurance (4)
  • Network and Communication (6)
  • Authentication and Authorization (6)
  • Automation and Operation Excellence (13)
  • Machine Learning and Artificial Intelligence (6)
  • Product Design (7)
  • Hiring and Interviews (14)
  • Project and Team Management (14)
  • Engineering Culture (17)
  • Critical Thinking (25)
  • Career Growth (57)
  • Life Experience and Thoughts (45)

推荐文章

  • 聊一聊分布式系统中的时间
  • 谈谈分布式锁
  • 常见分布式系统设计图解(汇总)
  • 系统设计中的快速估算技巧
  • 从链表存在环的问题说起
  • 技术面试中,什么样的问题才是好问题?
  • 从物理时钟到逻辑时钟
  • 近期面试观摩的一些思考
  • RSA 背后的算法
  • 谈谈 Ops(汇总 + 最终篇):工具和实践
  • 不要让业务牵着鼻子走
  • 倔强的程序员
  • 谈谈微信的信息流
  • 评审的艺术——谈谈现实中的代码评审
  • Blog 安全问题小记
  • 求第 K 个数的问题
  • 一些前端框架的比较(下)——Ember.js 和 React
  • 一些前端框架的比较(上)——GWT、AngularJS 和 Backbone.js
  • 工作流系统的设计
  • Spark 的性能调优
  • “残酷” 的事实
  • 七年工作,几个故事
  • 从 Java 和 JavaScript 来学习 Haskell 和 Groovy(汇总)
  • 一道随机数题目的求解
  • 层次
  • Dynamo 的实现技术和去中心化
  • 也谈谈全栈工程师
  • 多重继承的演变
  • 编程范型:工具的选择
  • GWT 初体验
  • java.util.concurrent 并发包诸类概览
  • 从 DCL 的对象安全发布谈起
  • 不同团队的困惑
  • 不适合 Hadoop 解决的问题
  • 留心那些潜在的系统设计问题
  • 再谈大楼扔鸡蛋的问题
  • 几种华丽无比的开发方式
  • 我眼中的工程师文化
  • 观点的碰撞
  • 谈谈盗版软件问题
  • 对几个软件开发传统观点的质疑和反驳
  • MVC 框架的映射和解耦
  • 编程的未来
  • DAO 的演进
  • 致那些自嘲码农的苦逼程序员
  • Java 多线程发展简史
  • 珍爱生命,远离微博
  • 网站性能优化的三重境界
  • OSCache 框架源码解析
  • “ 你不适合做程序员”
  • 画圆画方的故事

近期评论

  • Ticket: TRANSACTION 1.922915 BTC. Go to withdrawal >> https://yandex.com/poll/enter/BXidu5Ewa8hnAFoFznqSi9?hs=20bd550f65c6e03103876b28cabc4da6& on 倔强的程序员
  • panshenlian.com on 初涉 ML Workflow 系统:Kubeflow Pipelines、Flyte 和 Metaflow
  • panzhixiang on 关于近期求职的近况和思考
  • Anonymous on 闲聊投资:亲自体验和护城河
  • 四火 on 关于近期求职的近况和思考
  • YC on 关于近期求职的近况和思考
  • mafulong on 常见分布式基础设施系统设计图解(四):分布式工作流系统
  • 四火 on 常见分布式基础设施系统设计图解(八):分布式键值存储系统
  • Anonymous on 我裸辞了
  • https://umlcn.com on 资源链接
© 2025 四火的唠叨 | Powered by Minimalist Blog WordPress Theme