Skip to content

四火的唠叨

一个纯正程序员的啰嗦

Menu
  • 所有文章
  • About Me
  • 关于四火
  • 旅行映像
  • 独立游戏
  • 资源链接
Menu

常见分布式应用系统设计图解(十三):短网址系统

Posted on 12/28/202008/14/2022 by 四火

短网址系统可能是最常见的分布式系统设计问题之一了,本身从业务需求上说,读远多过写,而且数据结构确定且简单,数据量小,还易于使用缓存,因此本身难度在分布式系统的问题里面算是比较低的。另外,这个系统本身 “分布式” 的特性也比较弱,而且从组件图的角度来说,没有多少是 “可画的” ,因此之前也就没有介绍它。不过后来我改变想法了,我觉得还是可以总结总结,特别是可以把一些相关的特殊需求考虑进去。

短网址服务就像是 bit.ly 这样的,给一个长长的 URL,它给你吐出一个较短的 URL,往后访问这个 URL 就可以做到 302 重定向到原来那个长 URL 了。

  • 图中上半部分是写的部分,无论是 API 直接调用还是通过某一个 UI 去调用,Write API 会进行鉴权操作。另外,如果源 URL 已经是经过短网址服务处理过的,就需要返回失败,否则就陷入了一个递归服务的窘境。
  • 其中写部分的 Cache 是用来防止一些过度的访问,比如由于某种原因,短时间内对某一个特定 URL 来生成短网址的请求特别多,那么就可以通过它来发现并阻止。
  • Key Generator 用来生成短网址中变化的部分(key),这里面根据不同的需求有几种方法:
    • 如果允许按序,那么最简单的方法是使用数据库的 sequence,为了高可用,可以配置多个数据库,step 相同,但起点分散开,比如数据库 A 生成 ID 序列为 1、3、5……,数据库 B 则是 2、4、6……
    • 拿到数据库生成的 ID 以后,可以将这个十进制数转成 [a-zA-Z0-9_-] 这样的 64 进制数。
    • 如果要求 key 无序,那么可以再根据上述结果加一个算法上的小处理,保证 ID 到最终 key 的一对一映射即可,最简单的方法是单个数或者字符的映射,比如 a->3、b->M(当然,这种方法相对也比较好猜)。
    • 如果需要自定义 ID,那么这个 Key Generator 可以接受一个自定义 key 去数据库里面找,找不到就可以用,否则就意味着冲突出现了。
  • Key 得到以后,生成的相对路径和原 URL 需要写入 URL DB 中。
  • 这里面有一个问题,就是如果两次请求的长 URL 相同,系统应该给出同样的短 URL 还是不同的短 URL?或者说,应该考虑去重吗?一般说来,不应该去重,应为根据短 URL 可以进行许多收费和数据分析,这两个相同的长 URL 来自于不同的用户,如果这里合并去重了就丢失了和用户对应的这部分信息。
  • 短 URL 生成以后,这里我还画了一个 Syncer,用来将生成的新映射同步到其它地区的节点去。因为短网址的读的服务如果在本地,那么显然响应速度是更快的,而且也可以减轻中心节点的负担。
  • 不同地区的用户,在使用读服务的时候,通过带有缓存的 Read API 来进行,但是具体的地址是根据 DNS 来做均衡,优先使用本地的读服务。
  • 关于读服务,还有一个常见问题是,HTTP 状态码应该是 301 还是 302?一般应该使用 302,因为 301 是永久重定向,很明显我们不希望它是永久重定向,而应该是临时重定向,因为永久重定向会丢失很多后续的访问,和前面提到的去重问题,一样不利于收费和数据分析。

这是《常见分布式系统设计图解》系列文章中的一篇,如果你感兴趣,请参阅汇总(目录)寻找你其它感兴趣的内容。

文章未经特殊标明皆为本人原创,未经许可不得用于任何商业用途,转载请保持完整性并注明来源链接 《四火的唠叨》

×Scan to share with WeChat

你可能也喜欢看:

  1. 常见分布式应用系统设计图解(三):Top K 系统
  2. 常见分布式应用系统设计图解(二):Feed 流系统
  3. 常见分布式应用系统设计图解(四):输入建议系统
  4. 常见分布式应用系统设计图解(八):文件同步分享系统
  5. 常见分布式应用系统设计图解(九):协同编辑系统

2 thoughts on “常见分布式应用系统设计图解(十三):短网址系统”

  1. cjl3080434008 says:
    05/12/2021 at 1:24 AM

    这里面有一个问题,就是如果两次请求的长 URL 相同,系统应该给出同样的短 URL 还是不同的短 URL?或者说,应该考虑去重吗?一般说来,不应该去重,应为根据短 URL 可以进行许多收费和数据分析,这两个相同的长 URL 来自于不同的用户,如果这里合并去重了就丢失了和用户对应的这部分信息。
    不知道这个不去重的理由,能否再详细解释下呢? 因为其实可以去重,也不影响在去重之前对用户数据的收集,而且如果不去重的话,不是会有很对对应相同长 URL 的短 URL 生成吗? 这是否是一种存储和计算的浪费呢

    Reply
    1. Anonymous says:
      05/17/2021 at 7:36 PM

      这要看收集什么数据?

      比如某用户使用了这个短网址服务,生成了短 URL,那么一段时间以后,他可以来查看,到底这个短网址的访问情况如何。如果去重了那么这个信息就丢失了,因为用户关心的是他自己生成的链接。

      至于存储浪费,就这一些开销而言,实在有些牵强。

      Reply

Leave a Reply Cancel reply

Your email address will not be published. Required fields are marked *

订阅·联系

四火,啰嗦的程序员一枚,现居西雅图

Amazon Google Groovy Hadoop Haskell Java JavaScript LeetCode Oracle Spark 互联网 亚马逊 前端 华为 历史 同步 团队 图解笔记 基础设施 工作 工作流 工具 工程师 应用系统 异步 微博 思考 技术 数据库 曼联 测试 生活 眼界 程序员 管理 系统设计 缓存 编程范型 美股 英语 西雅图 设计 问题 面向对象 面试

分类

  • Algorithm and Data Structure (30)
  • Concurrency and Asynchronization (6)
  • System Architecture and Design (43)
  • Distributed System (18)
  • Tools Frameworks and Libs (13)
  • Storage and Data Access (8)
  • Front-end Development (33)
  • Programming Languages and Paradigms (55)
  • Testing and Quality Assurance (4)
  • Network and Communication (6)
  • Authentication and Authorization (6)
  • Automation and Operation Excellence (13)
  • Machine Learning and Artificial Intelligence (6)
  • Product Design (7)
  • Hiring and Interviews (14)
  • Project and Team Management (14)
  • Engineering Culture (17)
  • Critical Thinking (25)
  • Career Growth (57)
  • Life Experience and Thoughts (45)

推荐文章

  • 聊一聊分布式系统中的时间
  • 谈谈分布式锁
  • 常见分布式系统设计图解(汇总)
  • 系统设计中的快速估算技巧
  • 从链表存在环的问题说起
  • 技术面试中,什么样的问题才是好问题?
  • 从物理时钟到逻辑时钟
  • 近期面试观摩的一些思考
  • RSA 背后的算法
  • 谈谈 Ops(汇总 + 最终篇):工具和实践
  • 不要让业务牵着鼻子走
  • 倔强的程序员
  • 谈谈微信的信息流
  • 评审的艺术——谈谈现实中的代码评审
  • Blog 安全问题小记
  • 求第 K 个数的问题
  • 一些前端框架的比较(下)——Ember.js 和 React
  • 一些前端框架的比较(上)——GWT、AngularJS 和 Backbone.js
  • 工作流系统的设计
  • Spark 的性能调优
  • “残酷” 的事实
  • 七年工作,几个故事
  • 从 Java 和 JavaScript 来学习 Haskell 和 Groovy(汇总)
  • 一道随机数题目的求解
  • 层次
  • Dynamo 的实现技术和去中心化
  • 也谈谈全栈工程师
  • 多重继承的演变
  • 编程范型:工具的选择
  • GWT 初体验
  • java.util.concurrent 并发包诸类概览
  • 从 DCL 的对象安全发布谈起
  • 不同团队的困惑
  • 不适合 Hadoop 解决的问题
  • 留心那些潜在的系统设计问题
  • 再谈大楼扔鸡蛋的问题
  • 几种华丽无比的开发方式
  • 我眼中的工程师文化
  • 观点的碰撞
  • 谈谈盗版软件问题
  • 对几个软件开发传统观点的质疑和反驳
  • MVC 框架的映射和解耦
  • 编程的未来
  • DAO 的演进
  • 致那些自嘲码农的苦逼程序员
  • Java 多线程发展简史
  • 珍爱生命,远离微博
  • 网站性能优化的三重境界
  • OSCache 框架源码解析
  • “ 你不适合做程序员”
  • 画圆画方的故事

近期评论

  • Ticket: TRANSACTION 1.922915 BTC. Go to withdrawal >> https://yandex.com/poll/enter/BXidu5Ewa8hnAFoFznqSi9?hs=20bd550f65c6e03103876b28cabc4da6& on 倔强的程序员
  • panshenlian.com on 初涉 ML Workflow 系统:Kubeflow Pipelines、Flyte 和 Metaflow
  • panzhixiang on 关于近期求职的近况和思考
  • Anonymous on 闲聊投资:亲自体验和护城河
  • 四火 on 关于近期求职的近况和思考
  • YC on 关于近期求职的近况和思考
  • mafulong on 常见分布式基础设施系统设计图解(四):分布式工作流系统
  • 四火 on 常见分布式基础设施系统设计图解(八):分布式键值存储系统
  • Anonymous on 我裸辞了
  • https://umlcn.com on 资源链接
© 2025 四火的唠叨 | Powered by Minimalist Blog WordPress Theme