爬虫 – 四火的唠叨

笔记：在 Mac Mini 本地跑 LLM 大模型

Posted on 05/31/202605/31/2026 by 四火

这些笔记是在自己的 Mac Mini 上面折腾了一些记录，主要是安装一些重要的大模型工具，把这些工具连接起来，建立自己的私有本地知识库等等，以备查阅。后续不定时更新。

安装 OrbStack

OrbStack 是专门为 MacOS 设计的快速、轻量级的虚拟化工具，可以作为本地 Docker、K8s 和 Linux VM 的超容易替代品。因为它丢掉了跨平台的包袱，直接在系统内核级别支持虚拟机指令，动态分配内存等等做法，让它变得超快。就以 Docker 为例，它可以把冷启动速度从几十秒优化到一两秒。

我是在 Apple M4 芯片的 Mac mini 上面折腾的，首先要保证我的应用全部都是 M4 芯片直接支持的，而

[……]阅读全文

常见分布式应用系统设计图解（七）：爬虫搜索系统

Posted on 09/21/202008/14/2022 by 四火

互联网搜索引擎都有爬虫系统，无论是 Google 还是百度。当然这里我们讨论的只是一个极其简单的版本。

对于爬到的资源，我们这里其实讨论的只是文本而已，还有图片、音频、视频这些媒体，如果我们也需要存下来，那就需要专门的媒体服务。对于媒体文件的存放，在之前的文中已经讨论过，这里就不再覆盖了。

上半部分是爬取的过程，Page Fetcher 根据 URL 队列里面的事件来去实际的页面中爬取内容。不同的网站可以使用不同的 queue，配合从不同 queue 中 poll 的策略，这样可以合理分配资源，避免对某一个网站投入了太多的资源。爬虫需要解析 robot.txt，也要限制爬取的进程/线程数，保证不

[……]阅读全文