Skip to content

四火的唠叨

一个纯正程序员的啰嗦

Menu
  • 所有文章
  • About Me
  • 关于四火
  • 旅行映像
  • 独立游戏
  • 资源链接
Menu

说说 JavaEye 网站架构

Posted on 01/23/201106/23/2019 by 四火

image 偶然看到了 Robbin 的一则胶片 《JavaEye 网站架构解密》,说到了一些 JavaEye 的一些实现,那就来看看有哪些有意思的东西。

我正在参与做的一个项目,在某某地方上线,需要几十块单板集群;在某某地方上线,又需要怎样的一个集群组网。咋听起来兴许觉得能有怎样的业务逻辑处理和怎样的用户量呢?可是 JavaEye 让我很吃惊,我先前只知道与 CSDN 比起来,JavaEye 确实是一个小规模一些的网站,专业一些的网站,可是服务器呢?只有两台!

这是那台 Web Server:

• AMD Opteron 2.4GHz 单核 * 2 颗
• 8G 内存
• 146G SCSI 硬盘

这是那台 DBServer:

• AMD Opteron 2.0GHz 单核 * 2 颗
• 4G 内存
• 73G SCSI 硬盘

实在不能说有多么优秀的硬件配置,JavaEye 又得面对怎样的访问量呢?

150 万动态请求/天

pie

这个是 JavaEye 封杀网络爬虫的简单匹配表达式:

regex

 

JavaEye 采用 Ruby 作为实现语言,看来 Ruby 很慢是没有说头的,看看 Google Adplanner Data:

google_adplanner_data

这张图表就很有意思了:

comparison

CSDN 拥有 JavaEye 的 3.5 倍访问量,但使用了三十多台服务器集群,中国最大的几个 IT 站点,使用 ASP.NET、Ruby、PHP 的都有,但看起来 JavaEye 的性能或许是最佳的。

—————————————————————————————————————-

JavaEye 网站架构进化:

(1)2006 年 9 月

• lighttpd
• ruby 1.8.4, rails 1.1.2, 以 fastcgi 方式运行
• mysql5.0

FastCGI 像是一个常驻 (long-live) 型的 CGI,它可以一直执行着,只要激活后,不会每次都要花费时间去 fork 一次 (这是 CGI 最为人诟病的 fork-and-execute 模式)。因为是多进程,所以比 CGI 多线程消耗更多的服务器内存,举例来说,PHP-CGI 解释器每进程消耗 7 至 25 兆内存,将这个数字乘以 50 或 100 就是很大的内存数。

其实小网站来说,使用 FastCGI+Lighttpd 是一个非常优秀的组合。

(2)2007 年 1 月

• 添加了第 2 台服务器
• 把 web 和 DB 分开
• 系统瓶颈在数据库 IO 端

系统瓶颈出现在 DB IO 上面是符合预期的(虽然我自己这边的项目经常遇到在 Java 侧锁瓶颈,一方面是性能测试的用例未必能反映现网真实情况导致,另一方面我还是觉得当整个架构过于复杂,远程方法过多,就会导致这样的问题)。

(3)2007 年 2 月

• 把 posts 表的大字段剥离出来
• posts 表的 select count 操作从 30 秒减少到
0.1 秒

把大表的大字段剥离出来,这是一种基于性能考虑的常用的 DB 重构方法。

剥离前:

• posts(id, …, body)
• 磁盘存储空间 2GB

剥离后:

• posts(id, post_text_id,…) 50MB
• post_texts(id, body) 2GB

(4)2007 年 3 月

• 数据库瓶颈仍然存在
• 引入 memcached 和 CachedModel
• 自己编写了简单的查询缓存
• 240 sql query/s 下降到 140 sql query/s
• memcached 缓存命中率在 75%

这一次的改进主要在缓存上面,其实在做性能优化的时候,需要经常关注的一个东西就是缓存命中率。

(5)2007 年 9 月

• 引入全文检索
• 使用 ruby 的 ferret
• 中文分词使用单字拆分法

主要是对搜索引擎的优化。

(6)2008 年 1 月

• JavaEye 网站代码重写
• 缓存框架改用 cache_fu
• 缓存命中率上升到 84%
• sql query 下降到 50 条/s

回去打算去了解一下 cache_fu,这里有两篇文章可以参考:

http://weekface.javaeye.com/blog/133797

http://iceskysl.1sters.com/?tag=cache_fu

• cache_fu 不对 AR 对象进行任何拦截,全部交给用户编程
• 用户有完全的控制权,但所有的缓存代码要自己手工编写

(7)2008 年 5 月

• 中文分词算法改用 rmmseg-cpp

(8)2008 年 10 月

• 自制山寨 cache plugin
• 缓存命中率上升到 96% 以上

• 抛弃 ferret,自己编写全文检索服务器
• 使用 Java 的 lucene 作为全文检索引擎
• 自己实现 C/S 架构的内部调用

(8)2008 年 11 月

• 实现博客,新闻制作 PDF 功能

(9)2009 年 3 月

• SNS feed 功能
• twitter 绑定功能
• 开放 API

• 废弃 Google Analytics
• 自己编写简单的网站流量分析系统

architecture

(10)2009 年 12 月

• 添加 Web IM
• 添加一台服务器
• 合理规划服务器

evolution

一个生命周期较长的 WEB 应用每发展到一定阶段一定要面对的是架构上的重组,有时哪怕牺牲一些性能的代价,有时则是牺牲可维护性的代价,带来的是结构层次清晰,便于短期内扩展等好处。这个过程每次都可能是痛苦的,但又是不可避免的。同时,我认为,在项目初期不应当也不可能把架构的融合性和扩展性考虑得太远,那样反而作茧自缚。而在应用发展过程中不断地重构却是更有价值的。

—————————————————————————————————————-

进化总结:

(1)对象缓存原则:

• 数据库表的设计要细颗粒度
• 把有冗余字段的大表拆分为 n 个互相外键关联的小表
• ORM 的性能瓶颈不在于表关联,而在于大表的全表扫描
• 尽量避免 join 查询,多制造 n+1 条 SQL

上面第一条我觉得还是要看表容量而定,第四条我深有体会,记得在 iBatis 的使用中还有这样一个专题。

(2)对象缓存的意义:

• Web 应用很容易通过集群方式实现横向扩展,系统的瓶颈往往出现在数据库
• 数据库的瓶颈往往出现在磁盘 IO 读写
• 因此要避免数据库的全表扫描和大表的数据扫描操作
• 如何避免:拆表和臭名昭著的 n+1 条 SQL

……

memcached

• memcached 缓存命中率 96%
• cache get : sql query = 4 : 1

另外,Robbin 还提到,Ruby 的字符串处理,尤其是正则表达式处理性能不好,解决方法也是使用缓存。

cache_money:

• 出自 twitter 开发团队之手
• 可能是目前最强大的 ruby cache 框架
• 支持分页查询缓存,支持条件查询缓存

全文检索:

search

—————————————————————————————————————-

后附,关于 JavaEye 后来的衰落:

其实严格说用“ 衰落” 这个词语是不很恰当的,但是于我看来,就如同“ 校内网” 变成“ 人人网” 一样,很多网站在发展的过程中,都把自己能应付的战线拉长,让那些原来看起来不属于自己的用户收纳进来,JavaEye 也一样,更名为 ITEye(当然,其直接原因还是来自于 Oracle 的压力,你不能免费用着 Java 的名号啊),但是这样带来副作用,尤其对一个技术社区来说,就是良莠不齐、鱼龙混杂。

如今的,实际人气已经没有那么高了,但是却成为了很多程序员小白的乐园,也就是说,已经丢失了帖子文章的质量,丢失了网站原本的生命,还有一票牛人。Robbin 自己也提到了一些客观原因:

JavaEye 在 04 年 05 年确实有一些比较火爆的帖子,但是要看到当时的时代背景:EJB2 逐渐被人唾弃,Hibernate/Spring 强势崛起,CMM 开始被骂,敏捷开发在国内悄悄普及,AJAX 技术也在 Google 推动下一夜成名。从整个 Java 行业来说,那几年可以炒作的体裁很多,可以争论的话题很多,观点的冲突很多。这在客观上造就了论坛的火爆。

在 ITEye 被 CSDN 收购以后,再加上那次著名的密码泄露的拖库事件,事件以后 Robbin 跳出来解释问题和撇清责任,我已经彻底对 ITEye 失去了信心。

文章未经特殊标明皆为本人原创,未经许可不得用于任何商业用途,转载请保持完整性并注明来源链接 《四火的唠叨》

×Scan to share with WeChat

你可能也喜欢看:

  1. Issue record: “No thread for socket” about Memcached
  2. Memcached 调优
  3. Flash Scope
  4. 使用堆外内存
  5. Javascript Memoizer

Leave a Reply Cancel reply

Your email address will not be published. Required fields are marked *

订阅·联系

四火,啰嗦的程序员一枚,现居西雅图

Amazon Google Groovy Hadoop Haskell Java JavaScript LeetCode Oracle Spark 互联网 亚马逊 前端 华为 历史 同步 团队 图解笔记 基础设施 工作 工作流 工具 工程师 应用系统 异步 微博 思考 技术 数据库 曼联 测试 生活 眼界 程序员 管理 系统设计 缓存 编程范型 美股 英语 西雅图 设计 问题 面向对象 面试

分类

  • Algorithm and Data Structure (30)
  • Concurrency and Asynchronization (6)
  • System Architecture and Design (43)
  • Distributed System (18)
  • Tools Frameworks and Libs (13)
  • Storage and Data Access (8)
  • Front-end Development (33)
  • Programming Languages and Paradigms (55)
  • Testing and Quality Assurance (4)
  • Network and Communication (6)
  • Authentication and Authorization (6)
  • Automation and Operation Excellence (13)
  • Machine Learning and Artificial Intelligence (6)
  • Product Design (7)
  • Hiring and Interviews (14)
  • Project and Team Management (14)
  • Engineering Culture (17)
  • Critical Thinking (25)
  • Career Growth (57)
  • Life Experience and Thoughts (45)

推荐文章

  • 聊一聊分布式系统中的时间
  • 谈谈分布式锁
  • 常见分布式系统设计图解(汇总)
  • 系统设计中的快速估算技巧
  • 从链表存在环的问题说起
  • 技术面试中,什么样的问题才是好问题?
  • 从物理时钟到逻辑时钟
  • 近期面试观摩的一些思考
  • RSA 背后的算法
  • 谈谈 Ops(汇总 + 最终篇):工具和实践
  • 不要让业务牵着鼻子走
  • 倔强的程序员
  • 谈谈微信的信息流
  • 评审的艺术——谈谈现实中的代码评审
  • Blog 安全问题小记
  • 求第 K 个数的问题
  • 一些前端框架的比较(下)——Ember.js 和 React
  • 一些前端框架的比较(上)——GWT、AngularJS 和 Backbone.js
  • 工作流系统的设计
  • Spark 的性能调优
  • “残酷” 的事实
  • 七年工作,几个故事
  • 从 Java 和 JavaScript 来学习 Haskell 和 Groovy(汇总)
  • 一道随机数题目的求解
  • 层次
  • Dynamo 的实现技术和去中心化
  • 也谈谈全栈工程师
  • 多重继承的演变
  • 编程范型:工具的选择
  • GWT 初体验
  • java.util.concurrent 并发包诸类概览
  • 从 DCL 的对象安全发布谈起
  • 不同团队的困惑
  • 不适合 Hadoop 解决的问题
  • 留心那些潜在的系统设计问题
  • 再谈大楼扔鸡蛋的问题
  • 几种华丽无比的开发方式
  • 我眼中的工程师文化
  • 观点的碰撞
  • 谈谈盗版软件问题
  • 对几个软件开发传统观点的质疑和反驳
  • MVC 框架的映射和解耦
  • 编程的未来
  • DAO 的演进
  • 致那些自嘲码农的苦逼程序员
  • Java 多线程发展简史
  • 珍爱生命,远离微博
  • 网站性能优化的三重境界
  • OSCache 框架源码解析
  • “ 你不适合做程序员”
  • 画圆画方的故事

近期评论

  • Ticket: TRANSACTION 1.922915 BTC. Go to withdrawal >> https://yandex.com/poll/enter/BXidu5Ewa8hnAFoFznqSi9?hs=20bd550f65c6e03103876b28cabc4da6& on 倔强的程序员
  • panshenlian.com on 初涉 ML Workflow 系统:Kubeflow Pipelines、Flyte 和 Metaflow
  • panzhixiang on 关于近期求职的近况和思考
  • Anonymous on 闲聊投资:亲自体验和护城河
  • 四火 on 关于近期求职的近况和思考
  • YC on 关于近期求职的近况和思考
  • mafulong on 常见分布式基础设施系统设计图解(四):分布式工作流系统
  • 四火 on 常见分布式基础设施系统设计图解(八):分布式键值存储系统
  • Anonymous on 我裸辞了
  • https://umlcn.com on 资源链接
© 2025 四火的唠叨 | Powered by Minimalist Blog WordPress Theme