服务雪崩？深夜3点，我用限流救回了崩溃的系统

“叮叮叮……”

凌晨 3 点 15 分，手机疯狂震动，运维告警群的消息像雪花一样炸开。作为后端负责人的我，迷迷糊糊抓起手机，看到那行让人心跳骤停的红字：“数据库 CPU 使用率 99%，连接数耗尽，订单服务响应超时。”

那是我刚升任架构师的第一个月。为了迎接一场大促，我们扩容了服务器，优化了 SQL，甚至提前喝了两罐红牛。但我唯独忽略了一件事：当流量像海啸一样涌来时，大坝如果没有泄洪闸，崩塌只在一瞬间。

以前我总以为，“限流"是拒绝用户，是把送上门的钱推出去。直到踩了这个大坑，我才明白：限流不是为了拒绝，而是为了保护。它是在告诉系统：“别逞强，活下来最重要。”

如果你也曾面对流量洪峰手足无措，或者对着 Sentinel 和 Guava 的文档一头雾水，请深呼吸。今天我们不谈枯燥的原理，聊聊怎么用这两个"保命符”，让你的服务（和你自己）睡个安稳觉。

既然扩容了，为什么还要限流？

很多新手开发常有一个误区：并发高了？加机器啊！

让我讲个真实的故事。那是两年前的一个周五下午，我们上线了一个"整点抢券"活动。预估 QPS（每秒请求数）大概在 2000 左右。为了保险，我把应用服务器从 3 台扩到了 10 台。

结果呢？活动开始第 5 秒，系统全挂。

复盘时我们发现了一个惨痛的真相： 应用服务器是扩容了，但底层的数据库和 Redis 并没有无限抗压能力。10 台机器同时向数据库发起请求，瞬间打满了数据库连接池。这就像是你把公路拓宽了 10 倍，但收费站的窗口还是只有 2 个，结果就是所有车都堵死在收费站门口。

核心观点：系统的短板永远在最脆弱的那个环节（通常是数据库）。限流，就是给这个脆弱环节加一个"排号机"。

单机卫士：Guava RateLimiter 的"极简主义"

如果你的业务场景比较简单，比如写一个内部的数据同步脚本，或者是非集群环境下的接口保护，Google 的 Guava 工具包是你最好的朋友。

场景还原： 那个让我崩溃的深夜之后，我接手了一个旧项目：一个导出 Excel 报表的接口。这个接口非常耗内存，一旦有超过 5 个人同时点"导出"，服务器就会因为 OOM（内存溢出）宕机。

我的解决方案： 我没有重构代码（风险太大），而是引入了 Guava 的 RateLimiter。你可以把它想象成一个拿着秒表的体育老师，它不管有多少学生想跑步，它只按固定的节奏发令。

看看这几行救命的代码，简单到令人发指：

// 每秒只允许 2 个请求通过（令牌桶算法）
RateLimiter limiter = RateLimiter.create(2.0);

public void exportReport() {
    // 尝试获取令牌，拿不到就等待（或者你可以选择直接拒绝）
    limiter.acquire(); 
    
    // 下面是原本的业务逻辑
    System.out.println("开始执行耗时的导出任务...");
}

效果立竿见影： 那天之后，无论运营部的同事怎么狂点"导出"按钮，服务器始终稳如老狗。多余的请求会自动排队，大家顶多觉得"稍微慢了一点"，但再也没有人喊"系统挂了"。

避坑提示： Guava 是单机限流。如果你有 10 台服务器，每台限制 2 QPS，那么总的流量就是 20 QPS。千万别在分布式大流量场景下，把它当做唯一的防线。

集群指挥官：Sentinel 的"上帝视角"

当你面对的是微服务架构，或者像"双十一"那种级别的流量，Guava 就显得力不从心了。这时候，你需要阿里巴巴开源的 Sentinel。

场景还原： 去年，我们的支付服务因为依赖的第三方渠道偶尔超时，导致整个调用链路卡死。只要第三方一抖动，我们的线程池就被占满，连带其他正常的查询业务也无法响应。这就是典型的"雪崩"。

我的行动： 我花了一个下午接入 Sentinel。这东西最治愈的地方在于它有一个可视化控制台。你不需要改一行代码，就能在界面上看到每个接口的实时流量。

针对支付接口，我配置了一条"熔断降级"规则：

规则：当 1 秒内响应时间超过 500ms 的请求比例达到 50%。
动作：自动熔断 10 秒（这 10 秒内直接返回"支付繁忙"，不再请求第三方）。

// 使用注解定义资源，配置 fallback 处理降级逻辑
@SentinelResource(value = "payOrder", fallback = "handleFallback")
public String payOrder(String orderId) {
    // 模拟调用第三方支付
    return paymentService.process(orderId);
}

// 降级后的兜底方法：给用户一个温暖的提示，而不是报错页面
public String handleFallback(String orderId, Throwable e) {
    return "支付通道拥挤，请稍后重试（我们正在全力疏通中...）";
}

最终结果： 一周后，第三方渠道再次故障。监控大屏上显示支付接口触发熔断，红线飙升，但整个系统的 CPU 仅仅波动了 5%。用户看到了友好的提示，而不是白屏。那一刻，我坐在工位上喝着我的冻顶乌龙，心里前所未有的平静。

写给正在焦虑的你

技术圈里，我们总在追求高性能、高可用，却很少谈论开发者的心理可用性。

我见过太多优秀的工程师，因为一次线上故障而陷入深深的自责，甚至产生"我不适合做开发"的念头。其实，系统出问题是常态，不出问题才是运气。

限流策略，本质上是一种"接受不完美"的智慧。它承认系统的能力有上限，承认我们无法掌控所有外部流量。

Guava 告诉我们：做好当下的事，守住自己的那一份节奏。
Sentinel 告诉我们：当压力大到无法承受时，懂得拒绝和休息（熔断），是为了稍后更好地出发。

这难道不像我们的人生吗？

马上行动：给自己穿上铠甲

看完文章，不需要你马上去重构系统。我建议你做 3 件小事，明天上班就能落地：

盘点核心接口：找出你们系统中那 20% 最重要、或者最容易出问题的接口（通常是写库频繁或依赖第三方的接口）。
设置"软"限流：如果你不敢直接拒绝用户，先用 Sentinel 设置一个较高的阈值，模式选择"记录日志"而不是"抛出异常"。观察一周，看看真实的流量峰值到底是多少。
准备一个兜底文案：找产品经理聊聊，如果触发限流，给用户返回什么？是冷冰冰的 429 Too Many Requests，还是"哎呀，挤爆了，正在为您疏通"？相信我，温暖的文案能减少一半的客诉。

你在项目中遇到过因为流量过大导致的"惊魂时刻"吗？你是怎么解决的？

欢迎在评论区分享你的故事（或者吐槽），说不定你的经历，恰好能帮到另一个正在熬夜排查问题的兄弟。