CPU飙升100%？别急着重启，3招揪出幕后黑手

这也是我早期运维生涯中最常犯的错：报警短信在凌晨2点响起，迷迷糊糊爬起来，看到服务器负载飙升，第一反应往往是 “先重启再说”。

重启确实能暂时止血，让老板和客户不再投诉，但它也彻底破坏了"案发现场"。等到第二天早高峰流量一上来，问题依旧会复现，而你手里没有任何线索，只能两眼一抹黑地去猜代码逻辑。

现在的我，习惯在每周五下午做一次系统的"体检"复盘。我发现，真正的性能瓶颈排查，绝不是靠猜，而是靠保留现场、精准定位、数据说话。

这里分享我这几年在生产环境摸爬滚打总结出来的三个"反直觉"排查思路，希望能帮你少踩几个坑。

一、别只盯着数据库，CPU飙升往往是代码在"空转"

很多开发有一个误区：系统慢了？肯定是数据库不行，加索引！CPU高了？肯定是并发太大，加机器！

观点： 80%的CPU异常飙升，不是因为用户太多，而是因为代码里有死循环、频繁GC或者低效的计算逻辑。

真实案例： 去年双11大促备战期间，我们有一个核心的促销服务，在进行压测时，并发才到500 QPS，CPU就直接被打到了95%以上。

起初团队一直认为是MySQL扛不住，但我看了一眼数据库监控，CPU利用率不足20%。显然，瓶颈在应用层。

排查方法： 我没有重启服务，而是直接上服务器操作了三步（这套连招建议背下来）：

定位进程： top 找到占用CPU最高的进程ID（PID）。
定位线程： top -Hp <PID> 找出该进程下最耗费CPU的线程ID，并将线程ID转换为16进制（比如用 printf "%x\n" <线程ID>）。
定位代码： jstack <PID> | grep <16进制线程ID> -A 20，直接打印出该线程当前的堆栈信息。

真相大白： 堆栈直接指向了一行代码——一个用于处理营销文案的正则表达式。一位刚入职的同事写了一个极其复杂的正则，在处理某些特殊长字符串时发生了"回溯灾难"（Catastrophic Backtracking）。CPU不是在干活，而是在进行数亿次的无效匹配。

我们将正则逻辑优化为简单的字符串替换后，同样的机器配置，QPS轻松抗到了4000，CPU仅占用30%。

二、 “隐形"的I/O等待，比报错更可怕

有时候服务器负载（Load Average）很高，系统响应极慢，但你一看CPU使用率，可能只有10%不到。这种"有劲使不出"的感觉最让人抓狂。

观点： 这种现象通常是 I/O Wait 过高导致的。线程都在排队等待磁盘读写或网络响应，CPU处于闲置状态，但系统已经瘫痪了。

真实案例： 2022年某个周三下午，我们的报表导出服务突然卡死。运维监控显示 Load Average 飙到了 20（4核机器），但 CPU id（空闲）却还有 80%。

开发团队排查了一圈SQL，发现全是简单查询。我看了一眼服务器的连接状态，发现大量线程处于 WAITING 状态。

排查细节： 我使用了 iostat -x 1 命令，发现磁盘 %util（利用率）并没有满，说明不是本地磁盘问题。接着我用 Arthas（阿里开源的诊断工具）查看线程堆栈，发现几百个线程都卡在了一个第三方支付渠道的SDK调用上。

// 模拟当时的堆栈情况
"http-nio-8080-exec-5" #23 ... waiting on condition 
   java.lang.Thread.State: WAITING (parking)
   at sun.misc.Unsafe.park(Native Method)
   ...
   at com.thirdparty.payment.sdk.verify(...) // 罪魁祸首

根源： 那个第三方支付渠道的API挂了，响应极慢（超过30秒）。而我们的代码中，HTTP客户端没有设置合理的超时时间（默认无限等待）。导致所有处理线程都被这个外部请求"挂起”，耗尽了线程池，后续的正常请求进不来，系统假死。

硬核解法：

短期： 紧急重启，并临时通过防火墙切断该第三方服务的调用。
长期： 所有外部依赖调用（DB、Redis、第三方API），必须强制设置 Connect Timeout 和 Read Timeout。对于非核心链路，必须加上熔断降级策略。

三、日志不是越多越好，它可能是性能刺客

“为了方便排查问题，我把所有参数都打到日志里了。” —— 听起来很负责任，但在高并发场景下，这可能是致命的。

观点： 序列化（Serialization）和磁盘写入是昂贵的操作。在热点代码路径上打印大对象日志，足以拖垮整个服务。

真实案例： 今年年初，我们上线了一个用户画像推荐服务。上线后发现，TP99（99%的请求响应时间）从 20ms 飙升到了 300ms。

没有死循环，没有慢SQL，外部依赖也正常。为了定位问题，我使用了 火焰图（Flame Graph） 进行全链路分析。

排查过程： 通过 async-profiler 生成火焰图，我看到一个巨大的"平顶山"（表示占用大量CPU时间），竟然来自 log.info("User Context: {}", userObject)。

真相： 那个 userObject 包含了用户的几百个标签、历史订单列表等数据，转成 JSON 字符串足足有 20KB。而在推荐循环里，每个商品判定都会打印一次这个日志。这意味着，每处理一次请求，CPU都要疯狂进行 JSON 序列化，磁盘IO也被日志写满。

改进方案： 删掉这行日志后，性能提升了10倍。我随后在团队内推行了一个日志规范：

生产环境禁止在循环内打印日志；禁止直接打印未经过滤的超大对象；必须使用 if(log.isDebugEnabled()) 进行判断，或者使用占位符，避免无效的字符串拼接。

结尾：你的"急救包"准备好了吗？

性能优化不是玄学，它是基于证据的推理。不要等到火烧眉毛了再去百度"Linux常用命令"。

分享一个我常用的快速现场快照脚本（建议保存为 capture_snapshot.sh，出问题时执行一下再重启）：

#!/bin/bash
# 遇到故障先别慌，跑完这个再重启
TS=$(date +%Y%m%d_%H%M%S)
DIR="/tmp/crash_dump_$TS"
mkdir -p $DIR

# 1. 保存系统负载快照
top -b -n 1 > $DIR/top.log
vmstat 1 3 > $DIR/vmstat.log
iostat -x 1 3 > $DIR/iostat.log

# 2. 如果是Java应用，尝试保留堆栈（假设PID已知或自动获取）
# PID=$(pgrep -f "java" | head -n 1)
# jstack $PID > $DIR/thread_dump.log
# jmap -histo:live $PID > $DIR/heap_histo.log

# 3. 保存网络连接状态
netstat -nawk > $DIR/netstat.log

echo "现场已保留至: $DIR"

最后给3个可落地的行动建议：

告别"重启大神"： 下次遇到性能问题，强迫自己先用 top 和 jstack 看一眼再重启，哪怕只看一眼，你也比上次进步了。
给系统装上"记录仪"： 还没用上 SkyWalking 或 Arthas？赶紧去调研一下，看不见内部状态的系统就是个黑盒。
防御性编程： 检查你负责的代码，所有的外部调用（HTTP/RPC/DB）到底有没有设置超时时间？如果没有，今天就加上。

排查性能瓶颈，本质上是与系统对话。当你能听懂它的"呻吟"（日志、监控、堆栈）时，就没有解决不了的Bug。

一、 别只盯着数据库，CPU飙升往往是代码在"空转"

二、 “隐形"的I/O等待，比报错更可怕

三、 日志不是越多越好，它可能是性能刺客

结尾：你的"急救包"准备好了吗？

一、别只盯着数据库，CPU飙升往往是代码在"空转"

三、日志不是越多越好，它可能是性能刺客