背景与问题

线程池几乎是 Java 服务端开发的“标配”，但它也是那种平时看着很稳，一出问题就特别阴的组件。

我之前排查过一类很典型的线上故障：某个接口在高峰期开始大面积超时，应用 CPU 不算特别高，但内存一路往上冲，Full GC 越来越频繁，最后服务几乎不可用。最开始大家都怀疑是数据库慢、下游接口抖动，结果一路排下来，根因竟然是——线程池用错了。

这类问题的危险之处在于：

一开始不是直接挂，而是“慢慢变差”
监控表面看起来像下游慢，实际上是本地线程池堆积
如果线程池队列是无界的，任务会越堆越多，最终把堆内存吃掉
即使没 OOM，也会因为排队时间过长，导致接口超时雪崩

这篇文章我按“故障排查实战”的方式来讲，带你从现象、原理、复现、定位到修复走一遍。

现象复现

先说一个典型错误场景：

Web 接口收到请求后，把耗时任务丢给线程池
线程池配置用了 Executors.newFixedThreadPool() 或 newSingleThreadExecutor()
这类工厂方法底层使用的是无界队列
当请求速度大于处理速度时，任务持续排队
排队任务对象、上下文、参数、Future 持续占用内存
最后出现：
- 接口响应越来越慢
- JVM 堆内存持续增长
- GC 次数增加
- 部分请求超时甚至触发熔断

用一张图先把问题链路串起来：

flowchart TD
    A[请求流量增加] --> B[业务任务提交到线程池]
    B --> C{线程数已满?}
    C -- 否 --> D[立即执行]
    C -- 是 --> E[进入无界队列排队]
    E --> F[队列持续膨胀]
    F --> G[堆内存升高/GC频繁]
    G --> H[任务等待时间变长]
    H --> I[接口超时]
    I --> J[重试/更多请求]
    J --> F

这就是很典型的“吞吐不够 + 无界排队 + 请求超时反向放大压力”的恶性循环。

核心原理

1. ThreadPoolExecutor 的关键参数

线程池最核心的实现是 ThreadPoolExecutor，它的行为由几个参数共同决定：

corePoolSize：核心线程数
maximumPoolSize：最大线程数
keepAliveTime：非核心线程空闲存活时间
workQueue：任务队列
RejectedExecutionHandler：拒绝策略

它的执行规则可以简化成：

线程数 < 核心线程数：创建新线程执行
否则优先放入队列
如果队列满了，且线程数 < 最大线程数：继续创建线程
如果队列也满、线程也到上限：触发拒绝策略

很多人误以为“最大线程数设置很大就能兜住流量”，但如果队列是无界的，那么第 3 步通常根本不会发生，因为任务会一直被塞进队列里。

2. 为什么无界队列特别危险

以 LinkedBlockingQueue 为例，如果不指定容量，它就是近似无界。

这意味着：

请求进来的速度快于消费速度时，任务持续堆积
每个待执行任务本身会占内存
如果任务捕获了大对象、上下文、请求参数，内存占用更明显
大量 FutureTask、Lambda、闭包对象也会增加堆压力

简单说，线程池不是“削峰填谷”就万事大吉，队列本质上是在用内存换缓冲。无界缓冲在高压场景下往往等于“延迟炸弹”。

3. 接口超时为什么会和线程池堆积同时出现

因为接口耗时不只看“任务执行时间”，还看“排队等待时间”。

比如：

实际任务执行只要 200ms
但在队列里排了 3 秒
对调用方来说，这次请求就是 3.2 秒

于是你会看到一种很迷惑的现象：

下游处理本身并不慢
但接口整体 RT 很高
线程池活跃线程数不一定爆满
队列长度却不断上涨

可以用时序图理解：

sequenceDiagram
    participant Client as 调用方
    participant API as 接口线程
    participant Pool as 业务线程池
    participant Worker as 工作线程

    Client->>API: 发起请求
    API->>Pool: submit(task)
    Pool-->>API: 任务入队成功
    Note over Pool: 队列中已有大量任务
    API->>Client: 等待结果/Future.get()
    Pool->>Worker: 过一段时间后分配任务
    Worker->>Worker: 执行业务逻辑
    Worker-->>API: 返回结果
    API-->>Client: 响应超时或接近超时

定位路径

线上排查这种问题，我一般按下面顺序来，不容易跑偏。

1. 先看现象，不要上来就怀疑数据库

先抓这几个指标：

接口 RT、超时率
JVM 堆内存使用率
Young GC / Full GC 次数
线程池活跃线程数
线程池队列长度
拒绝次数
下游接口耗时

如果你看到下面组合，基本就要重点怀疑线程池：

堆内存持续上涨
Full GC 增多
线程池队列长度持续增加
活跃线程数接近核心线程数但不继续增长
最大线程数明明配得很大却像没生效

2. 看线程池配置是不是“工厂方法默认坑”

重点检查有没有类似代码：

ExecutorService executor = Executors.newFixedThreadPool(20);

或者：

ExecutorService executor = Executors.newSingleThreadExecutor();

这两个最常见的问题是：底层队列是无界 LinkedBlockingQueue。

3. 用 jstack 看线程状态

如果大多数业务线程是：

TIMED_WAITING
WAITING
或在等待 I/O

说明线程未必卡死，但处理速度确实跟不上提交速度。

如果主业务线程在调用：

Future.get()
CountDownLatch.await()

那还要警惕接口线程等待异步结果，结果异步线程池又排队严重，最后把同步接口拖慢。

4. 用堆分析确认是不是队列堆积

抓一份堆 dump，用 MAT 或 VisualVM 看对象分布，常见特征：

LinkedBlockingQueue$Node 数量异常多
FutureTask 数量多
业务任务对象、请求 DTO、上下文对象堆积

这时基本就能坐实：不是“内存泄漏”意义上的永远不释放，而是请求堆积造成的暂时性内存膨胀。但如果持续堆积，也一样会把服务拖死。

实战代码（可运行）

下面我给两个版本：

错误示例：容易复现接口超时和内存飙升
修复示例：使用有界队列 + 合理拒绝策略 + 超时控制

1. 错误示例：无界队列导致任务堆积

import java.util.ArrayList;
import java.util.List;
import java.util.concurrent.*;

public class BadThreadPoolDemo {

    // 典型坑：FixedThreadPool 底层是无界 LinkedBlockingQueue
    private static final ExecutorService EXECUTOR = Executors.newFixedThreadPool(4);

    public static void main(String[] args) throws Exception {
        ScheduledExecutorService monitor = Executors.newSingleThreadScheduledExecutor();

        monitor.scheduleAtFixedRate(() -> {
            ThreadPoolExecutor tpe = (ThreadPoolExecutor) EXECUTOR;
            System.out.println(String.format(
                    "[MONITOR] poolSize=%d, active=%d, queueSize=%d, completed=%d",
                    tpe.getPoolSize(),
                    tpe.getActiveCount(),
                    tpe.getQueue().size(),
                    tpe.getCompletedTaskCount()
            ));
        }, 0, 1, TimeUnit.SECONDS);

        // 模拟请求洪峰：快速提交大量慢任务
        for (int i = 0; i < 200000; i++) {
            final int taskId = i;
            EXECUTOR.submit(() -> {
                // 模拟每个任务携带较大的上下文，放大内存占用
                List<byte[]> payload = new ArrayList<>();
                for (int j = 0; j < 10; j++) {
                    payload.add(new byte[1024 * 50]); // 约 500KB
                }

                try {
                    Thread.sleep(2000); // 模拟慢处理
                } catch (InterruptedException e) {
                    Thread.currentThread().interrupt();
                }

                if (taskId % 1000 == 0) {
                    System.out.println("task finished: " + taskId);
                }
            });
        }
    }
}

这个示例会发生什么

线程池只有 4 个线程处理任务
每个任务执行 2 秒
提交速度远大于处理速度
队列无限累积
每个任务还带了 500KB 左右的临时数据
很快就会出现内存压力，甚至 OOM

真实线上未必写得这么夸张，但本质一样：任务排队 + 任务对象占内存。

2. 修复示例：有界队列 + 明确拒绝 + 超时控制

import java.util.concurrent.*;

public class GoodThreadPoolDemo {

    private static final ThreadPoolExecutor EXECUTOR = new ThreadPoolExecutor(
            4,                      // corePoolSize
            8,                      // maximumPoolSize
            60, TimeUnit.SECONDS,   // keepAliveTime
            new ArrayBlockingQueue<>(100), // 有界队列，避免无限堆积
            new ThreadFactory() {
                private final ThreadFactory defaultFactory = Executors.defaultThreadFactory();
                private int index = 0;

                @Override
                public Thread newThread(Runnable r) {
                    Thread t = defaultFactory.newThread(r);
                    t.setName("biz-pool-" + (++index));
                    return t;
                }
            },
            new ThreadPoolExecutor.CallerRunsPolicy() // 背压策略
    );

    public static void main(String[] args) throws Exception {
        ScheduledExecutorService monitor = Executors.newSingleThreadScheduledExecutor();

        monitor.scheduleAtFixedRate(() -> {
            System.out.println(String.format(
                    "[MONITOR] poolSize=%d, active=%d, queueSize=%d, completed=%d, taskCount=%d",
                    EXECUTOR.getPoolSize(),
                    EXECUTOR.getActiveCount(),
                    EXECUTOR.getQueue().size(),
                    EXECUTOR.getCompletedTaskCount(),
                    EXECUTOR.getTaskCount()
            ));
        }, 0, 1, TimeUnit.SECONDS);

        for (int i = 0; i < 1000; i++) {
            final int taskId = i;
            try {
                Future<String> future = EXECUTOR.submit(() -> {
                    Thread.sleep(300);
                    return "ok-" + taskId;
                });

                try {
                    // 显式控制等待时间，避免无限等待
                    String result = future.get(500, TimeUnit.MILLISECONDS);
                    if (taskId % 100 == 0) {
                        System.out.println("result: " + result);
                    }
                } catch (TimeoutException e) {
                    future.cancel(true);
                    System.err.println("task timeout: " + taskId);
                }

            } catch (RejectedExecutionException e) {
                System.err.println("task rejected: " + taskId);
            }
        }

        EXECUTOR.shutdown();
        monitor.shutdown();
    }
}

这个版本为什么更稳

ArrayBlockingQueue<>(100)：限制排队上限
maximumPoolSize=8：在队列满前后有一定弹性
CallerRunsPolicy：让提交方承担一部分执行压力，形成自然背压
future.get(timeout)：避免接口无限等待
明确监控指标：活跃数、队列长度、完成数

止血方案

线上故障来了，别急着一上来大改架构。先止血。

可执行的临时措施

1. 降低入口流量

如果已经出现明显堆积：

网关限流
熔断非核心接口
关闭高耗时非关键功能
减少重试次数

因为这时候最怕的是“超时 -> 客户端重试 -> 更大流量 -> 更严重堆积”。

2. 改成有界队列

如果当前线程池是无界队列，优先改为：

ArrayBlockingQueue
或显式指定容量的 LinkedBlockingQueue

至少先给系统加一个“天花板”。

3. 拒绝策略别默认装看不见

根据业务性质选策略：

CallerRunsPolicy：适合希望自然降速的场景
AbortPolicy：适合必须显式失败的场景
自定义拒绝：记录日志、打点、降级返回

4. 对 Future 等待加超时

不要裸写：

future.get();

建议至少写成：

future.get(300, TimeUnit.MILLISECONDS);

否则一旦任务排队，接口线程会被一起拖住。

常见坑与排查

坑 1：用了 `Executors` 工厂方法却没看底层实现

这是最常见的坑。

错误认知

“固定线程池很稳定”
“最大线程数已经限制住并发了”

真实情况

newFixedThreadPool(n) 的问题不是线程数固定，而是队列无界。

坑 2：把异步写成了“伪异步”

比如接口线程里：

Future<Result> future = executor.submit(task);
return future.get();

看起来用了线程池，实际上：

接口线程还是在等结果
如果线程池排队，接口照样超时
还多了一层线程切换成本

如果业务必须同步返回，就要认真评估：

这个线程池是否真的有意义？
任务是否适合异步化？
是否该改成批处理、缓存、降级而不是“包一层线程池”？

坑 3：线程池配得很大，但没有解决根因

有些同学第一反应是：

核心线程数从 20 改 100
最大线程数从 100 改 500

这有时只是在延后问题。

如果瓶颈在：

数据库连接池
下游 HTTP 调用
磁盘 I/O
锁竞争

那你把线程池开大，只会带来：

更多线程上下文切换
更多连接争抢
更高内存占用
更激烈的级联雪崩

坑 4：忽略任务本身的“隐性大对象”

最容易被忽略的是任务闭包里捕获了大对象，比如：

整个请求体
大量中间结果
图片、字节数组
Trace 上下文、用户对象

任务一旦排队，这些对象就跟着排队。

排查提示

如果 MAT 里看到：

FutureTask
业务 Runnable / Callable
DTO
byte[]

链路串在一起，那大概率就是任务队列把对象“挂住”了。

安全/性能最佳实践

这里不讲空话，只给能落地的。

1. 手动创建 ThreadPoolExecutor，不依赖默认工厂

推荐显式写出每个参数：

ThreadPoolExecutor executor = new ThreadPoolExecutor(
        corePoolSize,
        maximumPoolSize,
        keepAliveTime,
        TimeUnit.SECONDS,
        new ArrayBlockingQueue<>(queueCapacity),
        threadFactory,
        new ThreadPoolExecutor.AbortPolicy()
);

好处是行为透明，不会被默认实现“背刺”。

2. 按任务类型拆线程池

不要一个线程池干所有事。

建议至少分开：

CPU 密集型任务池
I/O 密集型任务池
定时任务池
下游调用隔离线程池

因为不同任务混在一起，最容易发生“轻任务被重任务拖死”。

可以用图表示：

flowchart LR
    A[请求入口] --> B{任务类型}
    B --> C[CPU密集型线程池]
    B --> D[IO密集型线程池]
    B --> E[下游调用隔离线程池]
    B --> F[定时任务线程池]

3. 一定要监控线程池，而不是只监控 JVM

线程池至少要暴露这些指标：

poolSize
activeCount
queueSize
completedTaskCount
taskCount
rejectCount

很多线上事故不是 JVM 先报警，而是线程池队列先开始爬坡。

4. 给接口设定总超时预算

不要只给下游 HTTP 调用设超时，还要给整个接口设预算。

例如：

接口 SLA：800ms
线程池排队最多 100ms
下游调用最多 500ms
剩余 200ms 给序列化、网络、业务组装

如果线程池排队时间都不受控，再精细的下游超时也没用。

5. 拒绝不是失败，失控才是失败

很多人害怕任务被拒绝，于是把队列开得很大。其实这恰恰是错的。

可控拒绝 > 无限制堆积

因为：

拒绝能快速失败
快速失败能触发降级
降级能保护核心服务
无限堆积只会把整个进程拖死

6. 线程池参数要结合业务估算

没有一套万能值，但可以先有基本思路。

CPU 密集型

通常线程数接近 CPU 核数即可：

Ncpu 或 Ncpu + 1

I/O 密集型

可以适当放大，但必须结合：

平均等待时间
下游容量
数据库连接数
对端限流

不要单看本机 CPU 很闲，就认为还能无限加线程。

一份实用排查清单

线上遇到“接口超时 + 内存上涨”，我建议按这个顺序过一遍：

flowchart TD
    A[接口RT上涨] --> B[看线程池队列长度]
    B --> C{队列是否持续增长}
    C -- 是 --> D[检查是否无界队列]
    D --> E[抓jstack看线程状态]
    E --> F[抓heap dump看FutureTask和队列节点]
    F --> G[确认任务堆积]
    G --> H[限流/降级止血]
    H --> I[改有界队列+拒绝策略]
    I --> J[补监控与超时控制]
    C -- 否 --> K[继续排查DB/下游依赖]

也可以直接落成 checklist：

是否使用了 Executors.newFixedThreadPool() / newSingleThreadExecutor()
队列是否无界
队列长度是否持续增长
活跃线程是否接近上限
是否存在 Future.get() 长时间等待
任务是否捕获大对象
是否缺少拒绝策略监控
是否缺少接口总超时控制
是否存在超时后重试放大流量

总结

这类问题的根因，通常不是“线程池本身不行”，而是线程池被当成了无限缓冲区。

把关键结论收一下：

Executors.newFixedThreadPool() 很方便，但无界队列在高压下很危险
接口超时不只看执行时间，还要看排队时间
内存飙升很多时候不是传统内存泄漏，而是任务堆积
修复核心不是一味加线程，而是：
- 用有界队列
- 配置合理拒绝策略
- 做超时控制
- 建立线程池监控
- 必要时做隔离、限流和降级

如果你现在在维护线上 Java 服务，我的建议很直接：

先全局搜一遍 Executors.
把核心线程池都换成显式 ThreadPoolExecutor
把队列长度、拒绝数接进监控
对同步等待异步结果的代码做一次专项排查

很多看似“偶发”的接口超时，最后都能追到这条链上。这个坑我自己踩过，也见过不少团队踩，修完之后通常不只是稳定性提升，连接口 RT 曲线都会平很多。