背景与问题

很多 Java 开发第一次接触 ThreadLocal 时，感觉它特别顺手：
“我不想层层传参了，把用户信息、traceId、租户标识塞进 ThreadLocal 不就完了？”

单线程、短生命周期线程下，这么做往往“看起来没问题”。但一旦进入线程池场景，坑就开始出现：

请求 A 的上下文，跑到了请求 B 上，出现串值
老请求残留对象一直不释放，堆内存持续上涨，最后怀疑人生
日志里 traceId 偶尔错乱，链路排查越查越乱
业务代码明明没共享变量，却出现“上一位用户的数据”

我自己第一次踩这个坑，是在线上排查一个“日志 traceId 偶发错乱”的问题。最开始大家都怀疑是日志组件、MDC、网关透传有问题，最后顺藤摸瓜，发现根源居然是：线程池复用线程，而 ThreadLocal 没有清理。

这篇文章我们不只讲概念，而是按排查思路来：

先复现串值
再解释为什么会发生
看看为什么会引出“看起来像内存泄漏”的问题
最后给出能直接落地的治理方式

背景现象：你通常会看到什么

在线上问题里，这类故障很少是“直接报错”，它更多是诡异现象：

典型现象

1. 上下文串值

比如当前请求用户是 userB，日志里却打印了 userA：

线程: pool-1-thread-1, 用户: userA
线程: pool-1-thread-1, 用户: userA   // 本来应该是 userB

2. 内存占用持续偏高

堆 dump 后你会发现一些本该短命的对象，被线程长期引用着，GC 不掉。

3. 线程池场景问题更明显

如果你是这样用的：

Web 容器线程池
业务异步线程池
定时任务线程池
MQ 消费线程池

那都要特别小心。

核心原理

ThreadLocal 不是“线程安全魔法”，而是“线程绑定存储”

先说一句最容易记住的话：

ThreadLocal 的本质不是解决共享，而是把数据存进“当前线程自己的小仓库”。

每个 Thread 对象内部都维护了一个 ThreadLocalMap。
你调用：

threadLocal.set(value);

其实是把 value 放进了“当前线程”的 ThreadLocalMap 中。

可以用下面这张图理解。

flowchart LR
    A[业务代码] --> B[ThreadLocal.set]
    B --> C[当前线程 Thread]
    C --> D[ThreadLocalMap]
    D --> E[Entry: key=ThreadLocal 弱引用]
    E --> F[value=业务对象 强引用]

这里有两个关键点：

Entry 的 key 是对 ThreadLocal 的弱引用
Entry 的 value 是强引用

这两个设计，恰恰是很多人误解的来源。

为什么在线程池里会串值

线程池会复用线程。
请求 1 用了 pool-1-thread-1，请求结束后，这个线程不会销毁；请求 2 很可能还会继续用这个线程。

如果请求 1 往 ThreadLocal 里放了值，但没有 remove()，那么请求 2 在同一个线程上执行时，就可能读到上一次残留的数据。

看这个执行流程就很直观：

sequenceDiagram
    participant R1 as 请求A
    participant T as pool-1-thread-1
    participant TL as ThreadLocal
    participant R2 as 请求B

    R1->>T: 在线程池线程上执行
    T->>TL: set(userA)
    T-->>R1: 业务执行完成
    Note over T,TL: 未调用 remove()

    R2->>T: 复用同一线程执行
    T->>TL: get()
    TL-->>T: 返回 userA（残留值）
    T-->>R2: 发生上下文串值

一句话总结：

线程池不是问题本身，线程复用 + 未清理 ThreadLocal 才是问题根源。

为什么会出现“内存泄漏”

这里要分清楚：很多场景不是传统意义上的“永远不可达对象泄漏”，而是长生命周期线程导致对象被意外持有太久，表现出来像泄漏。

ThreadLocalMap 的结构特点

ThreadLocalMap 中的 entry 大致可以理解为：

key：WeakReference<ThreadLocal<?>>
value：真实对象，强引用

如果你的 ThreadLocal 实例本身没有外部强引用了，那么 key 会被 GC 回收，变成 null。
但 value 还在，只要线程活着、这个 slot 没被清理，它就还占着内存。

可以把这个过程理解成：

stateDiagram-v2
    [*] --> 正常绑定
    正常绑定: key=ThreadLocal\nvalue=业务对象
    正常绑定 --> Key被回收: ThreadLocal外部无强引用
    Key被回收: key=null\nvalue仍然存在
    Key被回收 --> 残留占用: 线程池线程长期存活
    残留占用 --> 被动清理: 后续set/get/remove触发探测清理
    被动清理 --> [*]

也就是说：

ThreadLocal 本身被回收了，不代表 value 一定马上释放
在线程池线程长期存活的情况下，这些 value 可能挂很久
如果 value 又比较大，比如用户上下文、缓存对象、大数组、数据库连接包装对象，就会明显放大问题

现象复现

下面先用一段可运行代码复现“串值”问题，再看正确写法。

复现代码：线程池中的 ThreadLocal 串值

import java.util.concurrent.ExecutorService;
import java.util.concurrent.Executors;
import java.util.concurrent.TimeUnit;

public class ThreadLocalLeakDemo {

    private static final ThreadLocal<String> CURRENT_USER = new ThreadLocal<>();

    public static void main(String[] args) throws Exception {
        ExecutorService executor = Executors.newFixedThreadPool(1);

        executor.submit(() -> {
            CURRENT_USER.set("userA");
            System.out.println(Thread.currentThread().getName() + " 设置用户: " + CURRENT_USER.get());
            // 故意不 remove()
        });

        executor.submit(() -> {
            System.out.println(Thread.currentThread().getName() + " 读取用户: " + CURRENT_USER.get());
            // 这里本来期望是 null，但实际可能读到 userA
        });

        executor.shutdown();
        executor.awaitTermination(3, TimeUnit.SECONDS);
    }
}

可能输出

pool-1-thread-1 设置用户: userA
pool-1-thread-1 读取用户: userA

这就复现了最典型的串值。

实战代码（可运行）

正确写法：必须在 finally 中 remove

这是一条非常实用的规则：

只要你在业务入口 set() 了，就要在 finally 里 remove()。

import java.util.concurrent.ExecutorService;
import java.util.concurrent.Executors;
import java.util.concurrent.TimeUnit;

public class ThreadLocalSafeDemo {

    private static final ThreadLocal<String> CURRENT_USER = new ThreadLocal<>();

    public static void main(String[] args) throws Exception {
        ExecutorService executor = Executors.newFixedThreadPool(1);

        executor.submit(() -> {
            try {
                CURRENT_USER.set("userA");
                System.out.println(Thread.currentThread().getName() + " 设置用户: " + CURRENT_USER.get());
            } finally {
                CURRENT_USER.remove();
            }
        });

        executor.submit(() -> {
            try {
                System.out.println(Thread.currentThread().getName() + " 读取用户: " + CURRENT_USER.get());
            } finally {
                CURRENT_USER.remove();
            }
        });

        executor.shutdown();
        executor.awaitTermination(3, TimeUnit.SECONDS);
    }
}

预期输出

pool-1-thread-1 设置用户: userA
pool-1-thread-1 读取用户: null

这就是最基础、最有效的止血方式。

进一步封装：上下文工具类

如果团队里很多地方都直接操作 ThreadLocal，迟早有人忘记 remove()。
更稳妥的方法是封装一个上下文类，把入口和清理收口。

public final class UserContextHolder {

    private static final ThreadLocal<String> USER_HOLDER = new ThreadLocal<>();

    private UserContextHolder() {
    }

    public static void setUser(String user) {
        USER_HOLDER.set(user);
    }

    public static String getUser() {
        return USER_HOLDER.get();
    }

    public static void clear() {
        USER_HOLDER.remove();
    }
}

在业务入口这样用：

public class UserServiceDemo {

    public void process(String userId) {
        try {
            UserContextHolder.setUser(userId);
            System.out.println("当前用户: " + UserContextHolder.getUser());
            // 业务逻辑
        } finally {
            UserContextHolder.clear();
        }
    }
}

线程池异步任务场景：手动传递上下文

另一个常见坑是：主线程 set 了值，异步线程里却拿不到，或者拿到了旧值。
这里必须明确：

ThreadLocal 绑定的是“当前线程”，不会自动跨线程传递。

错误示例思路通常是：

主线程里 set(traceId)
扔给线程池执行
在线程池线程里 get()
发现是 null 或脏值

更稳的方式是显式传参，或者在提交任务时包装一层。

示例：任务包装器

import java.util.concurrent.ExecutorService;
import java.util.concurrent.Executors;

public class ContextAwareExecutorDemo {

    private static final ThreadLocal<String> TRACE_ID = new ThreadLocal<>();

    public static void main(String[] args) {
        ExecutorService executor = Executors.newFixedThreadPool(1);

        TRACE_ID.set("trace-main-001");

        String capturedTraceId = TRACE_ID.get();
        executor.submit(wrap(() -> {
            System.out.println(Thread.currentThread().getName() + " traceId=" + TRACE_ID.get());
        }, capturedTraceId));

        TRACE_ID.remove();
        executor.shutdown();
    }

    private static Runnable wrap(Runnable task, String traceId) {
        return () -> {
            try {
                TRACE_ID.set(traceId);
                task.run();
            } finally {
                TRACE_ID.remove();
            }
        };
    }
}

这个思路在日志上下文、租户上下文里都非常常见。

常见坑与排查

这一部分我按“线上排障”的思路来讲，比较贴近真实工作。

坑 1：以为请求结束了，ThreadLocal 里的值也会结束

这是最常见误解。

请求结束 != 线程结束。
尤其在 Tomcat、Jetty、Spring 线程池、业务自建线程池里，线程往往活得很久。

判断标准：

如果线程是线程池中的工作线程，就绝不能假设它会马上销毁
只要线程复用，未清理的 ThreadLocal 就有残留风险

坑 2：只在正常流程 remove，异常流程没清理

很多代码长这样：

CURRENT_USER.set(userId);
doBusiness();
CURRENT_USER.remove();

一旦 doBusiness() 抛异常，后面的 remove() 根本不会执行。

正确姿势

try {
    CURRENT_USER.set(userId);
    doBusiness();
} finally {
    CURRENT_USER.remove();
}

别嫌这个写法啰嗦，它真的是线上稳定性的分水岭。

坑 3：把大对象塞进 ThreadLocal

比如：

大型 DTO
很深的用户权限树
大 Map
临时缓存集合
文件流/连接类对象

如果这些对象残留在线程上，问题会比一个小字符串严重得多。

建议：
ThreadLocal 只放轻量、明确、短生命周期的上下文数据。

坑 4：误用 InheritableThreadLocal

很多人看到子线程拿不到值，就改成 InheritableThreadLocal。
这在普通 new Thread() 场景下可能有点用，但在线程池里通常会更危险：

线程池线程不是“新建子线程”
线程早就创建好了
继承关系并不符合你想象
反而更容易制造上下文错乱

所以在线程池里，不要把 InheritableThreadLocal 当万能方案。

坑 5：第三方框架帮你 set 了，但没及时 clear

有些框架会把这些信息放进 ThreadLocal：

用户身份
数据源路由 key
ORM 会话
日志 MDC
国际化上下文

如果你用了多层框架，排查时不要只盯自己写的 ThreadLocal。
有时候真正脏的是框架里的上下文。

定位路径

当你怀疑是 ThreadLocal 问题时，我一般建议按这条路径排。

路径 1：先看是否“固定线程复现”

如果你发现异常日志总是集中在某几个线程名上，比如：

http-nio-8080-exec-17
pool-3-thread-2

那非常值得怀疑是线程复用导致的上下文残留。

你可以做的事

在关键入口打印：

System.out.println("thread=" + Thread.currentThread().getName() + ", user=" + UserContextHolder.getUser());

如果同一个线程上出现前后不一致、且与请求不匹配的数据，方向基本就对了。

路径 2：全局搜索 ThreadLocal / remove

直接在代码库里搜：

ThreadLocal<
new ThreadLocal
withInitial
InheritableThreadLocal
remove()

重点关注：

有 set() 没有 remove()
remove() 不在 finally
在线程池任务里直接读取上下文
AOP、拦截器、过滤器、装饰器是否缺少清理

路径 3：结合堆 Dump 看线程引用链

如果已经怀疑有内存泄漏倾向，可以抓 heap dump 分析：

常见工具：

jmap
Eclipse MAT
VisualVM
YourKit / JProfiler

典型观察点

看大对象是否被以下路径引用：

Thread
  -> threadLocals
    -> ThreadLocalMap
      -> Entry
        -> value

如果 value 正是你的上下文对象、缓存对象、租户信息等，说明方向没跑偏。

路径 4：排查线程池任务包装逻辑

如果你们有统一线程池封装，比如：

自定义 Executor
Spring TaskDecorator
链路追踪包装器
日志 MDC 透传器

一定要确认它们是否：

提交前捕获上下文
执行前设置上下文
执行后无论成功失败都清理

少一步都可能出事。

止血方案

线上出问题时，不一定有时间大重构，这时先止血最重要。

方案 1：在业务入口统一清理

适用场景：

Web 请求入口
MQ 消费入口
定时任务入口
RPC 调用入口

例如在 Filter / Interceptor 里做：

public void doFilter() {
    try {
        // set context
        // continue chain
    } finally {
        UserContextHolder.clear();
        TraceContextHolder.clear();
        TenantContextHolder.clear();
    }
}

这个方式见效最快。

方案 2：线程池统一包装任务

如果问题发生在异步任务里，就统一包装 Runnable / Callable。

核心思想：

提交时捕获上下文
执行时恢复
finally 清理

不要指望业务开发每次都手写一遍。

方案 3：短期减少 ThreadLocal 中存放的数据量

如果暂时改不了使用模式，至少先把 ThreadLocal 里的大对象缩小：

只存 ID，不存完整对象
只存 traceId，不存整条链路上下文树
只存 tenantId，不存租户完整配置

这对缓解内存压力很有帮助。

安全/性能最佳实践

这一节是我最想强调的“落地版 checklist”。

1. set 后一定要 remove，且写在 finally

这是第一原则，没有例外。

try {
    contextHolder.set(xxx);
    // do work
} finally {
    contextHolder.remove();
}

2. ThreadLocal 只存轻量上下文，不存资源对象

不建议放：

Connection
InputStream
Socket
大集合
大对象图

适合放：

traceId
userId
tenantId
轻量认证信息
少量只读上下文字段

3. 在线程池中，不要依赖隐式上下文传递

线程切换时，优先考虑：

显式参数传递
统一任务包装
框架级上下文装饰器

ThreadLocal 最适合“当前线程内短程使用”，不适合复杂异步链路里到处漂。

4. 给上下文定义明确生命周期

你可以把每个上下文都问自己一遍：

从哪一层开始 set？
哪一层必须 clear？
是否允许异步传播？
传播后谁负责清理？

如果这几个问题答不清楚，未来基本一定会出坑。

5. 统一封装，不要业务代码四处直接 new ThreadLocal

推荐做法是：

一个上下文对应一个 Holder
对外只暴露 set/get/clear
入口统一初始化
出口统一清理

这样至少排查时有抓手。

6. 监控线程池与内存趋势

如果你们系统 heavily 使用线程池和上下文，建议关注：

线程池活跃线程数
队列堆积
Full GC 次数
Old 区增长趋势
单次请求上下文对象大小

ThreadLocal 问题一开始往往不是“瞬间炸”，而是慢性失血。

一个更贴近生产的建议：哪些场景应该少用 ThreadLocal

ThreadLocal 很方便，但不是所有上下文都值得放进去。

更适合用 ThreadLocal 的场景

日志 traceId
当前请求 userId
租户 ID
读写库路由标识
少量鉴权上下文

不太适合的场景

跨多级异步链路传递大量状态
需要长期保存的缓存
复杂会话对象
大对象、资源型对象
可显式传参却偷懒不传的场景

一个简单判断标准：

如果这个值离开当前线程后还要被到处使用，那它大概率不应该只靠 ThreadLocal 管。

总结

ThreadLocal 真正的坑，不在 API 本身，而在它和线程池复用机制结合之后的副作用：

不清理，会串值
长生命周期线程持有 value，会表现出内存泄漏
在线程池里，它不会自动做对的事，你必须自己管理生命周期

最后给你一份可执行结论：

所有 ThreadLocal.set() 后面，必须配 finally remove()
线程池异步任务不要幻想自动透传上下文，要手动包装或显式传参
不要往 ThreadLocal 塞大对象和资源对象
统一在 Filter / Interceptor / 任务装饰器中做初始化与清理
线上排查时，优先看固定线程是否重复出现脏上下文，再结合 heap dump 看 Thread -> threadLocals -> value 引用链

如果你现在就想做一次代码治理，最先做的不是“重构全部上下文”，而是两件事：

全局搜索 ThreadLocal
把所有 remove() 补进 finally

很多线上诡异问题，真就是这么被解决掉的。