Java 中使用 CompletableFuture 构建高并发异步任务编排的实战指南

在很多 Java 服务里，真正拖慢接口的，往往不是某一段 CPU 计算，而是“等”：等数据库、等下游 HTTP、等缓存、等消息系统返回。
如果这些等待是串行发生的，接口延迟就会被一层层累加；一旦并发量上来，线程池也会很快被拖住。

CompletableFuture 的价值，就在于：把原本线性的等待，改造成可编排、可组合、可回收的异步任务流。
它不只是“异步执行一个方法”，更重要的是能把多个依赖关系复杂的任务组织起来，形成一套相对清晰的并发编排模型。

这篇文章我会从架构视角来讲，重点回答几个中级开发者最关心的问题：

什么场景适合用 CompletableFuture
如何把“串行调用链”改造成“高并发异步编排”
如何处理超时、异常、线程池隔离和结果降级
线上常见坑怎么排查

背景与问题

先看一个典型业务场景：聚合查询商品详情页。

一个接口可能要同时拿：

商品基础信息
价格信息
库存信息
营销活动
用户个性化推荐
评论摘要

如果你这么写：

Product product = productService.getProduct(productId);
Price price = priceService.getPrice(productId);
Stock stock = stockService.getStock(productId);
Promotion promotion = promotionService.getPromotion(productId);
Recommend recommend = recommendService.getRecommend(userId, productId);
CommentSummary comment = commentService.getSummary(productId);

它的问题很直接：

串行等待，总耗时接近各服务耗时之和
下游某个服务慢，会拖垮整个接口
无法优雅表达“先拿 A，再基于 A 去拿 B”
错误处理和超时控制分散、混乱
高并发下容易把 Tomcat/业务线程阻塞满

为什么传统 Future 不够用

Future 只能让你“拿到一个异步结果”，但它不擅长任务之间的组合：

不能优雅地链式处理结果
不能方便地合并多个任务
异常处理笨重
代码容易退化成一堆 get() 阻塞

而 CompletableFuture 提供了一套声明式 API：

supplyAsync / runAsync
thenApply / thenCompose / thenCombine
allOf / anyOf
exceptionally / handle / whenComplete
orTimeout / completeOnTimeout

它本质上是一个支持任务依赖编排的异步结果容器。

核心原理

如果把 CompletableFuture 放到架构层面理解，可以把它看成三类能力：

异步启动
依赖编排
结果汇聚

1. 异步启动

通过线程池把任务提交出去，不阻塞当前主流程。

CompletableFuture<Price> priceFuture =
    CompletableFuture.supplyAsync(() -> priceService.getPrice(productId), executor);

2. 依赖编排

有些任务彼此独立，可以并行；有些任务存在上下游依赖。

独立任务：价格、库存、评论，可以一起发起
依赖任务：先查商品，再根据类目查推荐

这时候常见 API 的区别要分清：

thenApply：上一步结果经过转换，返回普通值
thenCompose：上一步结果继续触发新的异步任务，适合“异步接异步”
thenCombine：两个异步结果都完成后进行合并

3. 结果汇聚

当多个子任务完成后，再组装成最终 DTO 返回。

一张图看懂任务编排

flowchart TD
    A[请求进入] --> B[并发发起基础任务]
    B --> C1[商品信息]
    B --> C2[价格信息]
    B --> C3[库存信息]
    B --> C4[评论摘要]
    C1 --> D[基于商品类目发起推荐任务]
    C1 --> E[基于商品ID发起营销任务]
    C2 --> F[结果汇聚]
    C3 --> F
    C4 --> F
    D --> F
    E --> F
    F --> G[返回商品详情页DTO]

这类结构很适合 CompletableFuture。

方案对比与取舍分析

在做异步编排时，我通常会先判断：到底该用哪一种模型，而不是上来就套 CompletableFuture。

方案	适用场景	优点	局限
同步串行	简单内部系统、低 QPS	代码直观	延迟高、吞吐差
`Future` + 手工 `get()`	简单并发查询	比串行快	编排能力弱，代码割裂
`CompletableFuture`	中高并发、聚合接口、依赖链调用	组合灵活、异常处理较完整	线程池和超时治理要求高
响应式编程（Reactor）	全链路非阻塞、流式处理	吞吐高、背压能力强	学习曲线陡，改造成本高

什么时候优先用 CompletableFuture

适合：

你现在还是 Spring MVC / 普通 Java 服务
下游大多是同步 SDK 或阻塞式 HTTP/DB 调用
需要在保持现有技术栈的前提下提升并发能力
任务数量有限，但依赖关系较复杂

不太适合：

任务数极大且生命周期长
全链路已经是响应式栈
你连线程池隔离和超时治理都没有准备好

一句话概括：
CompletableFuture 很适合做“局部架构升级”，但不是无限并发的银弹。

核心原理拆解：几个最容易混淆的 API

thenApply vs thenCompose

很多人第一次写的时候都会混。我的经验是记这一句：

同步转换，用 thenApply
异步接力，用 thenCompose

CompletableFuture<Product> productFuture = CompletableFuture.supplyAsync(
    () -> productService.getProduct(productId), executor);

// 同步转换：Product -> categoryId
CompletableFuture<Long> categoryFuture = productFuture.thenApply(Product::getCategoryId);

// 异步接力：Product -> CompletableFuture<Recommend>
CompletableFuture<Recommend> recommendFuture = productFuture.thenCompose(
    product -> CompletableFuture.supplyAsync(
        () -> recommendService.getRecommendByCategory(product.getCategoryId(), userId),
        executor
    )
);

如果这里误用 thenApply，你会得到嵌套的 CompletableFuture<CompletableFuture<T>>，后面很容易写乱。

allOf 的真实作用

allOf 只表示：所有任务完成。
它并不会自动帮你收集每个任务的结果。

CompletableFuture<Void> all = CompletableFuture.allOf(f1, f2, f3);
all.join();

之后还得自己取：

Result1 r1 = f1.join();
Result2 r2 = f2.join();
Result3 r3 = f3.join();

异常处理三件套

exceptionally：出错时兜底，适合降级
handle：无论成功失败都处理，并返回新结果
whenComplete：更像回调通知，不改结果

我在线上排障时最常见的问题之一，是大家把 whenComplete 当成“异常恢复”来用，结果发现它根本没改变 future 的最终状态。

时序图：一次聚合查询如何并发执行

sequenceDiagram
    participant Client as 调用方
    participant API as 聚合接口
    participant TP as 业务线程池
    participant PS as 商品服务
    participant PR as 价格服务
    participant ST as 库存服务
    participant RS as 推荐服务

    Client->>API: 请求商品详情
    API->>TP: 异步提交商品任务
    API->>TP: 异步提交价格任务
    API->>TP: 异步提交库存任务

    TP->>PS: 查询商品
    TP->>PR: 查询价格
    TP->>ST: 查询库存

    PS-->>TP: 返回商品
    TP->>TP: thenCompose 发起推荐任务
    TP->>RS: 查询推荐

    PR-->>TP: 返回价格
    ST-->>TP: 返回库存
    RS-->>TP: 返回推荐

    TP-->>API: allOf 完成并组装 DTO
    API-->>Client: 返回详情页数据

实战代码（可运行）

下面我们写一个简化但可运行的示例。
这个例子模拟一个商品详情聚合接口，包含：

商品信息
价格
库存
评论
推荐
超时与降级
独立线程池

为了方便运行，我用 sleep 模拟远程调用耗时。

import java.math.BigDecimal;
import java.util.concurrent.*;
import java.util.function.Supplier;

public class CompletableFutureOrchestrationDemo {

    private static final ExecutorService BIZ_EXECUTOR = new ThreadPoolExecutor(
            8, 16,
            60L, TimeUnit.SECONDS,
            new ArrayBlockingQueue<>(200),
            new ThreadFactory() {
                private int i = 1;
                @Override
                public Thread newThread(Runnable r) {
                    return new Thread(r, "cf-biz-" + i++);
                }
            },
            new ThreadPoolExecutor.CallerRunsPolicy()
    );

    public static void main(String[] args) {
        ProductDetailDTO dto = getProductDetail(1001L, 9527L);
        System.out.println(dto);
        BIZ_EXECUTOR.shutdown();
    }

    public static ProductDetailDTO getProductDetail(Long productId, Long userId) {
        long start = System.currentTimeMillis();

        CompletableFuture<Product> productFuture = CompletableFuture.supplyAsync(
                wrap("product", () -> ProductService.getProduct(productId)),
                BIZ_EXECUTOR
        ).orTimeout(800, TimeUnit.MILLISECONDS);

        CompletableFuture<Price> priceFuture = CompletableFuture.supplyAsync(
                wrap("price", () -> PriceService.getPrice(productId)),
                BIZ_EXECUTOR
        ).completeOnTimeout(new Price(productId, new BigDecimal("0.00")), 300, TimeUnit.MILLISECONDS)
         .exceptionally(ex -> {
             System.out.println("[degrade] price fallback: " + ex.getMessage());
             return new Price(productId, new BigDecimal("0.00"));
         });

        CompletableFuture<Stock> stockFuture = CompletableFuture.supplyAsync(
                wrap("stock", () -> StockService.getStock(productId)),
                BIZ_EXECUTOR
        ).exceptionally(ex -> {
            System.out.println("[degrade] stock fallback: " + ex.getMessage());
            return new Stock(productId, false);
        });

        CompletableFuture<CommentSummary> commentFuture = CompletableFuture.supplyAsync(
                wrap("comment", () -> CommentService.getSummary(productId)),
                BIZ_EXECUTOR
        ).completeOnTimeout(new CommentSummary(productId, 0, 0.0), 250, TimeUnit.MILLISECONDS);

        CompletableFuture<Recommend> recommendFuture = productFuture.thenCompose(product ->
                CompletableFuture.supplyAsync(
                        wrap("recommend", () -> RecommendService.getRecommendByCategory(product.categoryId, userId)),
                        BIZ_EXECUTOR
                ).exceptionally(ex -> {
                    System.out.println("[degrade] recommend fallback: " + ex.getMessage());
                    return new Recommend("default-recommend");
                })
        );

        CompletableFuture<Void> all = CompletableFuture.allOf(
                productFuture, priceFuture, stockFuture, commentFuture, recommendFuture
        );

        try {
            all.join();
            ProductDetailDTO dto = new ProductDetailDTO(
                    productFuture.join(),
                    priceFuture.join(),
                    stockFuture.join(),
                    commentFuture.join(),
                    recommendFuture.join()
            );
            long cost = System.currentTimeMillis() - start;
            System.out.println("total cost = " + cost + " ms");
            return dto;
        } catch (CompletionException ex) {
            throw new RuntimeException("聚合查询失败: " + ex.getCause(), ex);
        }
    }

    private static <T> Supplier<T> wrap(String taskName, Supplier<T> supplier) {
        return () -> {
            long start = System.currentTimeMillis();
            try {
                T result = supplier.get();
                System.out.println("[" + taskName + "] success, cost=" + (System.currentTimeMillis() - start) + "ms"
                        + ", thread=" + Thread.currentThread().getName());
                return result;
            } catch (Exception ex) {
                System.out.println("[" + taskName + "] fail, cost=" + (System.currentTimeMillis() - start) + "ms"
                        + ", thread=" + Thread.currentThread().getName()
                        + ", error=" + ex.getMessage());
                throw ex;
            }
        };
    }

    static class ProductService {
        static Product getProduct(Long productId) {
            sleep(120);
            return new Product(productId, "机械键盘", 10L);
        }
    }

    static class PriceService {
        static Price getPrice(Long productId) {
            sleep(180);
            return new Price(productId, new BigDecimal("299.00"));
        }
    }

    static class StockService {
        static Stock getStock(Long productId) {
            sleep(100);
            return new Stock(productId, true);
        }
    }

    static class CommentService {
        static CommentSummary getSummary(Long productId) {
            sleep(150);
            return new CommentSummary(productId, 1280, 4.8);
        }
    }

    static class RecommendService {
        static Recommend getRecommendByCategory(Long categoryId, Long userId) {
            sleep(200);
            return new Recommend("猜你喜欢：人体工学腕托");
        }
    }

    static void sleep(long millis) {
        try {
            Thread.sleep(millis);
        } catch (InterruptedException e) {
            Thread.currentThread().interrupt();
            throw new RuntimeException("thread interrupted", e);
        }
    }

    static class Product {
        Long productId;
        String name;
        Long categoryId;

        Product(Long productId, String name, Long categoryId) {
            this.productId = productId;
            this.name = name;
            this.categoryId = categoryId;
        }

        @Override
        public String toString() {
            return "Product{productId=" + productId + ", name='" + name + "', categoryId=" + categoryId + "}";
        }
    }

    static class Price {
        Long productId;
        BigDecimal amount;

        Price(Long productId, BigDecimal amount) {
            this.productId = productId;
            this.amount = amount;
        }

        @Override
        public String toString() {
            return "Price{productId=" + productId + ", amount=" + amount + "}";
        }
    }

    static class Stock {
        Long productId;
        boolean available;

        Stock(Long productId, boolean available) {
            this.productId = productId;
            this.available = available;
        }

        @Override
        public String toString() {
            return "Stock{productId=" + productId + ", available=" + available + "}";
        }
    }

    static class CommentSummary {
        Long productId;
        int total;
        double score;

        CommentSummary(Long productId, int total, double score) {
            this.productId = productId;
            this.total = total;
            this.score = score;
        }

        @Override
        public String toString() {
            return "CommentSummary{productId=" + productId + ", total=" + total + ", score=" + score + "}";
        }
    }

    static class Recommend {
        String text;

        Recommend(String text) {
            this.text = text;
        }

        @Override
        public String toString() {
            return "Recommend{text='" + text + "'}";
        }
    }

    static class ProductDetailDTO {
        Product product;
        Price price;
        Stock stock;
        CommentSummary commentSummary;
        Recommend recommend;

        ProductDetailDTO(Product product, Price price, Stock stock, CommentSummary commentSummary, Recommend recommend) {
            this.product = product;
            this.price = price;
            this.stock = stock;
            this.commentSummary = commentSummary;
            this.recommend = recommend;
        }

        @Override
        public String toString() {
            return "ProductDetailDTO{" +
                    "product=" + product +
                    ", price=" + price +
                    ", stock=" + stock +
                    ", commentSummary=" + commentSummary +
                    ", recommend=" + recommend +
                    '}';
        }
    }
}

这段代码体现了什么

独立任务并发执行
价格、库存、评论与商品信息同时发起。
依赖任务链式触发
推荐依赖商品类目，所以挂在 productFuture.thenCompose(...) 后面。
超时降级
评论和价格可以接受降级，因此用了 completeOnTimeout。
局部失败不拖垮全局
推荐/库存失败时给默认值，而不是直接让整个接口失败。
专用线程池隔离
没有直接使用公共线程池，避免互相污染。

容量估算：线程池该怎么想

很多文章会告诉你“自定义线程池”，但不告诉你怎么估。这里给一个实用思路。

如果你的任务大部分是IO 密集型，线程数通常可以高于 CPU 核数。
一个粗略估算公式：

线程数 ≈ CPU核数 × (1 + 平均等待时间 / 平均计算时间)

比如：

CPU 8 核
每个任务 CPU 计算约 20ms
IO 等待约 180ms

那就是：

8 × (1 + 180 / 20) = 8 × 10 = 80

这只是起点，不是标准答案。上线前还要结合：

平均并发请求数
每个请求扇出几个子任务
下游可承受 QPS
队列堆积时的拒绝策略

一个简单的容量观察模型

flowchart LR
    A[入口请求QPS] --> B[每请求子任务数]
    B --> C[线程池提交速率]
    C --> D[活跃线程数]
    C --> E[队列长度]
    D --> F[下游服务压力]
    E --> G[超时与拒绝增多]
    F --> G

我个人经验是：
线程池大小只是表象，真正决定系统稳定性的，是“请求扇出倍数 × 下游耗时 × 超时治理”三者的乘积。

常见坑与排查

这一部分非常重要。CompletableFuture 在 demo 里看起来很优雅，但线上问题往往出在细节。

1. 误用 ForkJoinPool.commonPool

如果你写的是：

CompletableFuture.supplyAsync(() -> remoteCall());

没有传 executor，默认会落到公共线程池。
问题在于：

业务之间相互影响
阻塞型 IO 不适合长期占用 commonPool
排障时难区分是哪类任务打满线程

建议：涉及线上业务调用，一律显式传入自定义线程池。

2. 在异步链路里又 `get()` / `join()` 阻塞

例如：

CompletableFuture<Product> f1 = CompletableFuture.supplyAsync(() -> getProduct(), executor);
CompletableFuture<Price> f2 = CompletableFuture.supplyAsync(() -> {
    Product p = f1.join();
    return getPriceByProduct(p);
}, executor);

这看起来没问题，但本质上让一个线程池任务等待另一个线程池任务，严重时会出现：

线程饥饿
队列堆积
整体吞吐下降

更好的方式是：

CompletableFuture<Price> f2 = f1.thenCompose(product ->
    CompletableFuture.supplyAsync(() -> getPriceByProduct(product), executor)
);

3. allOf 完成了，但结果还是抛异常

allOf 只要其中一个 future 异常完成，最后 join() 就会抛 CompletionException。
所以你必须决定：

是要失败即失败
还是局部失败局部降级

如果是后者，请在子任务层面就做好 exceptionally 或 handle。

4. 超时了，但下游任务还在跑

这是很多人第一次遇到会困惑的点。
orTimeout / completeOnTimeout 改变的是 CompletableFuture 的完成状态，不一定能真正中断底层正在执行的阻塞调用。

比如下游是一个阻塞 HTTP 客户端，future 超时了，但那个 socket 可能还在等。

排查时要看三层超时是否一致：

CompletableFuture 编排层超时
HTTP/DB 客户端自身超时
下游服务超时配置

编排层超时不是取消执行的万能开关。

5. 异常被吞掉，日志里什么都没有

比如有人这么写：

future.exceptionally(ex -> null);

虽然接口没挂，但真正错误原因也没了。
线上定位会非常痛苦。

建议至少记录这些信息：

任务名
请求 traceId
开始时间/耗时
线程名
异常类型和根因

6. ThreadLocal 上下文丢失

比如：

用户身份
TraceId
MDC 日志上下文

异步切线程后，这些信息默认不会自动传递。表现出来通常是：

日志 traceId 断裂
审计字段缺失
灰度标记失效

解决方案包括：

手工封装上下文透传
使用支持上下文传递的线程池包装器
在框架层统一做 MDC 复制与清理

我自己踩过这个坑：代码逻辑没错，但日志链路全断，排障几乎靠猜。

排查路径：线上延迟飙升时怎么查

如果你发现某个聚合接口 P99 延迟突然升高，可以按下面顺序看：

第一步：看线程池

重点指标：

activeCount
queueSize
taskCount / completedTaskCount
rejectCount
最大线程数是否打满

如果活跃线程持续满、队列持续增长，说明异步没有真的“提效”，而是在“堆积”。

第二步：看子任务耗时分布

不要只看总耗时，要拆到每个 future：

商品任务耗时
价格任务耗时
库存任务耗时
推荐任务耗时

很多时候不是编排有问题，而是某个下游慢了。

第三步：看超时与降级比例

如果某个任务的降级比例突然升高：

是下游变慢了？
是线程池排队导致的假性超时？
是客户端连接池耗尽？

第四步：看异常封装层级

CompletionException 往往只是外壳，真正原因在 getCause() 里。
要一直剥到最里层。

安全/性能最佳实践

这里把我认为最值得落地的建议收拢一下。

1. 为不同类型任务做线程池隔离

不要把：

DB 查询
HTTP 调用
CPU 计算
日志/审计补偿

全塞到同一个线程池。

至少按任务类型拆分，避免慢任务拖死快任务。

2. 为每个子任务定义超时和降级策略

不是所有字段都值得“等到死”。

可以简单分层：

核心字段：商品、价格，失败则整体失败
重要字段：库存，失败可短时降级
增强字段：评论、推荐，超时直接默认值

这比“一刀切统一超时”更贴近业务价值。

3. 控制扇出数量

假设一个接口拆成 12 个异步子任务，QPS 500 时，理论上就是每秒 6000 次下游调用。
这对线程池、连接池、下游服务都是压力放大器。

建议：

合并可批量查询的请求
对弱相关信息做缓存
避免无边界扇出

4. 不要把 CompletableFuture 当成响应式框架替代品

它更适合：

单次请求内的有限任务编排
现有同步系统的并发增强

不适合：

长生命周期事件流
大规模流式处理
复杂背压控制

边界要清楚，不然架构会变得既不像同步，也不像响应式。

5. 使用监控埋点观察编排质量

至少监控这些维度：

聚合接口总耗时
各子任务耗时
线程池活跃线程数
队列长度
超时次数
降级次数
异常类型分布

如果没有这些指标，出了问题基本只能“靠日志猜”。

6. 正确处理中断与取消

如果任务内部用了阻塞操作，记得尊重中断：

catch (InterruptedException e) {
    Thread.currentThread().interrupt();
    throw new RuntimeException(e);
}

否则线程池里的线程会在异常状态下继续工作，埋下更难查的问题。

7. DTO 组装阶段保持简单纯净

异步任务负责“并发取数”，最终组装 DTO 的逻辑尽量不要再塞入复杂业务判断。
否则你会得到一个很难维护的“异步意大利面”。

建议把职责分开：

子任务：取数、降级、超时
汇聚层：字段组装
业务规则层：统一校验和裁剪

一个推荐的落地模板

如果你准备在项目里系统化使用 CompletableFuture，可以采用下面这个模板思路：

classDiagram
    class AsyncTaskExecutorConfig {
        +ExecutorService queryExecutor
        +ExecutorService ioExecutor
    }

    class AggregationService {
        +getDetail(id, userId)
    }

    class TaskWrapper {
        +supply(taskName, supplier)
        +withTimeout(future, timeout)
        +withFallback(future, fallback)
    }

    class MetricsLogger {
        +record(taskName, cost, success)
    }

    AggregationService --> AsyncTaskExecutorConfig
    AggregationService --> TaskWrapper
    TaskWrapper --> MetricsLogger

核心思想是：

线程池配置统一管理
超时、日志、降级封装成公共能力
业务代码只关注依赖关系和组装逻辑

这样项目规模大了也不会乱。

总结

CompletableFuture 在 Java 高并发场景里的真正价值，不是“异步”这两个字，而是：

能把串行等待改造成并发执行
能清晰表达任务依赖关系
能把超时、异常、降级纳入统一编排
能在不彻底重构技术栈的前提下，显著改善聚合接口性能

但它也有明确边界：

不是无限并发工具
不是线程池问题的遮羞布
不是响应式架构的平替

如果你准备在生产环境里落地，我建议按这个顺序推进：

先识别最适合并发化的聚合接口
先做线程池隔离，再做异步编排
每个子任务明确超时、异常、降级策略
加上任务级耗时与线程池监控
控制扇出数量，避免放大下游压力

最后给一个很实用的判断标准：
如果一个接口里 60% 以上的时间都花在“等下游”，并且多个下游彼此独立，那它通常就值得用 CompletableFuture 重构。

这类改造，往往不是代码写得多高级，而是你是否把“并发、隔离、超时、降级、监控”五件事一起想明白。
只做异步，不做治理，收益通常很短；把编排和治理一起做好，CompletableFuture 才会真正成为你的高并发工具箱。