分布式架构实战：基于消息队列与幂等设计构建高可用订单系统

做订单系统，最怕的不是“慢”，而是“乱”。

慢，用户还能等等；一旦乱了，比如重复下单、库存扣重、支付成功但订单没更新、消息丢了导致履约失败，这些问题往往不是重试一下就能解决的。尤其在促销、秒杀、支付回调高峰期，一个看起来“能跑”的系统，很容易在并发和失败场景下暴露出真实水平。

这篇文章我换一个更贴近落地的角度来讲：不是只讲消息队列怎么接入，而是围绕“订单链路如何在不稳定环境下仍保持正确性”来设计系统。重点放在两个关键词上：

消息队列：把同步强耦合改造成异步解耦，提高可用性和削峰能力
幂等设计：让重复请求、重复消息、重复回调都不会把业务做坏

文章会包含可运行代码示例，我用 Python + SQLite 模拟一个简化版订单处理链路。虽然示例不直接依赖 Kafka/RabbitMQ，但设计思路可以直接迁移到生产环境。

背景与问题

一个典型订单系统通常至少会涉及这些服务：

订单服务：创建订单、更新状态
库存服务：冻结库存、扣减库存、释放库存
支付服务：支付下单、支付回调
营销服务：优惠券核销
通知服务：短信、站内信、物流通知

在单体时代，很多逻辑是一个本地事务里做完的；一旦进入分布式，就会出现几个现实问题。

1. 同步调用链太长，可用性被最慢节点拖垮

如果“创建订单”这个动作必须同步依赖库存、营销、支付路由、风控等多个服务，任意一个超时，整个下单链路就抖动。

2. 消息天然可能重复

很多人第一次上消息队列时会默认认为“发一条，消费一次”。现实不是这样：

生产者重试，可能发重
Broker 重投递，可能消费重
消费者处理成功但 ACK 丢失，Broker 也会重发

所以大多数 MQ 只能保证至少一次投递，而不是“只投一次”。

3. 分布式事务成本高，强一致并不现实

下单、扣库存、支付确认这几步跨多个服务，想靠两阶段提交硬做强一致，复杂度和性能成本都很高。真正可落地的方案，通常是：

核心状态机清晰
消息可靠投递
消费端幂等
失败可补偿

4. 故障不是异常情况，而是常态

网络闪断、数据库主从切换、消费者重启、支付平台重复回调，这些不是“极端小概率”，而是线上迟早会遇到的日常。

所以订单系统设计的核心，不是“理想路径跑通”，而是失败路径是否可控。

核心原理

这一部分我们先把架构骨架搭起来。

总体思路

我们把订单系统拆成两个层面：

用户请求层：尽量快速返回，减少同步依赖
异步事件层：通过消息驱动后续流程，靠幂等保证正确性

架构总览

flowchart LR
    U[用户/客户端] --> G[网关/API]
    G --> O[订单服务]
    O --> DB[(订单库)]
    O --> OUTBOX[(Outbox事件表)]
    OUTBOX --> MQ[消息队列]

    MQ --> I[库存服务]
    MQ --> P[支付结果处理服务]
    MQ --> N[通知服务]

    I --> SDB[(库存库)]
    P --> O
    N --> NDB[(通知记录库)]

这里有两个关键点：

订单服务先落库，再写 Outbox 事件表
由后台任务把 Outbox 事件发布到 MQ

这就是常见的 Transactional Outbox 模式。它解决的是：
“数据库更新成功了，但消息没发出去”或者“消息发出去了，但数据库没提交”的双写不一致问题。

订单状态机要先设计清楚

如果状态机含糊，幂等就很难做，因为你不知道“重复操作”到底该不该忽略。

一个简化订单流转可以是：

stateDiagram-v2
    [*] --> CREATED
    CREATED --> STOCK_RESERVED: 库存预占成功
    CREATED --> CANCELED: 超时取消/校验失败
    STOCK_RESERVED --> PAID: 支付成功
    STOCK_RESERVED --> CANCELED: 支付超时
    PAID --> FULFILLING: 履约开始
    FULFILLING --> DONE: 履约完成
    PAID --> REFUNDING: 售后退款
    REFUNDING --> REFUNDED: 退款完成

注意两条原则：

状态变更必须单向、有限
非法状态迁移必须拒绝

例如：

已支付订单不能再执行“创建成功后库存预占”逻辑
已取消订单收到重复支付回调时，不能直接改成已支付，必须走人工或补偿流程

消息队列在订单系统里到底解决什么问题

很多团队把 MQ 当“高并发神器”，但真正价值更准确地说是：

1. 解耦

创建订单不必同步等待通知、积分、推荐系统等次要服务。

2. 削峰

高峰时先把请求稳住，让消费者按系统承受能力逐步处理。

3. 异步化

支付回调、库存变更、订单超时取消都更适合事件驱动。

4. 故障隔离

通知服务挂了，不该影响主订单链路。

幂等设计的落地方式

幂等的目标不是“杜绝重复”，而是允许重复到来，但结果只生效一次。

常见做法有三类：

1. 唯一键去重

比如支付回调有 payment_id，消费消息有 message_id，数据库建立唯一索引。

CREATE TABLE processed_messages (
    id INTEGER PRIMARY KEY AUTOINCREMENT,
    consumer_group TEXT NOT NULL,
    message_id TEXT NOT NULL,
    processed_at DATETIME DEFAULT CURRENT_TIMESTAMP,
    UNIQUE (consumer_group, message_id)
);

消费者处理前先插入这张表：

插入成功：说明第一次处理，可以继续
插入失败（唯一键冲突）：说明已经处理过，直接跳过

2. 状态机幂等

比如“支付成功”这类事件，不仅看消息是否重复，还要看订单当前状态：

若订单已是 PAID，重复消息直接返回成功
若订单是 CANCELED，不能直接更新，需要补偿或人工介入

3. 业务请求幂等号

用户点击“提交订单”时，前端传 request_id，服务端记录：

同一个用户 + 同一个幂等号，只允许创建一个订单

这可以防止用户连点、客户端超时重试造成重复下单。

可靠消息的核心链路

sequenceDiagram
    participant C as 客户端
    participant O as 订单服务
    participant DB as 订单库
    participant OB as Outbox发布器
    participant MQ as 消息队列
    participant S as 库存服务

    C->>O: 创建订单(request_id)
    O->>DB: 本地事务：写订单+写Outbox事件
    DB-->>O: 提交成功
    O-->>C: 返回下单成功

    OB->>DB: 扫描未发布Outbox
    OB->>MQ: 发布 OrderCreated
    MQ-->>OB: ACK
    OB->>DB: 标记事件已发布

    MQ->>S: 投递 OrderCreated
    S->>DB: 幂等校验+预占库存
    S-->>MQ: ACK

这里最重要的不是“消息实时发出”，而是：

订单数据和待发送事件在同一个本地事务里提交
之后即使发布器挂了，恢复后还能继续扫表补发

这样消息“晚一点”可以接受，但不能悄悄丢。

方案对比与取舍分析

订单系统里，常见有三种思路。

方案一：全同步调用

下单时同步调用库存、优惠券、支付路由、通知。

优点：

实现直观
链路简单，便于本地调试

缺点：

耦合高
任意下游波动都会放大到下单接口
高峰期很脆

适合低并发、业务简单场景，不适合复杂电商订单链路。

方案二：MQ 异步化，但无系统化幂等

很多系统上了 MQ，却没把幂等做完整，只在代码里写一两个 if status == xxx return。

优点：

初期性能提升明显

缺点：

重复消费时容易出现脏数据
线上排查困难
代码看起来“能跑”，但失败场景不闭环

这是最容易“表面分布式，实则隐患大”的方案。

方案三：Outbox + MQ + 幂等表 + 状态机约束

这也是本文推荐方案。

优点：

可用性高
数据一致性可控
失败可恢复，适合真实生产环境

缺点：

复杂度高于纯同步
需要建设事件表、补偿任务、监控体系
业务状态设计必须严谨

如果你的订单系统已经是多服务协作，这个投入通常是值得的。

容量估算：别只看 TPS，要看堆积与恢复能力

架构设计里，很多事故不是“瞬时打不过”，而是“堆积后恢复不过来”。

假设：

下单峰值：3000 TPS
每个订单产生 3 个事件：创建订单、支付成功、通知履约
则峰值事件流量约：9000 msg/s

如果库存消费者单实例处理能力是 500 msg/s，那么至少需要：

9000 / 500 = 18 个实例

还要预留故障冗余，比如按 24 个实例规划。

再看堆积恢复。假设因为下游故障，积压 10 分钟：

9000 * 600 = 5,400,000 条消息

如果恢复后消费者总处理能力只有 12000 msg/s，那么净消化速度为：

12000 - 9000 = 3000 msg/s

清空积压需要：

5,400,000 / 3000 = 1800 秒 = 30 分钟

这就是为什么仅仅“平时扛得住”不够，还要评估故障期间堆积量与恢复窗口。

实战代码（可运行）

下面用 Python + SQLite 模拟一个最小可运行版本，演示这几个点：

创建订单时写入订单表和 Outbox 表
发布器扫描 Outbox 并投递到内存队列
消费者做幂等校验
重复消息不会造成重复扣减

这个 demo 是教学版，目的是把关键机制讲清楚。生产环境可替换为 MySQL/PostgreSQL + Kafka/RabbitMQ。

1. 初始化数据库

# file: order_demo.py
import sqlite3
import json
import uuid
import queue
import threading
import time
from contextlib import contextmanager

DB_FILE = "order_demo.db"
mq = queue.Queue()

@contextmanager
def get_conn():
    conn = sqlite3.connect(DB_FILE, check_same_thread=False)
    conn.row_factory = sqlite3.Row
    try:
        yield conn
        conn.commit()
    except Exception:
        conn.rollback()
        raise
    finally:
        conn.close()

def init_db():
    with get_conn() as conn:
        cur = conn.cursor()

        cur.execute("""
        CREATE TABLE IF NOT EXISTS orders (
            order_id TEXT PRIMARY KEY,
            user_id TEXT NOT NULL,
            amount INTEGER NOT NULL,
            status TEXT NOT NULL,
            request_id TEXT NOT NULL UNIQUE,
            created_at DATETIME DEFAULT CURRENT_TIMESTAMP
        )
        """)

        cur.execute("""
        CREATE TABLE IF NOT EXISTS outbox_events (
            event_id TEXT PRIMARY KEY,
            aggregate_id TEXT NOT NULL,
            event_type TEXT NOT NULL,
            payload TEXT NOT NULL,
            published INTEGER NOT NULL DEFAULT 0,
            created_at DATETIME DEFAULT CURRENT_TIMESTAMP
        )
        """)

        cur.execute("""
        CREATE TABLE IF NOT EXISTS inventory (
            sku_id TEXT PRIMARY KEY,
            stock INTEGER NOT NULL
        )
        """)

        cur.execute("""
        CREATE TABLE IF NOT EXISTS stock_reservations (
            reservation_id TEXT PRIMARY KEY,
            order_id TEXT NOT NULL,
            sku_id TEXT NOT NULL,
            quantity INTEGER NOT NULL,
            created_at DATETIME DEFAULT CURRENT_TIMESTAMP
        )
        """)

        cur.execute("""
        CREATE TABLE IF NOT EXISTS processed_messages (
            id INTEGER PRIMARY KEY AUTOINCREMENT,
            consumer_group TEXT NOT NULL,
            message_id TEXT NOT NULL,
            processed_at DATETIME DEFAULT CURRENT_TIMESTAMP,
            UNIQUE (consumer_group, message_id)
        )
        """)

        cur.execute("INSERT OR IGNORE INTO inventory (sku_id, stock) VALUES (?, ?)", ("SKU-1", 10))

2. 创建订单：本地事务里同时写订单和 Outbox

def create_order(user_id: str, amount: int, request_id: str, sku_id: str, quantity: int):
    order_id = str(uuid.uuid4())
    event_id = str(uuid.uuid4())

    with get_conn() as conn:
        cur = conn.cursor()

        # 幂等：同一个 request_id 只允许创建一个订单
        existing = cur.execute(
            "SELECT order_id, status FROM orders WHERE request_id = ?",
            (request_id,)
        ).fetchone()
        if existing:
            return {
                "order_id": existing["order_id"],
                "status": existing["status"],
                "message": "duplicate request ignored"
            }

        cur.execute("""
            INSERT INTO orders (order_id, user_id, amount, status, request_id)
            VALUES (?, ?, ?, ?, ?)
        """, (order_id, user_id, amount, "CREATED", request_id))

        payload = {
            "event_id": event_id,
            "order_id": order_id,
            "sku_id": sku_id,
            "quantity": quantity
        }

        cur.execute("""
            INSERT INTO outbox_events (event_id, aggregate_id, event_type, payload, published)
            VALUES (?, ?, ?, ?, 0)
        """, (event_id, order_id, "OrderCreated", json.dumps(payload)))

    return {
        "order_id": order_id,
        "status": "CREATED",
        "message": "order created"
    }

3. 发布器：扫描 Outbox 并投递消息

def publish_outbox_once():
    with get_conn() as conn:
        cur = conn.cursor()
        rows = cur.execute("""
            SELECT event_id, event_type, payload
            FROM outbox_events
            WHERE published = 0
            ORDER BY created_at ASC
            LIMIT 100
        """).fetchall()

        for row in rows:
            message = {
                "message_id": row["event_id"],
                "event_type": row["event_type"],
                "payload": json.loads(row["payload"])
            }

            # 模拟投递到 MQ
            mq.put(message)

            cur.execute("""
                UPDATE outbox_events
                SET published = 1
                WHERE event_id = ?
            """, (row["event_id"],))

4. 消费者：幂等处理库存预占

def reserve_stock(message: dict):
    message_id = message["message_id"]
    payload = message["payload"]
    order_id = payload["order_id"]
    sku_id = payload["sku_id"]
    quantity = payload["quantity"]
    consumer_group = "inventory-service"

    with get_conn() as conn:
        cur = conn.cursor()

        # 先做消息幂等登记
        try:
            cur.execute("""
                INSERT INTO processed_messages (consumer_group, message_id)
                VALUES (?, ?)
            """, (consumer_group, message_id))
        except sqlite3.IntegrityError:
            print(f"[inventory] duplicate message ignored: {message_id}")
            return

        # 查询订单状态，防止非法状态迁移
        order = cur.execute("""
            SELECT order_id, status FROM orders WHERE order_id = ?
        """, (order_id,)).fetchone()

        if not order:
            print(f"[inventory] order not found: {order_id}")
            return

        if order["status"] != "CREATED":
            print(f"[inventory] skip order {order_id}, status={order['status']}")
            return

        stock_row = cur.execute("""
            SELECT stock FROM inventory WHERE sku_id = ?
        """, (sku_id,)).fetchone()

        if not stock_row:
            print(f"[inventory] sku not found: {sku_id}")
            return

        if stock_row["stock"] < quantity:
            cur.execute("""
                UPDATE orders SET status = ? WHERE order_id = ?
            """, ("CANCELED", order_id))
            print(f"[inventory] insufficient stock, order canceled: {order_id}")
            return

        reservation_id = str(uuid.uuid4())

        cur.execute("""
            UPDATE inventory SET stock = stock - ? WHERE sku_id = ?
        """, (quantity, sku_id))

        cur.execute("""
            INSERT INTO stock_reservations (reservation_id, order_id, sku_id, quantity)
            VALUES (?, ?, ?, ?)
        """, (reservation_id, order_id, sku_id, quantity))

        cur.execute("""
            UPDATE orders SET status = ? WHERE order_id = ?
        """, ("STOCK_RESERVED", order_id))

        print(f"[inventory] stock reserved for order: {order_id}")

5. 模拟消费与重复投递

def consume_once():
    if mq.empty():
        return
    message = mq.get()
    if message["event_type"] == "OrderCreated":
        reserve_stock(message)

def print_state():
    with get_conn() as conn:
        cur = conn.cursor()
        orders = cur.execute("SELECT * FROM orders").fetchall()
        inventory = cur.execute("SELECT * FROM inventory").fetchall()
        processed = cur.execute("SELECT * FROM processed_messages").fetchall()

        print("\n=== ORDERS ===")
        for row in orders:
            print(dict(row))

        print("\n=== INVENTORY ===")
        for row in inventory:
            print(dict(row))

        print("\n=== PROCESSED_MESSAGES ===")
        for row in processed:
            print(dict(row))

if __name__ == "__main__":
    init_db()

    req_id = "req-1001"
    result1 = create_order("user-1", 100, req_id, "SKU-1", 2)
    result2 = create_order("user-1", 100, req_id, "SKU-1", 2)  # 模拟重复提交

    print("create result 1:", result1)
    print("create result 2:", result2)

    publish_outbox_once()

    # 正常消费一次
    consume_once()

    # 模拟同一消息被重复投递
    with get_conn() as conn:
        cur = conn.cursor()
        row = cur.execute("""
            SELECT event_id, payload FROM outbox_events LIMIT 1
        """).fetchone()

        duplicated_message = {
            "message_id": row["event_id"],
            "event_type": "OrderCreated",
            "payload": json.loads(row["payload"])
        }
        mq.put(duplicated_message)

    consume_once()
    print_state()

6. 运行效果

python order_demo.py

预期现象：

第二次相同 request_id 的下单不会创建新订单
同一条 OrderCreated 消息重复消费时，不会重复扣库存
订单最终从 CREATED 变为 STOCK_RESERVED

这就是一个最小闭环：请求幂等 + 消息幂等 + 状态机约束。

常见坑与排查

这部分我尽量讲得像线上排障，而不是只列概念。很多问题代码本身没错，错在“只考虑成功路径”。

坑一：先发消息，再改数据库

表面看没问题，实际最危险。

如果流程是：

先往 MQ 发“订单已创建”
然后数据库插入订单

一旦发完消息后数据库失败，消费者就会拿到一个根本不存在的订单。

排查信号

消费者日志频繁出现“订单不存在”
事件表与业务表数量对不上
某些消息消费后只能人工回滚

建议

使用 Outbox 模式
消息发布一定来源于已提交的业务事实，而不是内存中的“打算成功”

坑二：把幂等写成“查一下有没有”

比如：

exists = select ...
if not exists:
    insert ...

这个在并发下不是幂等，是竞态条件制造机。两个并发线程都查到不存在，然后都插入成功，就重复了。

正确姿势

依赖数据库唯一约束，把幂等交给存储层兜底：

UNIQUE (consumer_group, message_id)

然后在代码里捕获唯一键冲突。

坑三：消费成功了，但 ACK 失败

这是很多人忽略的现实场景。

消费者实际上已经完成扣库存，但因为网络闪断，ACK 没发回去，Broker 会再次投递。
如果没有幂等，库存就会再扣一次。

排查信号

同一订单出现两次库存变更记录
MQ 监控显示重投递率高时，库存异常同时升高

建议

不要寄希望于 MQ “绝不重复”
消费逻辑必须天生支持重复执行

坑四：状态机定义不完整

例如订单已取消，但又收到了支付成功回调。
如果你的代码只有：

if pay_success:
    order.status = "PAID"

那就会把已取消订单改成已支付，后果很难收拾。

建议

明确每个事件允许从哪些状态迁移到哪些状态。

例如：

CREATED -> STOCK_RESERVED
STOCK_RESERVED -> PAID
CANCELED 不允许直接进入 PAID

如果业务上确实可能出现“先取消后支付成功”的边界情况，也必须额外定义补偿策略，而不是随便覆盖状态。

坑五：消息堆积时数据库先扛不住

很多团队以为 MQ 能削峰，系统就稳了。实际上 MQ 只是把压力转移到了消费者和数据库。

排查信号

Broker 堆积上涨
消费端 CPU 不高，但数据库连接池耗尽
慢 SQL 明显增多

建议

批量消费、批量提交
减少热点行竞争
库存这类高争用资源考虑分片或预扣模型
给幂等表和业务查询字段加好索引

安全/性能最佳实践

订单系统除了“对”，还要“稳”和“可控”。

安全实践

1. 幂等号不能完全信任客户端

客户端传的 request_id 可以用，但服务端最好做约束：

与用户 ID 绑定
设置有效期
防止恶意复用同一个幂等号探测系统行为

2. 回调验签必须严格

支付回调、物流回调、营销事件回调都要验签。
不要因为“来自内部网络”就省略验证。很多事故不是黑客攻击，而是错误调用或测试流量混入生产。

3. 敏感数据最小化传输

消息体里不要无脑塞用户手机号、身份证、完整地址。
能传业务 ID 就传 ID，详情由消费端按需查。

4. 死信队列不能只建不用

死信队列不是“失败垃圾桶”，而是异常治理入口。
至少要做到：

告警
分类
人工重放或自动修复机制

性能实践

1. 控制消息粒度

一条消息不要又大又全。过大的消息体会带来：

网络开销大
反序列化成本高
Broker 存储压力上升

建议消息只放事件所需最小字段。

2. 幂等表要有生命周期管理

processed_messages 会持续膨胀，不能无限存。

可按业务特点处理：

保留 3~30 天
按月分表
冷数据归档

前提是消息重投递窗口不会超过你的保留期。

3. 消费者要限制并发与重试策略

并发不是越高越好。
库存扣减、订单状态更新往往受数据库锁影响，高并发反而可能让吞吐下降。

建议：

区分 CPU 密集与 IO 密集任务
为热点业务单独限流
重试使用指数退避，不要无脑立即重试

4. 监控指标要围绕“正确性 + 时效性”

至少要监控：

下单成功率
Outbox 未发布数量
MQ 堆积量
消费重试次数
幂等冲突次数
订单状态停留时长
死信队列增长速度

我自己的经验是，幂等冲突次数这个指标非常有价值。它既能反映消息重复程度，也能帮你判断上游是否存在异常重试风暴。

一套更稳的落地建议

如果你正准备把现有订单系统往这条路上改，我建议按下面顺序推进，而不是一次重构全部链路。

第一阶段：先补齐请求幂等

至少把“重复提交导致重复订单”堵住。

引入 request_id
数据库唯一键约束
接口超时重试要返回同一结果视图

第二阶段：把核心异步链路改为 Outbox

优先处理这些关键事件：

订单创建
支付成功
订单取消
库存释放

先把“事件不丢”这件事做好。

第三阶段：消费端统一幂等框架

不要每个服务自己手写一套。
统一抽象：

消息唯一 ID
幂等记录表
状态迁移校验
重试/告警策略

第四阶段：补偿与可观测性建设

当失败不可避免时，系统要具备自愈与排查能力：

补偿任务
死信处理
订单链路追踪
状态卡点监控

总结

要构建一个真正高可用的订单系统，核心不是“用了消息队列”这么简单，而是这三件事同时成立：

业务主数据与事件发布之间不能双写失配
用 Outbox 这类模式保证“消息可补发、不丢失”。
所有关键操作都要接受重复发生的现实
请求会重试，消息会重投，回调会重复，系统必须靠幂等兜住。
订单状态机必须清晰且可约束
幂等不是简单地“重复就忽略”，而是要在正确状态下做正确动作。

如果让我给一个最实用的落地建议，那就是：

先定义订单状态机
再定义事件模型
最后实现 Outbox 与消费幂等

顺序不要反。很多系统的问题，不是 MQ 选错了，而是业务状态和失败语义没有先设计清楚。

边界条件也要说清楚：
本文方案追求的是高可用下的最终一致性，不是跨服务强一致。如果你的业务是证券撮合、核心账务记账这类场景，可能需要更强的一致性模型和更严格的交易约束，不能直接照搬。

但对于绝大多数电商、零售、平台型订单系统来说，消息队列 + 幂等设计 + 状态机约束 + 补偿机制，已经是一条非常务实且有效的高可用架构路线。

《分布式架构实战：基于消息队列与幂等设计构建高可用订单系统》

分布式架构实战：基于消息队列与幂等设计构建高可用订单系统

背景与问题

1. 同步调用链太长，可用性被最慢节点拖垮

2. 消息天然可能重复

3. 分布式事务成本高，强一致并不现实

4. 故障不是异常情况，而是常态

核心原理

总体思路

架构总览

订单状态机要先设计清楚

消息队列在订单系统里到底解决什么问题

1. 解耦

2. 削峰

3. 异步化

4. 故障隔离

幂等设计的落地方式

1. 唯一键去重

2. 状态机幂等

3. 业务请求幂等号

可靠消息的核心链路

方案对比与取舍分析

方案一：全同步调用

方案二：MQ 异步化，但无系统化幂等

方案三：Outbox + MQ + 幂等表 + 状态机约束

容量估算：别只看 TPS，要看堆积与恢复能力

实战代码（可运行）

1. 初始化数据库

2. 创建订单：本地事务里同时写订单和 Outbox

3. 发布器：扫描 Outbox 并投递消息

4. 消费者：幂等处理库存预占

5. 模拟消费与重复投递

6. 运行效果

常见坑与排查

坑一：先发消息，再改数据库

排查信号

建议

坑二：把幂等写成“查一下有没有”

正确姿势

坑三：消费成功了，但 ACK 失败

排查信号

建议

坑四：状态机定义不完整

建议

坑五：消息堆积时数据库先扛不住

排查信号

建议

安全/性能最佳实践

安全实践

1. 幂等号不能完全信任客户端

2. 回调验签必须严格

3. 敏感数据最小化传输

4. 死信队列不能只建不用

性能实践

1. 控制消息粒度

2. 幂等表要有生命周期管理

3. 消费者要限制并发与重试策略

4. 监控指标要围绕“正确性 + 时效性”

一套更稳的落地建议

第一阶段：先补齐请求幂等

第二阶段：把核心异步链路改为 Outbox

第三阶段：消费端统一幂等框架

第四阶段：补偿与可观测性建设

总结