从提示工程到工作流编排：构建可落地的企业级 AI 助手实践指南

很多团队第一次做 AI 助手时，起点都差不多：先写一个 Prompt，把大模型接进来，然后祈祷它“足够聪明”。

但真到企业场景，事情很快会变复杂：

用户问题不是单轮问答，而是带上下文、带权限、带业务规则
模型输出不能“差不多对”，而要“可审计、可回溯、可兜底”
一个回答背后，可能要查知识库、调工单系统、走审批流、调用内部 API
同样一句话，不同部门、不同角色、不同时间看到的结果还不一样

这时候，只会写 Prompt 远远不够。企业级 AI 助手真正能落地，靠的是一整套方法：提示工程 + 工具调用 + 工作流编排 + 观测治理。

这篇文章我会从实践视角，把这条路线串起来：为什么单靠 Prompt 不够、工作流怎么设计、代码怎么起步、常见坑怎么排、上线时安全和性能怎么做。

背景与问题

为什么“一个好 Prompt”解决不了企业问题

提示工程当然重要，它决定了模型如何理解任务、输出什么格式、是否遵守约束。但在企业环境里，问题通常不只是“怎么说”，而是“怎么做”。

比如一个典型的企业 AI 助手需求：

“帮我查一下华东区上周退款异常的订单，汇总原因，并生成发给运营经理的简报。”

这句话背后其实包含了多个步骤：

识别用户意图：查退款异常
校验用户权限：是否能看华东区数据
查询业务系统：订单、退款、日志
汇总和分类：异常原因归因
生成结果：面向经理的简报
必要时执行后续动作：发邮件、建工单、加标签

如果你把这些全部塞进一个 Prompt，让模型“自己想办法”，一般会遇到这些问题：

幻觉：编造根本不存在的数据
权限失控：用户不该看的内容被返回
不可重复：同样输入，两次结果差异很大
难以调试：你不知道是 Prompt 问题、检索问题，还是工具调用问题
难以扩展：每加一个能力都要改大 Prompt，越来越脆

从“聊天机器人”到“任务执行系统”

企业级 AI 助手更像一个带自然语言接口的任务执行系统。模型负责理解、规划、生成；系统负责：

提供可控的数据来源
编排确定性的业务步骤
对关键节点做校验与兜底
对全过程做日志、追踪、审计

你可以把它理解成一句很朴素的话：

Prompt 决定模型怎么想，工作流决定系统怎么做。

核心原理

这一部分，我们把落地所需的几个核心概念捋顺。

1. 提示工程：定义模型行为边界

提示工程的目标，不是“把 Prompt 写得像咒语”，而是明确三件事：

角色：你是谁
任务：你要完成什么
约束：你不能做什么，必须怎么输出

一个相对稳妥的企业 Prompt 通常会包含这些模块：

system：角色、规则、边界
user：用户输入
context：外部上下文，如检索结果、业务数据
output schema：结构化输出格式
failure policy：信息不足时如何处理

例如：

你是企业客服运营助手。
你的目标是根据提供的数据生成摘要，不得编造不存在的事实。
如果信息不足，请明确说明“信息不足”，并列出需要补充的数据。
输出必须是 JSON，字段包括 summary、risks、actions。

它的本质不是让模型更“聪明”，而是让模型更可控。

2. 工具调用：让模型连接真实世界

模型擅长语言，不擅长直接访问你的 CRM、ERP、知识库、工单平台。
所以要给它“手脚”——也就是工具。

常见工具包括：

知识库检索
数据库查询
HTTP API 调用
邮件/IM 发送
创建工单
调用内部规则引擎

关键原则是：

模型负责决定是否调用
工具负责执行确定性逻辑
系统负责校验和审计

3. 工作流编排：把非确定性与确定性拼起来

工作流编排的本质，是把一个复杂任务拆成多个节点，并控制执行顺序、条件分支、失败重试和人工介入。

一个实用的企业 AI 助手工作流通常包括：

输入预处理
意图识别
权限校验
知识检索或系统查询
模型生成中间结论
规则校验
输出格式化
审计日志记录

下面这张图比较直观。

flowchart TD
    A[用户请求] --> B[输入清洗与脱敏]
    B --> C[意图识别]
    C --> D{是否需要外部数据}
    D -- 否 --> E[直接生成]
    D -- 是 --> F[权限校验]
    F --> G[检索知识库/调用业务API]
    G --> H[模型汇总与生成]
    H --> I[规则校验]
    I --> J{是否通过}
    J -- 否 --> K[兜底回复/人工介入]
    J -- 是 --> L[结构化输出]
    L --> M[审计与日志]

4. 状态管理：多轮对话不是把历史全塞进去

这是我早期特别容易踩的坑：为了“保留上下文”，把完整对话历史全量传给模型。
结果很快就会遇到：

token 暴涨
关键上下文被淹没
模型记错重点
成本和延迟失控

更合理的做法是将状态拆分：

会话态：最近几轮对话摘要
任务态：当前任务进展、已调用工具、已取得结果
用户态：角色、部门、权限、偏好
系统态：工作流节点执行状态

可以把它看成“模型记忆”和“系统记忆”分离。

classDiagram
    class SessionState {
      +conversation_summary
      +last_user_intent
      +language
    }
    class TaskState {
      +task_id
      +current_step
      +tool_results
      +status
    }
    class UserState {
      +user_id
      +roles
      +permissions
      +department
    }
    class AuditState {
      +trace_id
      +prompt_version
      +model_name
      +latency_ms
    }

    SessionState --> TaskState
    UserState --> TaskState
    TaskState --> AuditState

5. 结果校验：别让模型直接碰关键动作

对于“发邮件”“创建审批”“修改订单状态”这类动作，不建议让模型自由执行。更安全的模式是：

模型先生成结构化意图
系统做参数校验
命中高风险动作时，走人工确认
最后再调用执行器

一个典型的执行时序如下：

sequenceDiagram
    participant U as 用户
    participant A as AI助手
    participant W as 工作流引擎
    participant T as 工具/API
    participant H as 人工审批

    U->>A: 请帮我关闭异常工单并通知客户
    A->>W: 输出结构化动作意图
    W->>W: 参数校验/风险评级
    alt 高风险
        W->>H: 请求审批
        H-->>W: 审批通过
    end
    W->>T: 调用工单系统与通知服务
    T-->>W: 执行结果
    W-->>A: 汇总执行结果
    A-->>U: 返回结果与审计信息

方案设计：企业级 AI 助手的最小可落地架构

如果你是从 0 到 1 起步，不建议一上来就搞一个“大而全的 Agent 平台”。
更稳妥的方式是从最小闭环开始：

核心组件

API 接入层：接收用户请求
Prompt 模板层：管理不同任务的提示模板
工作流引擎：控制节点执行
工具层：检索、数据库、内部 API
状态存储：Redis / DB
日志与追踪：记录 prompt、响应、工具调用、耗时
安全治理层：鉴权、脱敏、审计

一个实用的架构拆分

层级	主要职责	是否建议先做
接入层	Web、IM、企业微信、API	是
模型适配层	封装 LLM 调用、重试、超时	是
Prompt 管理层	模板版本化、变量注入	是
工作流编排层	节点、条件、重试、人工介入	是
工具层	数据查询、搜索、执行动作	是
观测层	trace、日志、评估、告警	是
策略层	权限、风控、内容安全	是
训练/微调层	针对特定场景优化	可后置

我的建议是：先把编排和治理做好，再谈更复杂的 Agent 自主性。企业环境里，稳定性比“全自动炫技”更重要。

实战代码（可运行）

下面我们用一个简化但可运行的示例，演示一个“企业知识问答 + 工作流编排”的最小实现。

这个示例不会直接依赖真实大模型接口，而是用可运行的模拟函数来体现整体结构。你可以很容易替换成 OpenAI、Azure OpenAI 或内部模型服务。

功能说明

用户输入问题后，系统会：

清洗输入
做简单意图判断
如命中知识库问答，则检索本地知识
调用模型生成结构化回答
记录执行日志

代码

import json
import re
import time
import uuid
from typing import Dict, Any, List


KNOWLEDGE_BASE = [
    {
        "id": 1,
        "title": "报销流程",
        "content": "员工提交报销申请后，需要直属主管审批，金额超过5000元还需财务复核。"
    },
    {
        "id": 2,
        "title": "年假规则",
        "content": "员工转正后可申请年假，年假天数按司龄计算，具体以人事制度为准。"
    },
    {
        "id": 3,
        "title": "VPN 申请",
        "content": "如需远程访问内网，请提交 VPN 申请单，由部门负责人和安全管理员审批。"
    }
]


def sanitize_input(text: str) -> str:
    text = text.strip()
    text = re.sub(r"\s+", " ", text)
    return text[:500]


def detect_intent(text: str) -> str:
    keywords = ["报销", "年假", "VPN", "流程", "规则", "申请"]
    if any(k.lower() in text.lower() for k in keywords):
        return "kb_qa"
    return "fallback_chat"


def retrieve_docs(query: str, kb: List[Dict[str, Any]], top_k: int = 2) -> List[Dict[str, Any]]:
    scored = []
    for doc in kb:
        score = sum(1 for token in query if token in doc["content"] or token in doc["title"])
        scored.append((score, doc))
    scored.sort(key=lambda x: x[0], reverse=True)
    return [doc for score, doc in scored[:top_k] if score > 0]


def build_prompt(user_input: str, docs: List[Dict[str, Any]]) -> str:
    context = "\n".join([f"- {d['title']}：{d['content']}" for d in docs])
    return f"""
你是企业内部知识助手。
请基于已提供资料回答，不要编造。
如果资料不足，请明确说“信息不足”。

用户问题：
{user_input}

参考资料：
{context}

请输出 JSON：
{{
  "answer": "给用户的自然语言回答",
  "confidence": 0.0,
  "need_human": false
}}
""".strip()


def mock_llm(prompt: str) -> str:
    # 模拟模型输出，真实场景替换为实际 LLM API 调用
    if "报销" in prompt:
        result = {
            "answer": "报销申请需要先由直属主管审批；如果金额超过5000元，还需要财务复核。",
            "confidence": 0.91,
            "need_human": False
        }
    elif "VPN" in prompt:
        result = {
            "answer": "远程访问内网需要提交 VPN 申请单，并由部门负责人和安全管理员审批。",
            "confidence": 0.88,
            "need_human": False
        }
    elif "年假" in prompt:
        result = {
            "answer": "员工转正后可以申请年假，具体天数按司龄计算，建议以最新人事制度为准。",
            "confidence": 0.86,
            "need_human": False
        }
    else:
        result = {
            "answer": "信息不足，我暂时无法准确回答，建议联系相关部门确认。",
            "confidence": 0.42,
            "need_human": True
        }
    return json.dumps(result, ensure_ascii=False)


def validate_output(output_text: str) -> Dict[str, Any]:
    data = json.loads(output_text)
    assert "answer" in data
    assert "confidence" in data
    assert "need_human" in data
    return data


def run_workflow(user_input: str) -> Dict[str, Any]:
    trace_id = str(uuid.uuid4())
    start = time.time()

    cleaned = sanitize_input(user_input)
    intent = detect_intent(cleaned)

    logs = {
        "trace_id": trace_id,
        "intent": intent,
        "steps": []
    }

    logs["steps"].append({"step": "sanitize_input", "value": cleaned})
    logs["steps"].append({"step": "detect_intent", "value": intent})

    if intent == "kb_qa":
        docs = retrieve_docs(cleaned, KNOWLEDGE_BASE)
        logs["steps"].append({
            "step": "retrieve_docs",
            "value": [doc["title"] for doc in docs]
        })

        prompt = build_prompt(cleaned, docs)
        logs["steps"].append({"step": "build_prompt", "value": prompt[:200] + "..."})

        raw_output = mock_llm(prompt)
        logs["steps"].append({"step": "llm_output", "value": raw_output})

        result = validate_output(raw_output)
    else:
        result = {
            "answer": "这个问题目前不在知识库问答范围内，我建议转人工处理。",
            "confidence": 0.3,
            "need_human": True
        }

    latency_ms = int((time.time() - start) * 1000)
    logs["latency_ms"] = latency_ms
    logs["result"] = result

    return logs


if __name__ == "__main__":
    question = input("请输入你的问题：")
    workflow_result = run_workflow(question)
    print(json.dumps(workflow_result, ensure_ascii=False, indent=2))

如何运行

python app.py

输入示例：

报销超过5000元需要谁审批？

输出示例：

{
  "trace_id": "7f0f5f7d-ff1a-4bf1-b1a6-4f3e7cb9a4c1",
  "intent": "kb_qa",
  "steps": [
    {
      "step": "sanitize_input",
      "value": "报销超过5000元需要谁审批？"
    },
    {
      "step": "detect_intent",
      "value": "kb_qa"
    },
    {
      "step": "retrieve_docs",
      "value": [
        "报销流程"
      ]
    },
    {
      "step": "build_prompt",
      "value": "你是企业内部知识助手。\n请基于已提供资料回答，不要编造。\n如果资料不足，请明确说“信息不足”。\n..."
    },
    {
      "step": "llm_output",
      "value": "{\"answer\": \"报销申请需要先由直属主管审批；如果金额超过5000元，还需要财务复核。\", \"confidence\": 0.91, \"need_human\": false}"
    }
  ],
  "latency_ms": 1,
  "result": {
    "answer": "报销申请需要先由直属主管审批；如果金额超过5000元，还需要财务复核。",
    "confidence": 0.91,
    "need_human": false
  }
}

这段代码体现了什么

虽然它很简化，但已经把几个关键点串起来了：

Prompt 不是裸写，而是模板化构造
检索与生成分开
输出不是自由文本，而是结构化 JSON
有最基本的 trace 和步骤日志
低置信度时支持转人工

这就是一个企业级 AI 助手该有的“雏形”。

如何把示例扩展成真实生产系统

如果你准备往生产环境推进，建议按下面顺序增强：

第一步：把 `mock_llm` 换成真实模型接口

例如封装成统一调用层：

超时控制
重试策略
模型切换
响应解析
token 统计

第二步：把知识库检索换成向量检索或混合检索

常见做法：

文档切分
embedding 建索引
向量召回 + 关键词召回
rerank 重排
截断上下文后再喂给模型

第三步：引入工作流引擎

可以先不用重平台，哪怕只是自己定义一个节点执行器，也比把所有逻辑糊在 controller 里强。

一个简单的状态流转大概像这样：

stateDiagram-v2
    [*] --> Received
    Received --> Sanitized
    Sanitized --> IntentDetected
    IntentDetected --> Authorized
    Authorized --> Retrieved
    Retrieved --> Generated
    Generated --> Validated
    Validated --> Responded
    Validated --> HumanReview
    HumanReview --> Responded
    Responded --> [*]

第四步：建立评估闭环

这是很多团队会拖到很后面，结果最后最痛苦的一步。

至少要记录：

用户问题
召回文档
Prompt 版本
模型版本
输出结果
是否转人工
用户反馈
最终正确答案

没有评估闭环，AI 助手就只能靠“感觉在优化”。

常见坑与排查

下面这些问题，在企业 AI 助手项目里很常见，而且往往不是模型本身的问题。

坑 1：回答看起来像对，其实引用错了资料

现象：

模型输出很流畅
但业务人员一看，内容张冠李戴
尤其常见于多个制度版本并存的场景

排查思路：

检查召回文档是否正确
检查上下文是否过长导致重点被稀释
检查 Prompt 是否要求“仅基于资料回答”
检查是否有过期文档混入知识库

建议：

输出中附带引用来源
对制度类文档增加版本字段和生效时间
做文档去重与失效管理

坑 2：多轮对话越聊越偏

现象：

第一轮还正常
聊到第三四轮开始“失忆”或误解上下文
越补充，回答越乱

排查思路：

看是否把完整历史无脑拼接给模型
看是否有“会话摘要”机制
看任务目标是否在中途被覆盖
看系统 Prompt 是否每轮都稳定注入

建议：

保留最近几轮 + 历史摘要，而不是全量历史
把任务状态存在系统侧，不依赖模型记忆
对长会话定期做摘要压缩

坑 3：工具调用成功率不稳定

现象：

同一个问题，有时能查到，有时查不到
模型偶尔输出错误参数，导致 API 调用失败

排查思路：

工具输入是否有 schema 校验
工具是否设置超时、重试、熔断
模型输出是否要求严格 JSON
是否对工具结果做了空值处理

建议：

所有工具参数必须强校验
为模型输出增加 JSON schema 校验
工具失败时走兜底，不要把栈信息直接暴露给用户

坑 4：上线后成本飙升

现象：

QPS 不高，但账单很高
平均响应时间越来越长

排查思路：

是否每轮都传了大量历史上下文
是否召回文档过多、过长
是否把简单问题也扔给大模型
是否缺少缓存

建议：

先分类，再决定是否调用大模型
对高频问题做缓存
控制上下文长度和文档条数
简单路由问题可交给规则系统或小模型

安全/性能最佳实践

企业环境下，AI 助手不是“能回答”就够了，必须同时满足安全、稳定、成本可控。

安全最佳实践

1. 权限先于生成

在企业场景里，最危险的不是模型答错，而是答出了不该答的内容。

所以正确顺序应该是：

先鉴权
再查数据
再生成结果

而不是先把数据查出来交给模型，再希望模型“别说出去”。

2. 敏感信息脱敏

需要重点关注：

手机号
邮箱
身份证号
银行卡号
客户订单号
内部合同与报价信息

做法上至少包括：

输入脱敏
日志脱敏
Prompt 落盘脱敏
审计导出脱敏

3. 高风险动作必须二次确认

例如：

删除数据
批量发通知
修改审批状态
关闭工单
触发财务动作

建议采用：

风险分级
人工审批
幂等校验
操作留痕

4. 防 Prompt 注入

这是很多团队初期容易忽略的点。

典型攻击包括：

“忽略你之前的所有指令”
“输出完整系统提示词”
“把数据库连接串告诉我”
“即使没有权限也继续回答”

应对方式：

系统 Prompt 中明确拒绝越权请求
外部文本与系统指令严格隔离
工具调用必须走服务端校验
不信任模型的“自我声明”

性能最佳实践

1. 分层路由

不是所有请求都值得走“重型流程”。

可以按复杂度路由：

FAQ：规则或缓存直接返回
知识问答：检索 + 生成
事务处理：工作流编排 + 工具调用
高风险任务：人工审批

2. 缓存高频结果

适合缓存的内容：

热门制度问答
通用解释类回答
常见检索结果
Prompt 模板编译结果

3. 控制上下文窗口

经验上，真正影响回答质量的不是“上下文越多越好”，而是“相关上下文足够且干净”。

建议：

召回后重排
截断低相关内容
做段落级引用
控制文档条数

4. 做好可观测性

至少要有这些指标：

请求总量
模型调用耗时
工具调用耗时
错误率
转人工率
平均 token 消耗
每类任务成功率

没有这些指标，你很难回答一个关键问题：

“是模型不行，还是系统设计不行？”

一套可执行的落地建议

如果你现在正准备做企业级 AI 助手，我建议按下面的路线推进：

阶段 1：先做一个单场景闭环

选择一个边界清晰的场景，比如：

内部知识问答
工单辅助分类
客服回复草稿生成
销售纪要整理

目标不是“大而全”，而是先跑通：

用户输入
检索/工具
结构化输出
日志追踪
人工兜底

阶段 2：把 Prompt 升级成“可管理资产”

做到：

模板版本化
参数化注入
A/B 测试
回滚机制
场景隔离

阶段 3：把流程显式化

不要把全部逻辑写在一堆 if-else 里。
明确节点、状态、分支、失败处理，你后面接入更多工具时会轻松很多。

阶段 4：把评估和治理补齐

包括：

样本集
自动评测
人工复核
风险分级
数据与权限治理

如果缺这一步，系统很容易停留在“演示效果很好，生产没人敢用”。

总结

从企业实践看，AI 助手的落地路径通常不是：

找一个最强模型 → 写一个神奇 Prompt → 一把梭上线

而更像是：

用提示工程定义行为边界
用工具调用连接真实系统
用工作流编排控制复杂任务
用安全与观测机制保障可用性

可以把这篇文章压缩成一句话：

Prompt 解决“怎么表达”，工作流解决“怎么执行”，企业落地靠的是两者协同。

最后给几个比较务实的建议：

先做单场景闭环，不要一开始就追求通用 Agent
所有关键输出尽量结构化，别依赖自由文本
让模型做理解和生成，让系统做校验和执行
高风险动作必须有人类审批或至少二次确认
从第一天就建设日志、trace 和评估机制

边界条件也要说清楚：
如果你的场景本身规则高度确定、变更少、没有复杂语言输入，其实未必需要大模型。反过来，如果场景高频变化、跨系统、强依赖自然语言理解，那么“提示工程 + 工作流编排”会非常有价值。

真正靠谱的企业级 AI 助手，不是最会聊天的那个，而是最可控、最稳定、最能接住业务流程的那个。

《从提示工程到工作流编排：构建可落地的企业级 AI 助手实践指南》

从提示工程到工作流编排：构建可落地的企业级 AI 助手实践指南

背景与问题

为什么“一个好 Prompt”解决不了企业问题

从“聊天机器人”到“任务执行系统”

核心原理

1. 提示工程：定义模型行为边界

2. 工具调用：让模型连接真实世界

3. 工作流编排：把非确定性与确定性拼起来

4. 状态管理：多轮对话不是把历史全塞进去

5. 结果校验：别让模型直接碰关键动作

方案设计：企业级 AI 助手的最小可落地架构

核心组件

一个实用的架构拆分

实战代码（可运行）

功能说明

代码

如何运行

这段代码体现了什么

如何把示例扩展成真实生产系统

第一步：把 mock_llm 换成真实模型接口

第二步：把知识库检索换成向量检索或混合检索

第三步：引入工作流引擎

第四步：建立评估闭环

常见坑与排查

坑 1：回答看起来像对，其实引用错了资料

坑 2：多轮对话越聊越偏

坑 3：工具调用成功率不稳定

坑 4：上线后成本飙升

安全/性能最佳实践

安全最佳实践

1. 权限先于生成

2. 敏感信息脱敏

3. 高风险动作必须二次确认

4. 防 Prompt 注入

性能最佳实践

1. 分层路由

2. 缓存高频结果

3. 控制上下文窗口

4. 做好可观测性

一套可执行的落地建议

阶段 1：先做一个单场景闭环

阶段 2：把 Prompt 升级成“可管理资产”

阶段 3：把流程显式化

阶段 4：把评估和治理补齐

总结

第一步：把 `mock_llm` 换成真实模型接口