1. Agent 的可观测AI Agent 的可观测性Observability与传统软件有本质区别。传统软件关注“系统是否活着”CPU、内存、错误率而 AI Agent 关注智能是否在线推理是否正确、工具是否调用成功、知识是否检索准确、成本是否可控。AI Agent 的可观测性方法总结为 “四层体系”数据采集层、核心维度层、评估分析层、工具平台层。2. Agent 四个观测层次2.1. 数据采集层如何埋点没有数据就没有观测可言。以下是几种常见的数据采集方法方法描述优点缺点SDK 植入在 Agent 代码中集成观测 SDK如 LangChain Callbacks数据最丰富可获取中间推理步骤侵入性强需修改代码代理网关 (Proxy)在 LLM API 前架设代理层拦截所有请求/响应无侵入统一管控可做限流/缓存无法获取 Agent 内部推理逻辑如思维链日志旁路异步发送日志到消息队列Kafka再入库不影响主流程性能实时性稍差架构复杂OpenTelemetry使用 OTel 标准协议采集 Trace/Metrics/Logs标准化可对接现有监控体系GenAI 语义规范仍在演进中最佳实践 SDK Proxy 组合。SDK 采集内部推理链路Proxy 采集 API 调用和成本。2.2. 核心维度层观测什么AI Agent 需要观测以下五个核心维度2.2.1. 链路追踪Traces看清“思考过程”Agent 的执行不是单点调用而是多步循环Plan - Act - Observe。观测点完整调用链 用户输入 → 意图识别 → 任务分解 → 工具调用 → 结果汇总 → 最终输出。中间状态 每一步的输入/输出、耗时、Token 消耗。异常路径 哪里发生了重试哪里触发了回退Fallback价值 快速定位是“模型笨”还是“工具坏”。2.2.2. 提示词与上下文Prompts Context看清“输入质量”观测点System Prompt 版本 当前使用的是哪个版本的提示词模板检索内容RAG 召回了哪些文档片段相关性得分是多少上下文长度 是否接近 Token 上限是否发生了截断价值 优化 Prompt 工程排查“幻觉”来源。2.2.3. 工具调用Tool Usage看清“执行能力”观测点调用成功率 工具 API 返回 200 还是 500参数准确性 Agent 生成的工具参数是否符合 Schema执行耗时 外部 API 调用是否拖慢了整体响应价值 确保 Agent 的“手脚”灵活可靠。2.2.4. 成本与性能Cost Performance看清“资源消耗”观测点Token 用量 输入 Token vs 输出 Token 比例。单次请求成本 折算成美元/人民币。响应延迟 首字时间TTFT vs 总耗时。并发量 QPS/RPS。价值 控制预算优化性能。2.2.5. 质量与安全Quality Safety看清“智能水平”观测点幻觉率 输出内容是否与检索事实不符需评估模型判断有害内容 是否触发了安全过滤Prompt Injection, PII 泄露用户反馈 点赞/点踩率。价值 确保 Agent 可信、合规。3. 评估分析层如何判断好坏传统监控是“阈值告警”CPU80%AI 监控是“质量评估”。以下是几种常见的 Agent 评估方法评估方法描述适用场景LLM-as-a-Judge用另一个大模型给 Agent 的输出打分准确性、相关性自动化测试、离线评估RAGAS 框架专门评估检索增强生成RAG的质量忠实度、答案相关性知识库问答场景人工抽检SRE 或领域专家定期抽查对话日志高风险场景、冷启动阶段A/B 测试对比不同 Prompt 或模型版本的转化率/满意度优化迭代用户反馈闭环收集前端用户的 / 数据在线质量监控4. 工具平台层用什么实现4.1.开源方案自建LangFuse / LangSmith (开源版) 专门针对 LLM 应用的观测平台支持 Trace、Prompt 管理、评估。Arize Phoenix 基于 OpenTelemetry适合本地调试和嵌入现有栈。ELK Prometheus 传统栈改造。Logs 存对话详情Metrics 存 Token/延迟Traces 存链路。ClickHouse / Doris 存储海量对话日志用于后续分析。4.2. 商业方案SaaSLangSmith (商业版) 功能最全生态最好。Arize AI 企业级 MLOps 平台。Helicone / OpenLLMetry 专注于网关层观测和成本优化。4.3. 自研平台大型企业推荐原因 数据隐私不能把日志发给第三方、深度集成对接内部 CMDB/权限系统、成本可控。架构 采集 SDK → 消息队列 → 处理引擎脱敏/评估 → 存储 → 可视化 Dashboard。5.一句话总结AI Agent 的可观测性本质是“将黑盒模型白盒化”。不要只监控“系统状态”更要监控“智能状态”推理质量、工具成功率、知识准确性。