Guardrails(大模型护栏 / 防护栏)
Guardrails大模型护栏 / 防护栏简单说就是给 LLM/AI Agent 加一层 “安全 格式 合规” 的防护网防止输出乱、有毒、幻觉、泄露隐私。下面用大白话讲清楚一、它是什么字面护栏、防护栏AI 语境部署在 LLM 前后的校验 过滤层核心定位安全门 格式锁 合规闸类比没有 GuardrailsLLM 像脱缰野马乱说、瞎编、漏隐私有 Guardrails给马路加护栏 ——不拦正常行驶只防跑偏、坠崖、撞墙二、解决什么问题防敏感泄露拦截手机号、身份证、地址等 PII防有害内容暴力、色情、歧视、脏话、教唆犯罪防格式混乱强制输出 JSON/XML/ 固定字段不乱写防幻觉瞎编强制回答忠于上下文 / 事实不能胡扯防 Prompt 注入拦截 “忽略之前指令”“扮演某某” 等越狱攻击合规审计所有出入内容留日志满足监管要求三、怎么工作两个阶段1输入防护before 模型关键词 / 正则过滤拦截敏感词、注入指令轻量安全模型判断输入是否恶意脱敏自动把手机号、身份证打码2输出防护after 模型2LangChain Guardrails3简单自建五、和 LangSmith 的区别你之前问过六、一句话总结Guardrails LLM 的安全护栏 格式约束器 合规过滤器不限制能力只防止闯祸企业级 AI 应用必备。格式校验必须是合法 JSON、字段齐全、类型正确内容审核是否有毒、是否幻觉、是否偏离主题事实核查和知识库 / RAG 文档比对防止瞎编二次修正不合格就重写、截断或拒绝回答四、主流实现1NeMo Guardrails最有名NVIDIA 开源支持 Colang 语言写规则可定义能说什么、不能说什么、怎么说支持热更新、多轮对话、复杂流程LangChain 内置中间件形式开箱即用PII 检测、内容过滤、输出校验可自定义规则或接入外部安全模型正则 关键词 小模型如 LlamaGuard适合快速验证、轻量场景LangSmith看过程、debug、追踪、评测监控 日志Guardrails控内容、保安全、强格式、防越狱防护 校验最佳组合LangSmith 看 trace → Guardrails 做防护 → LangSmith 记录防护结果