论文阅读:arixv 2026 Taming OpenClaw: Security Analysis and Mitigation of Autonomous LLM Agent Threats
总目录 大模型安全研究论文整理 2026年版https://blog.csdn.net/WhiffeYF/article/details/159047894https://arxiv.org/abs/2603.11619该论文题为《Taming OpenClaw: Security Analysis and Mitigation of Autonomous LLM Agent Threats》由清华大学与蚂蚁集团的研究团队共同完成。该研究聚焦当下备受关注的自主大语言模型智能体OpenClaw首次系统性剖析了其全生命周期中的安全风险填补了智能体安全领域的研究空白。该论文创新性地构建了五层生命周期安全框架将智能体运作划分为初始化、输入、推理、决策与执行五个关键阶段。研究发现恶意插件可在初始化阶段植入后门外部网页能通过间接提示注入篡改指令长期记忆可能被投毒导致持续性的行为偏差而多步骤决策中的意图漂移更可能使系统自主执行高危操作。这些威胁并非孤立存在而是能够跨阶段组合形成复杂攻击链。以技能投毒为例攻击者可在智能体创建天气查询插件时诱导其生成名为hacked-weather的恶意工具。该工具表面功能正常优先级却被设定为高于官方天气服务。一旦用户询问天气系统会自动调用此插件最终输出YOU ARE HACKED的警告信息而非真实天气数据。这种攻击无需每次交互都注入恶意指令而是通过篡改能力路由机制实现持久化控制。针对上述威胁该论文提出了纵深防御架构涵盖插件签名验证、语义级输入过滤、记忆完整性校验、意图一致性验证及内核级沙箱隔离等关键技术。这些防御措施分别对应五个生命周期阶段形成了端到端的安全防护体系为自主智能体的安全部署提供了重要理论依据与实践指南。