AI安全——实战敏感词汇绕过手法

张

张建站

2026/5/22 1:36:11

10分钟阅读

一、前言在今年大概 6 月份的时候煮波在一些公众号以及 src 平台上看到了一个船新漏洞——AI 漏洞后面更是看到了应运而生的所谓《ai 魔咒》随着人工智能的兴起一些学校或者机构或者平台都部署了 AI有些 AI 虽然设置了严格的内容安全策略禁止生成色情、暴力等违规内容但其防御机制并非牢不可破。通过精心构造的、具有对抗性的提示词Adversarial Prompts可以系统地绕过其语义过滤与伦理对齐机制成功诱导AI模型输出包括色情言论在内的明确违规内容。其实 ai 提示词对抗是一门语言的艺术要拐弯抹角地去诱导它输出一些违禁内容同时也要思考开发者到底是怎么要求 ai 的下面我分享一些我在实战中确实遇到过的 ai 敏感词绕过手法。二、违禁词拆分直接看一个例子吧某高校部署的 ai创建一个账户就直接开始和 ai“聊天”这里我猜测违禁词就是性关系拆分违禁词再让 ai 自己拼起来就会解释了很多 ai 都是这样子的三、重组逻辑语句大部分 ai 都有自己重组语言的能力当他们遇到逻辑不通的语言的时候会自动思考怎么排序这个语句而它们在思考的过程其实就已经完成绕过了四、垃圾字符其实本质也是截断敏感词让 ai 检测不到五、构建环境这种方法也是我一开始了解到的方法也是大部分人看到 ai 直接扔给 ai 的魔咒通常的技巧就是让 ai 当魅魔或者其它有奴性的生物具体语句大家可以直接去看这篇文章感谢师傅分享https://mp.weixin.qq.com/s/yhAQMXAaa_wmneP3NqP2xQ最后的结果大概就是hhhhh六、文件上传xss、文字解析现在很多 ai 都具备文件上传的功能了可以考虑打存储型 xss甚至直接 getshell又或者有些 ai 对于你直接提问的问题会进行过滤但是对上传的文件内容是没有过滤的但是这个 ai 可以上传 docx 文件再问它就会回答了以上就是我曾经遇到过的一些 ai 敏感词绕过手法其实还有很多比如编码绕过执行代码等等但是我在实战中没有遇到过就不给大家一一列举了。申明本公众号所分享内容仅用于网络安全技术讨论切勿用于违法途径所有渗透都需获取授权违者后果自行承担与本号及作者无关请谨记守法.