智谱 GLM-5V-Turbo实测,录个视频就能复刻App,视觉编程直接拉满
智谱真的是脚踏实地一步一个脚印啊智谱首个多模态 Agent 基座模型来了。3 月 30 日晚智谱正式发布 GLM-5V-Turbo。从这个名字我们就可以看出来多了一个“V”这就是 Vision 的意思也是这个模型最核心的变量。在 GLM-5-Turbo 已经把 Coding 模型的纯文本能力拉到国产顶尖之后智谱做了一件所有人都在等的事给模型装上了眼睛。GLM-5V-Turbo 是智谱首个原生多模态 Agent 基座模型。注意“原生”二字。它从预训练阶段就将视觉和语言统一建模模型天然能看懂图片、视频、设计稿、文档版面并基于视觉内容进行推理和决策。所以这跟在文本模型上外挂一个视觉模块、靠 OCR 翻译后再“猜”图片内容是完全不同的技术路线。更值得关注的是在比 Kimi K2.5 更小的模型尺寸下GLM-5V-Turbo 实现了更强的效果。更小的身体更硬的数据官方没有公布 GLM-5V-Turbo 的具体参数量。但从推理速度和“Turbo”的命名惯例推测模型规模大概率比 Kimi K2.5 要小。K2.5 是一个 1T 参数的 MoE 架构32B 激活参数预训练用了 15 万亿混合视觉和文本 token。GLM-5V-Turbo 能在更小的体量下打出什么成绩数据非常亮眼。多模态 Coding 与 Agentic 能力方面Design2Code设计稿还原GLM-5V-Turbo 拿到 92.6K2.5 是 91.3。看起来只差 1.3 个百分点但在这个已经被卷到 90 分以上的赛道每 0.1 分的提升都意味着模型对视觉细节的理解更深了一层。透明度层级、背景渐变、组件间距这些“只有真正看懂才能还原”的东西分差就体现在这里。BrowseComp-VL多模态检索与问答GLM-5V-Turbo 拿到 48.7K2.5 是 42.9领先近 6 个百分点。这个基准考察的是模型在真实浏览环境中检索和理解视觉信息的能力差距已经不是微调能弥补的量级。ClawEval龙虾 Agent 任务评估: GLM-5V-Turbo 远超 K2.5接近 Claude Opus 4.6 的水平。纯文本能力方面在前端编程、后端编程和代码库理解三项基准上GLM-5V-Turbo 保持了稳定水平。视觉能力的引入没有造成纯文本能力退化。这一点非常关键。很多模型在加入多模态能力后文本侧的表现会明显下滑智谱通过多任务协同 RL 等技术手段守住了这条线。GUI 操控能力方面在 AndroidWorld、WebVoyager 等衡量真实 GUI 环境操控能力的基准上GLM-5V-Turbo 同样表现突出。这意味着它能真正“看懂”手机屏幕和网页界面上的元素并据此做出操作决策。一句话总结更小的尺寸更强的效果性能效率比惊人。光看榜单不够实测见真章Benchmark 永远只是入场券。模型好不好用得在真实场景里见真章。我们选了几个最能体现“多模态 Agent”价值的场景对 GLM-5V-Turbo 做了一手实测。场景一视频/图片即代码录个屏就能复刻一个 App这是 GLM-5V-Turbo 最炸裂的能力也是最能体现“原生视觉”价值的场景。我们不讲理论直接上手用多个真实 App 复刻来说话。第一弹录一段微信读书的操作视频让它复刻既然 GLM-5V-Turbo 能理解视频这种模态的输入我就想给它来个硬的打开微信读书 App从首页到书架到个人页完整录了一段操作视频然后直接扔给模型。先看我录制的视频提示词极其简单就一句话基于视频帮我复刻这个 App。注意我没有告诉它这是微信读书没有给任何 UI 说明文档没有标注哪个按钮是什么功能。模型需要自己从视频里“看”出所有信息页面结构、导航逻辑、交互层级、视觉风格。GLM-5V-Turbo 接到任务后第一步并没有急着写代码它先给我输出了一份完整的复刻计划页面拆解、组件清单、交互逻辑、技术选型条理清晰得像一个有经验的前端工程师在做技术方案评审。然后按照这个计划逐步实施最终交付的效果让我相当意外仔细对比一下几乎一模一样。底部的 tab 栏、顶部的菜单切换、卡片式的书籍列表布局全部都还原了而且每个 tab 和菜单项都是可点击、可交互的。唯一的差异是书籍封面用了色块替代这是因为视频输入的分辨率有限模型无法从视频帧中提取出每本书封面的高清细节。但这恰恰引出了一个有意思的对比实验。第二弹换成一张高清截图复刻微信首页如果输入从视频换成一张高清图片模型能还原到什么程度我直接截了一张微信首页的图扔给 GLM-5V-Turbo同样只说一句话帮我复刻。这回效果直接拉满。大家看左边是原图右边是复刻图色块消失了书籍封面一个模仿细节出来了连文字排版的间距、字号层级几乎都对得上。图片输入比视频输入多了一层信息密度模型能从中提取到更精细的视觉特征所以还原度又上了一个台阶。到这里一个很清晰的结论已经浮出水面视频输入胜在捕捉完整的交互流程和多页面结构图片输入胜在单页面的高保真还原。两种模态各有所长GLM-5V-Turbo 都能接住。为什么这件事这么难又为什么它能做到以前要复刻一个 App 的前端流程是这样的设计师在 Figma 里标注每一个元素的尺寸、颜色、间距输出一份详细的标注稿前端工程师对着标注稿一个像素一个像素地还原然后设计师 review发现不对的地方打回去改来回三四轮一个页面可能要磨一两天。现在呢录个屏或者截张图一句话扔给 GLM-5V-Turbo几分钟出活。这个能力的底层逻辑很清晰模型从预训练阶段就将视觉和语言统一建模所以它看设计稿的方式跟人类设计师看设计稿的方式是一致的。它感知到的是“这里有一个圆角卡片背景是半透明的毛玻璃效果左上角有一个绿色的状态指示灯底部 tab 栏有四个图标均匀分布”然后直接把这些视觉理解翻译成 CSS 和组件代码。中间没有 OCR 转文字再猜语义的有损环节视觉信息到代码的转换是一步到位的。说实话GLM-5V-Turbo 像人一样理解视觉布局和交互逻辑然后交付完整的前端复刻工程。不用写一个字的需求文档不用画一根标注线。这才是“视觉编程”该有的样子。场景二视觉搜索再试一个更硬核的我从网上找了一张1954年老舍、梁思成、梅兰芳和华罗庚合影照片看看它的视觉搜索能力怎么样让它“框出图中全部人物及名字”。为了考察它的视觉搜索能力我给的提示词很简单仅仅是说帮我框出图中全部人物及名字。太厉害了它直接在图中标注出来了。其实这背后是模型新增的多模态工具链在发挥作用。在文本工具基础上GLM-5V-Turbo 新增了画框、截图、读网页含图片等多模态 tools让 Agent 的感知-行动链路从纯文本扩展到了视觉交互。模型能直接在图像中定位元素、在网页中识别视觉内容大幅拓展了 Agent 在真实环境中的操作边界。场景三文档解读与写作扔一份 PDF 研报让它基于图表写分析。GLM-5V-Turbo 对图表的数据提取非常精准。比如我把《GLM-5: from Vibe Coding to Agentic Engineering》这份 PDF 报告让给它让我基于这份报告写一篇图文并茂的公众号文章。提示词如下阅读这份报告仿照微信公众号的风格撰写文章需要专业、详细、能吸引读者输出图文并茂的文章看看给我做完的效果我都惊呆了真的是图文并茂。如下文章很长我只截了一部分。整篇文章配了 12 张图每张都是从原报告中精准提取的而且对数据趋势的分析也很到位柱状图的对比、折线图的拐点、表格里的关键数值都被准确地引用到了文字分析中。为什么它能做到“图文并茂”这里有两层能力在起作用。第一层是原生视觉理解。GLM-5V-Turbo 看图表的方式跟人类看图表的方式是一致的它直接感知柱状图的高度差异、折线图的趋势走向、饼图的面积占比然后基于这些视觉信息进行推理。传统方案需要先 OCR 提取文字、再用文本模型理解中间的信息损耗非常大尤其是遇到复杂的多轴图表或者中文排版的 PDF 时OCR 本身就会引入大量噪声。原生视觉理解跳过了这个有损的“翻译”环节。第二层是多模态工具链。GLM-5V-Turbo 新增了画框、截图、多模态搜索、深度研究等 tools模型可以主动从 PDF 中截取关键图表、在图上标注重点区域再结合联网搜索补充背景信息。所以最终输出的文章既有从报告里“看”到的一手数据也有检索补充的行业上下文这才是“图文并茂”的真正含义。为什么“原生视觉”对 Agent 这么重要真实世界超过 80% 的信息以视觉形态存在。屏幕界面、文档版面、图表数据、物理环境这些都是视觉信息。之前的 Agent 模型哪怕能力再强面对视觉世界时本质上是个“盲人”。它需要依赖 OCR、图像描述等外部工具把视觉信息“翻译”成文本然后再基于翻译后的文本来猜测世界的样子。这个翻译过程必然有损信息丢失、理解偏差、响应延迟每一步都在累积误差。GLM-5V-Turbo 解决的核心问题是让模型原生地看懂世界。当 Agent 能直接理解屏幕上的按钮长什么样、表格里的数据是多少、设计稿的配色方案是什么它的决策质量和执行效率会有质的飞跃。这就是为什么 GLM-5V-Turbo 在 ClawEval 上的表现能接近 Claude Opus 4.6在 GUI 操控基准上表现突出。模型终于不再是“闭着眼睛摸索”它真正睁开了眼。生态配套开箱即用GLM-5V-Turbo 现已开放 API所有 Coding Plan 用户均可使用。接入方式上支持通过 API 直接调用也可以接入 Claude Code、AutoClaw 等 Agent 框架。在 Z.ai 网页版上同样可以体验。智谱还提供了官方 Skills 和资源包包括前端工程师、K 线图分析师等开箱即用。对于想快速上手的开发者来说门槛已经降到最低。同时GLM-5V-Turbo 进一步优化了与 Claude Code 和 AutoClaw 的协同效果视觉能力与执行能力深度打通支持“看懂环境→规划动作→执行任务”的完整闭环。写在最后GLM-5V-Turbo 的发布标志着国产多模态 Agent 模型正式站上了全球第一梯队。更重要的是GLM-5V-Turbo 在 Artificial Analysis 榜单上做到了 50 分级别的成绩和全球最强的多模态模型站在了同一梯队。这个分数意味着什么在这个榜单上能稳定突破 50 分区间的模型屈指可数GLM-5V-Turbo 是其中之一。更让人印象深刻的是效率。在比 K2.5 更小的模型尺寸下实现更强的效果更快的推理速度、更低的 token 消耗、更高的性价比。对于需要高频调用多模态能力的开发者和企业来说这个优势会在实际使用中持续放大。看得懂设计稿、写得出代码、玩得转 Agent。这三件事GLM-5V-Turbo 目前做得最好。如果你正在做多模态 Coding 或 AI Agent 相关的工作这个模型值得第一时间试一试。