OpenSCAD LLM 基准测试:多模型构建万神殿,谁能脱颖而出?
跳过至主内容[ModelRift 标志 ModelRift](/)- [定价](/pricing)- [博客](/blog)- [更新日志](/changelog)- [模型](/models)- [反馈](https://github.com/ModelRift/modelrift-issues/issues)- [打开编辑器](https://app.modelrift.com)- [定价](/pricing)- [博客](/blog)- [更新日志](/changelog)- [模型](/models)- [反馈](https://github.com/ModelRift/modelrift-issues/issues)- [打开编辑器](https://app.modelrift.com)[← 返回博客](/blog) 2026 年 5 月 21 日OpenSCAD LLM 基准测试构建万神殿一项实用的 OpenSCAD LLM 基准测试对比了 Codex 5.5 High、Claude Sonnet、Claude Opus、Cursor Composer、Google Antigravity 和 ModelRift 在详细的万神殿模型构建上的表现。本页内容1. 为何选择万神殿2. 为何选择 OpenSCAD3. 提示信息4. 参考图片5. 测试结果6. 工作流程说明7. Google Antigravity 2.0 / Gemini 3.5 Flash High8. ModelRift / Gemini Flash 3.09. Codex 5.5 High10. Claude Sonnet11. Cursor Composer12. Claude Opus13. 总结测试背景我们进行了一项小型实用基准测试给多个 AI 编码工具布置相同的任务要求它们用 OpenSCAD 构建万神殿。ModelRift 为平台上的每个 3D 模型生成 OpenSCAD 代码。大语言模型LLM处理空间几何的能力直接影响我们的产品输出因此我们会跟踪模型在这类任务中的表现提升情况。测试的目标是观察每个系统能否将建筑参考资料转化为参数化 CAD 代码并使用 OpenSCAD 命令行界面CLI渲染预览并进行迭代。提示信息特意采用了可视化和建筑相关的描述根据参考图片构建万神殿包括圆形大厅、穹顶、柱廊、立柱、三角墙以及可识别的正面细节。测试相关图片_当前六项基准测试结果的概述。每个缩略图都标注了本次运行所使用的客户端和模型。_为何选择万神殿这并非简单的 OpenSCAD 语法测试。目前所有的编码大语言模型都能很好地用 OpenSCAD 生成一个简单的“带孔立方体”模型。这类提示主要测试模型是否了解 difference()、cube() 和 cylinder() 等函数。万神殿作为基准测试更具价值因为它处于一个中间状态。OpenSCAD 不太适合处理自然雕刻模型、有机表面或类人物几何体。但它在布尔运算、径向对称、拉伸和简洁的构造形状方面表现出色。万神殿有一个巨大的径向圆形大厅和穹顶、一个中央天窗、笔直的柱廊立面、立柱、阶梯式底座和一个三角形三角墙。这种组合既具有代表性又并非无法实现。而且万神殿辨识度高。即使结果较差看起来也大致像一座有穹顶的建筑但更好的结果需要大致正确地呈现出圆形鼓座、矩形柱廊、穹顶环和正面立面之间的关系。为何选择 OpenSCADOpenSCAD 是大语言模型生成几何图形的理想目标因为其模型是纯文本代码词汇简洁。一个智能体可以将建筑描述为嵌套变换、布尔运算、圆柱体、拉伸、循环和命名模块。这比要求它们通过用户界面UI操作来驱动 3D 应用程序更接近语言模型对结构的推理方式。这也是我们最初围绕 OpenSCAD 构建 ModelRift 的主要原因详情见[为何我们基于 OpenSCAD 构建 ModelRift](/blog/why-openscad)。这对于复杂几何图形尤为重要。使用 OpenSCAD大语言模型可以直接在源代码中表示“在半径周围重复创建 28 根立柱”或“从穹顶中减去一个天窗”。结果可检查、可重现且易于修改。如果立柱间距有误通常只需更改一个参数或循环而不是对隐藏的场景状态进行突变。正是这种以文本为先的结构使得 OpenSCAD 与参数化 UI 层配合良好如[构建更好的 OpenSCAD 定制器](/blog/openscad-customizer-history)中所讨论的那样。Blender MCPs 等工具控制方法在某些工作流程中很有用但对于本次基准测试而言它们的编码方式不够自然。智能体需要将建筑意图转化为一系列应用程序操作然后在这些操作累积时保持对场景状态的心理模型。对于类似 CAD 的任务这中间有很多间接环节。OpenSCAD 则将几何图形本身作为产物。不过OpenSCAD 并非雕刻工具。它最擅长处理构造性、参数化且大多为硬表面的物体。万神殿正好处于这个适用范围内具有径向对称、重复的立柱、圆环、切口和简单的建筑实体。它也能很好地映射到 3D 打印的实际文件输出方面STL 仍然是基础的网格格式而 3MF 可以携带更丰富的装配和颜色信息如[3D 文件格式解释](/blog/3d-file-formats-explained)和[我们如何为 ModelRift 添加多色 3MF 导出功能](/blog/multicolor-3mf-export)中所述。这就是为什么它是衡量 ModelRift 期望大语言模型生成的几何图形的有用基准。提示信息本次基准测试使用的提示信息如下查看两张参考图片使用 OpenSCAD 实现万神殿并生成 .scad 文件。使用 OpenSCAD 命令行界面可用预览你的工作将 OpenSCAD 模型渲染为 .png 文件并进行迭代直到你对结果满意为止。参考图片_参考图片 #1 是左侧的正面立面视图。参考图片 #2 是右侧的空中/俯视图。这张组合图片是使用 ffmpeg 从本次基准测试使用的两张源图片生成的。_测试结果_当前六项基准测试的输出结果按客户端和模型标注。_工具和模型时间质量总结链接Cursor 3.5 / Composer 2.5●●●●●5/5最快●○○○○1.4/5运行速度最快但输出效果最差。它呈现出了穹顶和柱廊但比例、色彩控制和建筑细节是所有测试中最糟糕的。[查看 3D 结果](https://modelrift.com/models/pantheon-benchmark-cursor-and-composer-25)Codex 5.5 High●●●●○4/5基准速度●●●○○3.0/5细节丰富度高包括柱顶过梁上的铭文。如果最终的 STL 文件与 PNG 预览图匹配其得分可能仅次于 Antigravity但由于导出结果与预览不匹配公布的得分受到了影响。[查看 3D 结果](https://modelrift.com/models/cube-with-six-face-holes)Claude Code 2.1 / Opus 4.7●●○○○2/5较慢●●●○○3.0/5结构比 Cursor 好柱廊和阶梯式底座更清晰但颜色过于单一不如表现较好的测试结果有说服力。[查看 3D 结果](https://modelrift.com/models/pantheon-benchmark-claude-code-21-and-opus-47)Claude Code 2.1 / Sonnet 4.6●○○○○1/5最慢●●●◐○3.4/5模型的整体布局清晰比例协调在最初的自主测试批次中整体效果最合理但实现时间最长。[查看 3D 结果](https://modelrift.com/models/pantheon-benchmark-sonnet-46)Google Antigravity 2.0 / Gemini 3.5 Flash High最佳自主测试结果●○○○○1/5约 12 分钟●●●●◐4.5/5自主输出效果最强。它使用了真实的万神殿尺寸包含铭文并且是唯一实现了标志性内部藻井天花板图案的智能体。[查看 3D 结果](https://modelrift.com/models/pantheon-benchmark-antigravity-20-flash-35-high)ModelRift / Gemini Flash 3.0有人参与的最佳结果●○○○○1/5约 10 分钟●●●◐○3.8/5非自主测试中的最佳结果。它使用了 ModelRift 的迭代注释工作流程和 Gemini Flash 3.0耗时约为 Claude Code 的两倍。[查看 3D 结果](https://modelrift.com/models/pantheon-benchmark-modelrift-gemini-flash-30)这些分数仅相对于本次基准测试而言并非通用的模型排名。时间分数反映的是观察到的实现时间而非项目发布时间戳。质量分数有意保守评估即使是最佳结果也远非完美的万神殿模型。工作流程说明客户端工作流程的重要性几乎与模型本身相当。Codex Desktop 会在对话中直接显示大语言模型加载到上下文中的图片。对于可视化 CAD 工作来说这非常方便你可以查看智能体是否真正使用了你提供的参考图片。Cursor Agent 和 Claude Code CLI 也可以使用但它们的流程视图在可视化上下文方面不够明确。所有测试系统都能很好地处理本地 OpenSCAD 工具链。OpenSCAD 安装在测试用的 Mac 上并且可通过 PATH 访问每个智能体都能成功使用它在迭代过程中渲染 PNG 预览图。限制因素并非工具访问权限而是几何判断、相机设置以及预览模型能否导出为干净的最终网格。Codex 还使预览迭代过程更易于跟踪。它在同一线程中展示参考图片、OpenSCAD 文件编辑内容和生成的预览图片。公开基准测试结果公布后Codex 试图调查并修复有问题的屋顶和柱顶过梁导出问题。这一后续操作未包含在最终基准测试结果中因为公布的比较结果使用的是最初提交的模型。Cursor 的交互循环速度最快其用户界面将生成的 OpenSCAD 代码和结构化模型计划并排显示。但输出质量仍落后于速度较慢的测试结果。Claude Code 更侧重于终端操作。它能读取图片并使用 OpenSCAD 命令进行迭代但在模型构建过程中可视化程度较低。Google Antigravity 2.0 / Gemini 3.5 Flash High[查看 3D 结果](https://modelrift.com/models/pantheon-benchmark-antigravity-20-flash-35-high)_Antigravity 测试结果和工作流程的简短演示片段。_我们在 2026 年 5 月 22 日添加了这次测试就在[谷歌于 2026 年 I/O 大会上推出 Antigravity 2.0](https://techcrunch.com/2026/05/19/google-launches-antigravity-2-0-with-an-updated-desktop-app-and-cli-tool-at-io-2026/) 以及[于 2026 年 5 月 19 日发布 Gemini 3.5 Flash](https://deepmind.google/models/model-cards/gemini-3-5-flash/) 之后。这是对 Flash 3.5 的一个很好的早期信号该测试结果是本次基准测试中最佳的完全自主模型。产品背景比较复杂。Antigravity 1.0 是基于 VS Code 的集成开发环境IDE。Antigravity 2.0 更类似于 Codex Desktop是一款以智能体为先的桌面应用程序具备计划、任务执行、预览功能减少了旧的以编辑器为中心的工作流程。这次迁移在发布周引发了很多批评因为想要之前 IDE 体验的用户除了降级或固定使用旧版本应用程序外没有平滑的回归路径。即便迁移过程不太顺利Flash 3.5 High 在本次测试中表现依然出色。Antigravity 做了其他自主智能体没有做的事情它搜索了真实的万神殿参数而不是仅仅凭参考图片进行估算。计划和代码中对圆形大厅、穹顶、柱廊和天窗使用了明确的测量值然后将这些值转化为参数化的 OpenSCAD 值。其实现计划比其他测试更具建筑专业性 使用 OpenSCAD 实现一个详细、视觉震撼且尺寸准确的罗马万神殿 3D 模型。它还提出了一种剖面图模式这很重要因为万神殿从外部看不仅仅是一个穹顶 为了展示外部阶梯式圆环、柱廊和内部藻井、壁龛、完美的球形比例我将在代码中添加一个开关 show_cutaway false;。最突出的细节是天花板。计划中明确提到了实际的藻井结构 万神殿穹顶内部有 5 圈每圈 28 个藻井。在 OpenSCAD 中通过数学方法减去这些藻井非常精细效果惊人。_Antigravity 是唯一实现了万神殿标志性内部天花板图案的自主智能体通过天窗可见的重复方形藻井。_专用的剖面图渲染更清晰地展示了这一效果外部结果也有一些在快速 OpenSCAD 输出中通常会被忽略的细节混合的灰色和红色立柱材质、清晰可读的铭文、阶梯式屋顶圆环以及圆形大厅、中间块、柱廊和穹顶之间正确的大致关系。其质量得分为 4.5/5速度得分为 1/5。虽然速度不快但它提升了本次基准测试中自主测试的上限。当与能够进行计划、渲染、检查和修改的工具配合使用时Flash 3.5 在空间代码生成方面看起来非常有前景。ModelRift / Gemini Flash 3.0[查看 3D 结果](https://modelrift.com/models/pantheon-benchmark-modelrift-gemini-flash-30)这个测试结果使用了 ModelRift 和 Gemini Flash 3.0并采用了人工干预的流程。它不像前四次测试那样是一次自主的单轮测试。工作流程耗时约 10 分钟大约是 Claude Code 测试时间的两倍因此速度得分同样为 1/5。本次基准测试于 2026 年 5 月 21 日进行就在 Gemini 3.5 Flash 发布后不久。上述 Antigravity 的测试结果表明 3.5 Flash 表现强劲但对于 ModelRift 的默认模型我们仍需在质量、成本和延迟之间进行权衡[谷歌公布的 Gemini API 定价](https://ai.google.dev/gemini-api/docs/pricing)显示Gemini 3.5 Flash 标准定价为每 100 万个输入令牌 1.50 美元每 100 万个输出令牌 9.00 美元而 Gemini 3 Flash 定价为每 100 万个输入令牌 0.50 美元每 100 万个输出令牌 3.00 美元。这比上一代 Flash 版本高出 3 倍远高于旧的 Gemini 1.5 Flash 时代的成本基线。质量方面比最初的自主测试批次更好得分为 3.8/5。模型仍不完美但柱廊、立柱布局、屋顶、穹顶肋条和整体布局更加协调。主要区别在于视觉反馈可以直接附加到当前渲染图上而不仅仅是用文字描述。ModelRift 的第一轮输出很快生成了一个有效的模型但屋顶和柱廊细节仍较粗糙。这时注释模式发挥了作用。用户无需撰写冗长的空间修正说明只需在渲染图上指出缺失或薄弱的特征即可。这正是 ModelRift 设计的工作流程生成模型在浏览器中检查在渲染图上绘制视觉注释然后要求 AI 修改 OpenSCAD 代码。对于空间 CAD 任务这种循环比仅用文字说明更加精确。Codex 5.5 High[查看 3D 结果](https://modelrift.com/models/cube-with-six-face-holes)Codex 5.5 High 生成的模型细节最丰富。它包含圆形大厅、穹顶肋条、天窗、分层砖石带、正面柱廊、立柱、周围的底座细节甚至柱顶过梁上还有文字M AGRIPPA L F COS TERTIVM FECIT。这个铭文令人印象深刻因为在 OpenSCAD 中文字从建模角度来看并非仅仅是装饰。它需要进行放置、拉伸、定向并且要保持足够薄以便阅读同时不会使几何图形过于复杂。其失败模式也很有趣。在迭代过程中渲染预览图看起来比最终导出的 STL 文件更好。在最终结果中柱顶过梁和柱廊屋顶区域出现了类似天花板的问题表面改变了正面组件的视觉效果。因此Codex 显示出了强大的空间推理能力和雄心但也暴露出了一个实际的导出风险问题预览的正确性并不总是等同于最终网格的正确性。如果我们根据最佳 PNG 预览图而非公布的基于 STL 的结果进行评分Codex 的排名会高得多。预览图的结构和细节足以仅次于 Antigravity 2.0 的结果。3.0/5 的得分主要是因为最终导出/渲染不匹配这一不幸情况而非模型的设计意图。上面的编辑器截图展示了其中一个中间项目预览。最终公开的 STL 预览图有明显差异尤其是在柱廊和柱顶过梁周围。后来 Codex 进行了一次尝试分析了该问题并开始移除柱廊屋顶和穹顶交界处的高风险接触模式。这次修复过程是有用的证据但未计入表格中因为它发生在基准测试结果记录之后。Claude Sonnet[查看 3D 结果](https://modelrift.com/models/pantheon-benchmark-sonnet-46)Claude Sonnet 在最初的自主测试批次中生成的模型最简洁。它没有像 Codex 那样追求微观细节但轮廓更清晰主要建筑部分的组合更自然。穹顶、鼓座、柱廊和立柱布局看起来像是一个整体建筑而不是一组相邻的基本图形。比例也更加合理。在后来的 Antigravity 测试之前这是最强大的完全自主测试结果。但代价是速度。在本次基准测试中Claude Code 的速度大约是 Codex 的 2 - 3 倍慢因此 Sonnet 尽管质量不错但时间得分最低。即便如此其得分也只有 3.4/5因为该模型仍然只是一个近似值并非高质量的建筑重建。Cursor Composer[查看 3D 结果](https://modelrift.com/models/pantheon-benchmark-cursor-and-composer-25)Cursor 搭配 Composer 2.5 的测试运行速度最快但结果最差。它大致呈现出了圆形大厅、穹顶、柱廊和立柱的样子但缺乏使万神殿具有辨识度的材质节制和建筑细微差别。输出看起来更像是一个简化的占位模型而不是一个完成的作品。它可以作为初稿但在发布之前需要大量的修改。Claude Opus[查看 3D 结果](https://modelrift.com/models/pantheon-benchmark-claude-code-21-and-opus-47)Claude Opus 的表现介于 Cursor 和 Sonnet 之间。它生成的建筑比 Cursor 更完整柱廊和阶梯式底座更清晰。但输出过于单一不如 Sonnet 的结果有说服力。该模型有结构但在视觉层次判断上不足。几乎所有部分的颜色和权重都相同因此细节相互竞争而不是引导视线。更新后的得分是 3.0/5比最初表格中的得分有所提高但仍落后于 Sonnet 和 Antigravity。总结从这次测试中可以明确得出以下几点结论OpenSCAD 作为目标语言表现出色。其语法简洁输出具有确定性命令行界面可以渲染预览图便于循环检查。大语言模型无需过多指导就能使用它。工具使用并非瓶颈。每个智能体都能从 macOS 的 PATH 调用 OpenSCAD并顺利渲染 PNG 预览图没有设置方面的障碍。难点在于几何判断而非工具连接。速度并不能预测质量。Cursor 完成速度最快但结果最差。Sonnet 在最初的自主测试中耗时最长但生成的原始自主模型最简洁。Antigravity 速度也较慢但 Gemini 3.5 Flash High 有足够时间进行计划和迭代后生成了最佳的自主测试结果。ModelRift/Gemini Flash 3 的测试耗时更长但视觉反馈使其结果优于第一批自主测试。预览和导出结果并不总是一致。Codex 在渲染循环中表现出色但最终的 STL 文件在柱廊屋顶周围存在几何问题。对于任何要进行打印的内容导出的网格需要单独检查而不仅仅依赖预览图。这些输出都不能作为忠实的建筑模型。Codex 的铭文是一个亮点Sonnet 的比例协调Antigravity 的藻井天花板是最令人惊喜的细节ModelRift/Gemini Flash 3 的结果展示了人工可视化引导模型的效果。仅通过两张参考图片和简短的提示信息每个系统都能生成有效的、可渲染的 OpenSCAD 代码无需手动编写一行 CAD 代码。工具之间的质量差距确实存在但这个基准比我们预期的要高。不过自主基准测试只是一部分情况。在 ModelRift 中我们仍然依赖注释模式进行迭代工作你可以直接在 3D 模型截图上绘制箭头和注释并将其反馈给 AI。对于空间几何图形即使使用顶级模型人工干预这一步也很重要。一个模型可能整体布局正确但仍可能出现立柱位置错误或穹顶比例失调的问题。在渲染图上直接指出问题比用文字描述更快、更精确。目前完全自主生成还不是这类任务的合适工作流程。ModelRift 标志 ModelRift在浏览器中创建和探索参数化 3D 模型。资源- [博客](/blog)- [更新日志](/changelog)- [模型](/models)- [反馈](https://github.com/ModelRift/modelrift-issues/issues)法律声明- [条款与条件](/terms)- [隐私政策](/privacy-policy)- [退款政策](/refunds)联系我们- [GitHub](https://github.com/modelrift)- [与创始人交流](https://www.linkedin.com/in/anthony-sidashin/)- contact [at] modelrift.com(C) 2026 ModelRift。保留所有权利。APIRoad Inc美国怀俄明州