点击下方卡片关注“CVer”公众号AI/CV重磅干货第一时间送达点击进入—【顶会/顶刊】投稿群添加微信号CVer2233小助手拉你进群扫描下方二维码加入CVer学术星球可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料本论文作者也已加入CVer星球论文https://arxiv.org/abs/2511.18734过去的 3D 城市生成通常依赖地图、卫星图像或其他先验整体流程更接近于在已有城市信息基础上进行重建或补全。相比之下Yo’City 希望推动城市生成走向一种更灵活、更易用、也更用户友好的形式。它不再要求用户提供地图、遥感数据或预定义布局而是能够仅依据任意自然语言描述从零开始生成与用户意图相匹配的 3D 城市资产使城市创作从“依赖先验输入”迈向“基于开放描述的灵活生成”。为实现这一目标Yo’City 将整个过程拆解为全局规划、局部设计、3D 生成和持续扩展四个阶段逐步把开放的文本构想转化为完整的 3D 城市。Motivation城市天然具有层次化结构。它既有城市级别的功能分区也有街区级别的细节组织既讲究局部建筑风格也强调全局空间逻辑。现有很多方法仍然主要依赖地图数据、卫星图像、程序化规则或者直接用单一生成模型逐块合成城市。这样的方式虽然可以生成一定规模的场景却往往难以同时满足三个关键目标个性化表达用户希望生成的不只是“现代城市”还可能是“带主题乐园的商业都市”“具有丝绸之路气质的古代贸易城”甚至“像纽约一样的高密度都市核心区”。全局一致性城市不是若干独立块的随机排列而是功能区之间存在清晰的邻接关系、交通逻辑和空间层级。可持续扩展现有方法通常以一次性、离线的方式完成生成难以在用户持续交互中随需求自然生长。当用户希望新增商业区、住宅区、体育场或文化设施时系统还需要确保新增区域与既有城市在功能布局和空间关系上保持协调。Yo’City 的核心出发点在于将城市生成从“一次性合成”推进为“可规划、可设计、可扩张”的生成过程让大模型的知识、推理与多模态能力真正参与到城市构建中。MethodYo’City 整体采用一种自上而下的层次化思路将城市建模为 City–District–Grid的三级结构。系统先在城市层面完成整体规划再逐步细化到功能区和网格级描述最后完成高保真 3D 生成与后续扩张。1. Global PlannerYo’City 的第一步不是直接生成图像或 3D 模型而是先做城市级规划。Global Planner 会根据用户输入先估计整座城市的整体规模再识别需要包含哪些功能区例如住宅区、商务区、文化区、创新园区、娱乐区等最后将这些区域分配到统一网格中形成高层级城市蓝图。更进一步Yo’City 支持外源引导。除了自然语言描述外系统还能够结合参考城市、规划图、布局草图或示意图等外部控制条件共同参与全局规划。对于参考城市系统引入基于城市语料库的 RAG 机制检索并提炼目标城市在功能分区、建筑风格、道路组织和空间邻接等方面的关键特征并将其蒸馏为结构化提示注入全局规划过程。对于规划图、布局草图或示意图这类外部条件系统则借助视觉语言模型进行多层次解析将其中包含的功能划分、主次区域、邻接关系以及潜在交通连接与约束信息转写为结构化文本并与用户原始文本共同作用于 Global Planner。2. Local Designer如果说 Global Planner 负责回答“这座城应该有什么”那么 Local Designer 负责回答“每一块区域具体应该长什么样”。在这个阶段系统会基于每个功能区的高层级蓝图进一步生成网格级文本描述对每个区域的建筑风格、地标元素、空间组织、建筑密度以及与周边格子的关系进行细化。关键在于Yo’City 并不是孤立地设计每个grid 而是在粗粒度规划的基础上对同一功能区内的多个网格进行联合设计从而保证一个区域内部在视觉与语义上的连续性。这种从粗到细的规划方式让系统能够先形成整体逻辑再落到局部细节避免“局部很丰富、全局很混乱”的常见问题。3. 3D Generator在具体生成阶段Yo’City 并没有直接从文本一步生成 3D而是以等距视角图像为媒介第一步先在预设平台的引导下为每个 grid 生成高质量的等距视角图像其中预设平台用于提供统一的尺度先验与视角先验从而保证生成结果在空间尺度和观察角度上的一致性。第二步再将这些图像转换为 3D 资产。为了提升结果质量Yo’City 设计了一个 produce–refine–evaluate 闭环- Produce先生成初始等距视角图像- Refine通过图像编辑去除辅助平台、切割前景物体、修正外观细节- Evaluate利用评估器检查语义一致性、真实感、结构合理性和布局质量不满足要求则继续迭代。最终所有 grid 生成出的 3D 资产将按照预先规划好的布局进行统一装配并补充道路、地面等必要的连接元素从而形成完整的城市场景。其中道路与地面相关参数既可以由用户显式指定也可以由 LLM 自动生成同时系统还支持自定义的道路连接模式。4. Expansion ModuleYo’City 的另一大重点在于它不仅能生成一座城市还能让这座城市在后续交互中持续演化。当用户提出新的扩展需求首先结合当前城市的整体渲染结果与区域分布对新增区域进行内容理解与关系建模。具体来说Yo’City 会借助视觉语言模型对现有城市进行分析一方面生成新增 grid 的文本描述另一方面构建一个以该新增区域为中心的 scene graph显式刻画它与已有功能区之间的距离关系。基于此系统会在候选位置上进一步进行优化一方面考虑新增区域与现有功能区之间的空间距离关系另一方面兼顾其与周边环境的语义相容性。最终Yo’City 通过这种距离—语义联合优化为新增区域自动选择更合理的位置并完成后续的 3D 生成与拼接使城市扩展更符合真实城市的生长逻辑。Experiments为了系统评估方法表现论文构建了一个包含 100 条城市描述的数据集覆盖多种风格与需求类型并与 Trellis、Hunyuan3D、CityCraft、SynCity 等代表性方法进行了对比。评测上Yo’City 不仅考察语义一致性还从多个维度评估生成质量包括- Geometric Fidelity几何结构是否自然- Texture Clarity纹理是否清晰- Layout Coherence布局是否合理- Scene Coverage场景覆盖是否充分- Overall Realism整体真实感如何从结果来看Yo’City 在语义一致性和整体视觉质量上都取得了明显优势。它生成出的城市通常具有更合理的建筑比例、更清晰的纹理细节以及更稳定的空间布局相比一些基线方法中常见的建筑堆叠失衡、局部尺度混乱、贴图粗糙等问题整体表现更接近真实城市应有的组织方式。此外论文还在 grid-level 层面进行了细粒度比较。结果表明Yo’City 在局部网格的语义对齐和美学质量上也优于 SynCity说明它不仅在“整座城”的层面规划得更好在“每一小块”的层面也生成得更自然。消融实验进一步从规划与扩展两个层面验证了 Yo’City 的设计有效性。在规划层面一旦移除 coarse-to-fine 的层次化规划机制模型在布局一致性和整体真实感上的表现便会明显下降这表明 Yo’City 的提升不仅来自生成器能力本身更受益于“先规划、再设计、后生成”的整体框架。在扩展层面多轮新增区域后的实验结果显示生成城市依然能够保持相对一致的全局风格与空间逻辑说明其关系引导式扩张机制具有较好的稳定性与鲁棒性。Conclusion通过引入大模型驱动的层次化规划、支持外源引导的全局控制、高保真闭环式 3D 生成以及关系约束下的持续扩张Yo’City 尝试在个性化、合理性、真实感与可控性之间取得更好的平衡并为 3D 城市生成提供了一种新的实现路径。何恺明在MIT授课的课件PPT下载在CVer公众号后台回复何恺明即可下载566页课件PPT大家赶紧学起来CVPR 2026 所有论文和代码下载在CVer公众号后台回复CVPR2026即可下载CVPR 2026 所有论文和代码CV垂直方向和论文投稿交流群成立扫描下方二维码或者添加微信号CVer2233即可添加CVer小助手微信便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖目标检测、图像分割、目标跟踪、人脸检测识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注研究方向地点学校/公司昵称如Mamba、多模态学习或者论文投稿上海上交卡卡根据格式备注可更快被通过且邀请进群▲扫码或加微信号: CVer2233进交流群 本文作者已经加入CVer星球目前CVer计算机视觉知识星球人数破万如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料一定要扫描下方二维码加入CVer知识星球最强助力你的科研和工作 ▲扫码加入星球学习▲点击上方卡片关注CVer公众号 整理不易请点赞和在看