牛津大学 Visual Geometry Group 的 Paul Engstler 等人提出了一项 3D 环境生成技术:SynCity。它提供了一种新颖的方式来创建复杂的 3D 世界,而无需任何额外的训练或优化。它的核心思想是在 2D 和 3D 生成模型的协同作用下,以逐块构建的方式,高效地生成具有连贯性的 3D 环境。

SynCity 的工作流程可以理解为一个逐步搭建的拼图。但这个拼图并非简单的拼接,而是包含了跨维度的转换与优化。研究团队首先利用预训练的 2D 生成模型 Flux 生成 2D 图像,每块图像不仅要有独立的细节,还要与相邻块保持风格与语义上的一致性。随后,另一款 3D 生成器 TRELLIS 介入,将这些 2D 图像转换为 3D 结构。

不过,单纯的 3D 转换并不足以创造一个真正沉浸式的世界。由于 3D 生成的局部性,每个块之间可能会存在过渡不自然的情况。因此,SynCity 还采用了一种迭代式的 3D 混合策略:先在 2D 视角下进行图像修复(inpainting),然后在 3D 结构上进一步调整,使得新生成的图像块能够平滑地嵌入到已有的世界中。最终,整个场景被拼接成一个可以自由探索的 3D 空间。

SynCity 的另一个关键特点是不依赖额外训练。这在当前计算机视觉领域尤为重要。传统的 3D 生成方法通常需要耗费大量算力进行预训练,而 SynCity 通过挖掘现有模型的能力,采用推理阶段的智能组合,绕开了这一瓶颈。换句话说,它并不是从零开始学习如何生成 3D 世界,而是像一个熟练的建筑师,在手头已有的材料(预训练模型)基础上,灵活地搭建出新的结构。

这种方法的优势在于高效性与通用性:它可以快速适应不同的文本输入,生成多种风格的 3D 场景,而无需针对特定任务重新训练模型。这不仅降低了构建 3D 世界的成本,也让生成式 AI 更具可扩展性。

SynCity 项目地址:https://research.paulengstler.com/syncity/