可3D生成的GPT?香港中文大学最新SceneWiz3D:文本引领逼真3D场景生成
发布时间:2024-01-10 14:21
浏览次数:

该研究介绍了一种名为SceneWiz3D的新方法,用于从文本合成高保真度的3D场景。该方法结合了对象的局部性和场景的整体性,通过引入混合的3D表示——对象明确表示和场景隐式表示来实现。利用传统文本到3D方法或用户提供的对象,可以明确表示对象。为了布局场景并自动放置对象,优化过程中采用了粒子群优化技术。为了解决某些场景部分几何形状较差的问题,引入了RGBD全景扩散模型。研究表明,该方法优于先前方法,可以生成详细且视角一致的3D场景。

图片

这篇文章探讨了一种新颖的方法,名为SceneWiz3D,旨在从文本描述中生成高保真度的3D场景。该方法采用了混合的3D表示方法,将显式和隐式表示相结合,以处理复杂的场景。通过利用粒子群优化(PSO)来自动配置场景布局,并结合评分提炼技术从不同视角优化场景,从而提高了场景生成的质量。

这项研究的创新之处在于它结合了多种技术和方法来处理文本到3D场景的生成问题。采用混合的3D表示方法使得对场景中的物体和环境进行了更有效的建模,从而能够生成外观和几何细节方面更优秀的3D场景。

这篇文章的方法提出了一种有前景物体用显式表示、背景环境用隐式表示的创新方式,同时使用PSO优化方法和评分提炼技术,这为解决复杂场景生成的挑战提供了新思路。总的来说,这项研究为文本到3D场景生成领域带来了新的视角和有效的解决方案。

3D视觉工坊

,赞36

1 引言

本研究旨在超越单个3D物体的创建,合成整个3D场景。采用混合的3D表示方法,结合了隐式和显式表示,利用了显式表示方法DMTet来表示对象,隐式辐射场来表示场景。在对象配置方面,采用了自动更新的方法,并提出了基于PSO的更新策略,避免陷入局部最小值。为解决几何复杂性问题,引入了LDM3D扩散模型。SceneWiz3D在外观和几何性能方面表现出色,达到了文本到3D场景生成的最先进水平,能够根据用户提供的文本提示合成场景并灵活安排对象。

2 方法

图片

这篇文章采用了以下方法来生成高保真度的3D场景:

  • 文本到3D物体方法:基于现有的文本到3D物体方法,并结合评分提炼采样(Score Distillation Sampling,SDS),用于优化3D物体的生成。

  • 混合3D表示法(Hybrid Scene Representation):引入了混合的3D表示方法,将对象的局部性与场景的整体性相结合。利用显式表示方法DMTet来表示感兴趣的对象,以确保多视角一致性。对于场景中的其余部分,采用隐式表示法NeRF来表示环境,以应对复杂布局和深度变化。

  • 自动配置场景布局(Automatically Learning Scene Configurations):使用粒子群优化(Particle Swarm Optimization,PSO)来自动学习场景中物体的位置、缩放和旋转等配置,以解决复杂布局所带来的挑战。

  • 场景模型优化(Optimizing Scene Model):通过渲染透视RGB图像和全景RGBD图像,使用VSD和SDS指导来优化场景中的参数。结合深度正则化损失来进一步提高几何性能。

  • 评估方法(Evaluation Method):使用CLIP相似度、深度估计器以及FID度量等指标对透视和全景视图下的外观和几何性能进行全面评估。

这些方法共同构成了文章中用于生成高保真度3D场景的流程和技术路径。总体而言,该方法以文本为输入,结合了显式和隐式表示方法,利用自适应的配置学习和多种优化技术,能够有效地生成复杂而真实的3D场景。

图片图片

3 总结

SceneWiz3D采用混合表示方法,并结合PSO优化和评分提炼技术,能够有效生成外观和几何细节方面优秀的3D场景,达到了当前最先进的水平。

图片