热点资讯
开云(中国)开云kaiyun·官方网站为促进学术疏通和技巧实施-kaiyun体育最新版
发布日期:2026-05-04 11:17 点击次数:56

从单张图像生成天真视角 3D 场景的技巧来了开云(中国)开云kaiyun·官方网站,在考古保护、自主导航等径直获取 3D 数据本钱昂贵或不行行的范围具有病笃应用价值。
这一任务本色上是高度不适定的:单一的 2D 图像无法提供鼓胀的信息来摈斥完整 3D 结构的歧义,尤其是在极点视角(如 180 ° 旋转)下,先前被荫庇或缺失的内容可能会引入显耀的不笃定性。
生成模子,零散是扩散模子,为经管这一问题提供了一种潜在的技巧旅途。尽管现存设施频频依赖预锻练的生成模子当作新视角合成的先验,但它们仍靠近显耀挑战。
举例,基于图像的扩散设施容易积贮内容破绽,基于视频的扩散方规定难以处理可能生成的动态内容构建静态 3D 场景的影响。最近的策划尝试通过在视频扩散模子中引入点云先验来耕种一致性,诚然取得了一定进展,但在可膨胀性方面仍存在局限,尤其是在大视角变化下的发扬存待耕种。
针对上述问题,东说念主大高瓴李崇轩、文继荣团队、北师大王一凯团队与字节卓绝的策划员提议了一种新设施 FlexWorld,用于从单张图像生成天真视角的 3D 场景。
与现存设施不同,FlexWorld 通过合成和整合新的 3D 内容,渐渐构建并膨胀一个抓久的 3D 示意。

该设施包含两个中枢组件:
( 1 ) 一个强劲的视频到视频(video-to-video, V2V)扩散模子,用于从省略场景渲染的不完整图像生成完整的视角图像; ( 2 ) 一个几何感知的 3D 场景膨胀流程,用于索求新的 3D 内容并将其整合到全局结构中。策划团队在精准深度预计的锻练数据上对先进的视频基础模子进行了微调,使其随机在大幅度相机变化下生成高质料内容。
基于 V2V 模子,场景膨胀流程通过相机轨迹谋略、场景整合和细化形势,渐渐从单张图像构建出营救天真视角不雅察(包括 360 ° 旋转和缩放等)的 3D 场景生成。
通过浩荡实验,策划团队考据了 FlexWorld 在高质料视频和天真视角 3D 场景合成方面的性能。FlexWorld 在生成大幅度相机变化放肆下的视频中展现了出色的视觉质料,同期在生成天真视角 3D 场景时保抓了较高的空间一致性。为促进学术疏通和技巧实施,团队已开源关系代码仓库与锻练权重,供策划社区进一步探索和应用。
性能展示
营救大幅转角的视频到视频生成
在多种不同起原的输入图像和相机轨迹下,FlexWorld 中微调的视频模子不错生成较高质料且 3D 一致的视频内容。受益于较好的一致性,这些视频不错径直用于 3D 重建,为后续生成天真视角的场景提供了较好的视觉内容。

天真视角的场景生成
笔据单张图片输入,FlexWorld 不错生成天真视角下的 3D 场景,这些生成的场景不错在 360 度旋转,前进和后退等视角进行探索。这些场景通过多段视频渐渐构筑生成,旨在膨胀出更大的可探索区域,而非仅体恤前线区域。

中枢设施
下图展示了 FlexWorld 的举座框架。

渐渐构建场景
FlexWorld 继承多段视频渐渐构建出一个具有更大可探索区域的场景。在场景内容不及的区域,FlexWorld 渲染出该区域的遗残场景视频,并通过一个经过微调的视频到视频模子,赢得补完的场景视频。在场景和会阶段,视频中的要道帧将会被填充置入场景的不及区域,其他帧则会当作场景示意(即 3D Gaussian splatting)的参考图像优化举座场景表征。
营救大转角的视频到视频模子
FlexWorld 中包含一个经过微调的视频模子,该模子以视频当作条款,不错从遗残的输入视频中捕捉到相机运行轨迹,输出稳妥输入轨迹的无缺视频,保抓率性的 3D 一致性。该视频模子选择 CogVideoX-5B-I2V 当作基座模子,并构造了一系列深度率性的遗残视频 - 率性视频锻练对。不同于依赖深度预计模子赢得的锻练对,FlexWorld 构建的锻练对来自于团结场景密集重建提供的深度,这种锻练对使模子恒久明确应该缔造的区域,从而随机在推理时营救更大转角的相机融会。
基于视频内容的场景和会
FlexWorld 一方面通过高斯优化将多段视频内容和会进抓久化的 3D 表征中,另一方面通过密集立体模子和深度和会计策,将多段视频的要道帧径直当作启动三维高斯加入表征当作启动化,以充分诓骗深度预计模子提供的先验和视频里面的一致性。
回来
本文先容了 FlexWorld,这是一个从单张图像生成天真视角 3D 场景的框架。它结合了一个微调的视频到视频扩散模子,用于高质料的新视角合成,以及一个渐进的天真视角 3D 场景生成流程。通过诓骗先进的预锻练视频基础模子和精准的锻练数据,FlexWorld 随机处理大幅度的相机姿态变化,从而终了一致的、营救 360 ° 旋转和前进后退不雅察的 3D 场景生成。浩荡实验标明,与现存设施比拟,FlexWorld 在视角天真性和视觉质料性能方面发扬优异。咱们敬佩 FlexWorld 具有弘大的出路,并在编造践诺内容创作和 3D 旅游范围具有病笃后劲。
本文由中国东说念主民大学高瓴东说念主工智能学院李崇轩、文继荣陶冶团队、北京师范大学东说念主工智能学院王一凯副陶冶和字节卓绝共同完成。共团结作陈路晰和周子晗区分是中国东说念主民大学高瓴东说念主工智能学院的博士生与硕士生,导师为李崇轩副陶冶。王一凯副陶冶、李崇轩副陶冶为共同通信作家。
论文诱骗:https://arxiv.org/abs/2503.13265
状貌地址:https://ml-gsai.github.io/FlexWorld/
代码仓库:https://github.com/ML-GSAI/FlexWorld
一键三连「点赞」「转发」「留神心」
接待在褒贬区留住你的念念法!
— 完 —
学术投稿请于责任日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿内容
附上论文 / 状貌主页诱骗,以及策划风景哦
咱们会(尽量)实时复兴你

� � 点亮星标 � �
科技前沿进展逐日见开云(中国)开云kaiyun·官方网站
