UniReal：统一图像生成与编辑的视频架构，学习真实世界动态变化

almosthuman2014 · 2024 年12 月 20 日 12:25

UniReal，一个新的图像生成和编辑框架，通过学习视频中的真实世界动态变化，统一处理多种图像任务，实现高保真生成。

原文标题：UniReal登场：用视频架构统一图像生成与编辑，还学到真实世界动态变化规律

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650948117&idx=5&sn=fd0c09e48726574126af2ec9fb980d98&

冷月清谈：

香港大学与Adobe联合推出了UniReal，一种新的图像编辑和生成范式。该方法将多种图像任务统一到视频生成框架中，通过将不同类别和数量的输入/输出图像建模为视频帧，从大规模真实视频数据中学习属性、姿态、光照等多种变化规律，实现高保真生成效果。

UniReal在图像定制化生成、指令编辑和物体插入等任务中表现出色。在定制化生成方面，它能保留目标细节，生成具有姿态和场景变化的图像，并模拟物体在不同环境下的状态。还能组合多个目标，生成协调逼真的图像。UniReal的指令编辑功能支持用户通过文本对图像进行灵活编辑，例如添加或删除物体、修改属性等。它展现了卓越的场景理解能力，能够真实地模拟物体的阴影、反射以及前后遮挡关系。在物体插入方面，UniReal能够将目标自然地融入背景图像，呈现出与背景一致的和谐角度、倒影效果及环境匹配度。

UniReal还支持文本生成图像、可控图像生成、参考式图像补全、目标分割、深度估计等多种任务，并能够同时生成多张图像，以及各类任务的相互组合。

UniReal的核心思想是将不同图像任务统一到视频生成架构中，并从原始视频数据中学习真实世界的变化规律。它采用类似Sora的视频生成架构，将图像转换为视觉token，并结合T5文本编码器处理输入指令，通过full attention机制建模视觉和文本之间的关系。为了支持多样化的任务和数据，UniReal采用层级化提示设计，包括Context Prompt和Image Prompt，分别用于补充描述任务和数据集特性，以及对输入图像进行层次化划分。UniReal的数据集构建基于原始视频数据，包括编辑数据生成、多目标定制化生成以及可控生成与图像理解标注。

怜星夜思：

1、UniReal直接从视频数据中学习，相比于传统的图像数据集，这种方法的优势和劣势分别是什么？
2、UniReal的层级化提示设计(Hierarchical Prompt)看起来很有意思，这种设计具体是如何帮助模型理解不同任务和数据的？
3、UniReal未来的发展方向是什么？除了文中提到的效率提升，还有什么其他值得关注的研究方向？

原文内容

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]

论文一作陈汐，现为香港大学三年级博士生，在此之前本科硕士毕业于浙江大学，同时获得法国马赛中央理工双硕士学位。主要研究方向为图像视频生成与理解，在领域内顶级期刊会议上发表论文十余篇，并且 GitHub 开源项目获得超过 5K star.

本文中，香港大学与 Adobe 联合提出名为 UniReal 的全新图像编辑与生成范式。该方法将多种图像任务统一到视频生成框架中，通过将不同类别和数量的输入/输出图像建模为视频帧，从大规模真实视频数据中学习属性、姿态、光照等多种变化规律，从而实现高保真的生成效果。

论文标题：UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics
项目主页：https://xavierchen34.github.io/UniReal-Page/
论文链接：https://arxiv.org/abs/2412.07774

效果展示

我们重点展示了图像生成与编辑中最具挑战性的三个任务的效果：图像定制化生成、指令编辑和物体插入。

此外，UniReal 还支持多种图像生成、编辑及感知任务，例如文本生成图像、可控图像生成、图像修复、深度估计和目标分割等。

在单目标定制化生成任务中，UniReal 能够在准确保留目标细节（如 logo）的同时，生成具有较大姿态和场景变化的图像，并自然地模拟物体在不同环境下的状态，从而实现高质量的生成效果。

与此同时，UniReal 展现了强大的多目标组合能力，能够精确建模不同物体之间的交互关系，生成高度协调且逼真的图像效果。

值得注意的是，我们并未专门收集人像数据进行训练，UniReal 仍能够生成自然且真实的全身像定制化效果，展现了其出色的泛化能力。

在指令编辑方面，UniReal 支持用户通过自由输入文本对图像进行灵活编辑，例如添加或删除物体、修改属性等。实验结果表明，UniReal 展现出了卓越的场景理解能力，能够真实地模拟物体的阴影、反射以及前后遮挡关系，生成高度逼真的编辑效果。

UniReal 支持从图像中提取特定目标作为前景，插入到背景图像中，天然适用于虚拟试衣、Logo 迁移、物体传送等任务。实验表明，UniReal 插入的目标能够非常自然地融入背景图像，呈现出与背景一致的和谐角度、倒影效果及环境匹配度，显著提升了任务的生成质量。

除了上述任务外，UniReal 还支持文本生成图像、可控图像生成、参考式图像补全、目标分割、深度估计等多种任务，并能够同时生成多张图像。此外，UniReal 支持各类任务的相互组合，从而展现出许多未经过专门训练的强大能力，进一步证明其通用性和扩展性。

方法介绍

UniReal 的目标是为图像生成与编辑任务构建一个统一框架。我们观察到，不同任务通常存在多样化的输入输出图像种类与数量，以及各自独特的具体要求。然而，这些任务之间共享一个核心需求：在保持输入输出图像一致性的同时，根据控制信号建模图像的变化。

这一需求与视频生成任务有天然的契合性。视频生成需要同时满足帧间内容的一致性与运动变化，并能够支持不同的帧数输出。受到近期类似 Sora 的视频生成模型所取得优异效果的启发，我们提出将不同的图像生成与编辑任务统一到视频生成架构中。

此外，考虑到视频中自然包含真实世界中多样化的动态变化，我们直接从原始视频出发，构建大规模训练数据，使模型能够学习和模拟真实世界的变化规律，从而实现高保真的生成与编辑效果。

模型结构：我们借鉴了与 Sora 类似的视频生成架构，将不同的输入输出图像统一视作视频帧处理。具体来说，图像通过 VAE 编码后被转换为视觉 token，接着输入 Transformer 进行处理。与此同时，我们引入了 T5 text encoder 对输入指令进行编码，将生成的文本 token 与视觉 token 一同输入 Transformer。通过使用 full attention 机制，模型能够充分建模视觉和文本之间的关系，实现跨模态信息的高效融合和综合理解。这种设计确保了模型在处理多样化任务时的灵活性和生成效果的一致性。

层级化提示：为了解决不同任务和数据之间的冲突问题，同时支持多样化的任务与数据，我们提出了一种 Hierarchical Prompt（层级化提示）设计。在传统提示词（Prompt）的基础上，引入了 Context Prompt 和 Image Prompt 两个新组件。

Context Prompt：用于补充描述不同任务和数据集的特性，包括任务目标、数据分特点等背景信息，从而为模型提供更丰富的上下文理解。
Image Prompt：对输入图像进行层次化划分，将其分为三类：

Asset（前景）：需要重点操作或变更的目标区域；
Canvas（画布）：作为生成或编辑的背景场景；
Control（控制）：提供约束或引导的输入信号，如参考图像或控制参数。

为每种类别的输入图像单独训练不同的 embedding，从而帮助模型在联合训练中区分输入图像的作用和语义，避免不同任务和数据引发的冲突与歧义。

通过这种层级化提示设计，模型能够更高效地整合多样化的任务和数据，显著提升联合训练的效果，进一步增强其生成和编辑能力。

数据构造：我们基于原始视频数据构建了大规模训练数据集，以支持多样化的任务需求。具体步骤如下：

1. 编辑数据生成

从视频中随机抽取前后两帧，分别作为编辑前和编辑后的图像结果，并借助视觉语言模型（VLM）生成对应的编辑指令，以模拟多样化的图像编辑任务。

2. 多目标定制化生成

我们结合 VLM 与 SAM2，在视频首帧中分割出不同的目标区域，并利用这些目标区域重建后续帧，构造多目标定制化生成的数据。这种方式能够模拟目标在复杂场景中的动态变化，并为多目标生成任务提供高质量的数据支持。

3. 可控生成与图像理解标注

利用一系列图像理解模型（如深度估计模型）对视频和图像进行自动打标。这些标签不仅为可控生成任务（如深度控制生成）提供了丰富的条件信息，还为图像理解任务（如深度估计、目标分割）提供了标准参考。

通过这种基于原始视频的多层次数据构造策略，我们的模型能够学习真实世界中的动态变化规律，同时支持多种复杂的图像生成与理解任务，显著提升了数据集的多样性和模型的泛化能力。

效果对比

在指令编辑任务中，UniReal 能够更好地保持背景像素的一致性，同时完成更具挑战性的编辑任务。例如，它可以根据用户指令生成 “蚂蚁抬起轿车” 的画面，并在轿车被抬起后动态调整冰面上的反射，使其与场景的物理变化相一致。这种能力充分展现了 UniReal 在场景理解和细节生成上的强大性能。

在定制化生成任务中，无论是细节的精确保留还是对指令的准确执行，UniReal 都展现出了显著的优势。其生成结果不仅能够忠实还原目标细节，还能灵活响应多样化的指令需求，体现出卓越的生成能力和任务适应性。

在物体插入任务中，我们与此前的代表性方法 AnyDoor 进行了对比，UniReal 展现出了更强的环境理解能力。例如，它能够正确模拟狗在水中的姿态，自动调整易拉罐在桌子上的视角，以及精确建模衣服在模特身上的状态，同时保留模特的头发细节。这种对场景和物体关系的高度理解，使 UniReal 在生成真实感和一致性上远超现有方法。

未来展望

UniReal 在多个任务中展现了强大的潜力。然而，随着输入和输出图像数量的进一步扩大，训练与推理效率问题成为需要解决的关键挑战。为此，我们计划探索设计更高效的注意力结构，以降低计算成本并提高处理速度。同时，我们还将这一方案进一步扩展到视频生成与编辑任务中，利用高效的结构应对更复杂的数据规模和动态场景需求，推动模型性能与实用性的全面提升。

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

Valor47z · 2024 年12 月 21 日 07:59

从更长远的角度来看，可以研究如何让UniReal具备一定的“创造力”，例如根据用户的简单描述自动生成一些具有艺术性或创意性的图像，而不是仅仅局限于对现有图像进行编辑和修改。我觉得，这才是AI图像生成最终的梦想。

Nomad63k · 2024 年12 月 21 日 09:08

关于“UniReal未来的发展方向是什么？除了文中提到的效率提升，还有什么其他值得关注的研究方向？”这个问题，我觉得可以从模型的可控性和泛化性入手。虽然UniReal已经展现了强大的生成和编辑能力，但在某些特定场景下，用户可能需要更精细的控制，例如对物体的位置、大小、颜色等进行精确调整。此外，UniReal的泛化能力还有待进一步提升，例如对不同艺术风格、不同文化背景的图像进行处理。

LuckyRabbit007 · 2024 年12 月 22 日 06:26

层级化提示设计相当于给模型提供了更详细的指令，让它能够更好地理解任务的上下文和数据的语义。Context Prompt 补充了任务目标、数据特点等背景信息，而 Image Prompt 则将输入图像划分成不同的角色，例如前景、背景、控制信号等。这样一来，模型就能更清晰地知道要对哪些部分进行操作，以及如何根据不同的控制信号进行调整。

FrostyPenguin271 · 2024 年12 月 22 日 18:19

劣势的话，我觉得可能是数据处理的复杂性和计算成本。视频数据的信息量比图像数据大得多，处理起来肯定更复杂，对计算资源的要求也更高。另外，视频数据中可能存在噪声、冗余信息等问题，需要进行更精细的预处理和清洗。

Zenith52p · 2024 年12 月 25 日 03:46

举个例子，如果任务是“把一只狗添加到海滩图片中”，Context Prompt 可能会提供一些关于狗和海滩的信息，例如狗的品种、大小、姿态，以及海滩的光照、天气等。而 Image Prompt 则会将狗的图片标记为“前景”，海滩图片标记为“背景”。这样一来，模型就能准确地将狗添加到海滩上，并根据海滩的光照和天气调整狗的阴影和颜色，使生成的图像更自然逼真。

RadiantButterfly764 · 2024 年12 月 26 日 04:33

引用一下问题“UniReal的层级化提示设计(Hierarchical Prompt)看起来很有意思，这种设计具体是如何帮助模型理解不同任务和数据的？”，我觉得可以理解为给模型戴上了“眼镜”，不同的“眼镜”对应不同的任务和数据类型，让模型能够更专注于特定任务，避免了不同任务和数据之间的干扰和冲突。

Glyph270t · 2024 年12 月 26 日 11:48

关于UniReal从视频数据学习的优势，我觉得主要体现在对动态变化的捕捉上。视频天然包含时间维度信息，这使得UniReal能够学习物体运动、光照变化等动态规律，从而生成更真实、更具连贯性的图像。而传统的图像数据集在这方面就有所欠缺，生成的图像可能看起来比较静态、缺乏活力。

Arcane69f · 2024 年12 月 26 日 19:40

我觉得可以探索一下将UniReal应用于3D场景生成和编辑。目前UniReal主要处理的是2D图像，如果能够扩展到3D场景，将会带来更广阔的应用前景，例如虚拟现实、游戏开发等。