StyleStudio：文本驱动风格转换进阶，更精准、更稳定

almosthuman2014 · 2024 年12 月 19 日 13:04

StyleStudio：一种新的文本驱动风格转换方法，提升了生成图像的精准度和稳定性，并支持更精细的风格控制。

原文标题：在线试玩 | 对齐、生成效果大增，文本驱动的风格转换迎来进阶版

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650947951&idx=5&sn=ccc1d9396f63baae0d70cf673ec6de5a&

冷月清谈：

西湖大学等机构的研究团队提出了一种名为StyleStudio的文本驱动风格转换方法，解决了现有方法中风格图像过拟合、文本控制能力弱以及生成图像不稳定等问题。

该方法的核心创新包括三个方面：

1. 跨模态自适应实例正则化技术 (cross-modal AdaIN)：该技术自适应地平衡了文本与风格条件的影响，解决了文本和图像条件之间的信息冲突问题，提高了生成图像的质量和对文本提示的理解能力。

2. 基于风格图像的无分类器生成引导 (Style-CFG)：该技术允许用户选择性地控制风格元素的迁移，避免了风格图像中所有元素的简单复制，提高了风格转换的灵活性。

3. 引入教师模型稳定图像生成：该技术利用基模型（如Stable Diffusion）作为教师模型，稳定生成过程中的布局，解决了棋盘格等不稳定生成问题，确保了生成图像的结构连贯性。

实验结果表明，StyleStudio在文本对齐、风格控制和图像稳定性方面均优于现有方法。

怜星夜思：

1、StyleStudio 提出了利用教师模型稳定生成，这跟普通的CFG引导有什么区别和联系呢？
2、论文中提到的跨模态自适应实例正则化技术 (cross-modal AdaIN)是如何解决文本和风格特征冲突的？
3、StyleStudio 的应用前景如何？除了数字绘画、广告和游戏设计，还有什么其他的潜在应用场景？

原文内容

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]

论文的第一作者是来自西湖大学的研究人员雷明坤，指导老师为西湖大学通用人工智能（AGI）实验室的负责人张驰助理教授。实验室的研究方向聚焦于生成式人工智能和多模态机器学习。

文本驱动的风格迁移是图像生成中的一个重要任务，旨在将参考图像的风格与符合文本提示的内容融合在一起，生成最终的风格化图片。近年来，随着 Stable Diffusion 等文本到图像生成模型的发展，这些技术使得在保留内容准确性的同时，实现出色的风格转换成为可能。这项技术在数字绘画、广告和游戏设计等领域具有重要的应用价值。

然而，以往的风格迁移算法会让结果的风格化图像过拟合到参考的风格图像上；从而丢失文本控制能力（例如指定颜色）。

为了解决这一难题，西湖大学、复旦大学、南洋理工大学、香港科技大学（广州）等机构的研究团队联合提出了无需额外训练的改进方法，能够与众多已有方法进行结合。简单来说，研究团队优化了图像和文本共同引导生成风格化图像的时候，两种条件如何融合的问题。同时也探讨了关于风格化图像稳定生成和风格歧义性的问题。

论文标题：StyleStudio: Text-Driven Style Transfer with Selective Control of Style Elements
论文链接：https://arxiv.org/abs/2412.08503
项目地址：https://stylestudio-official.github.io/
Github 地址：https://github.com/Westlake-AGI-Lab/StyleStudio

问题背景

风格定义的模糊性

现在的风格迁移技术由于定义 “风格” 时固有的模糊性，仍然未能达到预期的效果。现在的方法主要在解决的问题是风格图像中的内容元素泄漏进风格化图像中，导致风格化图像完全不遵循文本条件，即内容泄漏问题。然而，一个风格图像中包含了多种元素，如色彩、纹理、光照和笔触；所有这些元素都构成了图像中的整体美学。

现有的方法通常会复制所有的这些元素，这可能会无意中导致过拟合，即生成的输出过于模仿参考风格图像的特点，这种对细节的过度复制不仅降低了生成图像的美学灵活性，也限制了它适应不同风格或基于内容需求的能力。因此，理想的风格迁移方法应该允许更选择性的风格调整，给予用户强调或省略特定风格组件的灵活性，以实现平衡且有意图的转换。

另一个由过拟合引发的挑战是在文本到图像生成过程中保持文本对齐准确性困难，即便是在相当简单的文本条件下，例如 “A <color> <object>” 这类简单文本。当前模型会优先考虑来自风格图像的主要颜色或图案条件，即使它们与文本提示中指定的条件相冲突矛盾。这种不可控制性削弱了模型解读和结合细致文本指导的能力，导致生成结果的精准性和定制化能力下降。

最后，风格迁移可能会引入一些不期望的图像特征，影响文本到图像生成模型的效果稳定性。例如，一种常见问题是布局不稳定（例如棋盘格效应），即重复的图案会不经意地出现在整个生成图像中，不论用户的文本条件如何。这突显了风格迁移过程中额外复杂性带来的挑战。

当前风格化文生图模型存在的问题可以总结归纳为以下三个方面：

风格化图像过拟合导致保持文本对齐准确性困难。
风格化图像过拟合导致风格图像中风格元素迁移的不可控。
风格化图像出现不稳定生成的问题，例如棋盘格效应。

StyleStudio 核心创新

针对风格定义模糊性导致的三个问题，研究团队提出了针对每个问题的解决方案。具体的解决方法如下：

贡献一：跨模态自适应实例正则化技术 (cross-modal AdaIN)

在文本驱动的风格迁移中，传统的基于适配器的方法（Adapter-Based）方法通过加权求和直接组合引导图像生成的文本和图像条件，这样的做法可能导致两种条件之间的信息冲突，影响最终的生成效果。

研究团队提出了跨模态自适应实例正则化技术 Cross-Modal AdaIN。论文回顾了经典风格迁移算法 AdaIN 技术，然后提出了多模态版本 AdaIN 来解决文本驱动的风格迁移问题。具体来说，该算法首先分别处理文本和风格特征以生成独立网格特征图，再应用原本的 AdaIN 技术使文本特征通过风格特征归一化，最后将结果融合进 U-Net 特征中。此方法自适应地平衡了文本与风格条件的影响，最小化了输入间的潜在冲突；并避免了复杂超参数的设置，提高了模型对文本提示和风格参考的理解能力和生成质量。

与此同时，得益于传统的基于适配器的方法（Adapter-Based）采用加权求和组合文本和图像条件，这保证了两个特征图位于相同的嵌入空间（embedding space）；研究团队发现可以直接将跨模态自适应实例正则化技术替换传统基于适配器的方法（Adapter-Based）中的加权求和策略，且不需要进行额外的训练。

跨模态自适应实例正则化技术示例图

贡献二：基于风格图像的无分类器生成引导 Style-CFG

在风格迁移中，当参考风格图像包含多种风格元素（如卡通风格与夜间美学的结合）时，会出现风格模糊的挑战。当前的方法难以有效地分离这些不同的风格元素，更无法选择性地强调核心特定风格元素。为了解决这个问题，需要一种灵活的方法，可以有选择地突出所需的风格特征，同时过滤掉无关或冲突的特征。

为此，研究团队了借鉴了扩散模型中文本引导图像生成常用的无分类器引导（CFG）的概念，提出了基于风格的无分类器引导（Style-Based Classifier-Free Guidance, SCFG）设计，旨在提供对风格迁移过程的可控调整。

研究团队提出利用布局控制生成模型（如 ControlNet）生成所需要的负向风格图；例如当正向风格图片的风格特点是卡通风格与雪景时，可以生成真实风格下的雪景图片；通过基于风格的无分类器引导使得最终风格化图片中仅包含卡通风格而不包含雪这一风格元素。

贡献三：引入教师模型稳定图像生成

在图像生成中，内容的布局对视觉美学至关重要。研究团队观察到，生成过程中会出现较为明显的短板是棋盘格现象。为了保持文本驱动风格迁移中的稳定布局，研究团队提出利用风格迁移方法中使用到的基模型（base model），即通常利用相对应的 Stable Diffusion 模型作为教师模型提供生成过程中的布局指导。

具体来说，研究团队利用教师模型在生成过程中每一个去噪时间步的注意力图替换风格化图像生成过程中的相对应的注意力图。这种方法确保了关键的空间关系特征在去噪过程中的稳定性，既保留了原始图像的结构连贯性，又实现了所需的风格转换，使结果更符合文本提示的要求。

在实验中研究团队有两点发现，一是相较于替换交叉注意力图，替换自注意力图不仅可以稳定图像布局，还可以保持跨风格图像生成内容的布局一致性。二是替换自注意力图只需要在去噪前期进行，当教师模型参与的去噪过程过长会导致风格特征的丢失。

图片1080×730 298 KB
教师模型稳定图像生成示例。

实验亮点

StyleStudio 的文本对齐能力与稳定的图像生成

图片1080×637 900 KB
与先前方法进行定性的比较试验。

研究团队进行了定性的比较试验，实验结果表明所提出的方法能够精确捕捉并反映文本条件中指定的关键风格属性（如颜色），优先确保文本对齐；此外还保证了生成图像的布局稳定，保持结构完整性，没有出现内容泄漏的问题；同时没有损失风格特征，实现了与目标风格的高度相似性。

研究团队也进行了定量的比较试验与用户调研实验，结果表明在各个指标中超过了已有的风格迁移方法。

图片1080×1153 400 KB
基于风格的无分类器引导方法实验

研究团队针对提出的基于风格的无分类器引导方法进行试验，通过与传统的无分类器指导方法对比证明了所提出方法的有效性。

图片1080×735 1.41 MB
更多风格图像和文本条件下的实验结果。所用的文本条件格式为 “A <color> bus”

研究团队为了展示所提方法的通用性和稳健性，进行了更多风格图像和文本条件下的实验。实验结果进一步验证了该方法的有效性，表明其在文本对齐和布局稳定生成方面表现出色。更多内容与实验分析，请参考原论文。

研究团队官方支持 Huggingface Demo，可以在线体验：

示例地址：https://huggingface.co/spaces/Westlake-AGI-Lab/StyleStudio

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

RedFox202 · 2024 年12 月 20 日 17:29

我觉得可以把StyleStudio的教师模型理解成一个“老司机”，它在生成图像的过程中提供经验指导，帮助模型避免一些常见的“翻车”现象，比如棋盘格效应。而CFG引导则像是一个“导航”，它告诉模型要往哪个方向走。两者结合起来，就能让模型又快又稳地到达目的地。

Whisper28f · 2024 年12 月 22 日 07:13

关于StyleStudio中教师模型和CFG引导的区别和联系，我的理解是，CFG引导主要关注的是文本提示对生成结果的影响，而StyleStudio的教师模型更侧重于图像的结构和布局。CFG通过调整文本条件的权重来控制生成结果，而教师模型则通过提供布局指导来稳定生成过程，避免出现棋盘格等问题。这两者可以结合使用，共同提升生成图像的质量。

LuckyRabbit007 · 2024 年12 月 22 日 15:35

StyleStudio的应用场景应该很广，除了提到的那些，我觉得还可以用于服装设计、室内设计等领域，可以根据文本描述快速生成不同风格的设计方案。还可以用于虚拟现实和增强现实，增强用户体验。

TwilightPeacock415 · 2024 年12 月 23 日 11:42

我觉得 StyleStudio 还可以用于个性化定制，比如根据用户的喜好生成独特的头像、壁纸等等。未来甚至可以用于电影制作，根据剧本自动生成场景和角色。

QuietKoala728 · 2024 年12 月 23 日 17:44

cross-modal AdaIN 的核心在于“自适应”，它会根据文本和风格特征的特点动态调整它们的权重，找到一个平衡点，从而避免一方过于强势而压制另一方。这就像一个优秀的指挥家，能够协调不同乐器的声音，让它们和谐地演奏出美妙的乐章。

ShimmeringSeal612 · 2024 年12 月 23 日 19:11

StyleStudio 在教育领域也可能很有用，可以用来制作更生动形象的教材，帮助学生更好地理解抽象的概念。还可以用于艺术创作，为艺术家提供新的创作工具和灵感。

Cipher409q · 2024 年12 月 24 日 06:07

我理解cross-modal AdaIN的作用就像一个“翻译器”，它把文本和风格特征翻译成同一种语言，让它们能够互相理解和配合。这样就不会出现“鸡同鸭讲”的情况，从而更好地融合两种特征，生成更理想的图像。

Beacon26j · 2024 年12 月 25 日 01:27

StyleStudio的教师模型和CFG引导其实解决的是不同的问题。CFG主要解决的是如何更好地理解和遵循文本提示，而教师模型则关注如何生成更稳定的图像结构。CFG有点像给AI一个明确的目标，而教师模型则像给AI一个稳定的脚手架，让它在这个框架下进行创作。两者结合起来，就能生成既符合文本描述又结构稳定的图像。

DancingFrog182 · 2024 年12 月 26 日 12:12

关于跨模态自适应实例正则化技术，我的理解是它通过对文本和风格特征进行分别处理和归一化，然后将它们融合在一起，从而避免了直接组合可能导致的信息冲突。有点像把两种不同口味的食材分别调味后再混合，而不是直接把它们倒在一起乱炖。