论文的第一作者是来自西湖大学的研究人员雷明坤,指导老师为西湖大学通用人工智能(AGI)实验室的负责人张驰助理教授。实验室的研究方向聚焦于生成式人工智能和多模态机器学习。
文本驱动的风格迁移是图像生成中的一个重要任务,旨在将参考图像的风格与符合文本提示的内容融合在一起,生成最终的风格化图片。近年来,随着 Stable Diffusion 等文本到图像生成模型的发展,这些技术使得在保留内容准确性的同时,实现出色的风格转换成为可能。这项技术在数字绘画、广告和游戏设计等领域具有重要的应用价值。
然而,以往的风格迁移算法会让结果的风格化图像过拟合到参考的风格图像上;从而丢失文本控制能力(例如指定颜色)。
为了解决这一难题,西湖大学、复旦大学、南洋理工大学、香港科技大学(广州)等机构的研究团队联合提出了无需额外训练的改进方法,能够与众多已有方法进行结合。简单来说,研究团队优化了图像和文本共同引导生成风格化图像的时候,两种条件如何融合的问题。同时也探讨了关于风格化图像稳定生成和风格歧义性的问题。
-
论文标题:StyleStudio: Text-Driven Style Transfer with Selective Control of Style Elements
-
论文链接:https://arxiv.org/abs/2412.08503
-
项目地址:https://stylestudio-official.github.io/
-
Github 地址:https://github.com/Westlake-AGI-Lab/StyleStudio
问题背景
风格定义的模糊性
现在的风格迁移技术由于定义 “风格” 时固有的模糊性,仍然未能达到预期的效果。现在的方法主要在解决的问题是风格图像中的内容元素泄漏进风格化图像中,导致风格化图像完全不遵循文本条件,即内容泄漏问题。然而,一个风格图像中包含了多种元素,如色彩、纹理、光照和笔触;所有这些元素都构成了图像中的整体美学。
现有的方法通常会复制所有的这些元素,这可能会无意中导致过拟合,即生成的输出过于模仿参考风格图像的特点,这种对细节的过度复制不仅降低了生成图像的美学灵活性,也限制了它适应不同风格或基于内容需求的能力。因此,理想的风格迁移方法应该允许更选择性的风格调整,给予用户强调或省略特定风格组件的灵活性,以实现平衡且有意图的转换。
另一个由过拟合引发的挑战是在文本到图像生成过程中保持文本对齐准确性困难,即便是在相当简单的文本条件下,例如 “A <color> <object>” 这类简单文本。当前模型会优先考虑来自风格图像的主要颜色或图案条件,即使它们与文本提示中指定的条件相冲突矛盾。这种不可控制性削弱了模型解读和结合细致文本指导的能力,导致生成结果的精准性和定制化能力下降。
最后,风格迁移可能会引入一些不期望的图像特征,影响文本到图像生成模型的效果稳定性。例如,一种常见问题是布局不稳定(例如棋盘格效应),即重复的图案会不经意地出现在整个生成图像中,不论用户的文本条件如何。这突显了风格迁移过程中额外复杂性带来的挑战。
当前风格化文生图模型存在的问题可以总结归纳为以下三个方面:
StyleStudio 核心创新
针对风格定义模糊性导致的三个问题,研究团队提出了针对每个问题的解决方案。具体的解决方法如下:
贡献一:跨模态自适应实例正则化技术 (cross-modal AdaIN)
在文本驱动的风格迁移中,传统的基于适配器的方法(Adapter-Based)方法通过加权求和直接组合引导图像生成的文本和图像条件,这样的做法可能导致两种条件之间的信息冲突,影响最终的生成效果。
研究团队提出了跨模态自适应实例正则化技术 Cross-Modal AdaIN。论文回顾了经典风格迁移算法 AdaIN 技术,然后提出了多模态版本 AdaIN 来解决文本驱动的风格迁移问题。具体来说,该算法首先分别处理文本和风格特征以生成独立网格特征图,再应用原本的 AdaIN 技术使文本特征通过风格特征归一化,最后将结果融合进 U-Net 特征中。此方法自适应地平衡了文本与风格条件的影响,最小化了输入间的潜在冲突;并避免了复杂超参数的设置,提高了模型对文本提示和风格参考的理解能力和生成质量。
与此同时,得益于传统的基于适配器的方法(Adapter-Based)采用加权求和组合文本和图像条件,这保证了两个特征图位于相同的嵌入空间(embedding space);研究团队发现可以直接将跨模态自适应实例正则化技术替换传统基于适配器的方法(Adapter-Based)中的加权求和策略,且不需要进行额外的训练。
跨模态自适应实例正则化技术示例图
贡献二:基于风格图像的无分类器生成引导 Style-CFG
在风格迁移中,当参考风格图像包含多种风格元素(如卡通风格与夜间美学的结合)时,会出现风格模糊的挑战。当前的方法难以有效地分离这些不同的风格元素,更无法选择性地强调核心特定风格元素。为了解决这个问题,需要一种灵活的方法,可以有选择地突出所需的风格特征,同时过滤掉无关或冲突的特征。
为此,研究团队了借鉴了扩散模型中文本引导图像生成常用的无分类器引导(CFG)的概念,提出了基于风格的无分类器引导(Style-Based Classifier-Free Guidance, SCFG)设计,旨在提供对风格迁移过程的可控调整。
研究团队提出利用布局控制生成模型(如 ControlNet)生成所需要的负向风格图;例如当正向风格图片的风格特点是卡通风格与雪景时,可以生成真实风格下的雪景图片;通过基于风格的无分类器引导使得最终风格化图片中仅包含卡通风格而不包含雪这一风格元素。
贡献三:引入教师模型稳定图像生成
在图像生成中,内容的布局对视觉美学至关重要。研究团队观察到,生成过程中会出现较为明显的短板是棋盘格现象。为了保持文本驱动风格迁移中的稳定布局,研究团队提出利用风格迁移方法中使用到的基模型(base model),即通常利用相对应的 Stable Diffusion 模型作为教师模型提供生成过程中的布局指导。
具体来说,研究团队利用教师模型在生成过程中每一个去噪时间步的注意力图替换风格化图像生成过程中的相对应的注意力图。这种方法确保了关键的空间关系特征在去噪过程中的稳定性,既保留了原始图像的结构连贯性,又实现了所需的风格转换,使结果更符合文本提示的要求。
在实验中研究团队有两点发现,一是相较于替换交叉注意力图,替换自注意力图不仅可以稳定图像布局,还可以保持跨风格图像生成内容的布局一致性。二是替换自注意力图只需要在去噪前期进行,当教师模型参与的去噪过程过长会导致风格特征的丢失。
实验亮点
StyleStudio 的文本对齐能力与稳定的图像生成
研究团队进行了定性的比较试验,实验结果表明所提出的方法能够精确捕捉并反映文本条件中指定的关键风格属性(如颜色),优先确保文本对齐;此外还保证了生成图像的布局稳定,保持结构完整性,没有出现内容泄漏的问题;同时没有损失风格特征,实现了与目标风格的高度相似性。
研究团队也进行了定量的比较试验与用户调研实验,结果表明在各个指标中超过了已有的风格迁移方法。
研究团队针对提出的基于风格的无分类器引导方法进行试验,通过与传统的无分类器指导方法对比证明了所提出方法的有效性。
更多风格图像和文本条件下的实验结果。所用的文本条件格式为 “A <color> bus”
研究团队为了展示所提方法的通用性和稳健性,进行了更多风格图像和文本条件下的实验。实验结果进一步验证了该方法的有效性,表明其在文本对齐和布局稳定生成方面表现出色。更多内容与实验分析,请参考原论文。
研究团队官方支持 Huggingface Demo,可以在线体验:
示例地址:https://huggingface.co/spaces/Westlake-AGI-Lab/StyleStudio
© THE END
转载请联系本公众号获得授权