快手开源 I2V-Adapter:即插即用,将静态图片瞬间变身动态视频

原文标题:快手开源 I2V-Adapter,即插即用、轻量级模块让静态图像秒变动态视频

原文作者:AI前线

冷月清谈:

**摘要**

快手开源了 I2V-Adapter,一个适用于基于 Stable Diffusion 的文生视频扩散模型的轻量级适配模块。该模块无需改变现有模型结构和参数,即可将静态图像转换为动态视频。

主要技术

  • 将输入图像作为首帧与噪声并行输入给网络,并在自注意力层中加入首帧作为查询,增强模型对图像内容的理解。
  • 提出帧间相似性先验,利用高斯噪声输入图像作为后续帧的先验,保证视频稳定性和运动强度之间的平衡。

优势

  • 性能优异:在美学评分、首帧一致性、运动幅度和运动误差上都取得最佳或领先水平。
  • 轻量级:仅需训练 1% 的参数量和 18% 的数据量,即可达到与 Stable Video Diffusion 相媲美的生成能力。
  • 兼容性强:可与 ControlNet 等模块无缝集成,实现高度可控的图像到视频生成。

应用场景

  • 图像到视频生成
  • 个性化定制化视频生成
  • 融合 ControlNet 等模块实现高度可控的视频生成



怜星夜思:


1、I2V-Adapter 的帧间相似性先验是如何工作的?
2、I2V-Adapter 如何处理输入图像中的对象运动?
3、I2V-Adapter 在哪些方面优于现有的 I2V 方法?

原文内容

作者 | 快手大模型团队

快手开源图像生成视频技术 I2V-Adapter。I2V-Adapter 是基于 Stable Diffusion 的文生视频扩散模型的轻量级适配模块。该模块能够在不需要改变现有文本到视频生成(T2V)模型原始结构和预训练参数的情况下,将静态图像转换成动态视频。  

研究背景

电影,从黑白默片的古朴典雅到特效大片的视觉盛宴,是人类艺术史上不可或缺的一环。然而,其诞生之初,竟源于一场关于马匹奔跑时四蹄离地状态的打赌。1872 年,斯坦福与科恩的这场打赌,让摄影师穆布里奇利用 24 架照相机捕捉了马匹奔跑的连续瞬间,进而通过连续放映这些照片,赋予了静态图像生命,开创了电影艺术的先河。

如今,在计算机视觉领域,静态图像到动态视频(I2V)任务同样面临着巨大的挑战。其核心在于如何从单一的静态图像中提炼出动态的时间维度信息,并确保所生成的视频在真实性和视觉连贯性上达到高度一致。为了实现这一目标,当前的 I2V 方法大多依赖于复杂的模型架构和庞大的训练数据集。例如 Stable Video Diffusion(SVD),通常采用的策略是扩展文本到视频生成(T2V)模型的输入层维度,通过在扩展的维度上输入参考图像来注入图像信息。然而,这种方法需要对模型架构进行修改,导致整个模型需要重新训练,带来了巨大的计算和时间成本。Stable Video Diffusion 模型需要训练 1.5 亿个参数,累计训练迭代次数高达 33 万次,并消耗了 1000 万的数据量。更为复杂的是,由于重训练涉及到了控制图像空间排布的空间模块和风格化组件,如 ControlNet 和 DreamBooth 等,不再适配该模型,限制了其应用范围和效率

研究方案
基础模型

相较于图像生成,视频生成的独特挑战在于建模视频帧间的时序连贯性。现有大多数方案都基于预训练的文本生成视频(T2I)扩散模型(例如 Stable Diffusion 1.5 和 SDXL)加入时序模块对视频中的时序信息进行建模。例如 AnimateDiff,一个为定制化 T2V 任务而设计的模型,它通过引入与 T2I 模型解耦的时序模块建模了时序信息并且保留了原始 T2I 模型的能力,能够结合定制化 T2I 模型生成流畅的视频。于是,研究者认为,预训练时序模块可以作为通用时序表征,并应用于其他视频生成场景,例如 I2V 生成,且无需任何微调。

I2V-Adapter 正式开源

为了突破这一技术瓶颈,快手 AI 团队在最新研究成果《I2V-Adapter: A General Image-to-Video Adapter for Video Diffusion Models》中,提出了一种适用于基于 Stable Diffusion 的文生视频扩散模型的轻量级适配模块(即 I2V-Adapter),该模块能够在不需要改变现有文本到视频生成(T2V)模型原始结构和预训练参数的情况下,将静态图像转换成动态视频。这一成果不仅展示了 I2V 技术的巨大潜力,也为该领域的研究提供了新的思路。目前该论文已被 SIGGRAPH 2024 接受,项目也已开源。

GitHub 地址:
https://github.com/KwaiVGI/I2V-Adapter
论文地址:
https://arxiv.org/abs/2312.16693

I2V 任务相对于 T2V 的一大主要难点在于保持输入图像的 ID 信息,现有方案为解决这一问题,往往需要改变模型的结构与参数,训练代价大且兼容性较差。

I2V-Adapter 提出将输入图像作为视频首帧与噪声并行输入给网络,在模型的空间模块(Spatial Block)中的自注意力层(Self Attention),所有帧都会额外查询一次首帧信息,即 key,value 特征都来自于不加噪的首帧,输出结果与原始模型的自注意力结构相加。此模块中的输出映射矩阵使用零初始化以实现 T2V 初始化,并且只训练输出映射矩阵与 query 映射矩阵以实现高效的训练效率。为了进一步加强模型对输入图像语义信息的理解,研究论文还在交叉注意力层(Cross Attention)中引入了一种 Content-Adapter(本文使用的是预训练的 IP-Adapter)注入图像的语义特征。

Frame Similarity Prior

为了进一步增强生成结果的稳定性,I2V-Adapter 提出了帧间相似性先验(Frame Similarity Prior),用于在生成视频的稳定性和运动强度之间取得平衡。其关键假设是,在相对较低的高斯噪声水平上,一段视频的不同帧之间足够接近,如下图所示:

因此,可以把加噪后的输入图像作为后续帧的先验输入。为了排除高频信息的误导,研究者还使用了高斯模糊算子(GaussianBlur)和随机掩码混合输入。具体运算由下式给出:

图片
实际效果

快手 AI 团队为了全面评估生成视频的质量,设定了四种定量指标,包括 DoverVQA(美学评分)、CLIPTemp(首帧一致性)、FlowScore(运动幅度)以及 WarppingError(运动误差)。这些指标从不同维度对生成的视频进行了全方位的评价。在最近的研究中,I2V-Adapter 模型在各项指标上均展现出了卓越的性能。如表 1 所示,I2V-Adapter 在美学评分上获得了最高分,显示出其生成的视频在视觉美学上具有出色的表现。同时,在首帧一致性方面,I2V-Adapter 同样表现出色,远超其他对比方案。值得一提的是,I2V-Adapter 生成的视频不仅运动幅度最大,而且运动误差相对较低。这意味着该模型在生成高度动态视频的同时,还能精准地保持时序运动的准确性。

图片

图片

Image Animation(左为输入,右为输出):

图片

w/ Personalized T2Is(左为输入,右为输出)


图片

w/ ControlNet(左为输入,右为输出)

业务应用

I2V-Adapter 展现了其卓越的多功能性,不仅适用于广泛的 I2V 任务场景,还能与定制化的 T2I 模型结合,实现独具特色的风格化 I2V 任务。更值得一提是,它还能与 ControlNet 兼容,为用户带来高度可控的 I2V 体验。

图片 

图片 

图片

快手与联发科技深化合作,
共同推进视频生成技术的革新

视频生成技术如今已不仅仅局限于 App 应用层面,它在端侧同样取得了令人瞩目的成就。近日,快手与全球领先的半导体公司联发科技达成技术合作,共同探索并推进视频生成技术的革新。通过此次合作,快手将其先进的 AI 模型 I2V Adapter 与联发科技的 Dimensity 平台强大的 AI 计算能力结合,实现将静态照片转化为生动影片。用户只需简单挑选照片,平台便能智能识别照片中的人物和场景,通过深度分析精准捕捉关键帧,并据此生成自然流畅、栩栩如生的视频效果。

此外,该平台还支持个性化定制,提供了丰富多样的动画风格、精选的背景音乐和个性化的文字添加功能,让用户能够自由发挥创意,打造出独一无二的影片作品。无论是记录生活点滴,还是展现个人风采,这一平台都能满足用户的多样化需求,让视频生成变得更加简单、有趣和个性化。

展望未来

I2V-Adapter 以其独特的即插即用特性,为图像到视频生成任务带来了革命性的轻量级扩散模型模块。它巧妙地保留了原始文生视频模型的结构与参数不变,仅通过引入额外设计的注意力机制,使得生成的视频帧能够与用户输入的图像视频首帧交互,从而产生时序连贯且与首帧一致的视频。令人瞩目的是,通过定量实验验证,I2V-Adapter 在仅训练 1% 的参数量和使用 18% 的数据量的情况下,便达到了与 SVD 相媲美的图像到视频生成能力。此外,其灵活的解耦设计赋予了该方案出色的兼容性,使得 DreamBooth、Lora 与 ControlNet 等模块能够无缝集成,为用户提供高度定制化和可控的图像到视频生成体验。

 内容推荐
新应用时代,融合AI技术的应用开发变得更加复杂。在6月14日至15日的ArchSummit全球架构师峰会上,来自字节、百度和腾讯云等知名企业的资深架构师分享了他们如何运用AI模型及技术管理手段,解决实际问题。「AI前线」精选了大会上聚焦AI模型及其应用开发的系列PPT,关注「AI前线」,回复关键词「应用开发」免费获取。
 活动推荐

InfoQ 将于 8 月 18 日至 19 日在上海举办 AICon 全球人工智能开发与应用大会,汇聚顶尖企业专家,深入端侧 AI、大模型训练、安全实践、RAG 应用、多模态创新等前沿话题。现在大会已开始正式报名,6 月 30 日前可以享受 8 折优惠,单张门票节省 960 元(原价 4800 元),详情可联系票务经理 13269078023 咨询。


今日荐文




图片
你也「在看」吗?👇

它就像在绘画时使用参考图像,但在这个例子中,参考图像就是输入静态图像。通过将图像用作优先信息,帧似先验引导模型产生与其一致的连续帧,确保时间连贯性。

它利用图像中对象关键点的光流估计来跟踪运动,然后将这些运动信息注入到视频生成模型中。

帧间相似性先验假设视频的不同帧在一定噪声水平下足够接近。因此,它将加噪的输入图像作为后续帧的先验输入,利用高斯模糊算子和随机掩码混合输入,以排除高频信息的误导。

它是一个即插即用的模块,无需修改或重新训练现有的模型,使其易于集成和部署。

它就像一个视频编辑器,它可以检测到图像中的动作,并让生成的视频中的动作与图像中一致,从而使输出视频更加真实自然。

I2V-Adapter 在生成过程中通过自注意力层查询输入图像的关键帧信息,以准确理解输入图像中的对象位置和运动。

帧间相似性先验类似于光流估计,它利用局部亮度一致性的假设,通过加高斯噪声到输入图像来估计后续帧的运动。

它支持与 ControlNet 等模块集成,允许对生成的视频进行精细化控制,例如指定特定对象在视频中的运动。

它的训练效率高,仅需训练 1% 的模型参数和 18% 的数据量,即可达到与最先进方法相当的性能。