LLaVA-Video:用合成数据提升视频多模态大模型

LLaVA-Video: 突破视频多模态大模型瓶颈,合成数据显示大能量。数据集开源,助力模型性能提升。

原文标题:突破视频多模态大模型瓶颈!「合成数据」立大功,项目已开源

原文作者:机器之心

冷月清谈:

**摘要**
LLaVA-Video-178K 是一个专为视频指令跟随任务设计的大规模合成数据集,包含 178K 个视频和 1.3M 个指令跟随样本。该数据集具有广泛的动态视频集合、高帧率和多样化的任务的特点,质量和数量均优于现有数据集。基于该数据集,我们开发了 LLaVA-Video 模型,改进了视频表示并更有效地利用了 GPU 资源。实验结果表明,LLaVA-Video 在各种视频基准测试中都表现出色,证明了合成数据集的有效性。

**数据集特点**
* **广泛的动态视频集合:**精心选择了动态、情节复杂的视频,覆盖了各种场景和事件。
* **高帧率:**以 1 FPS 的频率对视频帧进行采样,确保详细时间信息的覆盖。
* **多样化的任务:**包括描述、开放式和多项选择问答等多种任务类型。

**模型改进**
* **LLaVA-Video_SlowFast:**平衡帧数和视觉 token 数量的视频表示方法。
* **在联合数据集上微调:**使用来自 LLaVA-Video-178K 数据集和公共数据集的视频和图像数据进行微调。

**实验结果**
LLaVA-Video 模型在各种视频基准测试中表现出色,展示了其在视频理解和指令跟随任务中的强大能力。

怜星夜思:

1、对于视频指令跟随任务来说,合成数据集的优势体现在哪些方面?
2、LLaVA-Video-178K 数据集中包含哪些问题类型?这些问题类型如何帮助训练视频理解模型?
3、LLaVA-Video 模型在哪些方面的表现优于现有方法?其优势如何影响实际应用?

原文内容

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]


本文作者来自字节跳动,南洋理工大学 S-Lab 和北京邮电大学。其中第一作者为南洋理工大学 S-Lab 的博士生 Yuanhan Zhang (https://zhangyuanhan-ai.github.io/),主要研究领域为将基础模型适配于开放世界。本文的指导老师为 Ziwei Liu 教授 ((https://liuziwei7.github.io/) 和 Chunyuan Li 博士 (https://chunyuan.li/), 其中 Chunyuan Li 领导了这个项目。本文其他作者包括北京邮电大学 Jinming Wu,南洋理工大学 S-Lab 的博士生 Bo Li, 字节跳动研究员 Wei Li, Zejun Ma.


视频多模态大模型(LMMs)的发展受限于从网络获取大量高质量视频数据。为解决这一问题,我们提出了一种替代方法,创建一个专为视频指令跟随任务设计的高质量合成数据集,名为 LLaVA-Video-178K。


该数据集包含详细的视频的描述、开放式问答(QA)、和多项选择题。通过在该数据集和现有的视觉指令微调数据上训练模型,我们推出了新的视频 LMM——LLaVA-Video。实验表明,LLaVA-Video 在多个视频基准上表现出色,展示了该数据集的有效性。


  • 论文标题:VIDEO INSTRUCTION TUNING WITH SYNTHETIC DATA
  • 论文链接:https://arxiv.org/pdf/2410.02713
  • 项目主页:https://llava-vl.github.io/blog/2024-09-30-llava-video/


先来看一组交互性演示,了解 LLaVA-Video 在真实世界中与人交互:


1.LLaVA-Video 教我下载 "TikTok":



2.LLaVA-Video 描述我的客厅,并指导我找健康饮料:


视频指令跟随数据合成


一个高质量的视频指令跟随数据集对于开发有效的视频语言模型至关重要。我们确定了构建此类数据集的关键因素:确保视频内容和语言注释的丰富性和多样性。我们对现有的视频基准进行了全面调查,涵盖了各种公共视频描述和问答数据集,然后确定了十个独特的视频来源,这些来源为超过 40 个视频语言基准提供了数据。从每个来源中,我们选择具有显著时间动态的视频。为了保持注释的多样性,我们建立了一条能够生成任何长度视频的详细描述的流水线。此外,我们定义了 16 种问题类型,指导 GPT-4o 生成问答对,以训练视频语言模型的感知和推理能力。


视频来源


我们注意到,尽管不同的视频语言数据集侧重于各种视频理解任务,但大多数都来源于十个主要视频来源,这些来源提供了广泛的来自不同网站、拍摄视角和题材的视频。下图展示了这十个我们选择的视频数据集与其他现有视频语言数据集之间的关系。进一步,我们从这些来源中选择了动态视频,详细的选择逻辑在论文中描述。


我们使用的 10 个视频来源与其他现有视频语言数据集的关系。


自动生成视频详细描述


对于选定的视频,我们使用 GPT-4o 系统地描述其内容。我们从每秒一帧的频率开始采样视频。然而,由于 GPT-4o 的输入大小限制,我们无法一次性使用视频中所有采样的帧。因此,我们按顺序描述视频,如下图所示。我们在三个不同级别上创建描述,详细如下,简单来说,第一个层级(leve-1)指的是针对 10s 区间的视频描述,第二个层级(level-2)指的是针对 30s 区间的视频描述,第三个层级(level-3)指的是针对整个视频的描述。


视频描述的生成流程:通过递归方法对三个不同的视频描述层级(leve-1,level-2,level-3)进行描述。`t` 是时间区间在其自身层级的索引,`T` 是最后一个时间区间的索引。(a) 我们根据 level-1 的 `t` 内收集的帧、level-1 的 `t-1` 的描述,以及最近的一次 level-2 描述(如果有的话),来生成 level-1 时间区间 `t` 的视频描述。(b) 我们使用 level-2 的 `t-1` 的描述,以及最近的三个 level-1 描述,生成 level-2 的时间区间 `t` 的描述, (c) 我们基于最近一次 level-2 的描述和最近的一次 level-1 的描述,生成 level-3 的 `T` 的描述。


自动生成视频问答


除了详细的视频描述,我们的数据集中还包含设计用于复杂交互的各种问答对。这种设置提高了视频理解模型处理现实问题的能力。我们参考公共视频问答基准,将这些问题组织为 16 种特定类别,如图 3 所示。给定详细的视频描述,我们使用 GPT-4o 为每种问题类型最多生成一个问答对。有关问题类型和生成过程的更多细节,请参阅论文。



数据创建中用于生成视频问答对的问题类型。对于每种类型,我们提供其名称和示例问题。


数据集统计


我们从收集到的数据源中精心挑选,以形成一个平衡且全面的集合,最终得到总共 178K 个视频和 1.3M 个指令跟随样本。这包括 178K 个视频描述、960K 个开放式问答和 196K 个多项选择问答。


不同数据集和问题类型(描述、开放式 Q&A、多项选择 Q&A)中的数据分布。


一个用于说明 LLaVA-Video-178K 中视频指令跟随数据的示例。


数据集比较


LLaVA-Video-178K 和其他视频语言数据集的比较。平均 FPS 代表用于提示 GPT-4o/GPT-4V 进行注释的每秒帧数。★:VIDAL, WebVid, ActivityNet。◼:Panda-70M, Pexels, Pixabay, Mixkit, BDD100K, Ego4d。✸:HD-VILA-100M, Kinetics-700M, Ego4D, VidOR, InternVid, YouCook2, ActivityNet, Sth-sthv2, VIDAL, Charades。


我们提供了和其他高质量指令跟随视频语言数据集的比较,LLaVA-Video-178K 展现了如下优势


1. 广泛的动态视频集合:在视频来源方面,虽然 LLaVA-Hound 包含最多的视频,但其 44% 的视频数据来自 [WebVid](https://ak.picdn.net/shutterstock/videos/21179416/preview/stock-footage-aerial-shot-winter-forest.mp4),其中大多数视频是静态的。ShareGPT4Video 的 30% 视频来自 [Pexels](https://www.pexels.com/video/a-bird-is-standing-on-the-beach-27916646/)、[Pixabay](https://pixabay.com/videos/plane-modelling-miniature-lockheed-134519/) 和 [Mixkit](https://mixkit.co/free-stock-video/a-young-woman-clad-in-snugly-black-sportswear-doing-lunges-52112/)。这些视频美学效果很好,但是同时存在视频本身较为静态的弊病。此外,其大部分视频来自 Panda-70M,这些是从较长视频中剪辑的短片,其情节较为简单。相比之下,我们精心选择了动态,情节复杂的视频,这对于开发强大的视频理解模型至关重要。


2. 高帧率:关于采样的帧的频率,LLaVA-Video-178K 考虑了 1 FPS,而其他数据集考虑的 FPS 较低。LLaVA-Hound 从任意长度的视频中均匀采样 10 帧。平均 FPS 为 0.008,这样会错过一些细节。ShareGPT4Video 使用 CLIP 基于帧的独特性选择关键帧。此方法可能也会错过视频中的细微变化,因为 CLIP 的特征无法很好地捕捉细粒度动态。我们的方法以 FPS=1 进行采样,不使用关键帧选择算法,确保详细的时间信息能够在注释中得到高覆盖率的表达。


3. 多样化的任务:所提出的数据集考虑了三种常见的任务类型,包括描述、自由形式和封闭形式问答,而现有的数据集仅考虑了其中的一部分。同时,我们数据集的样本质量和数量更高。


该数据集聚焦动态视频, 高帧率, 和多样化的任务, 让视频多模态大模型洞察每一瞬精彩。


视频表示


基于经典的 SlowFast 视频表示方法,我们开发了 LLaVA-Video_SlowFast,以在视频表示中,平衡帧数和视觉 token 的数量,同时考虑 LLM 的上下文窗口限制和 GPU 内存的限制。


具体来说,我们根据击中率 s 将帧分为两组,每隔 s 帧均匀选出形成 * 慢 * 帧组,剩下的帧被认为是 * 快 * 帧组。需要注意的是,当 s=1 时,只有一组帧,这种情况下 SlowFast 表示就简化为原始的简单表示。对于每组帧,我们使用 PyTorch 函数 avg_pool2d}() 应用不同的池化率。我们对慢帧使用 pXp 池化,对快帧使用 2pX2p 池化。


基准性能


LLaVA-Video 的表现。对于 VideoDC 和 VideoChatGPT 的,我们使用 5 分制度打分,其他评测集结果以准确率打分。所有结果均为 0-shot 准确率。* 表示该评测集的训练集已在我们的训练集中使用。


我们在视频和图像数据的联合数据集上微调了 LLaVA-OneVision (SI)。具体而言,我们添加了来自 LLaVA-Video-178K 数据集和四个公共数据集的视频数据:ActivityNet-QA、NExT-QA、PerceptionTest 和 LLaVA-Hound-255K,此外,我们还使用了来自 LLaVA-OneVision 模型的 110 万个图像语言对。如表格所示,LLaVA-Video 展现了出色的性能。


结论


本研究介绍了高质量的专为视频语言指令任务设计的 LLaVA-Video-178K 数据集。它的特点是在较长的未修剪视频中进行密集的帧采样,覆盖了包括字幕制作、开放式和多项选择问答等多种任务。通过将 LLaVA-Video-178K 数据集与现有的视觉指令数据结合起来,我们开发了一系列新的模型,LLaVA-Video。这些模型改进了视频表现,更有效地利用了 GPU 资源,使我们能够在训练过程中处理更多帧。实验结果证明了所提出的合成数据集的有效性,LLaVA-Video 模型在各种视频基准测试中都表现出色。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

简而言之,LLaVA-Video-178K 数据集中包含的问题类型针对视频理解模型的以下方面进行训练:
* **视觉特征提取:*动作识别、对象检测场景理解
**时序推理:*事件推理、人物理解
**常识推理:**事实性问题、常识性问题

**第三个优势是效率。**合成数据集可以快速生成,并且可以很容易地定制以满足特定任务或模型的要求。这可以加快模型开发和训练的过程。

**优势之一是可控性和可扩展性。**合成数据集可以根据需要生成大量的数据,并且可以控制数据的分布和多样性。这对于开发鲁棒且泛化的视频指令跟随模型至关重要。

**最后,合成数据集可以消除隐私和伦理问题。用于合成数据集的视频和注释可以是人造的或编辑过的,从而避免收集和使用真实世界数据的潜在问题,特别是在涉及到个人信息或敏感内容时。

我认为,数据集中的这些问题类型对于全面评估视频模型的理解能力至关重要。它们覆盖了视频理解的不同方面,从基本的对象识别到复杂的情感分析。

**第二个优势是成本效益。**合成数据集的生成成本远低于收集和注释真实世界数据。这使得研究人员能够在不牺牲质量的情况下探索更大、更全面的数据集。

LLaVA-Video-178K 数据集中包含 16 种不同类型的问题,涵盖了对视频中动作、对象、场景和人物的理解。这些问题类型包括:
* 动作识别
* 对象检测
* 场景理解
* 人物理解
* 事件推理
* 情感分析
* 事实性问题
* 常识性问题

这些问题类型通过以下方式帮助训练视频理解模型:
* 要求模型处理不同类型的视频信息,提高其对视频内容的整体理解。
* 促进模型学习不同视频元素之间的关系和交互。
* 迫使模型推理和生成关于视频中发生的事情。
* 帮助模型发展常识性和对世界知识的理解。

通过解决这些多样化的视频理解问题,LLaVA-Video-178K 数据集有助于训练强大的视频理解模型,可以在各种视频指令跟随任务中表现出色。

与现有方法相比,LLaVA-Video 模型在以下几个方面表现优越:
* **准确性:*在各种视频基准测试中,LLaVA-Video 模型始终达到或超过最先进水平。
**效率:*LLaVA-Video 模型在资源有限的环境中更高效,例如在移动设备上运行时。
**通用性:*LLaVA-Video 模型可以适应广泛的视频指令跟随任务,而无需进行重大修改。

这些优势如何影响实际应用:
**更高的准确性可以提高视频理解任务的可靠性和可用性。*例如,在视频监控和安全系统中,更准确的型号可以更可靠地检测和识别可疑活动。
**更高的效率允许在各种设备上部署视频理解模型,包括低功耗设备和边缘设备。*这对于需要在资源受限的情况下进行实时视频处理的应用非常有价值。
**更高的通用性可以简化视频理解模型的开发和部署,**因为无需针对特定任务或应用程序定制模型。这可以节省时间和精力,并使视频理解技术更广泛地可用。

我特别对 LLaVA-Video 模型在资源有限环境下的效率印象深刻。这使其非常适合用于移动设备和边缘设备上的视频理解任务。

LLaVA-Video 模型的通用性也令人印象深刻。它可以适应广泛的任务,而无需进行重大修改,这使其成为各种视频理解应用程序的宝贵工具。