视觉强化微调Visual-RFT开源:少量数据提升多模态大模型性能

Visual-RFT开源,通过强化微调提升多模态大模型性能,少量数据即可实现高效视觉理解与推理。

原文标题:视觉强化微调!DeepSeek R1技术成功迁移到多模态领域,全面开源

原文作者:机器之心

冷月清谈:

Visual-RFT项目将DeepSeek-R1的基于规则奖励的强化学习方法和OpenAI的强化微调(RFT)范式从纯文本大语言模型拓展到了视觉语言大模型。通过设计针对视觉任务(如细分类、目标检测)的规则奖励,Visual-RFT突破了DeepSeek-R1方法的局限性,为视觉语言模型训练开辟了新路径。相比传统的视觉指令微调,Visual-RFT只需少量样本即可实现更高效、泛化性更强的视觉理解与推理能力,在数据量有限的场景下优势显著。该项目已在多个视觉感知任务(包括Detection、Classification、Grounding等)中得到验证,并在open vocabulary、few-shot learning等设定下取得了显著的性能提升。Visual-RFT通过引入思考过程和强化学习策略,在推理定位和细粒度分类等任务中表现出色,相较于传统的指令微调方法取得了显著提升。项目已全面开源,包含训练、评测代码和数据。

怜星夜思:

1、Visual-RFT相比传统的SFT方法,除了性能提升之外,还有什么其他优势?例如在实际应用场景中,它能解决哪些SFT无法解决的问题?
2、文章中提到的“基于规则的奖励”在视觉任务中是如何设计的?能否举例说明在目标检测和图像分类任务中,如何定义这些规则?
3、Visual-RFT目前还有哪些局限性?未来的研究方向有哪些?

原文内容

图片

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]


今天给大家重磅推荐一个突破性的视觉强化微调开源项目 —— Visual-RFT (Visual Reinforcement Fine-Tuning)。


  • 论文地址:  https://arxiv.org/abs/2503.01785

  • 代码地址: https://github.com/Liuziyu77/Visual-RFT


视觉强化微调 Visual-RFT 将 DeepSeek-R1 背后的基于规则奖励的强化学习方法和 OpenAI 的强化微调(Reinforcement Fine-Tuning,RFT)范式成功从纯文本大语言模型拓展到了视觉语言大模型(LVLM)。通过针对视觉的细分类、目标检测等任务设计对应的规则奖励,Visual-RFT 打破了 DeepSeek-R1 方法局限于文本、数学推理、代码等少数领域的认知,为视觉语言模型的训练开辟了全新路径!


图 1 用一张包含许多宝可梦的图片展示了这一过程,当通过多模态强化微调 Visual-RFT 训练的模型被提问什么宝可梦可以释放技能十万伏特时,模型通过 < think > 推理过程准确找出皮卡丘对应的坐标框,展示出模型的泛化能力。


图 1. Visual-RFT 首次实现将强化微调能力迁移到多模态模型中,只需 10~1000 条数据就能通过思考过程和基于规则的监督提升多模态大模型的性能


从 R1 到 Visual-RFT:强化学习的多模态突破


OpenAI o1 主打的强化微调能力(Reinforcement Fine-Tuning)能只用少量样本就将 o1 迁移到新的任务上。最近 DeepSeek-R1 解释了 o1 模型背后的强推理能力来自基于可验证奖励(Verified Rewards)/ 规则奖励(Rule-based Verifier)的强化学习策略。不过,目前主流的认知在于这种基于规则奖励的方法只适用于数学推理、代码等少数便于验证的任务。我们在 Visual-RFT 中,将这一策略迁移到了视觉语言模型。通过对细分类、目标检测等任务建立对应的可验证规则奖励,我们解决了传统方法在视觉领域中的局限性,只需少量微调样本就实现了更高效、泛化性更强的视觉理解与推理能力。


传统的视觉指令微调(Visual Instruction Tuning/Supervised Fine-Tuning,SFT)需要海量数据对模型微调,在数据量有限(例如某些难以收集数据的特定学科场景)的情况下带来的提升有限。我们提出的视觉强化微调(Visual Reinforcement Fine-Tuning)具有少样本学习能力和更强的泛化性,在数据量有限的场景下相比指令微调具有很大的优势。


为验证 Visual-RFT(视觉强化微调)的泛化能力和普适性,力求对视觉领域的全面覆盖,我们在多个视觉感知任务上对 Visual-RFT 进行验证,包含 Detection,Classification,Grounding 等。其中,Visual-RFT 在 open vocabulary,few-shot learning 等设定下,仅仅通过非常少量的数据就取得了显著的性能提升,轻松实现能力的迁移,且结果明显优于 SFT 的微调方法。在 reasoning grounding (推理定位) 的测试中,Visual-RFT 展现出强大的视觉推理能力。评测结果如图二所示,详细实验信息欢迎参见论文。


图 2. Visual-RFT(视觉强化微调)在各种任务上显著超越 SFT:包括目标检测(OD),开放目标检测(OVD),少样本检测与分类(FSOD/IC), 推理定位(Reasoning Grounding)


图 3. 框架图:Visual-RFT(视觉强化微调)通过 IoU 和 cls 奖励和强化学习策略(例如 GRPO)更新模型参数


为了在视觉多模态领域验证可验证奖励的作用,我们提出了使用基于 IoU 的 verified reward 奖励应用于 detection 和 grounding 等任务,使用基于分类正确判断的 cls reward 用于 classification 任务(如图三所示)。


图 4. 部分推理定位结果展示,通过引入思考过程和强化学习策略 Visual-RFT(多模态强化微调)显著超越 SFT,更加准确地定位物体。


图 5. 部分推理细粒度分类结果展示,通过引入思考过程和强化学习策略,(多模态强化微调)Visual-RFT 显著超越 SFT,更加准确地定位物体。


部分模型输出结果展示如图 4 和图 5 所示,相比于传统的视觉指令微调(Visual Instruction/Supervised Fine-Tuning),Visual-RFT(视觉强化微调)通过强化学习方法,对问题进行深入的 think 分析取得更佳推理性能,相较于传统的指令微调(SFT)方法取得显著提升。如询问模型图中的运动员在水下依然保持清晰的视野需要带什么物体时,通过传统指令微调的方法模型直接将整个运动员框出。而 Visual-RFT 通过引入推理过程准确地指出防水眼镜及其所在的位置并准确框出。


Visual-RFT 实验结果


Visual-RFT(视觉强化微调)在各大图文感知任务中均展现出强大的性能。我们的实验主要基于视觉语言大模型基座 QWen2-VL 2B/7B 模型,和传统的监督微调(Supervised Fine-Tuning)方法进行对比。在开放目标检测,少样本检测,细粒度分类和推理定位任务上 Visual-RFT 相比 SFT 全面实现了性能提升。值得一提的是,我们的测试数据既包含 COCO、LVIS 等通用场景,又包含从互联网中收集的卡通人物等开放场景数据。只需要几十条数据,模型通过 Visual-RFT 可以学会检测某动漫中的史莱姆形象。实验结果广泛验证了 Visual-RFT 的卓越性能和鲁棒性。



图 5. 部分实验结果展示,Visual-RFT 显著超越 SFT,建立了新的模型微调范式


Visual-RFT 已经开源!欢迎加入!


我们坚信开源的力量,Visual-RFT 项目已全面开源(包含训练、评测代码,数据)。如果你对多模态模型、强化学习、视觉语言理解感兴趣,不妨一起来探索更多可能性吧!


项目地址:https://github.com/Liuziyu77/Visual-RFT



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


关于未来的研究方向,我觉得可以探索如何将Visual-RFT应用到更复杂的视觉任务中,例如:视频理解、3D场景重建等等。此外,还可以研究如何设计更有效的规则奖励函数,以及如何提高强化学习的效率。

我比较关心的是Visual-RFT的鲁棒性和安全性。强化学习模型容易受到对抗样本的攻击,这在视觉领域尤其危险。未来的研究应该关注如何提高模型的鲁棒性,以及如何避免模型做出不安全的决策。

关于Visual-RFT的优势,我觉得可以从模型的泛化能力来看。文章中提到Visual-RFT在open vocabulary和few-shot learning设定下表现很好,这意味着它能更好地适应新的、未见过的物体或场景,不像SFT那样容易过拟合到训练数据上。这在实际应用中很重要,毕竟现实世界是复杂多变的。

“基于规则的奖励”的设计其实是个很有意思的研究方向,它可以让强化学习更具解释性和可控性。我想到一个例子,比如在自动驾驶场景中,可以根据交通规则设计奖励函数,这样训练出来的模型就能更好地遵守交通规则,避免危险驾驶行为。

补充一下,我觉得在目标检测中,除了IoU,还可以考虑其他规则,例如:是否检测到所有目标物体、是否避免了误检、检测框的置信度等等。在图像分类中,也可以根据类别的难易程度设置不同的奖励,例如:将猫识别成狗的惩罚应该小于将猫识别成飞机的惩罚。

补充一点,Visual-RFT的“思考过程”也很有意思。虽然文章没有详细解释这个过程,但我猜测它类似于让模型在做决策前进行多步推理,而不是像SFT那样直接给出答案。这种“思考”的能力或许能帮助模型更好地处理复杂的视觉推理任务,例如理解图像中的因果关系、预测未来事件等等。