额外inference时间能提升LLM能力吗?Google DeepMind给出了答案

原文标题:用Test Time换Training Time能让LLM更强吗?

原文作者:机器之心

冷月清谈:

**LLM 性能提升新探索:Test Time 换 Training Time**

传统上,LLM 性能提升主要依赖于模型参数 Scaling。然而,研究发现 Scaling 收益递减。新的探索方向出现了,即在推理时投入额外计算资源,以提升 LLM 推理能力,用 Inference-Time-Compute 置换 Training-Time-Compute。

测试时计算 Scaling 的两种途径

  1. 修改输入提示,迭代模型提议分布,如通过强化学习微调。
  2. 优化验证器,如 Best-of-N 采样搭配过程奖励模型 (PRM) 进行树搜索。

测试时计算 Scaling 的性价比

  • 大多数问题上,测试时计算 Scaling 性价比更高。
  • 但对于最困难的问题,预训练计算 Scaling 仍更有效。

计算最优 Scaling 策略

该研究提出了一个计算最优 Scaling 策略,根据具体问题选择测试时计算预算,以最大化性能收益。




怜星夜思:


1、强化学习在LLM训练中的作用是什么?
2、测试时计算是否能完全取代预训练计算?
3、如何为给定问题选择最优的测试时计算预算?




原文内容



机器之心PRO · 会员通讯 Week 36

---- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ----

1. 用 Test Time 换 Training Time 能让 LLM 更强吗?

Self-Play 会是训 LLM 的新热点吗?把预算投入 Inference 会比扩大 LLM 参数更有效吗?PRM 对 Test-Time Compute 性价比影响多大?额外的 Inference Time 能帮 LLM 提升多少能力?Test-Time Compute 性价比还能再提高吗?...

2. 最专业的法律 AI 应用准确率最高也只能到 65%?哪些场景下的法律 AI 是靠谱的?

为什么法律类 AI 应更有前景?法律 AI 应用的市场情况如何?在实际应用中,法律 AI 主要聚焦于哪些工作场景?哪些场景下的法律 AI 是靠谱的?背后的技术原理是什么?...

3. Josh Wolfe 的投资洞察:如何看待 AI 公司的高估值情况?

风投市场可能出现 5000 亿到 6000 亿美元的损失?风投市场收缩到什么程度了?为什么 Josh Wolfe 认为,从投资的角度来看,人形机器人和生物学会是下个风口?...


...本期完整版通讯含 3 项专题解读 + 29 项本周 AI & Robotics 赛道要事速递,其中技术方面 8 项,国内方面 7 项,国外方面 14 项。

本期通讯总计 25347 字,可免费试读至 10% 
 消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元) 


要事解读①  用 Test Time 换 Training Time 能让 LLM 更强吗?

引言:LLM 在近几年的突破离不开 Scaling Law 的影响。然而,近期有许多声音指出 Scaling up 大模型的边际效应正在递减,进而引发了研究者在不同路线的探索。其中,一些基于强化学习改善 LLM 性能的尝试带来了一种新的思路,相比增加模型参数,将 FLOPs 预算投入 Inference-Time-Compute 似乎也能让 LLM 变得更强。
Inference Time Compute 如何帮助提升 LLM 推理能力?
1、Gary Marcus 在 6 月的一句「Is scaling all you need?」就 Scaling Law 收益递减的话题引发了大量讨论,也引出了许多对于开发下一代 AI 需要「替代方案」的声音。
① Marcus 认为仅依靠 Scaling 已经无法带来显著的性能提升,但也有声音反驳称模型仍在不断进步,性能和速度都有所提升。
② 有声音认为模型结构、算力、数据等方面均存在局限,LLM 领域已经进入回报递减的时期,未来的发展需要新的方法和思路。
2、在 The Information7 月透露 OpenAI「草莓」绝密计划后,爆料提及的 STaR(Self-Taught Reasoner)方法,以及类似通过强化学习和自我对弈(self-play),让模型迭代创建自己训练数据来提升智能水平的后训练(post-training)方式引起了许多讨论。
3、在让 LLM 进行 self-play 的方式中,同样具有代表性的成果是谷歌 DeepMind 团队于 2024 年 7 月用 AlphaGeometry 2 和 Alphaproof 去的 IMO 银牌,以及基于该思路衍生的多篇论文[10]。然而,其他类似采用 self-play 方式的工作为模型推理能力的影响却较为参差。
① Anthropic 在 2022 年提出的「Constitutional AI」方法结合了监督学习和强化学习让 LLM 进行自我改进,通过生成一对响应,并将其格式化为多项选择题,并使用偏好模型对响应进行评估,然后使用这些偏好标签进行 RL 训练,通过 RLAIF 的方式避免了使用人类偏好来识别有害输出。[11]
② MIT 和谷歌大脑的研究者在 2023 年提出的多智能体辩论方法配合「society of minds」概念能够改进语言模型在事实性和推理能力的表现。[12]
③ 谷歌和 UIUC 的研究者在 2023 年的工作确指出 LLMs 在没有外部反馈的情况下无法做到有效的自我纠正,即使是多智能体辩论方法也没有显著优势。[13]
4、LLM 在后训练中自我对弈的效果有好有坏,Scaling Law 的收益疑似递减的情况下,谷歌 DeepMind 和 UC 伯克利的研究者在近期的工作中系统探索了一个问题,即「如果允许 LLM 使用固定但客观的推理时间计算量,它能在具有挑战性的提示上提高多少性能?」[14]
① 该工作基于现有的 RL self-play + MCTS 的方法开发了类似的算法,并通过投入额外计算资源改进 LLM 的响应分布和对验证器(verifier)进行搜索的方式分析 Scaling 模型 Test-Time Compute 对推理能力的影响。
将预算投入 Inference 环节能为 LLM 带来更强的推理能力吗?[14]
谷歌 DeepMind 和 UC 伯克利的研究者在 8 月初的论文《Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters》(简称「Scaling LLM Test-Time Compute」)中探究了一个问题,即如何通过增加测试时的计算量来提高大型语言模型(LLMs)的性能。对比发现,Scaling 测试时计算环节虽然在大多问题上具有更高的性价比,但对最难的问题仍是 Scaling 预训练计算更有效。
1、研究者将近期有关改进语言模型推理能力的工作归纳为三种路径,并围绕第 2 和第 3 条路线探讨用 inference time 置换 training time 的可操作性。
① 在大量聚焦数学的数据上持续进行预训练。
② 通过使用强化学习进行微调,针对特定推理任务进行目标优化,使模型能够迭代地批评和修订它们的答案。
③ 通过微调验证器,使 LLMs 能够从额外的测试时计算中受益。
2、该工作的核心思路基于一项假设展开。即,通过在测试时(test-time)投入额外的计算资源,LLM 在理论上应该能做到比训练时更好的表现,且这种测试时获得的能力应当还有潜力在智能体和推理任务中带来新的研究方向。
① 如果预训练模型的大小可以与推理期间的额外计算资源交换,那么规模较小的模型将有希望替代原本需要部署在数据中心的大规模 LLM。
② 如果使用额外的推理时间计算资源来自动化改进模型输出的质量,也可以作为算法优化中减少依赖人类监督的路径。
3、为探究 Scaling 测试时计算(test-time compute)具体能为 LLM 的推理能力带来多少改善,该工作测试了两种主要的测试时计算 Scaling 机制,并提出了一项自适应的“计算最优(Compute-Optimal)”策略来 Scaling 测试时计算,进而通过 parellel/sequece 采样对比测试比较额外计算资源在预训练和测试推理中的性价比。
4、测试发现,在现阶段,Scaling 测试时计算环节和 Scaling 预训练环节的额外资源并不能 1:1 置换。将额外计算资源投入测试时计算在大多问题上具有较高性价比,但对最难的问题仍是预训练计算取的的进展更有效。
① 在简单和中等难度的问题上,甚至在困难的问题上(取决于预训练和推理工作负载的特定条件),额外的测试时计算通常比预训练更能提升模型能力。
② 研究者表示这一发现表明了与其纯粹关注 Scaling 预训练,不如在某些设置中用少量资源预训练较小的模型,然后用测试时计算来改进模型输出。
③ 但在最具挑战性的问题上,研究者发现 Scaling 测试时计算的好处非常少,通过额外的预训练计算来取得进展更为有效。
Test-Time Compute 的 Scaling 性价比具体如何评估?[14]
1、「Scaling LLM Test-Time Compute」讨论了两种改进 LLM 输出的方法,一种是修改输入提示来迭代模型的提议分布,一种是在输出阶段对基础模型生成的多个候选进行搜索。
① 第一种方法(proposal distribution)直接优化模型以改善其对推理任务的响应分布,主要通过类似 STaR 或 ReSTEM 等强化学习启发的微调方法来实现。具体而言,研究者通过在策略数据上进行微调并使用 Best-of-N 引导的改进来实现这种微调。
② 第二种方法(Optimizing the verifier)通过优化验证器实现。这里最为典型的是 Best-of-N 采样,即采样 N 个完整的解决方案,然后根据验证器选择最好的一个。
③ 研究者指出,Best-of-N 采样可以通过训练一个基于过程的验证器或过程奖励模型(PRM)来进一步改善,利用 PRM 的每步预测在解决方案的空间中进行树搜索可能会更加高效。
2、围绕“如何为给定问题选择最优的测试时计算预算?”的问题,该工作定义了一个「测试时计算最 Scaling 放策略」,选择对应于给定测试时策略的超参数,以在测试时获得最大的性能收益。

大多数问题上,测试时计算 Scaling 性价比更高,但无法完全取代预训练计算。

最优的测试时计算预算取决于具体问题、模型和推理任务的难易程度。

强化学习不适合训练 LLM,因为 LLM 训练需要大量无标注数据,而强化学习需要大量的有标注数据来进行训练。

强化学习启发的微调方法,如STaR或ReSTEM,可以通过优化模型对推理任务的响应分布来提升LLM能力。

可以通过实验或基于模型的推理能力评估来确定最优的测试时计算预算。

在最困难的问题上,预训练计算 Scaling 仍更有效,测试时计算的收益很小。

对LLM进行自我对弈,并使用强化学习进行微调,可以针对特定推理任务进行目标优化,使其能够迭代地批评和修正答案。

该研究提出了一个「测试时计算最Scaling放策略」,根据具体问题选择测试时计算预算,以在测试时获得最大的性能收益。

随着 LLM 技术的发展,未来可能出现测试时计算完全取代预训练计算的情况。