Q*，昆仑万维挑战OpenAI：百倍提升7B模型推理能力，超越ChatGPT、Gemini Ultra、GPT-4

almosthuman2014 · 2024 年6 月 25 日 12:29

原文标题：昆仑万维携手南洋理工大学抢发Q*算法：百倍提升7B模型推理能力

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650923417&idx=5&sn=9df8243cf1d0ff93e26e28b88788d93e&

冷月清谈：

**Q*算法** 昆仑万维联合南洋理工大学开发Q*算法，显著提升大语言模型推理能力。

Q*原理
Q*通过全盘规划复杂推理任务，将历史收益和未来预期收益综合考虑，进行最佳优先搜索。

实验结果
在不同数据集上，Q*助力小模型超越ChatGPT、Gemini Ultra和GPT-4，推理能力提升显著。

应用前景
Q大幅降低计算资源需求，为人工智能广泛应用带来可能。昆仑万维将持续深入研究，不断提升国产开源模型推理能力。

怜星夜思：

1、Q算法的优势何在？
2、除了论文中提到的数据集，Q算法在哪些其他领域可能发挥作用？
3、你觉得Q算法是否会成为人工智能领域的一个重要突破？为什么？

原文内容

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

自 OpenAI 的 Q* 项目曝光后，引发业内众多讨论。据现有信息汇总，Q* 项目被视作 OpenAI 在探索人工通用智能（Artificial General Intelligence, AGI）道路上的一次重大尝试，有望在包括数学问题解决能力、自主学习和自我改进等多个层面对人工智能技术带来革新性突破。

英伟达科学家 Jim Fan、图灵奖得主 Yann LeCun 等参与讨论 OpenAI 的 Q* 实现方式

Meta 科学家田渊栋则认为 Q* 是 Q-learning 和 A* 的结合，且天然地适合推理任务，尤其在数学推理方面

不过迄今为止 OpenAI 没有公开关于 Q* 算法的具体细节，其效果究竟如何我们并不得而知。

昆仑万维自 Q* 项目曝光以来，一直密切关注 Q* 的动向，且在第一时间就成立研究小组尝试开发自己的 Q* 算法，希望打破 OpenAI 的封锁，提升现有开源模型的推理能力。

经过数月的尝试，昆仑万维携手新加坡南洋理工大学成功开发了一个名为 Q* 的算法，能够显著提升现有大模型的推理能力。在 GSM8K 数据集上，Q* 帮助 Llama-2-7b 提升至 80.8% 的准确率，超越了 ChatGPT；在 MATH 数据集上，Q* 帮助 DeepSeek-Math-7b 提升至 55.4% 的准确率，超越了 Gemini Ultra；在 MBPP 数据集上，Q* 帮助 CodeQwen1.5-7b-Chat 提升至 77.0% 的准确率，缩小了与 GPT-4 的编程水平差距。

论文：Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning
论文链接：https://arxiv.org/abs/2406.14283

Q* 能够帮助小模型达到参数量比其大数十倍、甚至上百倍模型的推理能力，这一算法不仅大幅提升了小模型的性能，还显著降低了计算资源的需求，为人工智能的广泛应用带来了全新可能，开创了高效智能的新纪元。

复杂推理任务全盘规划

在《Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning》论文中，研究人员首先将大语言模型的推理轨迹分解为若干个状态，对于每一个状态，参考 DeepCubeA 中的设计，通过将定义 Path Cost 的 g (s_t) 函数和定义 Accumulated Reward 的 Q*(s_t, a_t) 集成到同一个 f (s_t) 函数内，实现了对历史状态收益和未来期望收益的综合考虑。最后利用 A* 搜索算法对状态进行最佳优先搜索，实现了对复杂推理任务的全盘规划，从而提升开源模型在推理任务上的性能。

其中 g (s_t) 表示当前轨迹中的多个历史状态，既 {s1,...,s_t}，的聚合收益。

具体 g (s_t) 的函数形式可以通过人为定义，例如判断当前代码是否符合语法规则等，或者通过构建 Process Reward Model (PRM) 进行监督学习得到；g (s_t) 中的聚合方式可以为求和，最大值，最小值等。

为了获得状态 - 动作对 (s_t, a_t) 的最优 Q 值以实现规划，研究人员在当前 LLM 策略生成的数据上通过监督学习的方式训练了一个代理 Q 值模型。训练过程中的真实标签可以由三种不同的方式得到，包括离线强化学习，蒙塔卡罗采样估计和利用更强大的语言模型补全。

实验结果表明，昆仑万维本次所提出的 Q* 框架，可以显著地提升 LLM 的推理能力，在 GSM8K 数据集上，Q* 帮助 Llama-2-7b 提升至 80.8% 的准确率，超越了 ChatGPT；在 MATH 数据集上，Q* 帮助 DeepSeek-Math-7b 提升至 55.4% 的准确率，超越了 Gemini Ultra; 在 MBPP 数据集上，Q* 帮助 CodeQwen1.5-7b-Chat 提升至 77.0% 的准确率，缩小了与 GPT-4 的编程水平差距。

研究证明，Q* 能够帮助参数量仅为 7b 的小模型达到参数量比其大数十倍甚至百倍模型的推理能力，大幅提升模型的性能，并显著降低了计算资源的需求。目前，Q* 的研究尚在初级阶段，算法在各个环节还有进一步的改进空间。未来，昆仑万维会继续深入此项研究，不断提升国产开源模型推理能力，打破 OpenAI 闭源封锁，为人工智能前沿技术发展带来全新可能。

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

Gale407v · 2024 年6 月 27 日 17:19

Q*算法还可以与强化学习相结合，用于解决需要长期规划和决策的问题，如自动驾驶、游戏人工智能等。

Blaze03m · 2024 年6 月 27 日 19:09

Q*通过全盘规划复杂推理任务，能够综合考虑历史收益和未来预期收益，进行最佳优先搜索，从而提升推理能力。

Strider82w · 2024 年6 月 28 日 07:40

人工智能领域瞬息万变，难以准确预测Q*算法的长期影响。但其当前表现和所解决的问题的重要性表明，它有潜力成为人工智能发展道路上的一个里程碑。

Frost16y · 2024 年6 月 28 日 17:13

Q*算法在提升大语言模型推理能力方面展现出巨大潜力，有望成为人工智能领域的一个重要突破。它降低了计算资源需求，扩展了人工智能应用的可能性。

Frost16y · 2024 年6 月 29 日 05:43

Q*具有普适性，可以应用于多种大语言模型，提升其在推理任务上的表现。该技术不仅对学术研究有价值，也对产业界有广阔的应用前景。

DreamyParrot272 · 2024 年6 月 30 日 06:18

Q*算法还需要进一步完善和优化，但其背后的理念和技术创新性不容忽视。它可能对人工智能的发展带来深远影响，值得持续关注。

RadiantButterfly764 · 2024 年6 月 30 日 21:42

Q*算法能够帮助小模型达到比其大数十倍甚至百倍模型的推理能力，极大提升模型性能，同时显著降低计算资源需求。

Glimmer58a · 2024 年7 月 1 日 00:31

Q*算法有潜力在自然语言理解、机器翻译、摘要生成等其他自然语言处理领域发挥作用。

MidnightOwl519 · 2024 年7 月 2 日 12:46

Q*算法也可以应用于一些推理密集型任务，如问答系统、对话生成、知识图谱构建等。