谷歌Gemini 2.0 Flash Thinking发布:推理更强更快,展现思考过程

谷歌推出Gemini 2.0 Flash Thinking,推理能力和速度大幅提升,并能展示思考过程,已开放免费试用。

原文标题:推理最强也最快,谷歌发布Gemini 2.0 Flash Thinking,全面超越o1-preview

原文作者:机器之心

冷月清谈:

谷歌发布了Gemini 2.0 Flash Thinking,该模型增强了推理能力,并能够展示其思考过程。它在Chatbot Arena排行榜上名列前茅,各项评测任务均取得了第一名的成绩。
该模型在数学推理、代码生成等方面表现出色,推理速度也比其他模型更快。一些测试案例表明,Gemini 2.0 Flash Thinking 能够解决复杂的数学问题、生成可运行的代码,甚至能理解古代数学题。
尽管如此,该模型也存在一些缺陷,例如在某些简单的数学问题或文字识别上会出现错误。目前,Gemini 2.0 Flash Thinking 实验版可以免费使用。

怜星夜思:

1、Gemini 2.0 Flash Thinking展现了思考过程,这对于理解模型的决策方式有何帮助?这种透明度对未来AI发展有什么意义?
2、虽然 Gemini 2.0 Flash Thinking 表现优异,但仍然存在一些错误。这是否意味着目前的AI技术仍处于发展初期,未来还有很大的提升空间?
3、文中提到 Gemini 2.0 Flash Thinking 支持多模态输入,这将如何改变我们与AI的交互方式?未来多模态AI有哪些潜在的应用场景?

原文内容

机器之心报道

编辑:Panda、小舟


不仅能推理,还能明确展示自己「推理逻辑」的大模型出现了。


OpenAI 的 12 天连续发布已近尾声,但它的热度显然已经被谷歌夺去了许多。从 到今天的 Gemini 2.0 Flash Thinking,谷歌端上来的菜真是一道比一道香。


图片


从名字也能看出来,Gemini 2.0 Flash Thinking 基于 Gemini 2.0 Flash,只是其经过专门训练,可使用思维(thoughts)来增强其推理能力。

据 Jeff Dean 介绍,Gemini 2.0 Flash Thinking 还会明确展示其思考过程。下面是 Jeff Dean 在 X 上发布的一个 demo—— 其中,模型解答了一个物理问题并解释了自己的推理过程,整个过程耗时 1 分多钟。


虽然 Flash 版本还不是 Gemini 2.0 的满血版,但这个 Thinking 模型就已经登顶了 Chatbot Arena 排行榜。Gemini 2.0 Flash Thinking 不仅是总分第一,在编程、数学、创意写作等各项评测任务上都是第一名(有些是并列第一)。

图片

Targum 创始人和 CEO Alex Volkov 则通过 10 个难题对 o1-2024-12-17 和 gemini-2.0-flash-thinking-exp-1219 进行了对比测试,结果发现这两个推理模型的表现相当,而后者的速度要快得多。

图片

而根据另一位研究者 Subhash Peshwa 的测算,Gemini 2.0 Flash Thinking 的思考速度是 o1-mini 的 2 倍。

图片

Gemini 2.0 Flash Thinking 发布后,网友们都纷纷点赞,并乐见其与 ChatGPT 和 Claude 等聊天机器人的竞争。

图片

图片

图片

目前,Gemini 2.0 Flash Thinking 实验版完全可以免费使用,感兴趣的读者可访问:
https://aistudio.google.com/prompts/new_chat?model=gemini-2.0-flash-thinking-exp-1219

图片

表现优异,但也会犯错

首先,Gemini 2.0 Flash Thinking 在数学推理方面速度快、质量高。例如,Gemini 2.0 Flash Thinking 在 14 秒内破解了 goto 数学题,比任何其他可以解决该问题的模型快 5 倍:

图片

在一道求解数学期望的问题上,OpenAI 的 o1 求解错误,而且推理速度很慢,而 Gemini 2.0 Flash Thinking 仅用 2/7 的时间就正确解答:

图片

解一道简单的数学推理题:挑选数字小球,使数字总和为 30:

来源:https://x.com/OfficialLoganK/status/1869789822384255300

Gemini 2.0 Flash Thinking 迅速解答,而且给出了详细的推理过程。

DeepMind 首席科学家 Jack Rae 在纸上手写了一道数论问题,也是他的工作面试问题,Gemini 2.0 Flash Thinking 轻松解决了:

来源:https://x.com/drjwrae/status/1869806621024772096

可见,Gemini 2.0 Flash Thinking 可以准确识别视觉内容,并进行数学推理。

有时也会翻车,知道「strawberry」有 3 个「r」,但「strawberrry」就数不清了:

图片

「9.9 和 9.11 谁大」这事还是没能解决:

图片

顺带一提,关于现在的 LLM 难以数出 strawberry 中 r 数量的深层原因,可以参阅机器之心之前的报道《》。

Gemini 2.0 Flash Thinking 还有能力理解和解答非常困难的问题,比如斯坦福 NLP 的统计学家 Zitong Yang 就分享了自己的一个用来测试推理模型的问题:三赌徒问题。然后他惊喜地发现,Gemini 2.0 Flash Thinking 成为了首个正确解答该问题的模型,而他之前测试的 o1-preview、o1、r1、QwQ 模型都未能过关。

图片

三赌徒问题:假设三个赌徒最初有 (a, b, c) 美元。每次试验都是随机选择两个玩家,让他们公平地掷一枚硬币;根据输赢,他们会正常地转手 1 美元。玩家一旦破产,就会退出。令 (S_1) 表示一名玩家破产所需的游戏局数。令 (S_2) 表示两名玩家破产所需的游戏局数。求 S_1 和 S_2 的期望。


下面是 Gemini 2.0 Flash Thinking 的部分思考过程和最终答案。

图片

图片

机器之心也上手进行了一番测试。考虑到网络上已有大量使用英语的测试,这里我们就仅使用汉语了。

首先来看看 Gemini 2.0 Flash Thinking 的编程能力:写一个井字棋小游戏,其中用两个不同的 emoji 标记双方的棋子。

图片

可以看到,该模型用了 10.8s 思考,然后用 21.0s 完成了任务。测试一下,该模型生成的代码确实能正确实现功能。

图片

这里再测试一道来自《孙子算经》的古代数学题:今有物不知其数,三三数之剩二;五五数之剩三;七七数之剩二。问物几何?

图片

这一次,Gemini 2.0 Flash Thinking 思考了 11.1s,解答过程则用了 16.3s。有意思的是,该模型不仅正确解答了问题,也根据自己的知识库对相关信息进行了扩展说明。

Gemini 2.0 Flash Thinking 也支持输入图片和音频等模态的数据,可以帮助我们理解梗图或者解答手写的数学问题。

图片

最后,我们来试试 Gemini 2.0 Flash Thinking 能否解读中文的验证码。

图片

很显然,它彻底失败了,一个字都没能正确识别出来,所以暂时还不用担心被 AI 盗号了。

Gemini 2.0 Flash Thinking,着实有趣,就是名字有点长。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


关于Gemini 2.0 Flash Thinking展现思考过程的意义,我个人认为这就像打开了AI的“黑匣子”,让我们能更好地理解它的工作原理,改进算法,同时也有助于我们发现和纠正AI的潜在偏见。 这对于AI的未来发展至关重要,透明度越高,我们对AI的信任度就越高,也更有可能开发出真正安全可靠的AI。

谁还没个犯错的时候呢,何况是AI。我觉得犯错很正常,关键是能从错误中学习和改进。就像我们人类一样,也是在不断试错中成长的。AI也一样,它需要更多的数据、更合理的算法,才能变得更强大、更可靠。

关于多模态AI的应用场景,我觉得可以从辅助性工具和替代性工具两个方面来看。辅助性工具方面,可以帮助医生进行更精确的诊断,帮助老师进行个性化教学等等。替代性工具方面,可以开发更智能的客服机器人,可以进行更复杂的自动化操作,从而提高效率、降低成本。

关于“虽然 Gemini 2.0 Flash Thinking 表现优异,但仍然存在一些错误。这是否意味着目前的AI技术仍处于发展初期,未来还有很大的提升空间?”这个问题,我认为即使是像Gemini这样强大的模型,出现错误也恰恰说明AI技术仍在发展初期。AI的学习和推理能力还有待提高,未来改进的方向包括更强大的数据处理能力、更精细的算法和更深入的理解人类语言和逻辑。

“文中提到 Gemini 2.0 Flash Thinking 支持多模态输入,这将如何改变我们与AI的交互方式?未来多模态AI有哪些潜在的应用场景?”这个问题很有意思。多模态输入意味着我们可以用更自然、更丰富的方式与AI交互,例如结合语音、图像、文字等。未来,多模态AI的应用场景非常广阔,例如:更智能的虚拟助手、更精准的医疗诊断、更个性化的教育等等。

对于这个问题,我的看法是肯定的。目前的AI就像一个学习能力很强的小孩子,它可以很快地学会很多东西,但仍然会犯一些低级的错误。这说明AI技术还远未成熟,未来还有很大的提升空间,比如在常识推理、情感理解等方面。

对于“Gemini 2.0 Flash Thinking展现了思考过程,这对于理解模型的决策方式有何帮助?这种透明度对未来AI发展有什么意义?”这个问题,我觉得展现思考过程可以帮助我们更好地理解模型的运作机制,找出潜在的错误或偏差,从而改进模型。长远来看,这种透明度有助于建立用户对AI的信任,也对AI的可解释性研究有很大推动作用。

多模态输入让AI的交互更接近人与人之间的交流,我们可以用更自然的方式表达,而不用费力地将所有信息转化成文字。未来,我觉得多模态AI可以在很多领域大放异彩,比如:智能家居、自动驾驶、虚拟现实等等,想想都觉得很酷!

我觉得展示思考过程最大的好处是方便debug。以前对着一个输出结果,都不知道它怎么错的,现在能看到过程,就好查问题多了,也能更有针对性地训练和调整模型。对未来AI发展来说,透明度高了,大家也更愿意接受和使用AI,更容易打造一个开放健康的AI生态。