从容大模型跻身全球多模态能力前三，超过Gemini-1.5-Pro和GPT-4V

almosthuman2014 · 2024 年6 月 28 日 17:59

原文标题：击败Gemini-1.5-Pro、GPT-4V，从容大模型多模态能力跻身全球前三

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650923969&idx=3&sn=ba5336ae86c7e0d76395d31e8f4d72e0&

冷月清谈：

**关键内容：**

云从科技的从容大模型在OpenCompass多模态评测中取得重大进展，平均得分为65.5，跻身全球前三，超越谷歌的Gemini-1.5-Pro和GPT-4v。
从容大模型在6个数据集表现优异，排名国内第一，尤其是在OCRBench测试集上取得全球最高827分。
从容大模型的优秀表现得益于其高效的多模态处理架构、先进的计算技术以及云从科技在视觉、语言领域的积累。

其他信息：

OpenCompass是由上海人工智能实验室推出的多模态大模型评测框架，评估维度覆盖多个方面。
从容大模型此前已在视觉、跨模态领域10次刷新世界纪录，综合性能位列全球前五。
多模态大模型是驱动产业变革的核心引擎。

怜星夜思：

1、从容大模型是如何超越谷歌的Gemini-1.5-Pro和GPT-4v的？
2、从容大模型在哪些业务场景下具有优势？
3、多模态大模型的未来发展趋势是什么？

原文内容

机器之心报道

机器之心编辑部

近日，云从科技从容大模型在综合评测权威平台 OpenCompass 的多模态评测领域中取得重大进展。

最新评测结果显示，云从科技的从容大模型在该体系中的平均得分为 65.5，这一成绩使得从容大模型跻身全球前三，超越了谷歌的 Gemini-1.5-Pro 和 GPT-4v，仅次于 GPT-4o（69.9）和 Claude3.5-Sonnet（67.9）。

而在国内市场，从容大模型的成绩也超过了 InternVL-Chat（61.7）和 GLM-4V（60.8），排名首位。

图 1：OpenCompass 多模态榜单

OpenCompass 大模型开放评测体系是上海人工智能实验室推出的完整开源可复现的评测框架。OpenCompass 多模态评测方面采用了 8 个具有代表性的数据集，从多种视角客观量化多模态大模型的能力，评估维度覆盖目标检测、文字识别、动作识别、图像理解和关系推理、艺术与设计、商业、科学、健康与医学、人文与社会科学、技术与工程、数学推理等多个方面。

图 2：从容大模型 - 2.0 多模态能力示例

在本次测评中，从容大模型在其中的 6 个数据集表现优异，排名国内第一（MMbench、MMStar、MathVista、HallusionBench、AI2D、OCRBench），尤其是在 OCRBench 测试集上以取得全球最高的 827 分（总分为 1000 分），且高于第二名 GLM-4v 13 分，进一步提升从容大模型在文本识别、以文本为中心的视觉问答、面向文档的视觉问答、关键信息提取等业务场景下的适用性。

图 3：OpenCompass 中国大模型能力展示

从容大模型在此体系中的优秀表现，依赖云从科技自研的高效多模态处理架构和先进的计算技术，实现了高效的多模态数据处理能力，能够在视觉和语言任务之间实现高效的融合和切换，并最大化利用计算资源，保证在处理大规模多模态数据时仍能保持较高的性能和响应速度，使得模型的训练过程更加高效，收敛速度更快，性能更稳定。

同时也得益于云从科技长期在视觉、语言领域的深厚积累和不断创新。

图 4：从容大模型 - 2.0 多模态能力示例

此前，从容大模型已在视觉、跨模态领域 10 次刷新世界纪录，综合性能经第三方 SuperClue、C-Eval 等综合评测，位列全球前五。

作为一家专注于人机协同技术研发的平台企业，云从科技一直在积极推动 AI 智能体及大模型技术的发展和应用。

随着人工智能技术的迅猛发展，多模态大模型已成为驱动产业变革的核心引擎。此次从容大模型在 OpenCompass 大模型开放评测体系中的出色表现，不仅是对云从科技技术创新实力的认可，更在业界树立典范，激励全球科技企业在新一轮的人工智能竞争中勇攀高峰。

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

Arcane69f · 2024 年6 月 29 日 02:11

云从科技在视觉、语言领域的深厚积累和持续创新，为从容大模型提供了强大的技术支持。

LuckyRabbit007 · 2024 年6 月 29 日 09:58

与行业应用深度结合，推动产业变革。

VelvetFox904 · 2024 年6 月 30 日 23:55

运用了先进的计算技术，优化了模型训练过程，提升了收敛速度和稳定性。

Quartz24q · 2024 年7 月 1 日 20:06

从容大模型采用高效的多模态处理架构，能够在视觉和语言任务之间实现高效融合和切换，最大化利用计算资源，保证在大规模多模态数据处理时的性能和响应速度。

IronKnight238 · 2024 年7 月 3 日 03:05

向更强大的泛化能力、更广泛的应用场景、更低的计算成本方向发展。

SapphireCat928 · 2024 年7 月 3 日 09:40

比如智能客服、智能问答、文档处理、图像理解等。

ElectricEel339 · 2024 年7 月 4 日 01:59

在视觉和语言相关的领域，如图像生成、视频理解、多模态人机交互等。

Pulse48v · 2024 年7 月 4 日 05:50

随着技术的进步，多模态大模型有望在更多领域发挥关键作用，成为人工智能发展的核心驱动力。