扣子背后的「模型广场」:在线大模型 PK 舞台

原文标题:现在起,真正的强者敢于直面「扣子」的「模型广场」

原文作者:机器之心

冷月清谈:

- 字节字节推出「模型广场」,方便用户在线对比评估不同大语言模型的能力。 - 「模型广场」支持三种对战模式:指定 Bot 对战、随机 Bot 对战、纯模型对战,可全面评估模型在不同场景下的表现。 - 用户可以参与模型排名投票,形成基于人类偏好的大模型「大众点评」。 - 「模型广场」面向开发者提供广泛可用的 AI 模型,降低 AI 应用开发的门槛。 - 该平台与飞书、微信等平台对接,方便用户将创建的 Bot 部署到实际应用中。

怜星夜思:

1、「模型广场」的上线对大语言模型的发展有何促进作用?
2、「模型广场」的出现是否会使大语言模型的开发趋于同质化?
3、除了性能和适用性,在选择大语言模型时,我们还应该考虑哪些因素?

原文内容

机器之心原创
作者:Sia

实时 Pk、“蒙面“ 对垒、大众点评、定期排名...... 就问敢不敢揭榜?


字节版 GPTs “扣子”上线后,五年级小学生都能创建自己的英语外教。


“扣子”有一个相当大的优势,就是支持国内知名大语言模型作为底座,还免费,许多 “AI bot" 孕育而生。


不过,无限续杯也有烦恼。“学霸”这么多,挑谁最合适?看跑分?不太懂,也飘渺。要不,大家现场"全开麦“ PK一下?


“扣子”已经把舞台搭好。一个相当刺激的新功能“模型广场”,上线了。



一、“模型广场”:评测玩出盲盒的乐趣


“扣子”支持国内多个知名主流大语言模型作为底座,最新名单除了自家的豆包、通义千问、MiniMax、Moonshot ,新增了智谱 GLM-4 、百川智能 Baichuan4 两员大将。



名单不断更新中,截图时间6月13日


模型参数、架构各有千秋,特点、擅长领域、生成风格也不尽相同。一位小朋友用“扣子”做手抄报 Bot 时,就问过一个难倒大人的问题,这些“人”,该选谁啊?谁擅长做手抄报呢?


现在,有了官方指引——一个在线大语言模型对比与评估系统“模型广场”,大伙儿“物尽其用”的难度会小很多。


你可以将 “模型广场”视为一个类似“歌手”的竞技舞台,大语言模型“选手”可以不同方式 PK。每一轮对战结束,由观众(用户)给结果投票,看谁表现更好。


为避免先入为主,“选手”匿名出战,用户投票后才会亮出真实身份。


“模型广场”支持三种对战模式。


一个是指定 Bot 对战。我们在 Bot 列表中选了一个感兴趣的 Bot “数学老师”。



“扣子”会随机选取两个匿名模型,基于“数学老师”  既有工作流、知识库等能力配置,回答我们挑选的“容斥”问题(如下图)。



我们人工算出答案 “7”。首先,算出至少参加一科竞赛的人数(15+8+6 -3*2)。然后,从班级总人数 30 中减去这个结果(30-23),即可。


模型 A 很快有了答案,思路清晰简单,答案正确。



模型 B 把“思考”过程写得很详细、很复杂,但结果不对。



评估结果,有四个选项可选:



我们认为“ A 表现更好”,投票后,谜底揭晓。



第二个是随机 Bot 对战。


如果说,指定 Bot 对战适合评估不同“选手”在指定岗位(比如数学教学)上的业务能力。那么,随机 Bot 对战就是现场抽题、即兴发挥,评测“选手”任意业务场景下的能力,综合能力要求更高。


随机 Bot 对战模式下,“扣子”(不再是用户)会从上架的 Bot 中随机选一个出战。我们被随机分配到“军事大模型评估”专家。



“扣子” 会随机选择两个匿名模型,基于“军事大模型评估专家” Bot 的编排、工作流、知识库等能力配置,回答我们的问题。


如何看待孙子兵法的价值?模型 A 的回答,有些片面。



相比之下,模型 B 的回答更为深入、全面。



这一票给 B ,谜底揭晓。



第三个是纯模型对战。


前两个对战模式都是基于 Bot ,“选手”会借助工作流等 Bot 配置来完成任务。


纯模型对战考验的是大模型“裸”的文本生成能力,Bot 配置带来的影响都被清空。



针对“老问题”,模型 A 像粗心的小朋友。


思路对、甚至算式都对,结果计算错误(29-6=24?),功亏一篑:



模型 B 简单利落地解决了问题。



Wait,这答题风格看着眼熟,好像见过?


投票给 B ,谜底揭晓。看来, Baichuan4 数学能力确实强一些:



其实,用过 Quora AI 聊天应用 Poe 的人,对“纯模型对战“不会陌生。Poe 接入了不少炙手可热的大模型,可以针对同一任务,直接比较不同大模型的结果(但不设投票)。


看看这些回答,如果接入“模型广场” PK ,GPT-4o 也不见得稳操胜券。




二、为何大模型需要“大众点评”?


纸面指标好的模型,不一定在实战中表现优秀。


开发者和普通用户追求的是应用落地,在“模型广场”,他们可以直接比较“选手”在真实、具体业务场景下表现,多维度评估能力,选择最合适的一个。


当然,还有一个关键,不用自己掏钱!


比如,几轮 PK 后,我们发现 Baichuan4 数学能力突出,如果要做数学作业 Bot ,肯定会优先考虑它;如果辅导低年级语文学习 Bot ,我们会考虑豆包。


通义千问-Max 文本写作突出,一份书单推荐也能写得文采飞扬,看来适合做手抄报设计 Bot 的底座。


如果要找“六边形战士” ,最好三种对战模式都玩到。你会体感到,有的模型的回答切中要害,但言简意赅;有的回答丰富详尽,但稍显啰嗦;有的擅长多轮对话理解用户意图,但知识覆盖明显不足。多轮 PK,总能找到最靠近需求的一个。


除了实战"亲测",“模型广场”还会定期推出大语言模型排行榜。和一些常见大语言模型性能榜单相比,它有两个明显不同。


一个是动态更新,可以持续纳入新的评测任务和真实用户反馈,及时反映模型的表现和进步。


另一个就是基于人类偏好,就像一个大模型的“大众点评” 。


其实,LMSYS Org 的大模型竞技场 Chatbot Arena 已经尝鲜在前,成为引用次数最多的大语言模型排行榜之一,被领先的大模型开发商和公司广泛引用。


至于为什么要纳入人类偏好,“扣子”也有自己的解释:


“对于 Chat-GPT 等对齐过人类偏好的对话模型,往往需要一些半开放或开放式问题才能合理评估模型能力,传统 LLM 基准测试框架在这种场景下可能会略有不足。”


这是“扣子”推荐的一些赛题。



第一题是一个开放性问题,评估“今朝晴朗可喜”短文,不同评估者可能对同一篇文章有不同的看法和评分标准。


第五题属于半开放,对于 Tracy 是否应该支付生父的医疗费用,不同评估者的道德观和价值观可能不同,导致对答案的评价产生较大差异。


传统方法确实拿捏不准答案好坏。一方面,回复的质量无法用客观指标衡量。另一方面,也没有一成不变的评估程序,判断不同 Bot 回答的优劣。


这个时候,对比不同模型的回复是一个补强的办法。另外,就是众包评测。在“扣子”看来,客户自己就能判断出什么是最合适的模型。


当然,“模型广场”为“选手”提供展示机会的同时,也会将压力传给大模型厂商,特别是当自家“娃” 表现不佳、排名靠后时。


如果"模型广场"能带来良性竞争,对行业发展是一件好事。


真实消费场景的数据,能为大模型的优化提供参考。评分排名,可以帮助厂商判断自己在行业中的位置,以及与竞品的差距。


“模型广场"聚集了大量对模型性能有强需求的开发者用户,对于模型表现突出、口碑良好的厂商而言,这意味着广阔的潜在客户群体。


通过"模型广场",开发者们可以充分“把脉”前沿大模型,快速开发和迭代各种创新应用,将 AI 生成能力嵌入到各行各业的场景应用,蓬勃 AIGC 生态。


三、“这东西,你真能用得上!”


“模型广场”上线时,扣子还联合 Intel 推出的一个主题 Bot 征集活动,叫扣子 AI 工坊( Coze AI Factory )。


聚焦图文创作、实用工具、互动创意三个赛道,未成年人也能参与,还有上万元奖金可以拿。


“扣子” 定位在平台,不难看出,为求取最大的使用量,他们将心思都倾注在了 “你也能上手 DIY ”。


确实,毫无编程背景,我们曾在一分钟内搞定一个 Bot,尽管是“毛坯”。


“装修”也不费力。因为,为拓展 Bot 的各种技能,插件甚至开发者关心的工作流都有了商店。你要做的就是“选中”+“添加”。



除了技能插件,还有知识库、数据库、长期记忆等,让 “AI Bot ”变得更加个性化和本地化。


为了有更好的交互体验,”扣子”还支持配置开场白、快捷指令、背景图片、语音等。



当然,最特别的一点是,“扣子”可以将构建的 Bot 直接发布到飞书和微信等平台,无缝嵌入到你的生产力工具中。


至此,除了力压开发难度和成本,“扣子”又将 AI 应用的运营难度、成本,一降再降,并完成闭环。



经历了过去一年的大语言模型热,国内的玩家们也都明白,产品要有商业落地才能活下去。


最近有新闻报道,在过去六个月时间里,OpenAI 年收入增长了一倍多,大部分收入来自 ChatGPT 等聊天机器人订阅费,以及软件开发人员付费访问模型 API 。


字节也为 AIGC 产品规划了两条路径,一个是赋能既有业务,另一个就是卡位不同赛道,开发对应的 AI 原生产品。“扣子”正是面向大模型 C 端应用做的探索。


在强大技术实力、丰富的数据资源和广泛应用场景加持下,期待“扣子”接下来的一路生花。




参考链接

https://www.coze.cn/model/arena?bid=6cqv06psk9000&utm_source=jqzx


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com


通过用户投票和反馈,模型广场可以帮助大语言模型厂商更好地了解用户偏好和需求,从而优化模型的设计和训练,使其更加符合实际应用场景。
举例来说,如果某个模型在「模型广场」的评分较低,厂商就可以针对其表现不佳的方面进行改进,例如增强其文本生成能力或知识覆盖面。这样的反馈机制可以促进大语言模型的持续演进和升级。

「模型广场」可以帮助大语言模型打破学术研究的桎梏,更多地进入实际应用,对于整个 AI 生态的繁荣发展具有一定的推动作用。
通过平台提供的各种插件和工具,开发者可以轻松地将大语言模型融入到自己的应用中,创造出更多有价值的 AI 产品和服务。

从现阶段来看,「模型广场」更多的是为开发者和用户提供了一个参考,帮助他们在众多大语言模型中做出选择。随着平台的持续发展和完善,它的影响力可能会逐渐提升,对大语言模型的开发产生更加深远的影响。但我们也期待看到厂商在竞争之余,能够保持创新和探索的精神,为我们带来更多具有差异化优势的大语言模型。

**易用性:**考虑模型的易用性,例如提供的 API 文档、代码示例和技术支持的丰富程度,这将影响开发和集成模型的难易程度。

但需要注意的是,「模型广场」只提供了一个评估对比的平台,并不能决定大语言模型的开发方向。最终,厂商还是会根据自己的研发策略和市场需求来决定模型的演进路径。

**可扩展性:**如果您的应用需要随着业务的发展而扩展,那么选择一个提供可扩展性支持的模型非常重要,以确保模型能够满足不断增长的需求。

此外,大语言模型是一个仍在快速发展中的领域,影响其开发的因素十分复杂,例如算法架构、训练数据、计算资源等。因此,「模型广场」的排名并不一定能完全反映模型的实际能力和适用性。开发者在选择模型时,还需要结合自己的实际需求和场景进行综合考量。

**服务支持:**选择提供完善服务支持的厂商可以确保在使用过程中遇到问题时能够得到及时的帮助和解决,避免影响业务的正常运行。

需要注意的是,大语言模型的评估和排名是一个复杂且不断变化的过程,它受到各种因素的影响,例如任务类型、数据集和评估标准。因此,「模型广场」的排名只是一个参考,开发者在选择模型时还需要考虑自己的具体需求和使用场景。综合考虑模型的性能、适用性、成本和服务支持等因素,才能做出最优选择。

**安全性:**对于处理敏感信息或涉及隐私数据的应用,需要考虑模型的安全性和合规性,选择符合行业标准和法规要求的厂商。

从理论上讲,「模型广场」的存在确实有可能对大语言模型的开发产生一定的影响,促使厂商在模型设计和训练方面向排名靠前的模型看齐。

**成本:**对于一些商业应用来说,模型的使用成本是一个需要考虑的重要因素,尤其是对于需要处理大量文本或需要频繁调用的场景。

作为一个公开的评估对比平台,「模型广场」可以促进大语言模型厂商之间的良性竞争,激发各家提升模型性能和适用性的积极性。

它为开发者和普通用户提供了便捷的途径来选择最适合其需求的大语言模型,推动了 AI 技术在更多领域的应用落地。