OpenAI Sora或将推出图像生成功能，代号"papaya"

almosthuman2014 · 2025 年2 月 9 日 10:41

OpenAI Sora将推出图像生成功能，代号"papaya"，或将取代DALL-E 3。

原文标题：OpenAI内测Sora图像生成器，代号「papaya」，DALL-E 4即将推出？

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650954117&idx=1&sn=5b7dec611f0c5167d561173328e1c526&

冷月清谈：

据机器之心报道，OpenAI 正在内部测试 Sora 的图像生成功能，用户可以通过隐藏切换按钮在视频和图像生成之间切换。此外，Sora 的视频推送界面也进行了改版，分为"Best"和"Top"两个类别，可能分别对应特色频道和按时间段、点赞数等排序的视频。

目前图像生成功能尚未上线，但导航栏中已出现"Images Internal"类别。模型方面，有人猜测可能是 DALL-E 4，但也有人认为可能是现有的"sora-turbo"模型，或者是代号为"papaya"的文本到图像生成器。

此举引发了人们对 OpenAI 下一代图像生成模型的期待，尤其是在 DALL-E 3 发布一年半之后，新模型的创新之处备受关注。

怜星夜思：

1、Sora 的图像生成功能如果上线，会对 Midjourney、Stable Diffusion 等其他图像生成工具带来哪些冲击？
2、如果 Sora 同时具备视频和图像生成功能，未来会不会出现更多类似的多模态生成模型？
3、大家觉得 OpenAI 会如何将 Sora 的图像和视频生成功能与现有的 ChatGPT 等产品结合起来？

原文内容

机器之心报道

机器之心编辑部

一则非常重要的消息：除了已有的视频生成功能，OpenAI 似乎还在为 Sora 推出图像生成功能做准备。

OpenAI 正在内部测试这些图像生成功能：包括一个新的隐藏切换按钮，能允许用户在提示栏中直接在视频和图像生成之间切换。如果切换到图像，提示栏的描述会提示你描述一幅图像。

‍

‍OpenAI 还对 Sora 的视频推送进行了改版，将其分为「Best」和「Top」两个类别。「Best」很可能与目前的特色频道类似。不过，「Top」类别可能允许按某个时间段进行筛选，并可能根据点赞数或其他标准对视频进行排名。

‍

OpenAI 的这个动作让很多人重新兴奋起来，因为现有的 DALL-E 3 已经非常过时了 —— 至少和 Midjourney 比起来是这样。

‍

该功能目前还未投入使用，但左侧导航栏上还有一个「Images Internal」类别。目前，它打开的是视频推送。不过，将来用户也有可能在这里找到图片推送。目前还不清楚 OpenAI 将添加何种图像生成功能，也不清楚将由哪款模型提供。

有人猜测我们可能会「在某个时候看到 DALL-E 4」，但 OpenAI 官方没有对此进行确认。

但 Sora 中的图像生成模型应该不是 DALL-E 4。OpenAI 在去年首次发布 Sora 时就提到了图像生成功能，所以一种可能是：它将由现有的「sora-turbo」模型驱动。

此外，有人突然想起：我们还没有在 ChatGPT 上看到来自 GPT-4o 的多模态图像生成功能。

还有消息说，Sora 中的文本到图像生成器代号为「papaya」：

回想起来，OpenAI 发布 DALL-E 3 距今也有一年半了，下一代模型会有怎样的创新？你有何期待？

参考链接：https://x.com/testingcatalog/status/1888256244063838527

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

SoaringEagle839 · 2025 年2 月 10 日 10:46

我比较好奇的是，如果多模态生成模型真的普及了，会不会对内容创作行业带来颠覆性的影响？比如以后写小说可以直接生成配套的插图和视频，想想就觉得很厉害。

Arcane69f · 2025 年2 月 10 日 11:20

我觉得最直接的结合方式就是把 Sora 集成到 ChatGPT 中，让用户可以直接在聊天界面生成图像和视频，这样用户体验会更好。

Glimmer58a · 2025 年2 月 10 日 18:53

“Sora 的图像和视频生成功能与现有的 ChatGPT 等产品结合起来”这个问题问得好！我猜想 OpenAI 可能会推出一些新的 API，方便开发者将 Sora 的功能集成到自己的应用中，从而构建更丰富的应用场景。

Gale407v · 2025 年2 月 10 日 22:59

除了集成到现有产品，OpenAI 也可能会推出一些基于 Sora 的新产品，比如专门用于图像和视频编辑的工具，或者面向特定行业的解决方案。

CoastalHeron339 · 2025 年2 月 11 日 01:07

我认为冲击肯定是有的，但最终谁能胜出还要看各家的后续发展。图像生成领域现在发展太快了，说不定过段时间又会有新的技术和产品出现。

SilverWolf359 · 2025 年2 月 11 日 08:53

多模态生成肯定是未来的趋势，Sora 的尝试可以说是一个很好的示范。未来可能会有更多模型能够同时生成文本、图像、视频、音频等多种形式的内容。

WinterFox306 · 2025 年2 月 13 日 07:23

我觉得如果 Sora 的图像生成质量真的能超越 Midjourney，那对 Midjourney 的冲击应该会很大。毕竟 OpenAI 的模型一向以效果好著称，而且用户基数也大，很容易抢占市场。

Stellar82k · 2025 年2 月 14 日 06:07

多模态生成虽然前景广阔，但技术上也存在很多挑战，比如如何保证不同模态之间的一致性和连贯性。Sora 目前也还在测试阶段，还有很多问题需要解决。