OpenAI Sora或将推出图像生成功能,代号"papaya"

OpenAI Sora将推出图像生成功能,代号"papaya",或将取代DALL-E 3。

原文标题:OpenAI内测Sora图像生成器,代号「papaya」,DALL-E 4即将推出?

原文作者:机器之心

冷月清谈:

据机器之心报道,OpenAI 正在内部测试 Sora 的图像生成功能,用户可以通过隐藏切换按钮在视频和图像生成之间切换。此外,Sora 的视频推送界面也进行了改版,分为"Best"和"Top"两个类别,可能分别对应特色频道和按时间段、点赞数等排序的视频。

目前图像生成功能尚未上线,但导航栏中已出现"Images Internal"类别。模型方面,有人猜测可能是 DALL-E 4,但也有人认为可能是现有的"sora-turbo"模型,或者是代号为"papaya"的文本到图像生成器。

此举引发了人们对 OpenAI 下一代图像生成模型的期待,尤其是在 DALL-E 3 发布一年半之后,新模型的创新之处备受关注。

怜星夜思:

1、Sora 的图像生成功能如果上线,会对 Midjourney、Stable Diffusion 等其他图像生成工具带来哪些冲击?
2、如果 Sora 同时具备视频和图像生成功能,未来会不会出现更多类似的多模态生成模型?
3、大家觉得 OpenAI 会如何将 Sora 的图像和视频生成功能与现有的 ChatGPT 等产品结合起来?

原文内容

机器之心报道
机器之心编辑部

一则非常重要的消息:除了已有的视频生成功能,OpenAI 似乎还在为 Sora 推出图像生成功能做准备。

OpenAI 正在内部测试这些图像生成功能:包括一个新的隐藏切换按钮,能允许用户在提示栏中直接在视频和图像生成之间切换。如果切换到图像,提示栏的描述会提示你描述一幅图像。


OpenAI 还对 Sora 的视频推送进行了改版,将其分为「Best」和「Top」两个类别。「Best」很可能与目前的特色频道类似。不过,「Top」类别可能允许按某个时间段进行筛选,并可能根据点赞数或其他标准对视频进行排名。

OpenAI 的这个动作让很多人重新兴奋起来,因为现有的 DALL-E 3 已经非常过时了 —— 至少和 Midjourney 比起来是这样。


该功能目前还未投入使用,但左侧导航栏上还有一个「Images Internal」类别。目前,它打开的是视频推送。不过,将来用户也有可能在这里找到图片推送。目前还不清楚 OpenAI 将添加何种图像生成功能,也不清楚将由哪款模型提供。

有人猜测我们可能会「在某个时候看到 DALL-E 4」,但 OpenAI 官方没有对此进行确认。


但 Sora 中的图像生成模型应该不是 DALL-E 4。OpenAI 在去年首次发布 Sora 时就提到了图像生成功能,所以一种可能是:它将由现有的「sora-turbo」模型驱动


此外,有人突然想起:我们还没有在 ChatGPT 上看到来自 GPT-4o 的多模态图像生成功能。


还有消息说,Sora 中的文本到图像生成器代号为「papaya」:


回想起来,OpenAI 发布 DALL-E 3 距今也有一年半了,下一代模型会有怎样的创新?你有何期待?

参考链接:https://x.com/testingcatalog/status/1888256244063838527

© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]

我比较好奇的是,如果多模态生成模型真的普及了,会不会对内容创作行业带来颠覆性的影响?比如以后写小说可以直接生成配套的插图和视频,想想就觉得很厉害。

我觉得最直接的结合方式就是把 Sora 集成到 ChatGPT 中,让用户可以直接在聊天界面生成图像和视频,这样用户体验会更好。

“Sora 的图像和视频生成功能与现有的 ChatGPT 等产品结合起来”这个问题问得好!我猜想 OpenAI 可能会推出一些新的 API,方便开发者将 Sora 的功能集成到自己的应用中,从而构建更丰富的应用场景。

除了集成到现有产品,OpenAI 也可能会推出一些基于 Sora 的新产品,比如专门用于图像和视频编辑的工具,或者面向特定行业的解决方案。

我认为冲击肯定是有的,但最终谁能胜出还要看各家的后续发展。图像生成领域现在发展太快了,说不定过段时间又会有新的技术和产品出现。

多模态生成肯定是未来的趋势,Sora 的尝试可以说是一个很好的示范。未来可能会有更多模型能够同时生成文本、图像、视频、音频等多种形式的内容。

我觉得如果 Sora 的图像生成质量真的能超越 Midjourney,那对 Midjourney 的冲击应该会很大。毕竟 OpenAI 的模型一向以效果好著称,而且用户基数也大,很容易抢占市场。

多模态生成虽然前景广阔,但技术上也存在很多挑战,比如如何保证不同模态之间的一致性和连贯性。Sora 目前也还在测试阶段,还有很多问题需要解决。