OpenAI推出GPT-4o：超强人工智能生成图像，多模态模型引领图像生成新时代，与谷歌同场竞技，奥尔特曼AGI梗图现场直出引发关注

感谢IT之家网友华南吴彦祖和软媒用户1392612提供的线索！最近，OpenAI在深夜直播中发布了GPT-4o的原生图像生成技术的重大升级。奥尔特曼亲自上阵，展示了自拍变梗图、相对论漫画等功能。然而，与谷歌刚刚发布的Gemini 2.5 Pro相比，OpenAI的动作显得有些不足。

奥尔特曼带领团队展示了GPT-4o图像生成技术的各种大升级，包括制作梗图、文本渲染、多轮交互生成和指令遵循等。其中最亮眼的演示是一张官方玩梗的表情包。这项功能已经在ChatGPT和Sora中向所有用户提供。

新版Sora生成图像的时间比以往更长，但OpenAI认为生图的质量和其具备的世界知识让用户值得等待。在直播中，奥尔特曼介绍道，从今天起，ChatGPT中的原生图像生成功能正式推出！GPT-4o的全模态能力融合进了Sora中。

接下来，他们让模型画出一幅描述相对论的漫画，要求通俗易懂，还要加入一些幽默元素。这个提示词非常模糊，因此看看模型会生成什么样的图，就格外令人期待了。果然，生成效果令人惊喜。

最后，他们基于此前几人生成的，制作了一个纪念币。整个过程体现了GPT-4o作为全能模型的强大能力。它不仅仅是一个语言模型，还包括图像、音频，所有输入和输出的模态。它可以理解、生成这些模态，并且无缝地在它们之间工作。

使用GPT-4o创建和定制图像就像聊天一样简单。只需描述所需，就能得到想要的任何细节。它的图像生成功能的特点就是能遵循非常复杂的提示，极其注重细节。

人类一直使用视觉图像来交流、说服和分析。GPT-4o的图像生成功能擅长准确渲染文本，精确遵循提示词，并利用GPT-4o固有的知识库和聊天上下文。通过线上图像和文本的联合分布训练，模型展现出惊人的视觉表现力，能够生成实用、一致且具有上下文感知能力的图像。

本文来源：

IT之家【阅读原文】

文章版权归作者所有，未经允许请勿转载。

暂无评论

您必须登录才能参与评论！

暂无评论...