感谢IT之家网友华南吴彦祖和软媒用户1392612提供的线索!最近,OpenAI在深夜直播中发布了GPT-4o的原生图像生成技术的重大升级。奥尔特曼亲自上阵,展示了自拍变梗图、相对论漫画等功能。然而,与谷歌刚刚发布的Gemini 2.5 Pro相比,OpenAI的动作显得有些不足。
奥尔特曼带领团队展示了GPT-4o图像生成技术的各种大升级,包括制作梗图、文本渲染、多轮交互生成和指令遵循等。其中最亮眼的演示是一张官方玩梗的表情包。这项功能已经在ChatGPT和Sora中向所有用户提供。
新版Sora生成图像的时间比以往更长,但OpenAI认为生图的质量和其具备的世界知识让用户值得等待。在直播中,奥尔特曼介绍道,从今天起,ChatGPT中的原生图像生成功能正式推出!GPT-4o的全模态能力融合进了Sora中。
接下来,他们让模型画出一幅描述相对论的漫画,要求通俗易懂,还要加入一些幽默元素。这个提示词非常模糊,因此看看模型会生成什么样的图,就格外令人期待了。果然,生成效果令人惊喜。
最后,他们基于此前几人生成的,制作了一个纪念币。整个过程体现了GPT-4o作为全能模型的强大能力。它不仅仅是一个语言模型,还包括图像、音频,所有输入和输出的模态。它可以理解、生成这些模态,并且无缝地在它们之间工作。
使用GPT-4o创建和定制图像就像聊天一样简单。只需描述所需,就能得到想要的任何细节。它的图像生成功能的特点就是能遵循非常复杂的提示,极其注重细节。
人类一直使用视觉图像来交流、说服和分析。GPT-4o的图像生成功能擅长准确渲染文本,精确遵循提示词,并利用GPT-4o固有的知识库和聊天上下文。通过线上图像和文本的联合分布训练,模型展现出惊人的视觉表现力,能够生成实用、一致且具有上下文感知能力的图像。
本文来源:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...