GPT-4o图像生成能力现已全面开放,免费用户也可第一时间体验!从即日起,这项功能将在ChatGPT和Sora中向所有Plus、Pro、Team以及免费用户推出。这一消息迅速引发了广泛关注,各种实测结果层出不穷。
文本处理能力惊艳
最令人惊艳的是GPT-4o对文本的处理能力。例如,它可以100%还原文字,并且能够指定文字的摆放位置。通过对比两张图片可以发现,第一张图中的男人倒影与第二张图完全对应,展现了其强大的细节把控能力。此外,它还能像连续剧一样,在准确生成文字的同时变换人物动作。
奥特曼坐镇直播发布
昨晚,OpenAI紧急宣布将进行一场小规模直播发布活动。这次,奥特曼也现身了(前情:GPT-4.5发布时他因带娃未能出席)。在直播中,官方展示了多种玩法,包括制作梗图、文本渲染、多轮交互生成和指令遵循等。现场还演示了一张自拍如何快速转换为动漫风格,并顺带制作了一张官方玩梗meme图,要求在图片中添加“feel the agi”,生成时甚至自动将小写换成了更符合语境的大写。
实测生成速度与限制
现在,用户只需打开ChatGPT即可尝试这些新功能。实测显示,生成速度非常快(大约十几秒一张),但普通用户每天仅有3次体验机会。API预计将在未来几周内逐步推出。这波主打一个美观又实用,真正迈向了集成的多模态模型。
能力升级的具体表现
按照官方介绍,作为多模态模型的GPT-4o补齐了图片生成这一重要拼图,同时注重美观与实用性。具体来说,4o现在能精确融合符号和图片,支持在多轮对话中逐步调整图片和风格。例如,提供一张猫猫原图后,可以一步步创建一个游戏角色。此外,4o在处理细节方面表现出色,能够处理多达10-20个不同的物体,而其他模型一般在处理5-8个物体时就会遇到困难。在生成真实图像方面,4o同样表现出色,甚至可以实现现实版“照猫画虎”。
网友实测效果
网友们在看到官方宣传效果后,纷纷进行了实测。经典梗图的复现效果毫无违和感,甚至连同款书写图也能轻松复现。
行业竞争加剧
值得一提的是,最近两天DeepSeek、OpenAI和谷歌几乎同台竞技。昨晚11点(北京时间),OpenAI突然宣布将有小发布,而DeepSeek刚刚发布了DeepSeek-v3-0324的官方技术报告。这一系列动态不禁让人猜测,是否是DeepSeek的发布促使OpenAI加速推出了新功能?
