GPT-4o图像生成免费发布，奥特曼坐镇多模态模型，OpenAI指令遵循与文本控制表现惊艳

GPT-4o 图像生成能力现已全面开放，免费用户也可第一时间体验！从即日起，这项功能将在ChatGPT和Sora中向所有Plus、Pro、Team以及免费用户推出。这一消息迅速引发了广泛关注，各种实测结果层出不穷。

文本处理能力惊艳
最令人惊艳的是GPT-4o对文本的处理能力。例如，它可以100%还原文字，并且能够指定文字的摆放位置。通过对比两张图片可以发现，第一张图中的男人倒影与第二张图完全对应，展现了其强大的细节把控能力。此外，它还能像连续剧一样，在准确生成文字的同时变换人物动作。

奥特曼坐镇直播发布
昨晚，OpenAI紧急宣布将进行一场小规模直播发布活动。这次，奥特曼也现身了（前情：GPT-4.5发布时他因带娃未能出席）。在直播中，官方展示了多种玩法，包括制作梗图、文本渲染、多轮交互生成和指令遵循等。现场还演示了一张自拍如何快速转换为动漫风格，并顺带制作了一张官方玩梗meme图，要求在图片中添加“feel the agi”，生成时甚至自动将小写换成了更符合语境的大写。

实测生成速度与限制
现在，用户只需打开ChatGPT即可尝试这些新功能。实测显示，生成速度非常快（大约十几秒一张），但普通用户每天仅有3次体验机会。API预计将在未来几周内逐步推出。这波主打一个美观又实用，真正迈向了集成的多模态模型。

能力升级的具体表现
按照官方介绍，作为多模态模型的GPT-4o补齐了图片生成这一重要拼图，同时注重美观与实用性。具体来说，4o现在能精确融合符号和图片，支持在多轮对话中逐步调整图片和风格。例如，提供一张猫猫原图后，可以一步步创建一个游戏角色。此外，4o在处理细节方面表现出色，能够处理多达10-20个不同的物体，而其他模型一般在处理5-8个物体时就会遇到困难。在生成真实图像方面，4o同样表现出色，甚至可以实现现实版“照猫画虎”。

网友实测效果
网友们在看到官方宣传效果后，纷纷进行了实测。经典梗图的复现效果毫无违和感，甚至连同款书写图也能轻松复现。

行业竞争加剧
值得一提的是，最近两天DeepSeek、OpenAI和谷歌几乎同台竞技。昨晚11点（北京时间），OpenAI突然宣布将有小发布，而DeepSeek刚刚发布了DeepSeek-v3-0324的官方技术报告。这一系列动态不禁让人猜测，是否是DeepSeek的发布促使OpenAI加速推出了新功能？

本文来源：