GPT-4o图像生成免费发布,奥特曼坐镇多模态模型,OpenAI指令遵循与文本控制表现惊艳

GPT-4o图像生成能力现已全面开放,免费用户也可第一时间体验!从即日起,这项功能将在ChatGPT和Sora中向所有Plus、Pro、Team以及免费用户推出。这一消息迅速引发了广泛关注,各种实测结果层出不穷。

文本处理能力惊艳
最令人惊艳的是GPT-4o对文本的处理能力。例如,它可以100%还原文字,并且能够指定文字的摆放位置。通过对比两张图片可以发现,第一张图中的男人倒影与第二张图完全对应,展现了其强大的细节把控能力。此外,它还能像连续剧一样,在准确生成文字的同时变换人物动作。

奥特曼坐镇直播发布
昨晚,OpenAI紧急宣布将进行一场小规模直播发布活动。这次,奥特曼也现身了(前情:GPT-4.5发布时他因带娃未能出席)。在直播中,官方展示了多种玩法,包括制作梗图、文本渲染、多轮交互生成和指令遵循等。现场还演示了一张自拍如何快速转换为动漫风格,并顺带制作了一张官方玩梗meme图,要求在图片中添加“feel the agi”,生成时甚至自动将小写换成了更符合语境的大写。

实测生成速度与限制
现在,用户只需打开ChatGPT即可尝试这些新功能。实测显示,生成速度非常快(大约十几秒一张),但普通用户每天仅有3次体验机会。API预计将在未来几周内逐步推出。这波主打一个美观又实用,真正迈向了集成的多模态模型

能力升级的具体表现
按照官方介绍,作为多模态模型的GPT-4o补齐了图片生成这一重要拼图,同时注重美观与实用性。具体来说,4o现在能精确融合符号和图片,支持在多轮对话中逐步调整图片和风格。例如,提供一张猫猫原图后,可以一步步创建一个游戏角色。此外,4o在处理细节方面表现出色,能够处理多达10-20个不同的物体,而其他模型一般在处理5-8个物体时就会遇到困难。在生成真实图像方面,4o同样表现出色,甚至可以实现现实版“照猫画虎”。

网友实测效果
网友们在看到官方宣传效果后,纷纷进行了实测。经典梗图的复现效果毫无违和感,甚至连同款书写图也能轻松复现。

行业竞争加剧
值得一提的是,最近两天DeepSeek、OpenAI和谷歌几乎同台竞技。昨晚11点(北京时间),OpenAI突然宣布将有小发布,而DeepSeek刚刚发布了DeepSeek-v3-0324的官方技术报告。这一系列动态不禁让人猜测,是否是DeepSeek的发布促使OpenAI加速推出了新功能?

本文来源: 量子位【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...