GPT-4o原生图像生成功能上线，OpenAI多模态模型引领AI技术革新，轻松实现P图与生图新体验

（由多段落组成）

在 DeepSeek V3 进行“小版本更新”后，阿里通义千问团队也开源了新模型。与此同时，OpenAI 在深夜悄然发布了 GPT-4o 原生图像生成功能，这一消息让全球技术爱好者惊叹不已。更令人惊喜的是，即使是免费用户也能体验到这一强大功能。

GPT-4o 的核心优势在于其能够精准呈现文字，并严格遵循用户的指令要求。通过调用内置知识库和对话上下文，它不仅能够处理上传的图像，还能将其作为视觉灵感来源。这种特性让用户可以轻松创造出与构想完全一致的图像，从而实现更高效的视觉表达。

2024 年 5 月，OpenAI 推出了首个全能多模态模型 GPT-4o。与之前的生成式 AI 图像模型（如 OpenAI 的 DALL-E 3）不同，GPT-4o 将最先进的图像生成器集成到了同一模型中。通过统一训练，该模型能够同时理解文本、代码和图像等多种形式的数据。

GPT-4o 的图像生成能力具有以下显著特点：它可以准确渲染文本，并将符号与视觉元素完美融合。此外，GPT-4o 能够细致入微地遵循详细的提示，注重细节。即使在处理多达 10 到 20 个不同的对象时，它的表现依然出色。

然而，GPT-4o 也存在一些局限性。例如，在裁剪较长的图像时可能会出现问题，尤其是在靠近底部的部分。此外，模型在绘制涉及数据的图表时可能不够准确，且在处理非拉丁语言时也可能遇到困难。尽管如此，OpenAI 表示将持续改进这些限制。

安全性方面，OpenAI 强调了他们在模型安全方面的努力。所有生成的图像都将带有 C2PA 元数据，以确保透明性。此外，他们还构建了一个内部搜索工具，利用生成结果的技术属性来验证某个是否出自他们的模型。

从今天开始，GPT-4o 的图像生成功能将向 Plus、Pro、Team 和免费用户推出，作为 ChatGPT 中的默认图像生成器。企业版和教育版用户还需等待一段时间。API 用户则将在未来几周内获得访问权限。

本文来源：

机器之心【阅读原文】

文章版权归作者所有，未经允许请勿转载。

140

384

133

504

275

449

暂无评论

您必须登录才能参与评论！

暂无评论...