(由多段落组成)
在 DeepSeek V3 进行“小版本更新”后,阿里通义千问团队也开源了新模型。与此同时,OpenAI 在深夜悄然发布了 GPT-4o 原生图像生成功能,这一消息让全球技术爱好者惊叹不已。更令人惊喜的是,即使是免费用户也能体验到这一强大功能。
GPT-4o 的核心优势在于其能够精准呈现文字,并严格遵循用户的指令要求。通过调用内置知识库和对话上下文,它不仅能够处理上传的图像,还能将其作为视觉灵感来源。这种特性让用户可以轻松创造出与构想完全一致的图像,从而实现更高效的视觉表达。
2024 年 5 月,OpenAI 推出了首个全能多模态模型 GPT-4o。与之前的生成式 AI 图像模型(如 OpenAI 的 DALL-E 3)不同,GPT-4o 将最先进的图像生成器集成到了同一模型中。通过统一训练,该模型能够同时理解文本、代码和图像等多种形式的数据。
GPT-4o 的图像生成能力具有以下显著特点:它可以准确渲染文本,并将符号与视觉元素完美融合。此外,GPT-4o 能够细致入微地遵循详细的提示,注重细节。即使在处理多达 10 到 20 个不同的对象时,它的表现依然出色。
然而,GPT-4o 也存在一些局限性。例如,在裁剪较长的图像时可能会出现问题,尤其是在靠近底部的部分。此外,模型在绘制涉及数据的图表时可能不够准确,且在处理非拉丁语言时也可能遇到困难。尽管如此,OpenAI 表示将持续改进这些限制。
安全性方面,OpenAI 强调了他们在模型安全方面的努力。所有生成的图像都将带有 C2PA 元数据,以确保透明性。此外,他们还构建了一个内部搜索工具,利用生成结果的技术属性来验证某个是否出自他们的模型。
从今天开始,GPT-4o 的图像生成功能将向 Plus、Pro、Team 和免费用户推出,作为 ChatGPT 中的默认图像生成器。企业版和教育版用户还需等待一段时间。API 用户则将在未来几周内获得访问权限。
本文来源: