GPT-4o结合吉卜力风格:画笔编辑实现一键抠图换背景,模型融合展现初步推理能力

这几天,如果你问 AI 领域最热门的模型是哪个?毫无疑问,OpenAI 的 GPT-4o 稳居榜首。吉卜力风格的图像和视频在社交媒体上迅速走红,各种创意玩法层出不穷。之心团队通过结合 GPT-4o 和可灵技术,成功打造了吉卜力风格的《甄嬛传》版本,全网播放量突破 20w。除了部分口型和神情尚有差距外,人物形象几乎达到了高度还原。此外,X 平台上的用户还利用 GPT-4o 和 Luma Ray 2 将《疯狂的麦克斯》动画化,效果令人惊艳。

与此同时,一个隐藏功能也被网友挖掘出来——画笔编辑工具。虽然 OpenAI 在官方发布中并未提及这一功能,但它却极具实用性。只需简单涂抹,你就能成为“造物主”,随心所欲地修改图片。我们亲测发现,这项功能的效果非常出色!例如,将同事的照片转换为吉卜力风格后,点击生成的图片右上方的画笔按钮即可进入编辑界面。接着涂抹需要调整的部分,并输入相关提示词(如“移除外套只保留里面的短袖”),系统便会快速生成一张符合要求的新图。尽管原图与新图之间存在一些细微差异,但整体细节得到了良好保留,GPT-4o 显然能够准确理解指令。不仅如此,该功能还支持背景替换,例如将场景改为小溪或为人物添加海盗帽等,操作简单且效果显著。

然而,对于较为复杂的转换任务,目前的效果仍有提升空间。例如,在尝试弥补《大话西游》中至尊宝和紫霞仙子遗憾结局时,虽然角色细节和风格得以保持,但猴子头部被金箍勒爆、身体未完全融入云雾等问题依然存在。

更令人兴奋的是,GPT-4o 还带来了一个重要发现:它现在可以显示推理时间及思维链过程。这让人不禁猜测,OpenAI 是否正在尝试整合推理与非推理模型?正如奥特曼上月提到的计划,OpenAI 希望统一 o 系列与 GPT 系列模型,构建能够自主判断任务需求的智能系统,从而避免每次手动选择模型的麻烦。有用户分享了一张 2024 年底的截图,似乎表明 OpenAI 的测试已持续至少半年以上。从截图来看,不同模型(如 o1、o3 和 4o)的推理表现正逐渐发生变化,非推理模型中也开始出现推理能力

对此,多位用户展开了热烈讨论。一位用户表示当前的推理表现比去年更加完善,而另一位则指出这可能是 OpenAI 输出“推理”过程方式的变化所致。无论如何,越来越多的人开始注意到 GPT-4o 的推理现象。尽管有人怀疑这是个 bug,但也有人认为这可能是一个有趣的意外。正如某位网友所说,或许我们正在实时见证 GPT-5 的诞生,模型版本之间的界限正变得模糊并逐步融合。

本文来源: 机器之心【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...