Optimus Alpha与Quasar Alpha:探索大模型编程能力,揭秘GPT-4.1上线3天被玩疯的OpenAI神秘痕迹

整理后的

#(由多段落组成)

最近,一款神秘的大语言模型在上线仅三天的时间内就引发了广泛关注。这款名为Optimus Alpha的模型由大模型聚合平台OpenRouter推出,其强大的性能令人印象深刻。据数据显示,Optimus Alpha已经处理了772亿个Token,平均每天超过200亿。目前,它的日Token处理量已突破340亿,在所有模型中排名第二,并稳居Trending榜单首位。

网友们纷纷对Optimus Alpha进行了测试。有人用它挑战了MC-Bench生成《我的世界》风格场景的任务,结果发现其表现远超4o-mini。此外,还有人对其编程能力进行了系统评估,结果显示Optimus Alpha在Ruby语言上的表现尤为突出,堪称当前最佳。

不少用户对Optimus Alpha的表现给予了高度评价,甚至有人直接称其为“SOTA”(State of the Art)。然而,关于这款模型的真实身份,人们却众说纷纭。有观点认为,Optimus Alpha可能与OpenAI存在某种联系。

百万上下文窗口:高效且实用

Optimus Alpha支持高达百万的上下文窗口,并可输出最多32K的。其响应速度极快,首个Token延迟中位数仅为0.81秒,输出速度中位数达到每秒24.8个Token。该模型主要面向现实世界的任务设计,尤其在编程领域表现出色。

例如,一位博主让Optimus Alpha设计了一个带有购物车功能的电商网站。结果表明,Optimus Alpha不仅设计出了合理的UI界面,还成功实现了许多其他AI难以完成的功能,如购物车的正常运行和跨文件操作的稳定性。

此外,Optimus Alpha还能编写贪吃蛇游戏,不仅逻辑清晰,还加入了蛇头部颜色变化和蛇身渐变等创新设计。更有甚者,有人利用它开发了一款OCR文字识别应用,能够支持手写文字的识别。

成绩亮眼:超越多个知名模型

从数据上看,Optimus Alpha的Elo分数为1338,仅次于Claude 3.7 Sonnet,领先于DeepSeek-R1和Quasar Alpha。特别是在SQL数据库查询任务中,Optimus Alpha的表现尤为突出,取得了最高的平均成绩。

Aider榜单显示,Optimus Alpha的编程能力与Quasar Alpha、Grok 3和o3-mini相当,甚至略胜GPT-4.5-preview一筹。而在创意写作方面,它的Elo分数排名第四,仅次于DeepSeek-V3。

身份揭秘:是否来自OpenAI?

为了揭开Optimus Alpha的神秘面纱,一些网友尝试直接向模型提问。当被问及身份时,Optimus Alpha自称是ChatGPT,并表示基于GPT-4,知识截止时间为2024年6月。

同时,由于Optimus这个名字让人联想到特斯拉的擎天柱机器人,部分人猜测该模型可能与马斯克有关。不过,也有反对者认为这是奥特曼的一种障眼法。

更有力的证据来自于Quasar Alpha。这款模型曾因拒绝违规操作的方式与OpenAI相似而引发关注。此外,Quasar Alpha在执行中译英任务时出现了GPT-4o特有的“已读乱回”现象,这一bug似乎是OpenAI独有的。

AI研究员Sam Paech通过信息学方法分析了Quasar Alpha与OpenAI模型的关系,发现两者极为相似,尤其是与GPT-4.5-preview的高度一致性。随后,Paech将Optimus Alpha纳入最新的谱系图,结果显示其与ChatGPT-4o(2023年3月27日更新)最为接近。

结合时间线来看,Quasar Alpha下架的次日正是Optimus Alpha上线之时,因此有人推测Optimus Alpha可能是Quasar Alpha的升级版。

综合以上信息,Optimus Alpha很可能出自OpenAI之手。但具体细节仍有待进一步验证。

本文来源: 快科技【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...