Llama 4开源模型在Chatbot Arena中的表现引发DeepSeek关注——Meta遭遇惊魂72小时背后的故事

开源大模型 Llama 4 的发布引发了广泛讨论和争议。自4月5日Meta正式推出Llama 4以来，这款新模型迅速登上Chatbot Arena排行榜第二位，仅次于Google的Gemini 2.5 Pro。然而，这一排名很快引起了社区的质疑，因为被测试的版本并非Meta官方开源的正式版，而是一个未公开、定制化调优的实验模型。对此，Chatbot Arena官方发布声明，表示将公开2000多场真人对比测试的完整数据，并点名Meta，强调其应明确说明该模型为优化人类偏好的定制化版本。

Chatbot Arena由加州大学伯克利分校发起，是当前最具行业影响力的大模型评测平台之一。其核心机制是通过真人盲测的方式，让开发者和AI爱好者对不同模型的表现进行评分。这种机制使得Chatbot Arena成为最受信赖的大模型排行榜之一，直接影响了模型在媒体和开发者群体中的口碑与采纳率。

然而，Llama 4的实际表现却远未达到预期。在多个专业基准测试中，Llama 4的表现不尽如人意，甚至垫底。例如，在Aider Chat提供的Polyglot编程测试中，Maverick版本的正确率仅为16%，落后于规模更小的开源模型。许多用户在Reddit、X等社交平台上表达了失望，认为Llama 4在编程能力上存在明显不足。

面对质疑，Meta团队进行了澄清。一位参与“后训练”的成员Licheng Yu实名表示，Meta从未使用测试集进行过针对性优化，并承诺将在下一版本中改进缺陷。此外，Meta GenAI副总裁Ahmad Al-Dahle也在X平台上明确否认了在测试集上训练Llama 4的说法。

尽管如此，Llama 4的真实能力仍然受到广泛质疑。作为开源阵营的领头羊，Llama系列曾凭借Llama 2和Llama 3逐步建立起“领先、可靠”的市场认知。然而，随着DeepSeek V3/R1等新兴开源模型的崛起，Llama 4面临着前所未有的竞争压力。Meta可能因急于赶上内部设定的时间节点，未能充分测试和优化Llama 4，导致其性能不稳定。

此次事件反映了开源大模型领域竞争的加剧。为了应对DeepSeek、Qwen、Gamma等其他大模型的崛起，Meta需要重新审视自身的策略，努力恢复用户对其品牌的信任。

本文来源：