Ryan Greenblatt的GPT-4o打破通用人工智能ARC-AGI基准,实现71%新高,证明LLMs学习能力里程碑式突破!

【新智元报道】近日,AI领域传来重大突破,GPT-4o模型在ARC-AGI基准测试中取得了前所未有的成绩,打破了之前无人能及的纪录。ARC-AGI,作为评估通用人工智能的重要标准,由François Chollet设计,被认为很难被轻易超越。然而,GPT-4o在公共测试集上的准确率达到了50%,在训练集的保留子集上更是高达71%,一举成为新的SOTA!

这个基准测试自2020年起在Kaggle平台上举办,当年的冠军团队icecuber在测试集上的成功率仅为21%,证明了ARC-AGI的挑战性。然而,GPT-4o的表现打破了这一局面,标志着通用AI的进步迈出了重要一步。此外,今年的ARC奖设立了超过110万美元的奖金,吸引了众多研究人员的关注。

Ryan Greenblatt利用LLMs,尤其是GPT-4o,对ARC-AGI发起挑战,虽然他的解决方案由于使用了闭源模型而不符合ARC奖项的资格,但其在训练集上的71%准确率仍展现出强大的性能。Ryan的方法是让GPT-4o生成大量Python程序并进行选择,通过多次提示和实例引导GPT-4o理解并实现转换逻辑。

尽管如此,GPT-4o在处理复杂视觉问题和编码方面仍有局限性,如视力不佳、编码错误等。Ryan预测,通过优化和规模化的努力,未来的模型如GPT-5有望大幅提升在ARC-AGI上的表现。

1. GPT-4o在ARC-AGI基准测试中取得新高,50%公共测试集准确率,71%训练集准确率。
2. ARC-AGI作为通用人工智能衡量标准,由François Chollet创立,曾被认为是难以攻克的挑战。
3. Ryan Greenblatt使用GPT-4o尝试解决ARC-AGI,虽未达到奖项资格,但展示了LLMs的进步。
4. GPT-4o在处理网格和编码问题上存在弱点,可通过优化和规模化提升性能。
5. 预测未来多模态大模型如GPT-5将显著提升在ARC-AGI上的表现。

本文来源: 新智元公众号【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...