GPT4单项仅7.1分，揭露大模型写代码三大短板，最新基准测试来了

每日AI快讯1年前 (2024)发布 AI部落小助手

随着AI技术的飞速进步，一款名为Devin的AI软件工程师横空出世，它在软件开发全周期中展现出卓越的能力，引发业界热议。在SWE-Bench基准测试中，Devin解决问题的能力远超GPT-4，展示了其在GitHub问题解决上的强大实力。然而，上海人工智能实验室、字节跳动SE Lab和SWE-Bench团队共同推出了新的测试基准DevBench，以揭示大模型在软件开发中的局限性。DevBench评估了从产品需求文档到项目开发各阶段，包括软件设计、环境设置、代码实现、集成测试和单元测试。实验表明，大模型在面向对象编程、复杂脚本编写和参数匹配等方面仍有不足，离完全独立完成软件项目尚有距离。DevBench是一个全面评估大语言模型能力的平台，包含一系列模拟软件开发任务，旨在推动AI在软件工程领域的进步。目前，DevBench已开源，且加入了OpenCompass大模型评测体系，以促进模型能力的持续优化。

本文来源：