标签：SWE-Bench

AI程序员巅峰：Genie GPT-4o 加持下，从需求到实现仅84秒 – SWE-Bench自动编码效能展示

随着人工智能领域的飞速发展，Cosine——一家由Y Combinator支持的初创公司，近期推出了其最新力作Genie，一款革命性的自主AI工程师。Genie不仅在SWE-Bench基准测试中取得了30%的优异成绩，超越了先前由Devin创造的13.8%的记录，还一举超越了亚马逊的Q和Factory的Code Droid的19%得分，成为了全球性能最佳的AI程序员。创新突破：Genie的诞生 Genie是一款基于先进的AI技术打造的软件工程模型，它能够根据人类工程师的指示自主处理各种编码任务，如bug修复、功能构建、代码重构和测试等。该模型不仅可以独立运行，还能与用户...

来源：

机器之心【阅读原文】
Tags：AI程序员 Cosine Genie SWE-Bench 自动编码

8个月前

全球顶尖AI程序员登场：Genie结合SWE-Bench与自我改进机制，创新编程语言领域!

在今年三月份，AI初创企业Cognition推出了其首款AI程序员——Devin，这一创新技术以其媲美人类的编程能力而引起了业界广泛关注。Devin能够在无需人工介入的情况下，独立完成部署、调试和优化代码等编程工作。不过，最近Cosine公司发布的Genie更是以惊人表现超越了Devin，成为了新一代的AI编程领导者。全球最强AI程序员诞生 Cosine公司推出的Genie，在权威测试平台SWE-Bench上取得了高达30.08%的评分，远远超过了Devin的13.8%和Swe-agent+GPT-4组合的12.47%，确立了其在全球AI编程领域的领先地位。实际上，Genie的研发并非...

来源：

AIGC开放社区公众号【阅读原文】
Tags：AI程序员 Genie SWE-Bench 编程语言自我改进机制

8个月前

GPT4单项仅7.1分，揭露大模型写代码三大短板，最新基准测试来了

随着AI技术的飞速进步，一款名为Devin的AI软件工程师横空出世，它在软件开发全周期中展现出卓越的能力，引发业界热议。在SWE-Bench基准测试中，Devin解决问题的能力远超GPT-4，展示了其在GitHub问题解决上的强大实力。然而，上海人工智能实验室、字节跳动SE Lab和SWE-Bench团队共同推出了新的测试基准DevBench，以揭示大模型在软件开发中的局限性。DevBench评估了从产品需求文档到项目开发各阶段，包括软件设计、环境设置、代码实现、集成测试和单元测试。实验表明，大模型在面向对象编程、复杂脚本编写和参数匹配等方面仍有...

来源：

量子位【阅读原文】
Tags：AI软件工程师 DevBench Devin SWE-Bench 大语言模型

1年前 (2024)