全球顶尖AI程序员登场:Genie结合SWE-Bench与自我改进机制,创新编程语言领域!

在今年三月份,AI初创企业Cognition推出了其首款AI程序员——Devin,这一创新技术以其媲美人类的编程能力而引起了业界广泛关注。Devin能够在无需人工介入的情况下,独立完成部署、调试和优化代码等编程工作。不过,最近Cosine公司发布的Genie更是以惊人表现超越了Devin,成为了新一代的AI编程领导者。

全球最强AI程序员诞生

Cosine公司推出的Genie,在权威测试平台SWE-Bench上取得了高达30.08%的评分,远远超过了Devin的13.8%和Swe-agent+GPT-4组合的12.47%,确立了其在全球AI编程领域的领先地位。实际上,Genie的研发并非一蹴而就,早在2022年底,其联合创始人Alistair Pullen就已经在一次路演中展示了Genie的概念和技术路线图。

独特训练方法成就卓越性能

Genie之所以能够大幅领先于Devin、GPT-4等竞争对手,关键在于其独特的训练方法。不同于传统的大模型微调方式,Genie采用了包含人类程序员推理过程的特殊数据集进行训练。这套数据集不仅记录了信息的传递、知识的积累,还包括了基于实际案例的决策制定流程,从而赋予了Genie类似人类工程师的解决问题的能力。

为了进一步提升Genie的表现,开发团队还引入了一套“自我改进机制”。在初始训练完成后,通过生成合成数据并将其融入后续训练中,旨在模拟真实世界中的错误和复杂情况。当Genie提出不正确的解决方案时,会根据训练数据集中提供的正确答案来指导其从错误走向正确,类似于父母引导孩子学习的过程。这一机制显著增强了Genie应对未知挑战的能力。

强大功能支持多种编程需求

Genie具备广泛的功能,包括但不限于功能开发、BUG修复、代码重构、代码小改动及杂项、代码测试和文档编写等。它支持JavaScript、Python、Java等多种主流编程语言,几乎覆盖了所有开发者的日常需求。

知名开发者Mckay表达了对Genie的兴趣,并计划亲自测试这一产品。目前,Genie正处于申请测试阶段,Cosine公司表示将在未来几周内发放测试权限,并承诺在正式发布时还将加入更多令人期待的功能。感兴趣的开发者可以通过[https://cosine.sh/register](https://cosine.sh/register)申请试用资格。

本文来源: AIGC开放社区公众号【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...