AI程序员巅峰:Genie GPT-4o 加持下,从需求到实现仅84秒 – SWE-Bench自动编码效能展示

随着人工智能领域的飞速发展,Cosine——一家由Y Combinator支持的初创公司,近期推出了其最新力作Genie,一款革命性的自主AI工程师。Genie不仅在SWE-Bench基准测试中取得了30%的优异成绩,超越了先前由Devin创造的13.8%的记录,还一举超越了亚马逊的Q和Factory的Code Droid的19%得分,成为了全球性能最佳的AI程序员

创新突破:Genie的诞生

Genie是一款基于先进的AI技术打造的软件工程模型,它能够根据人类工程师的指示自主处理各种编码任务,如bug修复、功能构建、代码重构和测试等。该模型不仅可以独立运行,还能与用户协同作业。Genie支持多种编程语言,包括但不限于JavaScript、Python、TypeScript等。Genie的设计理念在于模拟人类工程师的认知过程,让AI以类似的方式思考和行动。

安全至上:保护用户权益

考虑到安全问题,Cosine采取了一系列措施确保用户数据的安全。Genie生成的代码将被存储在用户的GitHub仓库中,这意味着Cosine不会保留任何代码副本,有效避免了潜在的安全风险。此外,Cosine的软件平台已与Slack及系统通知集成,使得Genie能够像一位真正的AI同事那样提醒用户进度或标记问题。

实战演示:高效解决问题

Cosine的联合创始人兼CEO Alistair Pullen展示了Genie如何高效地解决实际问题。通过直接向Genie提交GitHub上的issue链接,Genie能够自动分析问题、规划解决方案,并最终生成代码。即便遇到问题,Genie也能自动定位错误并进行修正,整个过程快速且高效。例如,解决一个包含两个文件、涉及17次测试的任务仅需84秒。

技术核心:长上下文支持

不同于大多数依赖基础模型的AI模型,Genie采用了专有的开发流程。它基于GPT-4o变体构建,通过大量的数据集训练,克服了上下文窗口长度的限制。Cosine团队花费近一年时间整理数据集,确保Genie能够在数十亿个token的数据上进行训练,涵盖了当前最流行的编程语言。

商业模式:定制化服务

Genie的定价分为两个层级:入门级选项定价约为20美元左右,适合个人和小型团队使用;企业级选项则提供更高级的功能和服务,定价更高。无论哪种选择,Genie都能显著提升软件开发团队的生产力,帮助他们专注于更具战略意义的工作。

本文来源: 机器之心【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...