AI Scientist首发科学论文进军ICLR,Transformer助力Sakana AI实现全程零人工干预得分6/7/6

第一段
令人惊叹的是,一篇完全由人工智能生成的学术论文成功通过了ICLR研讨会的评审!这篇论文获得了6/7/6的高分,甚至超过了人类作者的平均接收门槛。整篇论文结构完整,包括图表和论据,看起来非常专业。这篇论文是由AI Scientist 2.0版本完成的,背后的支持公司是Sakana AI,其创始人之一Llion Jones也是Transformer论文的作者之一。

第二段
新版本的AI Scientist 2.0是一个通用端到端代理系统,与之前的版本相比,它不再依赖人工模板,能够自主提出假设、运行实验、分析数据并撰写科学论文。此外,它的图表理解能力也得到了显著提升。在机器学习领域,该系统具有更强的泛化能力,并采用了由实验管理代理引导的渐进式代理树搜索(AgenticTreeSearch)技术。甚至连它的GitHub开源代码库都是由大型模型编写的。

第三段
这篇完全由AI生成的论文标题为《组合正则化:增强神经网络泛化的意外障碍》。论文中提出了一种旨在增强神经网络组成泛化的组合正则化方法,并进行了大量实验以评估其影响。同时,论文还分析了算子复杂性对模型性能的影响,并讨论了为何组合正则化未能产生预期效益的潜在原因。当时,ICLR研讨会同意接收三篇AI生成的论文进行同行评审。评审人员被告知他们正在评审的论文可能是AI生成的(43篇论文中有3篇),但并不知道具体哪篇是由AI撰写的。

第四段
Sakana AI准备的论文完全由AI端到端生成,没有经过任何人类修改。AI Scientist-v2提出了科学假设,设计了测试假设的实验,编写和完善了实验代码,运行实验,分析数据,将数据可视化为图表,并撰写了整个科学手稿的每一个字,从标题到最终参考文献,包括放置图表和所有格式。在整个过程中,人类仅提供了一个广泛的研究主题,最终挑选出了三篇排名前三的论文(考虑到多样性和质量)提交给研讨会。

第五段
最终,在提交的三篇论文中,有两篇未达到接受标准。其中一篇论文的平均得分为6.33(分别是6/6/7),在所有提交的论文中排名约45%,高于人类平均接受门槛。然而,为了透明起见,这篇论文在同行评审之后被撤回,也不会在OpenReview公共论坛上发布。尽管如此,论文可以在GitHub存储库中找到。除此之外,研究团队发现AI Scientist偶尔会犯一些引用错误,例如将“基于LSTM的神经网络”错误地归因于Goodfellow (2016),而不是正确的作者Hochreiter和Schmidhuber (1997)。

第六段
为了提高实验结果的科学准确性、可重复性和统计严谨性,研究团队鼓励AI Scientist重复每个实验(已选入论文)数次。去年8月,首个AI Scientist问世,独立完成了10篇论文。现在的2.0版本已经可以通过顶级会议的同行评审。值得注意的是,官方GitHub页面特别注明了两个版本的区别:AI Scientist-v2并不一定能写出比v1更好的论文,尤其是在有强大起始模板可用的情况下。v1遵循定义明确的模板,成功率较高,而v2采用更广泛、更具探索性的方法,成功率较低。v1最适合具有明确目标和坚实基础的任务,而v2专为开放式科学探索而设计。

第七段
AI Scientist-v2通过将树搜索与LLM工作流相结合,该工作流程由多个阶段组成,包括自动创意生成、实验执行、图表可视化、手稿撰写和审稿。它采用代理树搜索(由实验进度管理器管理,跨越多个阶段)来生成和完善代码实现。随后的实验利用树搜索中表现最好的代码检查点(节点),对各种研究假设进行迭代测试。

第八段
Sakana AI是Transformer作者之一Llion Jones的创业公司。他本硕毕业于伯明翰大学,在Delcam、YouTube和谷歌都工作过,谷歌是他待得最久的一家公司。据FourWeekMBA介绍称,在他之前的工作经历中,“曾两度与谷歌的工作擦肩而过”。第一次是他刚毕业找工作时,虽然通过了谷歌伦敦软件工程师岗位的两轮电话面试,但最终选择了位于英国的CAD/CAM软件公司Delcam。第二次是在工作18个月后,他又接到了谷歌的招聘电话,询问他是否想重新申请,但他依旧没去谷歌,而是随后加入了YouTube。在YouTube做三年软件工程师期间,他对人工智能产生兴趣,自学了Coursera的机器学习课程,并终于在2015年加入谷歌研究院,担任高级软件工程师。也正是在此期间,他与其他七名作者一起发表了那篇著名的Transformer论文Attention Is All You Need。

第九段
此次作为AI Scientist的延续,项目依旧由Sakana AI、UBC和牛津合作完成。合著者包括UBC的Cong Lu和Jeff Clune以及牛津大学的Chris Lu和Jakob Foerster,两位华人及其导师参与。Cong Lu是UBC博士后研究员,主要研究方向是开放式强化学习和AI科学发现。Chris Lu是博士毕业生,目前的重要研究方向是将进化启发的技术应用于元学习和多智能体强化学习。

第十段
虽然这次AI科学家已经可以生产出顶会级别的论文了,但这并不是他们的最终目的。研究团队认为最重要的不是人工智能科学与人类科学的比较,而是它的发现是否有助于人类繁荣,例如治愈疾病或扩展我们对宇宙规律的认识。你觉得这个时刻什么时候会到来呢?

本文来源: 量子位【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...